关键点: 这个测试会让GPU"吃饱",充分利用显卡算力,最能反映显卡的计算性能差异。
bash展开代码# 测试1: 小batch吞吐量 (基础性能)
vllm bench throughput \
--model /mnt/jfs6/model/Qwen2.5-3B-Instruct \
--input-len 512 --output-len 128 \
--num-prompts 100
# 测试2: 延迟测试 (用户体验)
vllm bench latency \
--model /mnt/jfs6/model/Qwen2.5-3B-Instruct \
--input-len 512 --output-len 128
A800
bash展开代码吞吐量测试结果: Throughput: 33.68 requests/s, 22669.54 total tokens/s, 4311.40 output tokens/s Total num prompt tokens: 54503 Total num output tokens: 12800 延迟测试结果: Avg latency: 0.9715764995043477 seconds 10% percentile latency: 0.9598650230094791 seconds 25% percentile latency: 0.9622764931991696 seconds 50% percentile latency: 0.9673176119104028 seconds 75% percentile latency: 0.9742167480289936 seconds 90% percentile latency: 0.9866135817021131 seconds 99% percentile latency: 1.0165810825303196 seconds
H800
bash展开代码吞吐量测试结果: Throughput: 63.28 requests/s, 42856.43 total tokens/s, 8100.21 output tokens/s Total num prompt tokens: 54922 Total num output tokens: 12800 延迟测试结果: Avg latency: 0.6738921073575814 seconds 10% percentile latency: 0.6700679726898671 seconds 25% percentile latency: 0.6712944628670812 seconds 50% percentile latency: 0.6733551379293203 seconds 75% percentile latency: 0.6754394164308906 seconds 90% percentile latency: 0.6770323395729065 seconds 99% percentile latency: 0.6854861832782626 seconds
吞吐量对比
指标 | A800 | H800 | H800提升倍数 |
---|---|---|---|
请求吞吐量 | 33.68 req/s | 63.28 req/s | 1.88倍 |
总token吞吐量 | 22,669 tokens/s | 42,856 tokens/s | 1.89倍 |
输出token吞吐量 | 4,311 tokens/s | 8,100 tokens/s | 1.88倍 |
延迟对比
指标 | A800 | H800 | H800优势 |
---|---|---|---|
平均延迟 | 0.972秒 | 0.674秒 | 快30.7% (1.44倍) |
中位数延迟 | 0.967秒 | 0.673秒 | 快30.4% |
P99延迟 | 1.017秒 | 0.685秒 | 快32.6% |
bash展开代码# 测试2
vllm bench throughput \
--model /mnt/jfs6/model/Qwen2.5-3B-Instruct \
--input-len 2048 --output-len 2048 \
--num-prompts 1000
A800:
bash展开代码吞吐量测试结果: Throughput: 2.56 requests/s, 10806.00 total tokens/s, 5247.67 output tokens/s Total num prompt tokens: 2169242 Total num output tokens: 2048000
H800:
bash展开代码吞吐量测试结果: Throughput: 5.73 requests/s, 24143.95 total tokens/s, 11725.55 output tokens/s Total num prompt tokens: 2169015 Total num output tokens: 2048000
性能对比表
指标 | A800 | H800 | H800提升倍数 | 提升百分比 |
---|---|---|---|---|
请求吞吐量 | 2.56 req/s | 5.73 req/s | 2.24倍 | +124% |
总token吞吐量 | 10,806 tokens/s | 24,144 tokens/s | 2.23倍 | +123% |
输出token吞吐量 | 5,248 tokens/s | 11,726 tokens/s | 2.23倍 | +123% |
处理总tokens | 2,169,242 | 2,169,015 | - | - |
生成总tokens | 2,048,000 | 2,048,000 | - | - |
bash展开代码# 测试3
vllm bench throughput \
--model /mnt/jfs6/model/Qwen2.5-3B-Instruct \
--input-len 512 --output-len 8192 \
--num-prompts 500
A800:
bash展开代码吞吐量测试结果: Throughput: 0.65 requests/s, 5677.84 total tokens/s, 5325.96 output tokens/s Total num prompt tokens: 270618 Total num output tokens: 4096000
H800:
bash展开代码吞吐量测试结果: Throughput: 1.28 requests/s, 11187.25 total tokens/s, 10492.70 output tokens/s Total num prompt tokens: 271132 Total num output tokens: 4096000
性能对比表
指标 | A800 | H800 | H800提升倍数 | 提升百分比 |
---|---|---|---|---|
请求吞吐量 | 0.65 req/s | 1.28 req/s | 1.97倍 | +97% |
总token吞吐量 | 5,678 tokens/s | 11,187 tokens/s | 1.97倍 | +97% |
输出token吞吐量 | 5,326 tokens/s | 10,493 tokens/s | 1.97倍 | +97% |
处理总tokens | 270,618 | 271,132 | - | - |
生成总tokens | 4,096,000 | 4,096,000 | - | - |
bash展开代码# 测试4
vllm bench throughput \
--model /mnt/jfs6/model/Qwen2.5-3B-Instruct \
--input-len 512 --output-len 8192 \
--tensor-parallel-size 8 \
--pipeline-parallel-size 1 \
--num-prompts 500
A800:
bash展开代码吞吐量测试结果: Throughput: 1.14 requests/s, 9967.95 total tokens/s, 9349.69 output tokens/s Total num prompt tokens: 270851 Total num output tokens: 4096000
H800:
bash展开代码吞吐量测试结果: Throughput: 1.77 requests/s, 15489.95 total tokens/s, 14530.53 output tokens/s Total num prompt tokens: 270449 Total num output tokens: 4096000
性能对比表
指标 | A800 | H800 | H800提升倍数 | 提升百分比 |
---|---|---|---|---|
请求吞吐量 | 1.14 req/s | 1.77 req/s | 1.55倍 | +55% |
总token吞吐量 | 9,968 tokens/s | 15,490 tokens/s | 1.55倍 | +55% |
输出token吞吐量 | 9,350 tokens/s | 14,531 tokens/s | 1.55倍 | +55% |
处理总tokens | 270,851 | 270,449 | - | - |
生成总tokens | 4,096,000 | 4,096,000 | - | - |
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!