显卡性能测试方法vllm吞吐量测试延迟测试
2025-10-15
深度学习
00

目录

1. 吞吐量测试 (Throughput)
2. 延迟测试 (Latency)
4. 测试结果1(单卡)
5. 测试结果2(单卡)
6. 测试结果3(单卡)
7. 测试结果4(多卡)

1. 吞吐量测试 (Throughput)

  • 测什么: 单位时间内处理多少tokens
  • 指标: tokens/秒 (越高越好)
  • 场景: 批量处理,同时处理多个请求
  • 反映: GPU的并行计算能力显存利用率

关键点: 这个测试会让GPU"吃饱",充分利用显卡算力,最能反映显卡的计算性能差异

2. 延迟测试 (Latency)

  • 测什么: 单个请求从开始到结束的时间
  • 指标:
    • TTFT (Time To First Token): 第一个token生成时间 (ms)
    • TPOT (Time Per Output Token): 每个token平均生成时间 (ms)
    • 总延迟: 完整响应时间 (秒)
  • 场景: 单用户对话,一次只处理一个请求
  • 反映: GPU的单次推理速度响应速度

4. 测试结果1(单卡)

bash
展开代码
# 测试1: 小batch吞吐量 (基础性能) vllm bench throughput \ --model /mnt/jfs6/model/Qwen2.5-3B-Instruct \ --input-len 512 --output-len 128 \ --num-prompts 100 # 测试2: 延迟测试 (用户体验) vllm bench latency \ --model /mnt/jfs6/model/Qwen2.5-3B-Instruct \ --input-len 512 --output-len 128

A800

bash
展开代码
吞吐量测试结果: Throughput: 33.68 requests/s, 22669.54 total tokens/s, 4311.40 output tokens/s Total num prompt tokens: 54503 Total num output tokens: 12800 延迟测试结果: Avg latency: 0.9715764995043477 seconds 10% percentile latency: 0.9598650230094791 seconds 25% percentile latency: 0.9622764931991696 seconds 50% percentile latency: 0.9673176119104028 seconds 75% percentile latency: 0.9742167480289936 seconds 90% percentile latency: 0.9866135817021131 seconds 99% percentile latency: 1.0165810825303196 seconds

H800

bash
展开代码
吞吐量测试结果: Throughput: 63.28 requests/s, 42856.43 total tokens/s, 8100.21 output tokens/s Total num prompt tokens: 54922 Total num output tokens: 12800 延迟测试结果: Avg latency: 0.6738921073575814 seconds 10% percentile latency: 0.6700679726898671 seconds 25% percentile latency: 0.6712944628670812 seconds 50% percentile latency: 0.6733551379293203 seconds 75% percentile latency: 0.6754394164308906 seconds 90% percentile latency: 0.6770323395729065 seconds 99% percentile latency: 0.6854861832782626 seconds

吞吐量对比

指标A800H800H800提升倍数
请求吞吐量33.68 req/s63.28 req/s1.88倍
总token吞吐量22,669 tokens/s42,856 tokens/s1.89倍
输出token吞吐量4,311 tokens/s8,100 tokens/s1.88倍

延迟对比

指标A800H800H800优势
平均延迟0.972秒0.674秒快30.7% (1.44倍)
中位数延迟0.967秒0.673秒快30.4%
P99延迟1.017秒0.685秒快32.6%

5. 测试结果2(单卡)

bash
展开代码
# 测试2 vllm bench throughput \ --model /mnt/jfs6/model/Qwen2.5-3B-Instruct \ --input-len 2048 --output-len 2048 \ --num-prompts 1000

A800:

bash
展开代码
吞吐量测试结果: Throughput: 2.56 requests/s, 10806.00 total tokens/s, 5247.67 output tokens/s Total num prompt tokens: 2169242 Total num output tokens: 2048000

H800:

bash
展开代码
吞吐量测试结果: Throughput: 5.73 requests/s, 24143.95 total tokens/s, 11725.55 output tokens/s Total num prompt tokens: 2169015 Total num output tokens: 2048000

性能对比表

指标A800H800H800提升倍数提升百分比
请求吞吐量2.56 req/s5.73 req/s2.24倍+124%
总token吞吐量10,806 tokens/s24,144 tokens/s2.23倍+123%
输出token吞吐量5,248 tokens/s11,726 tokens/s2.23倍+123%
处理总tokens2,169,2422,169,015--
生成总tokens2,048,0002,048,000--

6. 测试结果3(单卡)

bash
展开代码
# 测试3 vllm bench throughput \ --model /mnt/jfs6/model/Qwen2.5-3B-Instruct \ --input-len 512 --output-len 8192 \ --num-prompts 500

A800:

bash
展开代码
吞吐量测试结果: Throughput: 0.65 requests/s, 5677.84 total tokens/s, 5325.96 output tokens/s Total num prompt tokens: 270618 Total num output tokens: 4096000

H800:

bash
展开代码
吞吐量测试结果: Throughput: 1.28 requests/s, 11187.25 total tokens/s, 10492.70 output tokens/s Total num prompt tokens: 271132 Total num output tokens: 4096000

性能对比表

指标A800H800H800提升倍数提升百分比
请求吞吐量0.65 req/s1.28 req/s1.97倍+97%
总token吞吐量5,678 tokens/s11,187 tokens/s1.97倍+97%
输出token吞吐量5,326 tokens/s10,493 tokens/s1.97倍+97%
处理总tokens270,618271,132--
生成总tokens4,096,0004,096,000--

7. 测试结果4(多卡)

bash
展开代码
# 测试4 vllm bench throughput \ --model /mnt/jfs6/model/Qwen2.5-3B-Instruct \ --input-len 512 --output-len 8192 \ --tensor-parallel-size 8 \ --pipeline-parallel-size 1 \ --num-prompts 500

A800:

bash
展开代码
吞吐量测试结果: Throughput: 1.14 requests/s, 9967.95 total tokens/s, 9349.69 output tokens/s Total num prompt tokens: 270851 Total num output tokens: 4096000

H800:

bash
展开代码
吞吐量测试结果: Throughput: 1.77 requests/s, 15489.95 total tokens/s, 14530.53 output tokens/s Total num prompt tokens: 270449 Total num output tokens: 4096000

性能对比表

指标A800H800H800提升倍数提升百分比
请求吞吐量1.14 req/s1.77 req/s1.55倍+55%
总token吞吐量9,968 tokens/s15,490 tokens/s1.55倍+55%
输出token吞吐量9,350 tokens/s14,531 tokens/s1.55倍+55%
处理总tokens270,851270,449--
生成总tokens4,096,0004,096,000--
如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!