显卡性能测试方法vllm吞吐量测试延迟测试

1. 吞吐量测试 (Throughput)

测什么: 单位时间内处理多少tokens
指标: tokens/秒 (越高越好)
场景: 批量处理,同时处理多个请求
反映: GPU的并行计算能力和显存利用率

关键点: 这个测试会让GPU"吃饱",充分利用显卡算力,最能反映显卡的计算性能差异。

2. 延迟测试 (Latency)

测什么: 单个请求从开始到结束的时间
指标:
- TTFT (Time To First Token): 第一个token生成时间 (ms)
- TPOT (Time Per Output Token): 每个token平均生成时间 (ms)
- 总延迟: 完整响应时间 (秒)
场景: 单用户对话,一次只处理一个请求
反映: GPU的单次推理速度和响应速度

4. 测试结果1（单卡）

bash
展开代码
# 测试1: 小batch吞吐量 (基础性能)
vllm bench throughput \
  --model /mnt/jfs6/model/Qwen2.5-3B-Instruct \
  --input-len 512 --output-len 128 \
  --num-prompts 100

# 测试2: 延迟测试 (用户体验)
vllm bench latency \
  --model /mnt/jfs6/model/Qwen2.5-3B-Instruct \
  --input-len 512 --output-len 128

A800

bash
展开代码
吞吐量测试结果：
Throughput: 33.68 requests/s, 22669.54 total tokens/s, 4311.40 output tokens/s
Total num prompt tokens:  54503
Total num output tokens:  12800

延迟测试结果：
Avg latency: 0.9715764995043477 seconds
10% percentile latency: 0.9598650230094791 seconds
25% percentile latency: 0.9622764931991696 seconds
50% percentile latency: 0.9673176119104028 seconds
75% percentile latency: 0.9742167480289936 seconds
90% percentile latency: 0.9866135817021131 seconds
99% percentile latency: 1.0165810825303196 seconds

H800

bash
展开代码
吞吐量测试结果：
Throughput: 63.28 requests/s, 42856.43 total tokens/s, 8100.21 output tokens/s
Total num prompt tokens:  54922
Total num output tokens:  12800

延迟测试结果：
Avg latency: 0.6738921073575814 seconds
10% percentile latency: 0.6700679726898671 seconds
25% percentile latency: 0.6712944628670812 seconds
50% percentile latency: 0.6733551379293203 seconds
75% percentile latency: 0.6754394164308906 seconds
90% percentile latency: 0.6770323395729065 seconds
99% percentile latency: 0.6854861832782626 seconds

吞吐量对比

指标	A800	H800	H800提升倍数
请求吞吐量	33.68 req/s	63.28 req/s	1.88倍
总token吞吐量	22,669 tokens/s	42,856 tokens/s	1.89倍
输出token吞吐量	4,311 tokens/s	8,100 tokens/s	1.88倍

延迟对比

指标	A800	H800	H800优势
平均延迟	0.972秒	0.674秒	快30.7% (1.44倍)
中位数延迟	0.967秒	0.673秒	快30.4%
P99延迟	1.017秒	0.685秒	快32.6%

5. 测试结果2（单卡）

bash
展开代码
# 测试2
vllm bench throughput \
  --model /mnt/jfs6/model/Qwen2.5-3B-Instruct \
  --input-len 2048 --output-len 2048 \
  --num-prompts 1000

A800:

bash
展开代码
吞吐量测试结果：
Throughput: 2.56 requests/s, 10806.00 total tokens/s, 5247.67 output tokens/s
Total num prompt tokens:  2169242
Total num output tokens:  2048000

H800:

bash
展开代码
吞吐量测试结果：
Throughput: 5.73 requests/s, 24143.95 total tokens/s, 11725.55 output tokens/s
Total num prompt tokens:  2169015
Total num output tokens:  2048000

性能对比表

指标	A800	H800	H800提升倍数	提升百分比
请求吞吐量	2.56 req/s	5.73 req/s	2.24倍	+124%
总token吞吐量	10,806 tokens/s	24,144 tokens/s	2.23倍	+123%
输出token吞吐量	5,248 tokens/s	11,726 tokens/s	2.23倍	+123%
处理总tokens	2,169,242	2,169,015	-	-
生成总tokens	2,048,000	2,048,000	-	-

6. 测试结果3（单卡）

bash
展开代码
# 测试3
vllm bench throughput \
  --model /mnt/jfs6/model/Qwen2.5-3B-Instruct \
  --input-len 512 --output-len 8192 \
  --num-prompts 500

A800:

bash
展开代码
吞吐量测试结果：
Throughput: 0.65 requests/s, 5677.84 total tokens/s, 5325.96 output tokens/s
Total num prompt tokens:  270618
Total num output tokens:  4096000

H800:

bash
展开代码
吞吐量测试结果：
Throughput: 1.28 requests/s, 11187.25 total tokens/s, 10492.70 output tokens/s
Total num prompt tokens:  271132
Total num output tokens:  4096000

性能对比表

指标	A800	H800	H800提升倍数	提升百分比
请求吞吐量	0.65 req/s	1.28 req/s	1.97倍	+97%
总token吞吐量	5,678 tokens/s	11,187 tokens/s	1.97倍	+97%
输出token吞吐量	5,326 tokens/s	10,493 tokens/s	1.97倍	+97%
处理总tokens	270,618	271,132	-	-
生成总tokens	4,096,000	4,096,000	-	-

7. 测试结果4（多卡）

bash
展开代码
# 测试4
vllm bench throughput \
  --model /mnt/jfs6/model/Qwen2.5-3B-Instruct \
  --input-len 512 --output-len 8192 \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 1 \
  --num-prompts 500

A800:

bash
展开代码
吞吐量测试结果：
Throughput: 1.14 requests/s, 9967.95 total tokens/s, 9349.69 output tokens/s
Total num prompt tokens:  270851
Total num output tokens:  4096000

H800:

bash
展开代码
吞吐量测试结果：
Throughput: 1.77 requests/s, 15489.95 total tokens/s, 14530.53 output tokens/s
Total num prompt tokens:  270449
Total num output tokens:  4096000

性能对比表

指标	A800	H800	H800提升倍数	提升百分比
请求吞吐量	1.14 req/s	1.77 req/s	1.55倍	+55%
总token吞吐量	9,968 tokens/s	15,490 tokens/s	1.55倍	+55%
输出token吞吐量	9,350 tokens/s	14,531 tokens/s	1.55倍	+55%
处理总tokens	270,851	270,449	-	-
生成总tokens	4,096,000	4,096,000	-	-

目录

1. 吞吐量测试 (Throughput)

2. 延迟测试 (Latency)

4. 测试结果1（单卡）

5. 测试结果2（单卡）

6. 测试结果3（单卡）

7. 测试结果4（多卡）