deepseekv3对Qwen-2.5-14B进行蒸馏,模型如下:
https://huggingface.co/arcee-ai/Virtuoso-Small-v2
sglang运行指令:
bashdocker run --gpus '"device=5"' \
--shm-size 32g \
-d -p 7890:7890 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HF_TOKEN=<secret>" \
--ipc=host \
-v /data/xiedong/Virtuoso-Small-v2:/data/xiedong/Qwen2.5-32B-Instruct-GPTQ-Int4 \
lmsysorg/sglang:latest \
python3 -m sglang.launch_server --model-path /data/xiedong/Qwen2.5-32B-Instruct-GPTQ-Int4 --host 0.0.0.0 --port 7890 --tp 1 --api-key "ns34xx.."
sglang运行速度:42.27 T/s
llama.cpp 量化此模型:
llama.cpp 教程:
https://github.com/ggml-org/llama.cpp/blob/master/examples/server/README.md
llama.cpp server执行指令:
bashdocker pull ghcr.io/ggml-org/llama.cpp:server-cuda
docker run --gpus '"device=7"' \
--shm-size 32g \
-v /data/xiedong:/models -p 7893:8000 ghcr.io/ggml-org/llama.cpp:server-cuda -m /models/arcee-ai_Virtuoso-Small-v2-Q6_K_L.gguf --port 8000 --host 0.0.0.0 -n 512
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!