下载模型:
sh展开代码modelscope download Qwen/Qwen3-32B --local_dir ./Qwen/Qwen3-32B
部署:
bash展开代码# 拉取最新的
docker pull lmsysorg/sglang:v0.4.6.post1-cu121
# 启动服务
docker run -d --gpus '"device=0,1,2,3"' --shm-size=32g \
-v ./Qwen/Qwen3-32B:/model \
-p 8055:8000 \
-e PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \
lmsysorg/sglang:v0.4.6.post1-cu121 python3 -m sglang.launch_server --model-path /model --host 0.0.0.0 --port 8000 --mem-fraction-static 0.9 --tensor-parallel-size 4 --context-length 40960 --served-model-name "gpt" --api-key "abc"
请求代码:
python展开代码import requests
# 封装函数,发送简单文本问题测试
def ask_simple_question(question=""):
# 构造请求数据
data = {
"model": "gpt", # 模型名称
"messages": [
{
"role": "system",
"content": "你是一个智能助手,可以回答各种问题。"
},
{
"role": "user",
"content": question
}
],
"max_tokens": 4096,
"temperature": 0.1
}
# 发送 POST 请求
response = requests.post(
"http://101.136.19.26:8055/v1/chat/completions",
json=data,
headers={"Authorization": "Bearer abc"}
)
# 返回模型输出
return response.json()["choices"][0]["message"]["content"]
# 使用示例
question = "1+1等于几?"
result = ask_simple_question(question)
print(result)
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!