根据搜索结果,启动 GGUF 文件为 OpenAI 式接口主要有以下几种方法:
这是最常用的方法,llama-cpp-python 提供了一个网络服务器,可以作为 OpenAI API 的直接替代品。
安装和启动:
bash展开代码# 安装服务器版本
pip install 'llama-cpp-python[server]' # 无gpu支持
# 或者安装GPU支持的
# NVIDIA GPU (CUDA)
CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python[server]
# 启动服务器
python3 -m llama_cpp.server \
--model /mnt/jfs6/model/Satyr-V0.1-4B/Satyr-V0.1-4B-F16.gguf \
--host 0.0.0.0 \
--port 8000 \
--n_ctx 10240 \
--n_gpu_layers -1 # 全部层都放gpu
请求:
py展开代码import requests
import json
# API 配置
base_url = "http://localhost:8000"
endpoint = f"{base_url}/v1/chat/completions"
# 构建请求
headers = {
"Content-Type": "application/json"
}
data = {
"model": "gpt-3.5-turbo", # 模型名称可以随意填写,本地服务器通常会忽略
"messages": [
{
"role": "user",
"content": "写一篇诗歌" # 使用适当的提示词
}
],
"temperature": 0.7,
"max_tokens": 5000
}
# 发送请求
response = requests.post(endpoint, headers=headers, json=data)
# 处理响应
if response.status_code == 200:
result = response.json()
print("模型回复:")
print(result['choices'][0]['message']['content'])
else:
print(f"请求失败: {response.status_code}")
print(response.text)
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!