gguf这种文件如何启动为openai式的接口?
2025-10-14
深度学习
00

目录

1. llama-cpp-python(推荐)

根据搜索结果,启动 GGUF 文件为 OpenAI 式接口主要有以下几种方法:

1. llama-cpp-python(推荐)

这是最常用的方法,llama-cpp-python 提供了一个网络服务器,可以作为 OpenAI API 的直接替代品。

安装和启动:

bash
展开代码
# 安装服务器版本 pip install 'llama-cpp-python[server]' # 无gpu支持 # 或者安装GPU支持的 # NVIDIA GPU (CUDA) CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python[server] # 启动服务器 python3 -m llama_cpp.server \ --model /mnt/jfs6/model/Satyr-V0.1-4B/Satyr-V0.1-4B-F16.gguf \ --host 0.0.0.0 \ --port 8000 \ --n_ctx 10240 \ --n_gpu_layers -1 # 全部层都放gpu

请求:

py
展开代码
import requests import json # API 配置 base_url = "http://localhost:8000" endpoint = f"{base_url}/v1/chat/completions" # 构建请求 headers = { "Content-Type": "application/json" } data = { "model": "gpt-3.5-turbo", # 模型名称可以随意填写,本地服务器通常会忽略 "messages": [ { "role": "user", "content": "写一篇诗歌" # 使用适当的提示词 } ], "temperature": 0.7, "max_tokens": 5000 } # 发送请求 response = requests.post(endpoint, headers=headers, json=data) # 处理响应 if response.status_code == 200: result = response.json() print("模型回复:") print(result['choices'][0]['message']['content']) else: print(f"请求失败: {response.status_code}") print(response.text)
如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!