ktransformers 部署Deepseek-R1

项目介绍

https://github.com/kvcache-ai/ktransformers

GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Cutting-edge LLM Inference

2025 年 2 月 10 日：支持 Deepseek-R1 和 V3 在单（24GB 显存）/多 GPU 和 382G DRAM 上运行，速度提升可达 3~28 倍。详细演示和复现教程请参见此处。

KTransformers 是一个灵活且以 Python 为中心的框架，旨在通过高级内核优化和并行策略提升大型语言模型（LLM）的推理性能。该框架允许用户通过简单的代码注入，快速实现与 Transformers 兼容的接口、支持 OpenAI 和 Ollama 的 RESTful API，以及类似 ChatGPT 的简化网页界面。KTransformers 特别关注资源受限的本地部署场景，支持 GPU/CPU 异构计算和量化模型的优化，例如高效的 Llamafile 和 Marlin 内核。其核心设计理念是通过模板化的注入机制，简化模块替换和优化组合，帮助研究人员探索创新的 LLM 推理优化方案。KTransformers 还提供了详细的教程和示例，支持多 GPU 部署和多种先进模型（如 DeepSeek 和 Mixtral），并计划在未来版本中开源更多优化功能。该框架由清华大学 MADSys 小组和 Approaching.AI 团队积极维护，致力于成为实验前沿 LLM 推理优化的灵活平台。

提要

经调研和社区讨论，该实验方案需硬件支持以下配置：1块RTX 4090显卡+双路Xeon 6430+16通道DDR5内存（总容量512GB），通过AMX指令集实现CPU矩阵加速。方案采用"访存换计算"策略，将非密集计算层部署在CPU内存，利用16根内存条达成600GB/s带宽。但实际受限于PCIe总线性能，仅能输出10+ token/s，且整套系统功耗超1000W（CPU 500W+GPU 200W），运行温度达70-80℃。此配置属原型验证级别，存在性能瓶颈和能耗过高问题，不具备量产可行性。

环境检查

需要CPU支持AMX指令集加速

这个需要有输出true:

js
展开代码
cpuid -1 -l 7 -s 0 | grep -i amx

下载GGUF文件


展开代码
git lfs install

GIT_LFS_SKIP_SMUDGE=1  git clone https://huggingface.co/unsloth/DeepSeek-R1-GGUF

cd DeepSeek-R1-GGUF/

git lfs pull --include "DeepSeek-R1-Q4_K_M/*"

国内下载有更快的方式，执行这个python：

python
展开代码

from modelscope.hub.snapshot_download import snapshot_download

# 下载 DeepSeek-R1-Q4_K_M 子文件夹
model_dir = snapshot_download(
    'unsloth/DeepSeek-R1-GGUF',
    allow_patterns='DeepSeek-R1-Q4_K_M/*',
    cache_dir='./model'  # 指定缓存目录，可选
)
print(f"模型下载到：{model_dir}")

下载model文件

bash
展开代码
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/deepseek-ai/DeepSeek-R1

cd DeepSeek-R1

# git lfs pull  不需要下载原始的权重文件，只需要配置

使用


展开代码
docker pull docker.1ms.run/kevinchina/deeplearning:ktransformers


docker run -d -gpus all -v /data:/data docker.1ms.run/kevinchina/deeplearning:ktransformers bash


export NUMA_DISABLE=1  # 通过环境变量禁用NUMA

python -m ktransformers.local_chat --model_path /data/xiedong/DeepSeek-R1 --gguf_path /data/xiedong/DeepSeek-R1-GGUF-test/model/unsloth/DeepSeek-R1-GGUF/DeepSeek-R1-Q4_K_M --cpu_infer 48 --force_think true \
--optimize_config_path ./ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat.yaml