2025-02-17
深度学习
00

目录

项目介绍
提要
环境检查
下载GGUF文件
下载model文件
使用

项目介绍

https://github.com/kvcache-ai/ktransformers

GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Cutting-edge LLM Inference

2025 年 2 月 10 日:支持 Deepseek-R1 和 V3 在单(24GB 显存)/多 GPU 和 382G DRAM 上运行,速度提升可达 3~28 倍。详细演示和复现教程请参见此处。

KTransformers 是一个灵活且以 Python 为中心的框架,旨在通过高级内核优化和并行策略提升大型语言模型(LLM)的推理性能。该框架允许用户通过简单的代码注入,快速实现与 Transformers 兼容的接口、支持 OpenAI 和 Ollama 的 RESTful API,以及类似 ChatGPT 的简化网页界面。KTransformers 特别关注资源受限的本地部署场景,支持 GPU/CPU 异构计算和量化模型的优化,例如高效的 Llamafile 和 Marlin 内核。其核心设计理念是通过模板化的注入机制,简化模块替换和优化组合,帮助研究人员探索创新的 LLM 推理优化方案。KTransformers 还提供了详细的教程和示例,支持多 GPU 部署和多种先进模型(如 DeepSeek 和 Mixtral),并计划在未来版本中开源更多优化功能。该框架由清华大学 MADSys 小组和 Approaching.AI 团队积极维护,致力于成为实验前沿 LLM 推理优化的灵活平台。

提要

经调研和社区讨论,该实验方案需硬件支持以下配置:1块RTX 4090显卡+双路Xeon 6430+16通道DDR5内存(总容量512GB),通过AMX指令集实现CPU矩阵加速。方案采用"访存换计算"策略,将非密集计算层部署在CPU内存,利用16根内存条达成600GB/s带宽。但实际受限于PCIe总线性能,仅能输出10+ token/s,且整套系统功耗超1000W(CPU 500W+GPU 200W),运行温度达70-80℃。此配置属原型验证级别,存在性能瓶颈和能耗过高问题,不具备量产可行性。

环境检查

需要CPU支持AMX指令集加速

这个需要有输出true:

js
cpuid -1 -l 7 -s 0 | grep -i amx

下载GGUF文件

git lfs install GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/unsloth/DeepSeek-R1-GGUF cd DeepSeek-R1-GGUF/ git lfs pull --include "DeepSeek-R1-Q4_K_M/*"

国内下载有更快的方式,执行这个python:

python
from modelscope.hub.snapshot_download import snapshot_download # 下载 DeepSeek-R1-Q4_K_M 子文件夹 model_dir = snapshot_download( 'unsloth/DeepSeek-R1-GGUF', allow_patterns='DeepSeek-R1-Q4_K_M/*', cache_dir='./model' # 指定缓存目录,可选 ) print(f"模型下载到:{model_dir}")

下载model文件

bash
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/deepseek-ai/DeepSeek-R1 cd DeepSeek-R1 # git lfs pull 不需要下载原始的权重文件,只需要配置

使用

docker pull docker.1ms.run/kevinchina/deeplearning:ktransformers docker run -d -gpus all -v /data:/data docker.1ms.run/kevinchina/deeplearning:ktransformers bash export NUMA_DISABLE=1 # 通过环境变量禁用NUMA python -m ktransformers.local_chat --model_path /data/xiedong/DeepSeek-R1 --gguf_path /data/xiedong/DeepSeek-R1-GGUF-test/model/unsloth/DeepSeek-R1-GGUF/DeepSeek-R1-Q4_K_M --cpu_infer 48 --force_think true \ --optimize_config_path ./ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat.yaml
如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!