单机 KTransformers 运行 DeepSeek-R1-GGUF 4 bit 量化模型 Q4_K_M 实测

最近有些文章把 KTransformers 吹得没边儿，但是看到的实测案例非常少。我也比较好奇它的实际表现，所以来实测一下看看。

机器配置

硬件	实测环境	官方案例
CPU	Intel(R) Xeon(R) Platinum 8350C CPU @ 2.60GHz, 单插槽 32 核，64 超线程，2 插槽，2 NUMA 节点	Intel (R) Xeon (R) Gold 6454S, 32 cores per socket, 2 sockets, 2 numa nodes
内存	64GB DDR4 2933MHz x 24，共 1.5 TB 内存	standard DDR5-4800 server DRAM (1 TB), each socket with 8×DDR5-4800
GPU	Nvidia L40S, 48GB VRAM	4090D 24G VRAM

实测环境机器配置看起来很强悍，但距离 KTransformer 首页给的官方案例配置还是有差距：

8350C 是第 3 代至强 CPU，官方案例用的 6454S 是第 4 代至强 CPU，Intel AMX 指令集只在第 4 代和第 5 代至强上支持，号称比前一代有 3～10 倍的推理性能提升；
DDR4 2933 的访存带宽，跟官方案例用的 DDR5 4800，纸面数据差 60%；
虽说 L40S 比官方案例用的 4090 性能要更强，显存要更大，但目前 KTransformers 给的配置并不能完全发挥出来。

程序环境

基于 Pytorch 镜像 pytorch/pytorch:2.6.0-cuda12.6-cudnn9-devel ，本地编译 KTransformers 命令：make dev_install 。

注：通过 pip install 的 KTransformers 包会在运行时 crash 在 cpuinfer.so 里，我猜测是官方的包使用了更高级的指令集，而我这台机器不支持。

执行命令：numactl -N 1 -m 1 python ./ktransformers/local_chat.py --force_think --model_path DeepSeek-R1/ --optimize_rule_path ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat.yaml --gguf_path DeepSeek-R1-GGUF/DeepSeek-R1-Q4_K_M/ --cpu_infer 33 --max_new_tokens 1000

参数说明：

--force_think: 强制在开头输出 <think> 标签

--model_path: 来自于 git clone https://huggingface.co/deepseek-ai/DeepSeek-V3，只需要下载代码，不需要下载参数文件

--gguf_path: 下载的量化参数，只需要下载子目录：https://huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-Q4_K_M

--cpu_infer: 粗看代码，KTransformers 是一个线程分发任务，其余线程消费计算任务，所以官方案例这里总是配置的 2 的 N 次方 + 1。但是在实测时，是否 2 的 N 次方 + 1 区别不大。

实测结果

Prompt: 【《背影》全文不含标题】请简明扼要地回答问题：这篇文章出自哪里？作者是谁？写于什么年代？

可以看到性能，生成整篇答案花费了 4 分多钟，prefill 性能 11 toks/s，decode 性能 3.4 toks/s。这个比官方案例的性能慢了一倍多。而且这个回答太啰嗦了，没有遵循 prompt。

图 2 是通过 top 和 nvidia-smi 查看的运行时的 CPU 和 GPU 利用率：可以看到内存占用 380 GB，CPU 33 核差不多用满；GPU 占用 13GB 显存，利用率大概 9%。

上图是 DeepSeek-R1 chat 官网的回答，看到比量化版好很多，至少遵循了“简明扼要地回答问题”的指令。

其它尝试

为了测出来最大性能，我尝试过加大 --cpu_infer 参数到 65、129，尝试过切换 optimize_rules 到 DeepSeek-V3-Chat-multi-gpu-4.yaml 或者 DeepSeek-V3-Chat-multi-gpu-8.yaml，实测都没有看到性能优化，很多甚至还劣化到 0.8 toks/s。

但是降低 --cpu_infer 参数到 25，没有观察到性能劣化。

观察

从 GPU/CPU 的利用率可以看出，KTransformers 主要靠 CPU 推理，AMX 指令集和内存访问速度很关键，GPU 利用率很低，反而不关键。

DeepSeek-R1-Q4_K_M 4 bit 量化模型较非量化模型效果有显著差距，可以观察到指令遵循都不太够。

KTransformers 目前对计算任务的拆分，并没有实现跟随 CPU 核数线性提升性能，这说明也许里面还有很多优化可以做。

讨论

现在大模型动辄几百 GB，需要 N 张显卡才能运行，客观上阻碍了很多感兴趣的人去体验和创新。

KTransformer 能用低配硬件慢速跑起来（接近）满血的模型，是非常赞的一个项目。它后续的持续优化也值得期待。

但 CPU 推理在成本上有它的局限性，大公司也不傻，如果 CPU 成本低，为啥要买那么多 GPU 卡？

核算推理成本要尊重客观事实，别动不动“告别天价显卡”。进行压力测试后，将合理计算的服务器成本平摊到每个请求/token上来计算。从这个角度看，大概有些人又要鼓吹“告别天价 CPU 服务器”了。

机器配置

程序环境

实测结果

其它尝试

观察

讨论

相关阅读

发表回复 取消回复

发表回复取消回复