几千行C代码，把大模型装进笔记本——记Antirez的ds4

昨天看到一条消息，让我停下了手里的工作：Redis 的作者 Antirez 开源了一个叫 ds4 的推理引擎，专门为 DeepSeek V4 Flash 设计，用了几千行 C 代码，就让这个拥有 1M 上下文窗口的前沿模型，在 128GB 的 MacBook Pro 上跑到了 27 tok/s。

这不是什么大厂烧几十亿美金的 GPU 集群项目。这是一个人，用 C 语言，写了几千行代码，干成的事。

Antirez 是谁

如果你做过后端开发，大概率用过 Redis。这个统治了缓存、消息队列、排行榜等无数场景的数据库，就是 Antirez 一个人写的。他不是那种典型的”大厂出来的架构师”，更像一个黑客——看到问题，写代码解决，代码干净利落。

Redis 之后他沉寂了一段时间，没想到再次出现，是在 AI 推理引擎这个赛道上。

ds4 是怎么做到的

DeepSeek V4 Flash 是一个 MoE（混合专家）模型，参数规模不小。正常情况下，想把这种体量的模型跑在本地，你得有好几张 A100 才行。ds4 用三个关键技术绕过了这个限制：

不对称 2-bit 量化。MoE 模型里有大量”专家”模块，但不是所有专家都同等重要。ds4 对不同的专家采用不同的量化精度——重要的专家保留更多信息，不那么重要的狠压。这在保证推理质量的同时，大幅降低了内存占用。

KV Cache 搬到 SSD。大模型推理时，KV Cache 是最吃显存的东西，尤其是 1M 上下文窗口这种规格。ds4 把 KV Cache 移到了高速 SSD 上，突破了 MacBook 内存的天花板。当然，SSD 比显存慢，但这换来的是”能跑”和”跑不了”的本质区别。

纯 Metal 原生优化。Apple Silicon 的 GPU 很强，但大多数推理框架对它的支持都是”能用就行”，底层其实还是 CUDA 生态的思维。ds4 直接用 Metal API 写了原生推理，针对 Apple Silicon 的统一内存架构做了深度优化——CPU 和 GPU 共享同一块内存，数据不用来回复制，这个优势在其他平台上是不存在的。

这意味着什么

这不仅仅是又一个开源项目。它证明了一件事：AI 基础设施正在经历一次”去中心化”。

过去一年，大模型的能力越来越强，但运行成本也越来越高。GPT-5、Claude 4.5 这些顶配模型，普通人只能通过 API 用，想本地跑是痴人说梦。但另一方面，DeepSeek、Llama 这些开源模型的性能在快速追赶，再加上 Antirez 这样的人用极致的工程优化把它们”压缩”到个人设备上——两股力量叠加，意味着前沿 AI 能力正在从云端向个人设备转移。

想想看：几个月前你可能还需要租 GPU 服务器才能做的事，现在在你自己的笔记本上就能跑。数据不出本地，延迟为零，不限流，不用充 API key。

当然，128GB 内存的 MacBook 不是每个人都有。但 Antirez 的代码是开源的，这些优化思路可以被复制到更小规模的模型、更主流的硬件上。这才是最让人兴奋的地方。

一点感想

Antirez 的 ds4 让我想起了约翰·卡马克。那个用极致优化让《毁灭战士》在 386 上跑起来的疯子。现在的 AI 圈太习惯靠堆算力解决问题了，以至于很多人忘了，真正推动技术平民化的，往往是那些用精巧工程把不可能变成可能的人。

开源社区从来不缺这种人。

如果你想自己试试：ds4 已在 GitHub 开源