昨天看到一条消息,让我停下了手里的工作:Redis 的作者 Antirez 开源了一个叫 ds4 的推理引擎,专门为 DeepSeek V4 Flash 设计,用了几千行 C 代码,就让这个拥有 1M 上下文窗口的前沿模型,在 128GB 的 MacBook Pro 上跑到了 27 tok/s。

这不是什么大厂烧几十亿美金的 GPU 集群项目。这是一个人,用 C 语言,写了几千行代码,干成的事。

Antirez 是谁

如果你做过后端开发,大概率用过 Redis。这个统治了缓存、消息队列、排行榜等无数场景的数据库,就是 Antirez 一个人写的。他不是那种典型的”大厂出来的架构师”,更像一个黑客——看到问题,写代码解决,代码干净利落。

Redis 之后他沉寂了一段时间,没想到再次出现,是在 AI 推理引擎这个赛道上。

ds4 是怎么做到的

DeepSeek V4 Flash 是一个 MoE(混合专家)模型,参数规模不小。正常情况下,想把这种体量的模型跑在本地,你得有好几张 A100 才行。ds4 用三个关键技术绕过了这个限制:

不对称 2-bit 量化。MoE 模型里有大量”专家”模块,但不是所有专家都同等重要。ds4 对不同的专家采用不同的量化精度——重要的专家保留更多信息,不那么重要的狠压。这在保证推理质量的同时,大幅降低了内存占用。

KV Cache 搬到 SSD。大模型推理时,KV Cache 是最吃显存的东西,尤其是 1M 上下文窗口这种规格。ds4 把 KV Cache 移到了高速 SSD 上,突破了 MacBook 内存的天花板。当然,SSD 比显存慢,但这换来的是”能跑”和”跑不了”的本质区别。

纯 Metal 原生优化。Apple Silicon 的 GPU 很强,但大多数推理框架对它的支持都是”能用就行”,底层其实还是 CUDA 生态的思维。ds4 直接用 Metal API 写了原生推理,针对 Apple Silicon 的统一内存架构做了深度优化——CPU 和 GPU 共享同一块内存,数据不用来回复制,这个优势在其他平台上是不存在的。

这意味着什么

这不仅仅是又一个开源项目。它证明了一件事:AI 基础设施正在经历一次”去中心化”

过去一年,大模型的能力越来越强,但运行成本也越来越高。GPT-5、Claude 4.5 这些顶配模型,普通人只能通过 API 用,想本地跑是痴人说梦。但另一方面,DeepSeek、Llama 这些开源模型的性能在快速追赶,再加上 Antirez 这样的人用极致的工程优化把它们”压缩”到个人设备上——两股力量叠加,意味着前沿 AI 能力正在从云端向个人设备转移。

想想看:几个月前你可能还需要租 GPU 服务器才能做的事,现在在你自己的笔记本上就能跑。数据不出本地,延迟为零,不限流,不用充 API key。

当然,128GB 内存的 MacBook 不是每个人都有。但 Antirez 的代码是开源的,这些优化思路可以被复制到更小规模的模型、更主流的硬件上。这才是最让人兴奋的地方。

一点感想

Antirez 的 ds4 让我想起了约翰·卡马克。那个用极致优化让《毁灭战士》在 386 上跑起来的疯子。现在的 AI 圈太习惯靠堆算力解决问题了,以至于很多人忘了,真正推动技术平民化的,往往是那些用精巧工程把不可能变成可能的人。

开源社区从来不缺这种人。


如果你想自己试试:ds4 已在 GitHub 开源