Redis创始人亲自出手,为DeepSeek V4打造专属Mac推理引擎

5分钟前

henry 发自 凹非寺量子位 | 公众号 QbitAI


DeepSeek V4问世后,已经让海外顶级开发者专门为它搭建了专属优化的推理通道。


从V4发布到现在才过去两周,开源社区就已经出现了第一批原生适配V4的基础工具。


而且这次的作品,完全不是在现有框架上简单改改的小项目。


它既不是通用的GGUF加载工具,也不是llama.cpp的包装,甚至从设计开始就不打算支持其他模型。


它只做一件事:


让DeepSeek V4 Flash在Mac设备上跑出极限性能。



这个专属推理引擎名叫ds4.c,而打造它的开发者,身份相当有分量——


Salvatore Sanfilippo,也就是程序员圈子里大家更熟悉的antirez,Redis的创始人。


他一手创造了GitHub收获7.4万星标的Redis,并且亲手主导这个全球最流行的内存数据库长达11年。


而这次他的新项目ds4.c,就是一个专门为DeepSeek V4 Flash开发的本地推理引擎。


目前已经有网友在128GB内存的Mac设备上成功跑通了这个引擎。



可以说,这波操作又会让一批Mac设备被AI发烧友们列入入手清单了。


DeepSeek这条大模型“鲸鱼”,确实值得开发者这么折腾。


专为DeepSeek V4 Flash量身定制的本地推理引擎


今年4月24日,DeepSeek正式推出V4系列模型,其中V4 Flash是主打效率的版本:总参数284B,激活参数13B,支持100万token的上下文窗口。


这样的模型规模,在过去基本只能在云端服务器运行。


而antirez的目标,就是把这个大模型塞进普通Mac设备里,ds4.c也就因此诞生了。



这是一个完全用C语言+Metal从头编写的推理引擎。


整个项目代码文件很少,其中C语言占比55.4%,Objective-C占30.2%,Metal占13.8%。它只使用Metal,没有额外运行时,没有第三方框架依赖,也没有多余的抽象层。


完全基于Metal开发。


Metal是苹果官方推出的图形与计算API,在Mac、iPhone、iPad等设备上调用GPU算力都要依靠它,相当于苹果生态里的CUDA。


ds4只支持Metal,也就意味着这个引擎只能在Apple Silicon芯片的苹果设备上运行,不兼容Nvidia和AMD的独立显卡。


整个项目只有一个核心目标:


让V4 Flash不只是勉强能在本地苹果设备运行,而是真正达到可以日常使用的流畅度。


目前的测试结果已经相当出色:


在搭载128GB内存的MacBook Pro M3 Max上,使用2-bit量化、32K上下文,短prompt预填充速度可以达到58.52 token/s,生成速度达到26.68 token/s。


换成搭载512GB内存的Mac Studio M3 Ultra,处理11709 token的长prompt预填充速度能到468.03 token/s,生成速度也有27.39 token/s。


对于一个总参数284B的MoE大模型来说,这样的本地运行速度已经完全满足日常使用需求。


性能优化是怎么实现的?


核心优化点主要在三个方面。


第一,非对称量化策略。


ds4并没有把模型所有参数都压缩到2-bit,只对MoE模型的路由专家层做量化:up/gate层使用IQ2_XXS量化,down层使用Q2_K量化,而这些层本身就占据了模型绝大部分存储空间。


模型的其他组件,包括共享专家层、投影层、路由层,全部保留Q8精度不做压缩。


antirez在项目README里直接写道:


这里的2-bit量化不是瞎搞,量化后的模型在智能编码代理里表现很好,也能稳定调用工具。



第二,KV缓存存储到本地硬盘。


现在大语言模型代理客户端大多是无状态设计,每次请求都会把整段对话重新发送一遍。


通用推理引擎的做法是每次都重新做预填充。


而ds4的做法是把KV状态写入本地磁盘,下次请求到来时匹配token前缀,命中就直接从磁盘加载缓存,跳过预填充步骤。


缓存的key使用token ID序列的SHA1哈希值生成。


这种优化对于Claude Code这类每次启动都会发送25K token初始prompt的代理场景尤其实用,第一次完成预填充后,后续对话直接从磁盘恢复状态就能用。


第三,内置OpenAI和Anthropic两套API兼容层。


/v1/chat/completions接口走OpenAI协议,/v1/messages接口走Anthropic协议,工具调用也做了适配。README里直接给出了opencode、Pi、Claude Code三种代理客户端的配置示例,用户可以直接拿来用。


谈到为什么要做这个项目,antirez给出了自己的想法:本地推理领域已经有很多不错的项目,但新模型发布越来越快,大家的注意力很快就会被下一个需要适配的模型吸走。


通用引擎为了兼容所有模型,必须做多层抽象,而抽象就意味着要做出性能妥协。他想做的就是一条 deliberately narrow path,一次只聚焦一个模型,用官方logits做验证,做足长上下文测试,完成足够多的代理集成,确保它真的能用。


项目发布之后,已经有不少网友反馈成功在Mac上跑起来了。





你准备好在本地Mac上跑DeepSeek V4了吗?


一个模型配一个专属推理框架?


这件事也在开发者圈子里引发了更广泛的讨论:


未来本地推理会不会走向「一个模型配一个专属推理框架」的路线?


Hacker News上有一条高赞评论提出了这个方向:如果我们开始针对特定GPU加特定模型的组合构建极致优化的推理引擎,会怎么样?


现在GPU成本越来越高,如果去掉多余的抽象层,直接针对具体硬件和模型编写代码,能挖出不少性能空间。


但这条路的缺陷也很明显,这条高赞评论也提到,一旦模型迭代过时,之前做的所有优化就都要推倒重来。



antirez自己也承认这个问题,他表示ds4目前押注的是DeepSeek V4 Flash,但未来模型肯定会更新迭代。


不变的要求是,本地推理要能在高端个人电脑或者Mac Studio上稳定流畅运行,起步需要128GB内存。


关于项目未来,他在README里留下了伏笔。


目前只支持Metal,未来可能会添加CUDA支持,但他写得很谨慎:也许会加,仅此而已。这个项目从设计开始就刻意保持小巧、快速、专注的特点。



更值得关注的是他在README里提出的一个观点:本地推理应该把三件事一起做好,做到开箱就能用。


一个带HTTP API的推理引擎,一份专门针对这个引擎和场景优化的GGUF,一套对接编码代理的测试验证。


这是一种全栈本地推理的思路,不是简单把零散组件拼起来,而是把整个推理链路当成一个完整产品来设计。


如果这条路走通,很可能会改变本地推理的现有玩法。


以后模型厂商发布新模型的同时,社区里就会有人出来做专属引擎、做专属量化、做专属代理接入,每一代模型都能有自己的专属优化者。


ds4还有一个很坦率的细节:README里明确声明,这个软件是在GPT 5.5的大力协助下开发的,人类只负责提出想法、做测试和调试。


antirez直接说如果你不能接受AI辅助开发的代码,这个项目不适合你。



从fork适配llama.cpp到从头写一个专属引擎,只花了两周时间,离不开AI辅助开发。这件事本身,可能比ds4这个项目更值得关注。


关于开发者antirez


最后再介绍一下antirez这个人。



他本名Salvatore Sanfilippo,1977年出生在西西里岛。2009年创造了Redis,主导这个项目十一年,2020年离开核心开发岗位。



离开的时候他曾经写过一段话,说自己写代码是为了表达自我,代码是一件创作的作品,不只是有用的工具。他宁可被记住是一个糟糕的艺术家,也不想被记住是一个好程序员。


2024年底他重新回到Redis,担任布道师角色。


除了Redis之外,他还开发过Kilo(不到1000行C代码的文本编辑器)、dump1090(航空ADS-B信号解码器)、linenoise(readline的轻量替代方案)。


他还在玩Flipper Zero,专门写过RF协议分析工具,还把经典游戏Asteroids移植到了这个设备上。2022年他还出版了一本科幻小说《WOHPE》,主题围绕AI、气候变化、程序员,以及人类和技术的互动展开。


他个人主页第一行就写着:「我把大部分专业时间都花在写代码和写小说上。」



关于Redis的诞生,他在个人主页里写了一段趣事:


我老婆说,Redis刚诞生的那几年,我大部分代码都是坐在马桶上,用一台11寸的MacBook Air写出来的。我真的很想反驳她,但她说的完全没错。



这种开发调性贯穿了他做的所有项目:小巧、精准、自成一体。


ds4.c也完全是同一个路子。


看他在ds4 README里关于macOS bug的那段备注,就能立刻感受到他的风格:


ds4本来留了一条CPU推理路径用来验证正确性,但当前版本的macOS在虚拟内存实现上有bug,跑CPU推理会导致内核崩溃。


他写道:记住了吗?所有软件都烂透了。我没办法修复CPU推理来避免崩溃,因为每次测试都得重启电脑,一点都不好玩。


然后加了一句:如果你胆子大,那就来帮我们修。


他还在个人主页里留下了这样一句话:


现代编程正变得越来越复杂无趣,到处都是需要粘合的分层。它已经失去了大部分美感。大多数程序员既接触不到编程的艺术性,也碰不到编程的高级工程性。



从创造Redis到推出ds4.c,十五年过去了,antirez还是那个antirez。


只不过这一次,他开始给AI模型修专用的“高速公路”了。


参考链接[1]http://invece.org/[2]https://github.com/antirez/ds4[3]https://news.ycombinator.com/item?id=48050751


本文来自微信公众号“量子位”,作者:量子位,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com