苹果黑科技:iPhone AI 提速 5 倍

08-10 06:36

IT 之家 8 月 9 日消息,科技媒体 9to5Mac 于 8 月 8 日发布博文,报道称苹果在最新研究中提出了“多 token 预测”(MTP)技术。在不牺牲输出质量的情况下,该技术可将大语言模型响应速度提升 2 - 3 倍,在特定场景下最高能达到 5 倍。

IT 之家援引博文介绍,传统大语言模型(LLM)采用自回归方式生成文本,逐个输出 token,为保证连贯性,每一步都依赖前序内容。

例如,在生成“ The cat is black ”时,模型需在输出“ is ”后,基于上下文和训练经验,从词汇表中计算“ black ”等候选词的概率,再选择最合适的词。这种串行机制虽然准确,但速度受限,尤其在移动设备上会影响用户体验。

苹果在新论文《Your LLM Knows the Future: Uncovering Its Multi - Token Prediction Potential》中发现,尽管模型仅被训练为预测下一个词,但其内部其实蕴含对后续多个词的潜在判断能力。

研究团队据此提出“多 token 预测”(MTP)框架,支持模型一次生成多个词。比如输入“ The cat is ”,模型可直接输出“ very fluffy ”,大幅提升了生成效率。

该技术的核心在于引入“掩码”(Mask)token 作为占位符,并让模型并行推测后续多个词。每个推测结果会立即与标准自回归解码结果比对,若不符则自动回退到逐词生成模式,确保输出质量不受影响。这一“推测 - 验证”机制在提速的同时,保留了传统方法的准确性,实现了速度与质量的平衡。

实验基于开源模型 Tulu3 - 8B 进行,苹果训练其最多推测 8 个后续 token。结果显示,在问答和对话等通用任务中,响应速度平均提升 2 - 3 倍;在代码生成、数学推理等结构化场景中,提速可达 5 倍。

研究人员强调,性能提升未以牺牲生成质量为代价,关键在于采用了“门控 LoRA 适配”技术,动态调节参数,仅在需要时激活推测模块。

这项研究为设备端大模型部署提供了新路径。相比依赖云端计算,MTP 可在 iPhone、Mac 等本地设备实现更快响应,降低延迟与能耗。

虽然目前该技术仍处于研究阶段,但其兼容现有模型架构的特点,使其具备较强落地潜力,未来或可集成至 Siri、Apple Intelligence 等产品中,提升用户交互体验。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com