00后创办英国AI芯片独角兽Olix:融资15亿估值超69亿 首批产品明年交付
Olix前身为Flux Computing,2024年3月在英国伦敦成立,创始人James Dacombe年仅25岁,同时担任英国脑监测企业CoMind的创始人兼CEO。CoMind是他18岁时创办的,目前已获得1亿美元(约合人民币7亿元)融资。

▲James Dacombe
针对AI推理场景,Olix正在研发新型AI芯片,聚焦高吞吐量与高交互性,以应对复杂推理工作负载,且不受现有AI芯片架构和供应链的限制。其核心产品为光学张量处理单元(OTPU),这是一款融合新型存储器与互连架构的光学数字处理器。团队认为,将SRAM架构与光子学技术结合,能在每兆瓦吞吐量和总拥有成本上超越HBM架构产品,同时在交互性和延迟表现上显著优于纯硅SRAM架构芯片。
截至目前,Olix累计融资已达2.5亿美元(约合人民币17亿元)。知情人士透露,公司计划最早于明年向客户交付首批产品,但Olix方面未就融资相关事宜作出回应。Vertex Ventures普通合伙人、前Facebook基础设施高管Jonathan Heiliger评价称,AI推理需要对芯片制造方式进行彻底革新,系统级架构的大规模重构难度极高,而“James及其团队的执行速度比资源多十倍的公司还要快”。
当前英国芯片企业的融资规模远落后于美国。另一家英国AI芯片创企Fractile昨日宣布,未来三年将投资1亿英镑(约合人民币9亿元),用于扩大英国本土业务。
Olix官网分享的芯片设计思路显示:
现有GPU架构已接近物理极限,当前硬件从根本上无法同时为每个用户提供快速推理服务。这种权衡是自TPUv2和V100以来主流加速器内存架构的固有问题——大型逻辑芯片置于中介层,旁侧搭配堆叠HBM内存。只有通过批量处理大量用户数据,充分利用计算资源,并分摊模型权重经HBM传输至大量输出token的能耗,才能实现高吞吐量。但大批量处理必然增加用户延迟、降低交互性,迫使用户做出艰难取舍。
推理性能受限于数据传输,逻辑效率和吞吐量的提升收益逐渐递减,数据传输时间缩短受内存墙、封装互连边界长度及封装尺寸限制。HBM从2代到4代的过渡虽在能效和吞吐量密度上有显著提升,但再次实现同等规模改进需近十年时间,且依赖更复杂昂贵的制造技术。同时,HBM性能提升带来的能效改善有限,限制了token传输KV cache的pJ/bit能量,进而制约当前架构中token总能耗下限。
过去十年,架构扩展提升了系统整体性能,但进一步扩展无法同时实现高吞吐量与高交互性。从英伟达Hopper到Rubin Ultra,封装尺寸增长约4倍,再增长4倍将接近晶圆级封装极限。更大封装虽能缩短数据传输时间、提升交互性,却无法降低固定数据传输延迟,阿姆达尔定律限制了通过增大封装尺寸提升交互性的可能性。数据从HBM经中介层进入计算单元的物理路径未发生根本改变,跨光罩高带宽接口的引入反而增加了复杂性,数据传输延迟已接近或达到极限,成为token延迟的重要组成部分。此外,更大层张量并行性虽能缩短每层数据传输时间,但会增加功耗和互连延迟;高吞吐量编码方案也会引入编解码延迟,提高token最低延迟,限制交互性实现。
若能通过规模、集成或执行解决上述权衡问题,现有计算生态核心企业应是主导者,但它们因预付巨额资金确保领先逻辑节点、HBM及先进封装能力,在软件、系统集成和供应链上形成护城河,每一代都强化该模式,导致底层限制未变,仍无法同时实现高交互性与高吞吐量。
Olix团队认为,能同时提供高吞吐量与高交互性的硬件,需同时解决大规模数据传输效率和延迟问题,仅改善单一维度只是改变权衡本质。从供应链和制造角度,新架构需放弃HBM、先进封装等受现有厂商供应链限制的技术,否则初创公司无法与超大规模数据中心运营商竞争;从兼容性角度,硬件必须支持现有模型,不应强制要求模型具备量子算术或物理理论能力,也不应依赖新热力学神经拟态架构;从设计角度,需从系统级思考,从光罩级、晶圆级设计转向机架级计算与数据传输的协同设计,将其作为统一系统。
该领域虽有资金雄厚的挑战者,但多陷入两种失败模式:部分芯片仍采用逻辑芯片-中介层-HBM架构范式,与新一代GPU/TPU竞争时面临相同的交互性-吞吐量权衡;另一部分虽认识到需新范式,试图重塑权衡取舍,却无法摆脱局限,受限于纯硅基方法。Olix希望摆脱这些限制,创造前沿AI的下一个范式。
本文来自微信公众号“芯东西”,作者:ZeR0,编辑:漠影,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com

