发布亚马逊新的AI视频模型，提供性价比高的服务

2024-12-02

编译 | 汪越

编辑 | Panken

智东西 11 月 29 日报道，据 The Information 据知情人士透露，亚马逊正在开发一种新的多模态模式。 AI 模型，代号为 Olympus。Olympus 不但能理解文字，而且具有很强的图像和视频分析能力，尤其是对视频场景的理解和精确的运动分析。

据知情人士透露，Olympus 生成文本和解决复杂问题的能力可能不如 OpenAI 和美国 AI 大型独角兽 Anthropic 最新的语言模型，但亚马逊看中了它在视频处理方面的潜力，并计划以更有竞争力的价格提供这项服务，并希望减少它。 Anthropic 依赖技术。

Anthropic 的 Claude 聊天机器人是亚马逊云技术（AWS）世界上最受欢迎的产品，亚马逊最近向 Anthropic 投资 40 亿美元，使总投资达到亿美元 80 亿美金。

据知情人士透露，Olympus 视频理解能力很强，传统的视频识别技术很难准确判断篮球何时离开球员的手，预测他们的运动轨迹。对于有大量视频数据的人来说 AWS 顾客(例如体育分析、媒体和娱乐公司)，Olympus 这将是帮助他们更有效地分析和处理视频内容的重要工具。

虽然亚马逊现在，OpenAI 和 Anthropic 等待公司推出了支持图像和文本分析的语言模型，但是视频分析技术还处于起步阶段。Olympus 推出意味着亚马逊进入视频 AI 目前市场的战略布局主要是谷歌的 Gemini 专注于视频理解技术的模型和模型 AI 企业 Twelve Labs 主导。

据 The Information 报告称，亚马逊可能会在即将到来的时候举行。 AWS re:Invent 大会上公布 Olympus 更多细节。目前，亚马逊还没有对此做出回应。

2023 年 4 月亮，亚马逊发布了一个只支持文本的产品。 Titan 一系列的语言模型，但是这个模型并没有在市场上引起太大的反响。面临自主研发的大语言模型（LLM）在困境中，亚马逊继续依靠 Anthropic 等待创业公司为其云服务提供技术支持，尤其是在数字助手和 AI 编程产品方面。

去年，负责 Olympus 亚马逊高级副总裁项目 Rohit Prasad 制定了一个计划，希望赶上竞争对手的大语言模型。据知情人士透露，这个计划包括四个大模型的训练，其中一个是 4000 一亿参数的文本模型，另一个是 2 文本模型，万亿参数。

这些模型的参数值规模将和 Meta 的开源 Llama 模型（4050 亿参数）和 OpenAI 的 GPT-4（超出 1.5 万亿元参数)相当。在未来，亚马逊还计划将这些大型文本模型与视觉模型相结合，以赋予它们更多的多模态能力。

结语：AI 增强亚马逊竞争力的视频分析能力

随着 Olympus 随着参数规模和多模态能力的不断提高，亚马逊将吸引更多需要高精度视频分析的云服务客户进行体育分析和视频场景理解。

同时，视频 AI 谷歌的市场竞争将越来越激烈， Gemini、Twelve Labs 等待视频理解领域的领导者将面临亚马逊的激烈竞争。 Olympus，亚马逊不但减少了正确的数量 Anthropic 依赖性，也将进一步提升大模型领域的自主技术能力。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com