搜狗输入法全面AI化升级,语音输入能否开启交互新时代?

1天前
输入法赛道正迎来AI驱动的全新变革。

人工智能技术深度渗透各领域的当下,作为基础工具的输入法也迎来了重做的契机。


1月27日,拥有6亿日活跃用户的搜狗输入法正式宣布全面AI化。在近期更新的20.0 AI大版本中,AI语音、AI翻译、AI打字三大核心模型均完成重要升级。


打字功能方面,新版本不仅大幅扩充词库、强化用户意图与上下文理解能力,还针对医生、律师等专业群体推出AI定制服务,比如专业词汇快速输入、法律词条及用药说明便捷查询等。翻译功能上,新版本支持30余种语言的输入即译,覆盖文本与语音两种输入形式。


AI语音是此次升级的重点。依托自研AI语音大模型,新版本在语音识别流畅度、整体准确率及方言识别精度上均有提升。同时,新增“口语转书面语”和易混音修改功能,针对语音输入中常见的“他她它”“的地得”等易混音问题,提供候选及替换方案。



语音输入受到高度关注,源于其逐渐成为主流交互方式的趋势。腾讯搜狗输入法大模型产品负责人柴宝全在接受界面新闻采访时透露,搜狗输入法的AI用户规模已突破1亿,日均语音使用次数接近20亿,且年轻用户占比颇高。


语音输入堪称互联网输入法诞生20年来最重要的交互革新。过去,语音输入多作为辅助工具,在同音词、语气词、方言识别等方面能力不足,用户需频繁手动修改。而大语言模型的出现,让AI具备上下文理解能力,可主动推测用户输入意图,覆盖日常使用乃至部分轻办公场景。


海外已有不少成熟的语音输入产品,如新加坡团队开发的Typeless、硅谷创业公司打造的Wispr Flow,它们均以语音转文字为核心功能,主要面向办公人群,主打高效生产力场景。据介绍,Wispr Flow的输入效率比手动打字快3至4倍,能精准识别并自动编辑内容,官方称80%的场景下用户无需手动修正。



国内市场中,武汉一家创业公司推出的“闪电说”也属于同类产品。这是一款优先端侧运行的AI语音输入法,通过本地语音模型实现毫秒级识别,可自动理解语义、智能过滤口语化表达,输入速度比键盘快4倍,且因数据留存本地,能更好保障用户隐私。


互联网大厂也在积极布局语音输入赛道。除搜狗输入法外,微信官方的微信输入法、字节跳动的豆包输入法,以及智谱AI推出的智谱AI输入法,都将语音输入作为核心竞争标签。与采用SaaS模式的Wispr Flow不同,大厂的语音输入功能更侧重日常交流场景,凭借生态与流量优势,可实现自有生态内的跨应用联动体验。


作为互联网基础设施,输入法重新受到各大公司重视,背后逻辑在于其是多数互联网行为的起点,通过高频用户互动积累大量意图数据,且天然覆盖各类应用。因此,输入法也被视为AI Agent的雏形。此前腾讯曾尝试将输入法与AI搜索结合,发现用户使用频次显著提升。


不过,当前语音输入尚未发展到终极形态。柴宝全认为,语音虽是重要输入方式且会持续增长,但不能忽视打字的重要性。至少在硬件彻底革新前,打字仍是关键输入能力。用户的核心需求是获得优质输入结果,方式可灵活选择,语音并非唯一选项。


“Wispr Flow算是完美形态吗?未必。它还需要时间打磨。现在很多AI编程场景不用键盘,并非不需要,而是暂时没有适配的优质键盘。所以输入法的演变才刚进入令人兴奋的阶段,远未达到仅靠麦克风就能解决所有问题的终极状态。”柴宝全表示。


但语音输入无疑值得探索。搜狗输入法现阶段主要围绕“快”与“准”优化,比如针对安静环境或驾驶等双手不便的场景,新版本提升了轻声输入的识别准确率。


“2011年至今可视为语音输入上半场,核心是‘所听即所得’。下半场语音输入应实现角色转变,端到端满足用户的表达与创作需求,这是我们未来的努力方向。”柴宝全说道。


本文来自“界面新闻”,作者:陆柯言,编辑:文姝琪,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com