第一个AI应用王小川来了,一手评价:有特色,但不完美。

05-26 18:20

昨天,百川智能发布了新一代底座大模型。 Baichuan 第四,同时推出了第一款 AI 应用-百小应用。


百川智能瞄准的是AI智能助手,就像市场上大多数大型厂商一样。有趣的是,虽然它被定位为AI。 智能化助手,但是百小应的主要特征是「懂得搜索,会提问」。这个问题和现在一样火爆 AI 类似的搜索应用。


强调搜索特征并不奇怪。王小川是中国最了解搜索的人之一,他创造的搜狗长期稳居搜索行业第二名。AI搜索是AI应用的三大场景,甚至OpenAI也在布局。


令人好奇的是,从移动互联网到生成AI,王小川是如何理解搜索产品的变化的?百小应该和市面上的AI搜索产品有什么区别?在百小应上线的第一时间,乌鸦君开始使用它。今天,你可以跟随乌鸦君,先探索水。



01 理解搜索,但不仅仅是搜索


从定位上看,百川推出的“百小应”是一款类似ChatGPT的产品、Kimi的智能助手产品不仅可以随时回答客户提出的各种问题,如快速阅读文档、整理数据、协助创作等。,还具有多轮搜索、定向搜索等搜索能力。


产品本身还具有多模式相关功能。用户可以上传照片、pdf等文档,让百小要区分内容,完成相应的指令,比如写文案。


要说百小应该和市面上的智能助手产品最大的区别就是搜索功能。用王小川的话来说,“百小应该”的一个主要特点就是可以让模型学会“多轮搜索”。


什么是“多轮搜索”?多轮搜索是指百小时应该能够进一步探索用户提出的问题的核心答案。与单轮搜索相比,多轮搜索可以在市场调研、产业分析等复杂场景中有效获得更专业、更深入的信息。


在搜索结果呈现方面,与其他简单总结一次搜索后网页信息的应用不同,百小应该直接将搜索结果应用到问答结果中作为观点和论据,以表格等结构化的形式呈现搜索结果,优化信息布局,方便用户快速定位和解读所需信息。


尽管以“搜索”功能为特征,但百川并不希望将其视为搜索。 AI的产品。用王小川的话说,“如果搜索结果简单总结,搜索公司可以自己做,而不是创业公司。”从长远来看,AI助手将从AI“工具”升级为“合作伙伴”。


换言之,与市场上直接给出搜索结果的搜索产品相比,百小应该更愿意将搜索作为与用户互动的场景。


02 搜索功能一手评价:有特色,但不完美。


打开百小应用程序,将直接出现一个对话框,这也是搜索功能的入口。


为更好地感受百小应与市场上AI搜索产品的区别,我们通过三个问题来解决百小应的AI。 对实用性进行了搜索测试。


第一个问题是杨立昆对AGI的看法。对于这个看似不难的问题,百小应的回答令人惊讶:


杨立昆教授是中国科学院自动化研究所的研究人员。与此同时,百小应无法给出杨立昆的观点,因为他无法打开最新的数据库,也无法提供最新的观点。


相比之下,秘塔AI和Perplexity的表现要好得多。


秘塔不仅给出了杨立昆的一些核心观点,还梳理了观点,形成了一个大纲。答案后面,还有与杨立昆相关的内容和事件科普。


尽管Perplexity不能像秘塔那样详细,但至少可以给出一些核心观点,这是基本合格的。


甚至Kimi也和Kimi一样被定位为AI助手,至少给出了杨立昆的一些基本信息和一般观点。


第二个问题是,AI搜索和传统搜索有什么区别?关于这个问题,秘塔的表现一如既往的稳定,包括整体总结和重点分类。


Perplexity直接给出了AI搜索和传统搜索的六个不同之处,从重点总结来看,Perplexity和秘塔略有不同。


让我们看看百小应的表现。百小应也给出了五个区别:搜索结果的相关性、交互技术、学习和优化、搜索结果的呈现和搜索引擎的智能化。



不仅如此,百小还根据用户AI搜索的信息需求进一步提供了百度和谷歌在AI搜索领域的实际应用案例。至少在这个问题上,百小应该没有落后于与秘塔和Perplexity的对比。


在这里,乌鸦君又问了一个问题:在AI搜索中,秘塔和百度哪个更有优势?百小应没有直接下结论,而是给出了秘塔和百度各自的优势,甚至做了一个表格。更多样化的结构化呈现形式也是百小应的一大特色。


从前两个问题来看,与秘塔和Perplexity相比,百小应该在信息准确性方面不稳定。如果你想的话 AI 与持续的对话和实时性相比,搜索真正应用于工作中,答案的准确性是首选。


所以,在最后一次测试中,乌鸦君特意挖了一个坑,问了一个完全不存在的数据:2010年拼多多的用户数量?


百小不仅没有上套,而且直接戳破了这一套:拼多多成立于2015年9月,所以2010年没有用户信息。


Perplexity也没有上套,不仅给出了正确的信息,而且还给出了更多关于拼多多用户表达的信息点。



乌鸦君没想到的是,之前表现不错的秘塔在这个问题上头晕目眩。虽然秘塔在总结中说不能给拼多多2010年的数据,但在总结中还是给出了一个错误的事实:拼多多成立于2010年。


经过三轮测试,除了Perplexity表现稳定外,百小应和秘塔在信息准确性上都“翻车”,相比之下,百小应的错误更加严重。


杨立昆AGI观点的事实错误,部分原因是模型知识库造成的信息实时性不足。


举例来说,在我问百小应问题的时候,评价一下GPT-4o?百小应会回答,数据知识更新日期是2023年,没有相关信息。但是,如果把类似的问题交给秘塔和Perplexity,他们可以给出最新的GPT-4o信息。


这与百小应的市场定位密切相关。百小应的定位类似于ChatGPT的个人助手,这意味着它的信息收集取决于模型训练数据,而AI搜索可以实时捕捉到最新的网络信息,因此在信息实时性方面更有优势。同样的Kimi无法给出GPT-4o的评价。


据其它媒体报道,百小应该提问时,搜索功能可能不会触发。然而,这种设计令人惊讶:


虽然定位为个人助手,但百小在宣传时应该注意的是,搜索技术与大模型紧密结合。“知道搜索的AI助手”也是百小应的口号。但在实际使用过程中,即时信息的获取无法像市场上的AI搜索那样完成,对用户体验影响很大。


当然,考虑到百小应该刚刚上线,这些不健全也可以理解,希望后面的产品能有进一步的改进。


本文来自微信微信官方账号“秃鹫智能说”(ID:wuyazhinengshuo),作者:智能秃鹫,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com