实测Step3.7 Flash:一文看懂多模态Agent真的能做哪些事

2分钟前

本文来自微信公众号: 叶小钗 ,作者:叶小钗



最近新出的Step 3.7 Flash多模态Agent能力怎么样?我实际跑了一遍测试,带大家看看它到底能完成哪些真实任务。首先我们先测试最基础的图像识别能力,测试用到的原图如下:







测试结果很直观,基础的图像识别任务它完成得很顺畅,没有出现识别错误或者内容偏差的问题。既然图像识别没问题,我们就可以顺着这个能力走完全流程:直接让它根据识别到的产品信息制作一份产品介绍页,更贴近实际的使用场景。



搭建产品介绍页






从生成的结果能看出来,它完全是按照提示词的要求生成产品介绍网站的。网站整体的配色和产品本身的主题色匹配度很高,视觉风格非常统一融洽,甚至还主动加上了前端动效提升交互感,整个页面的完整度超出预期。



测试长链条Agent任务



接下来我们测试多步骤长任务,我给的任务提示词如下:





这个任务要求并不简单:首先需要联网搜索获取目标数据,接着把整理好的数据做成一份完整的Word报告,最后还要把报告内容转化成可视化网页。这次我用到了Knowledge Site Creator技能,这个技能本身主打知识学习类场景,非常适合处理这类内容向的长任务。



这是最终生成的报告:









能看出来,生成的Word报告内容覆盖非常全面,不仅做了基础的数据整理,还加入了基础数据分析,并且用表格、柱状图来呈现内容,可读性很强,整个任务的完成度非常高。



完成Word报告之后,我们继续下一步,把报告内容转化为可视化网页。





从Agent生成的网站结构就能发现,Knowledge Site Creator这个技能天生更适配教育类知识网站,拿来做产品介绍也能用,但在知识内容呈现上的优势要明显很多。







用这个技能生成的页面,会自带很多适合学习的功能模块,比如知识点卡片、学习回顾板块等等,这些模块用在知识内容里非常自然,能直接形成完整的学习体验。



也正因如此,它非常适合用来搭建教育类知识网站。



比如喜欢历史的用户,可以用它做一个历史知识点复习网站;关注AI领域的用户,也可以用它做一个AI技术知识点学习站,直接把内容生产和内容展示衔接在一起,效率提升非常明显。



举个实际的例子,把下面这段提示词发给Agent:



联网搜索,调研Agent调用相关的能力发展和应用,尽量从权威的机构或者信息源进行获取。包括技术博主,行业报告,AI平台资料,官方的技术文档等等。重点梳理Agent从单轮问答到工具的调用,多任务执行,工作流的编排。分析核心能力,应用场景,未来趋势这些。



首先给我一份3000字的word的报告,要求结果清晰,内容完整,语言专业具有易读性。分析上述的这些问题。



然后调用,Knowledge Site Creator Skills,利用这个技能制作一份知识学习网站,网页制作参考技能中的说明,包括首页,Agent调用,发展时间线,核心技术架构等等。



发送提示词之后只需要等待几分钟,就能得到下面这样的成品网页:





一个完整的可视化知识学习网站就搭建完成了,这个技能确实完美适配这类知识网页的制作需求。





看完了内容类任务,那这个新模型实际处理编程任务的表现怎么样呢?我们接着测试。



编程开发任务测试



我之前做过一个AI新闻收集网站,当时只完成了基础demo,还留了不少问题:既有代码bug,也有页面设计问题,比如配色不统一、布局不协调、导航栏UI细节粗糙等等。这次我就让新模型来修复这些历史遗留问题。







整个修复过程非常简单,只需要用自然语言把需求说清楚就可以,比如我只提了一句“把运维面板页面的配色和布局优化一下,参考首页的风格”,模型就可以准确理解需求开始修改。





局部优化的细节就不多说了,我们直接加一个全新功能:如果收集到的AI新闻本身是视频内容,该怎么处理?





我们需要新增一个视频讲解页面,放在正常开发流程里,页面布局、配色、UI设计这些工作,一般是产品、UI、前端三个岗位配合完成,个人开发者往往很难同时搞定这些,这个时候就可以让AI先帮我们出一份前端UI设计方案,先把页面结构和视觉方向定下来,方便后续落地开发。这是模型生成的前端UI效果参考图。



我用的提示词是:



做一个页面做视频讲解的页面,需要有视频的预览窗口,点击视频分析后右边弹出窗口进行视频讲解的输出,根据网页的美观化设计,帮我设计一个这样的页面图






确定好需求和设计之后,就要让模型理解整个项目结构、理清上下文,新增功能:







最终新功能的后端接口被正确创建在了项目对应的Controller文件中,完全符合项目原有的文件结构规范。







虽然最终生成的页面和参考设计图在风格上有一点差异,但核心功能已经全部实现,剩下的只需要做细节优化和页面打磨就可以。能在这么短的时间里把核心功能搭建完成,用来做快速功能验证已经完全够用了。





总结


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com