GenAI 数据科学团队正在重塑

2025-04-04

生成人工智能 (GenAI) 为了缩短开发周期,减少技术和维护的工作量,实现之前看似遥不可及的创新用例,打开了大门。同时也带来了幻觉和对第三方的新风险 API 的依赖。


这一演变直接关系到数据科学家和机器学习团队的角色。一个新的人工智能项目已经出现,其中一些已经由外部模型提供商提供(OpenAI、Anthropic、Meta、DeepSeek…)实施。目前,非人工智能专家团队可以相对轻松地集成人工智能解决方案。本文将讨论这一切对于数据科学和机器学习团队意味着什么:


各种各样的问题我们都能解决,但并非所有的问题都是人工智能问题。


传统的机器学习并没有消亡,而是通过 GenAI 得到增强


一些问题是最好的 GenAI 为了解决,但是仍然需要 ML 运行评估专业知识,降低道德风险


在企业中,人工智能素养越来越重要,以及数据科学家如何发挥关键作用,使之成为现实。


我们可以解决各种各样的问题,但是并非所有的问题都是人工智能问题。


GenAI 释放出更广泛的问题处理问题潜力,但是这并不意味着每一个问题都是 AI 问题。数据科学家和 AI 专家们仍然确定何时使用。 AI、选择合适的 AI 解决问题的核心是技术和设计和实施可靠的解决方案(无论解决方案如何) GenAI、传统 ML 或者混合法)。


但是,虽然人工智能解决方案的广度在不断扩大,但是仍然要考虑两件事来选择合适的用例,以确保解决方案面向未来:


任何特定的时刻,GenAI 所有的模型都有一些限制。,这些限制可能会对解决方案产生不利影响。这一点一直适用,因为我们处理的是预测和概率,它们总是有一定程度的偏差和不确定性。


同时,技术也在进行迅速发展,并且在不久的将来继续发展,减少和修改 GenAI 模型的局限性和弱点,以及新的功能和特性的改进。


假如现在出现了 LLM 如果版本很难解决但未来版本可能会解决的具体问题,那么等待或开发一个不完美的解决方案可能更具战略意义,而不是投资复杂的内部开发来做太多的工作来修复当前的问题。 LLM 局限性。数据科学家和人工智能专家也能帮助他们。介绍所有这些进展方向的敏感性,并且区分哪些事情可以从模型提供者处理,哪些事情需要在内部解决。例如,添加用户可以被编辑或监督。 LLM 与通过复杂的逻辑或微调实现完全自动化相比,输出功能可能更有效。


市场差异化不会仅仅来自于使用。 LLM,因为现在每个人都可以使用它们,而是来自于它们所能提供的独特的体验、功能和价值产品(如果我们都使用相同的基本模型,我们有什么区别?)。


有了 GenAI 数据科学团队可能需要解决方案减少对模型开发部分的关注,并更多地关注整个模型。 AI 系统


传统的机器学习并没有消亡,而是通过 GenAI 得到增强


尽管 GenAI 人工智能领域和很多行业已经完全改变,但是传统的机器学习仍然是不可或缺的。许多用例仍然需要传统的机器学习解决方案(以大多数不处理文本或图像的例子为例),其他问题可能仍然可以用机器学习,而不是用机器学习。 GenAI 更加有效地解决问题。


GenAI不仅不能取代传统的机器学习,相反,它往往是补充的:通过混合机器学习,可以实现更快的原型设计和实验。 GenAI 为了提高某些用例,解决方案。


传统的 ML 工作流程中、开发,如自然语言理解。 (NLP) 类似分类器的解决方案包括:获取训练数据(可能包括手动标记)、准备数据,练习和微调模型,评估性能,部署,监控和维护系统。这个过程通常需要几个月,而且需要大量的资源设计与持续维护。


相比之下,使用 GenAI,大大简化了工作流程:选用合适的大型语言模型 (LLM)、快速工程或快速迭代,离线评估,并使用 API 将模型整合到生产中。这大大缩短了从构思到部署的时间,通常只需要几个星期而非几个月。另外,大部分维修负担都是由 LLM 供应商管理,进一步降低了运营成本和复杂性。



因此,GenAI 能够快速测试思想并证明其价值,而且不需要收集标记数据,也不需要投资培训和部署内部模型。当价值得到证实时,ML 这个团队可能决定转变为传统 ML 为了降低成本或延迟,解决方案可以从最初的开始使用。 GenAI 标记系统数据。类似地,目前很多企业在价值得到证实后,都转变为小型语言模型。 (SML),由于它能在实现和实现的同时进行微调和更轻松的部署, LLM 性能相当或更好。


最好的解决方案是在其他前提下。将 GenAI 与传统 ML 与混合系统相结合,充分利用两者的优点。一个很好的例子是 “构建大型语言模型 DoorDash 在商品知识图中,他们解释了传统的方法。 ML 模型与 LLM 共同使用来改进分类任务,如标记商品品牌。当传统 ML 当模型不能更好地对某些事物进行分类时,就会使用。 LLM,如果 LLM 如果你能做到这一点,你就会用新的注释再次训练传统。 ML 模型。


不管怎样,ML 这个团队将继续致力于传统。 ML 解决方案、同时对预测模型进行微调和部署。 GenAI 如何帮助提高解决方案的速度和质量?


3.GenAI 更好地解决某些问题


人工智能领域正从使用大量内部专用模型转变为使用少数外部企业拥有的大型多任务模型。机器学习团队需要接受这些变化,准备将 GenAI 包括解决方案为了保持竞争力,它可能使用的方法列表。尽管模型训练阶段已经完成,但是仍然需要保持对机器学习和人工智能的思维方式和敏感性,因为解决方案仍然是概率性的,与传统软件开发的确定性有很大不同。


虽然 GenAI 带来了很多好处,但是 ML 这个团队仍然需要应对自己的一系列挑战和风险。基于考虑 GenAI 而非基于内部传统的解决方案 ML 在解决方案时,主要增加的风险包括:



  • 依赖第三方模型:

这将带来更高的延迟和缺乏控制(因为我们现在对其培训数据或设计决策的了解有限,提供商更新可能会在生产中引入意想不到的问题),这可能会导致新的调用成本,可能会影响实时系统特性。


  • GenAI 独有的风险

:我们非常清楚 GenAI 自由输入/自由输出关系。自由输入会带来新的隐私和安全风险(如数据泄露或提醒注入),而自由输出会带来幻觉、毒性或偏见和歧视增加的风险。


仍然需要机器学习专业知识来评估和降低道德风险


尽管 GenAI 与传统相比,解决方案一般 ML 模型更容易实现,但是它们的布局仍然需要 ML 专业知识,特别是在评估、监测和道德风险管理方面。


和传统的机器学习一样,GenAI 成功取决于稳定的评价。。因为这些解决方案有一般的“自由导出”关系(答案的相关性、准确性、语气、幻觉、伤害风险等)。),所以需要从多个角度来评价。这一步在部署前运行是非常重要的,通常被称为“线下评估”,因为它可以帮助人们了解系统部署时的行为和性能


一旦部署了 GenAI 解决方案,为了保证其能够按预期进行监控,监控变得尤为重要。或者长期以预期的方式工作。可以检查评估中提到的类似指标,确保离线评估的结论在布局解决方案并使用真实数据后能够得到维护。


GenAI 模型复杂性和黑盒设计较大,他们可能承担的道德风险被放大了。机器学习团队发挥着至关重要的作用。他们把值得信赖的人工智能知识带到桌面上,对可能出错的事情有敏锐的观察,识别和降低这些风险。这项工作可以包括运行风险评估、选择偏见较少的基本模型、公平评估和无歧视指标的定义和评估,以及应用技术和护栏,以确保输出与社会和组织的价值观一致。


在公司中,人工智能素养变得越来越重要


企业的竞争优势不仅取决于其内在的优势 AI 这个项目,也取决于它职工对 AI 理解和使用效果。培养团队的数据科学家 AI 在素养方面起着关键作用,使员工能够利用它。 AI,了解其局限性和风险。在他们的帮助下,AI 不但要成为R&D团队的工具,而且要成为整个组织的核心竞争优势。


为了提高 AI 数据科学家和组织可以实施素养。 AI 内部培训、研讨会、聚会、黑客马拉松等专家领导的各种计划。这一意识可以帮助:


通过鼓励团队将通用人工智能或基于人工智能的特定功能应用于已经使用的工具,提高内部团队,提高其生产力。


  • 从团队内部及其专业知识中辨别出具有巨大潜力的机会。

。业务产品专家可以针对之前被认为太复杂或者无法实现的主题提出优秀的项目想法(现在借助 GenAI 也许会实现)。


总结:数据科学家的角色不断演变


毫无疑问,数据科学和人工智能领域发生了快速变化,数据科学家和机器学习团队的作用也发生了变化。虽然 GenAI API 确实可以让缺乏 ML 实施知识团队 AI 解决方案,但是 DS 和 ML 团队的专业知识对于稳定、可靠、道德的解决方案仍然具有重要价值。在这一新背景下,数据科学家的角色重新定义包括:


  • 紧跟人工智能进展,

这样就可以选择最好的技术来解决问题,设计和实施优秀的解决方案,并且在承认局限性的同时,使解决方案面向未来。


  • 选择系统范围的角度,

并非只关注预测模型,变得更加端到端,并且与其它角色合作,从而影响用户与系统的互动和引导。


  • 继续致力于传统 ML 解决方案,

同时了解 GenAI 如何帮助提高解决方案的速度和质量?


  • 对GenAI的局限性和风险有深刻的认识,

构建包括评估、监控和风险控制在内的可靠可靠的AI系统。


  • 担任整个组织 AI 领头人

提高 AI 培养和协助非技术团队使用 AI 并且识别正确的机会。


数据科学家的角色不会被取代,而是被重新定义。通过接受这种进化,引导组织有效负责地利用人工智能仍然是不可或缺的。


本文来自微信微信官方账号“数据驱动智能”(ID:Data作者:晓晓,36氪经授权发布,_0101)。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com