OpenAI语音转录工具暴露出一种严重的幻觉:转录100小时,一半是无稽之谈。
AI语音转写工具OpenAI,被称为“人类水平”的AI语音转写工具Whisper,暴露出严重的幻觉——
超过100个小时的转录,大约有一半的工程师发现了胡说八道。
更为严重的是,美联社还爆料称,一些医疗机构使用Whisper转录医生和病人的会诊,瞬间引起了大量网友的关注。
据报道,超过3万名临床医生和40个卫生系统,包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院,已经开始使用法国AI诊疗企业Nabla基于Whisper的工具。
并且他们已经转录了大概的转录。700万次医疗就医。
网民们纷纷表示,这有点吓人。
值得注意的是,OpenAI之前已经警告过,这个工具不应该应用于“高风险领域”。
对于最新的爆料,OpenAI发言人回应称,OpenAI将在模型更新中添加相应的信息反馈。
OpenAI被敦促快速处理这个问题。
OpenAI早期推出的Whisper开源自动语音识别(ASR)该系统于2022年9月发布。
基于编码器-解码器Transformer架构,它采用了简单的端到端方法。输入音频将分成30秒的块,转换成梅尔倒谱(音频特征提取方法之一),log-Mel spectrogram),然后传输到编码器。
Whisper可以通过练习68万小时的多语言和多任务来转录多语言数据。
在推出Whisper之后,GitHub已经获得了70.2k的标星:
据报道,它还集成在ChatGPT的一些版本中,同时也是Oracle和微软云计算平台的内置服务,这些平台为全球100多家企业提供服务。
另外,就在上个月,HuggingFace上最新版本的Whisper被安装了420多万次。机器学习工程师SanchititeHugingFace社区 Gandhi表示,Whisper是最受欢迎的开源语音识别模型。
现在,根据美联社的报道,很多研究人员和工程师都表示,他们在工作中经常会遇到Whisper的幻觉。
例如,在试图改进模型之前,密歇根大学的一位研究人员发现,每10个音频转录中就有8个出现幻觉。
一位机器学习工程师指出,在他分析的Whisper转录超过100小时后,大约有一半出现了幻觉。
另一位开发者说,在他使用Whisper建立的26,000份转录中,几乎每一份都发现了幻觉。
……
这种问题甚至存在于录制好的短音频样本中。
在最近的一项研究中,计算机科学家在13000多个清晰的音频片段中发现了187个错觉。
工程师和研究人员表示,他们从未见过像Whisper这样的其他AI驱动转录工具频繁出现幻觉。
目前还不清楚Whisper幻觉严重的原因,但是一些软件开发者表示,在间歇、背景声或播放歌曲时,虚构内容经常发生。。
在此之前,OpenAI提示:
在决策情况下不要使用Whisper,准确性的缺陷可能会导致严重的结果误差。
不过,美联社表示,这一警告并没有阻止一些医院或医疗中心使用Whisper等语音转文字模型。——
由Nabla公司基于Whisper开发的工具已经被Nabla公司使用,包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院。
Nabla CTO Martin 根据Raison的说法,该工具对模型进行了微调,用于转录和总结病人的交流。
现在,该工具已经被用来转录约700万次医疗。
Nabla在得知Whisper可能会产生幻觉后表示,他正在解决这个问题,但是:
由于“数据安全原因”,Nabla的工具会议删除原始音频,无法将Nabla产生的AI文本与原始音频进行比较。
另外,据了解,Whisper也被用来为聋人和听障者设置字幕。
在发现Whisper幻觉的严重问题后,有人催促OpenAI尽快处理这个问题。
Williamiamiamiami今年2月离开OpenAI。 Saunders也开麦:
如果企业愿意优先考虑,这似乎是可以解决的。如果你把它放出去,你会对它的功能过于自信,并将其整合到所有其他系统中,这将成为一个问题。
一位OpenAI发言人回应说,该公司继续研究如何减少幻觉现象,并感谢研究人员的发现,并补充说OpenAI将在模型更新中融入相应的信息反馈。
参考链接
[1]https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c9bb14414
[2]https://x.com/AP/status/1850150400424345858
本文来自微信微信官方账号“量子位”,作者:西风,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com