有了ChatGPT,读书还有用吗?
ChatGPT上半年问世,人工智能潜力呈现,为许多职业带来了一场生存危机的讨论。GPT可通过律师和工程师资格考试,撰写大学论文不能不及格,甚至可以“理解”笑话。它可以回答每个人的问题,组织生动的语言结构,模仿各种语言特征;大语言模型和图像生成 AI 将Midjourney等技术结合起来,可以让那些完全没有接受过艺术训练的人,用一句话“创造”出惊人的艺术形象。
事实上,ChatGPT的本质是大语言模型。(LargeLanguage Model,LLM)叠加生成人工智能。大语言模型,顾名思义,就是大,用大量的语素,用机器学习训练一个计算机模型。生成是指在对话中以预测的方式呈现最有可能的语素联系。
对于知识“加工”和“消费”的人来说,大语言模型和生成人工智能的能力是巨大的。大量的语素数据、深度神经网络和巨大的计算能力相当于“铺平”整个来自互联网的知识,然后通过人机互动进行“自组装”。
就计算逻辑而言,ChatGPT 相当于一个更强大的搜索引擎。谷歌、百度等普通搜索引擎,通过爬虫“扒”整个互联网信息,通过复杂的算法进行排序。人工智能使用机器学习的方法相当于用预测的方式整理出这些被扒出来的信息,符合语言逻辑。知识加工变得更加方便快捷,消费变得更加简洁明了——有时候甚至太简单,给了考试论文作弊的机会。
针对这一点,技术乐观主义者认为,既然机器从现在开始可以产生的内容可能不需要大多数人的大脑来实现,就像搜索引擎取代了图书馆的收藏卡和计算器来代替珠算一样。的确,即使是那些需要大量重复文字工作的人,或者机械列举、整理工作, AI 不要介入最后的决定,的确还能提供相当大的生产力,帮助人类加工和消费知识。
所以,读书还有用吗?高校、研究机构的人员,也能下班吗?
01 机器可以“学到”什么
大语言模型和生成人工智能给未来的知识“生产者”带来了一个不可回避的话题:什么是知识?如何生产多样、公平、真实的知识?
人工智能的“学习”能力令人惊叹。当前的大语言模型和人工智能应用,都离不开机器学习作为其背景。“学习”二字,本质上是利用大量的数据训练来预测模型,并在预测的准确性和普遍性上找到平衡。这一预测实际上是基于当前的知识,语言模型的预测,也是基于当前语言之间的联系。例如输入“红烧”,机器预测“肉”;接着,根据更多的输入,如地点、人、习惯等,给出更准确的预测,如“外婆做的红烧牛肉”等。
这一预测是如何实现的?众所周知的坐标系是二维的。举例来说,在整个人群中,身高和体重有一个大致的关系,给出身高,机器预测一个平均体重,就是基于当前数据的预测。再次倒入另一个层次,比如性别,那就成了三维坐标,男女的预测也会有所不同。这样,数据的维度就可以是无限的,机器学习的模型就是在人脑无法想象的多维空间中找到这种联系,并不断优化每个维度之间的权重。举例来说,身高对体重的预测“有多重要”,可在大量数据输入后进行调整。
因此,基于机器学习的人工智能将各个维度的数据与更高维度的空间联系起来,具有发现数据之间潜在联系的能力,并“学习”现实中不存在但可能存在的一些联系。在语言模型中,人工智能还可以学习不同的语言特征,探索当前文字中的“本质”和“问题”。
资料越大,模型越完善,其运算挖掘能力也越高。类似于 BERT、GPT 这种方法起源于大型机构 AI,被很多人认为已经到了技术的“拐点”,量变产生质变也不是没有道理的——这对知识生产者来说是一件好事。然而,大模型也存在一些问题。模型越大,问题越锐利,尤其是涉及到知识的多样性、公平性和真实性。
02 如何才能产生真正公正的知识?
新知识可以从目前的知识联系和新模式中获得,这是从人和机器层面建立起来的。然而,现有的知识是否足够?充分吗?公平吗?如果目前的知识基础不足,甚至有偏见,那么在此基础上建立的新知识也会带来误差。
自从机器学习AI投入大规模应用以来,学者们一直在不断揭示这些模型的内在偏见:性别歧视、种族歧视、违背伦理输出等。开发人员用各种补丁和纠正偏差来填补,但大多数问题都隐藏在数据生产和训练过程中,AI的偏见也体现和放大了社会偏见。
另外一个问题是数据的质量。机器学习不仅涉及到训练模型的能力,还涉及到数据的质量和数量。现有的R&D流程,对模型的性能有更多的强调甚至迷信,反而会忽略更低层次的信息来源问题。如今,大多数数据都依赖于人工清理和格式,包括数据分类、标记等。许多情况下,这一制作数据的过程是不透明的,甚至是潦草的。举例来说,大型企业AI开发的背后,是大量“脏乱”的人工外包给欠发达地区的“AI工厂”。这一过程一方面存在劳动伦理问题,另一方面也对数据质量提出了挑战。
在大模型时代,这个问题可能会被隐藏得更深:并不是每个研究人员或团队都有能力从0开始开发AI模型,尤其是大语言、大图像模型,大部分都是在现有模型的基础上进行微调。大模型本身的问题和误差会转移到更多的应用模型上。而且误差越低,越难通过微调来处理。
当前语言模型的预测生成方法,甚至会放大现有的数据误差,产生“过拟合”的效果:
例如,在某一群体中,某一疾病的统计数据占比较高,约60%;但是如果让语言模型产生病人的画像,那么90%以上的可能性,产生的病人描述就会属于这个群体。
目前一些AI模型训练,采用了一种“互搏”模式——所谓的“生成对抗网络”(generative adversarial network),让两种模式相互生成,相互纠正。这种方法确实提高了模型训练的效率,但任何小错误都应该放大在这种“相互战斗”中。同样的原则,如果一个与机器密切合作的知识制造商依赖于这种“生成”,那么一些来自模型偏见的知识将被嵌入到更多的新知识中,新知识将被吸收为数据,模型误差将进一步加强。在这一过程中,知识生产者必须提高警惕。
03 什麽是新知识?AI “生成”能否代表新的知识?
究竟什么是所谓的新知识?
若要充分利用AI来生产知识,则知识生产者必须从人机的契合点来思考这一问题。人类从现实世界中获得的任何信息和知识,都需要被“清理”和“格式”成数据。除上述数据质量外,数据生成过程也非常重要。简单地说,人们要探索哪些问题?这一问题被翻译成什么样的数据?这一信息是如何制作的,是否全面、公正地代表着知识生产者想要探索的问题?
这一问题,对于“传统”的知识生产者来说,也是一个问题。就拿历史学来说,虽然历史研究的是过去的事,但是过去的事并不能100%盖棺定论。学者们通常会不断地寻找新的历史资料,以补充对历史问题的认识,不断地探索过去被忽视的视角和声音。有趣的是,目前的历史经常向大量数据寻求帮助,尤其是过去的经济、人口和气候数据,甚至依靠机器学习,给历史带来新的认识和观点。
同样,依靠机器产生的理解和观点也可能放大某些信息来源的重要性。如今,知识制造商过于依赖互联网和电子信息的主流物品,并在其他被“翻译”为数据的物品中进行创建。AI时代,AI 提供的便利性和可扩展性也会让人们更容易忽视非主流、经验性的知识,而不会被数据化、电子化,从而错过产生新观点、新视角的概率。
在更深层次上,新知识通常发生在新材料的挖掘、不同观点和视角之间的碰撞以及当前知识的再解构中。大语言模型给知识的呈现带来了很多概率,但逻辑和结构可能与这种生产方式相悖。
基于大语言模型的训练方法和模型生成的输出特征,排名靠前、概率更高的导出内容,权重会变大,特征会变得更加单一。。“AI产生的”几乎成了一个修饰词,用来描述那些没有特色的、重复的、像没有说过的话。诚然,对于知识消费者来说,“最有可能”的答案大大降低了理解的门槛;但是对于知识生产者来说,这些东西可能会成为障碍。
04 新时代的知识生产者应该去哪里?
可能很多像我这样的社会科学研究者在使用ChatGPT的时候都遇到过这个问题:问它解释一个概念,说得清清楚楚;然而,当被问及来源时,它是“一本正经的废话”,例如,列出一本作者从未写过的书和一篇从未发表过的论文。领域越小越专业,“废话”的概率越大。
退回到 AI 原则上,这种“创造”实际上是在海量的信息中探索“可能”的词语之间的联系,但这些联系在现实中并不存在。说白了,只是“听起来很像”。这一新现象,在当今被称为“幻视”(hallucination)。对于知识生产者来说,如何利用人工智能挖掘当前知识库中的方式和联系,也是一项非常重要的技能,可以提高对机器“幻觉”的警惕。
与AI的“对话”也将成为一项新技能。对于大多数非技术人员(甚至技术人员)来说,目前的AI仍然是一个神秘的“黑箱”。如何从技术底层或中层入手,更有效地与机器对话,理解和抵抗“幻觉”,需要知识生产者与技术从业者的合作。。
而且对新知识、新视角、新材料的研究,各领域独特的结构和诠释,在当今仍是非常重要的。大型语言模型和生成式AI的预测方法,仍然倾向于单一、重复,训练材料越少,能力越有限。如果你想整合机器和人的能力,你必须从数据生产的根源入手,用准确、多样、公平、新颖的数据训练AI模型,建立良性的人机互动模式。
大语言模型和生成式AI的出现给研究人员带来的挑战只是开始。与其讨论“替代”,不如在更谨慎的眼光下寻找磨合和发展的可能性。
本文来自微信微信官方账号“腾讯研究院”(ID:cyberlawrc),作者:李子,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com