FX168财经报社(北美)讯 周一(6月19日),随着越来越多的人工智能生成的内容在网上发布,未来的AI在这些材料上进行训练时最终会变成一些无意义的内容。
一组英国和加拿大科学家在5月份发布了一篇论文,旨在了解在几代AI彼此之间进行训练后会发生什么情况。
其中一个案例是,第九代AI在原始的材料内容是关于中世纪建筑的情况下,却思想混乱的开始谈论不相干的内容。
研究论文的作者之一、剑桥大学教授Ross Anderson在一篇关于研究结果的博客中写道,数学模型显示,“在几代AI传承之内,输出的文本就变成了垃圾”。他们还指出,图像也会失去可理解性。
这些科学家的论文尚未经过同行评审,他们将其称为“模型崩溃”。
ChatGPT和OpenAI等大型语言模型通常被认为是基于从互联网上获取的大量数据进行训练的,而这些数据直到最近都是主要由人类生成的。
但随着我们对这些工具的使用增加,人工智能生成的内容正在大规模地添加到未来语言模型将学习的在线数据池中。
科学家们表示,经过几代的训练,这意味着错误和无意义的情况将会不断增加,使得后续的人工智能无法区分事实和虚构。这些人工智能将会“开始错误地解释他们认为是真实的事物,从而强化他们自己的信念”。
Anderson使用莫扎特及其不那么有才华的同时代作曲家安东尼奥·萨列里的作品来说明这个问题。他写道:“如果你用莫扎特训练一个音乐模型,你会得到一些有点像莫扎特但缺乏亮点的输出结果—我们称之为'萨列里'。如果现在由萨列里训练下一代,依此类推,第五代或第六代会是什么样子?”
论文的首席作者、牛津大学的Ilia Shumailov博士表示,问题出在AI在之前的AI上进行训练后对概率的理解。不太可能发生的事件在其输出中越来越不太可能反映出来,这限制了下一代AI在理解上一代AI输出的可能性。
论文中给出的一个例子是,将一个由人类生成的关于中世纪建筑的文本输入到一个AI语言模型中,然后使用该模型的输出来训练后续几代的AI。
原始文本中对竞争的建筑理论进行了熟练的处理,经过多次循环后,第九代的文本变成了无意义的内容。
Anderson将其比喻为大规模的污染,写道:“正如我们将海洋填满了塑料垃圾,大气层充斥着二氧化碳一样,我们即将用无聊的内容填满互联网。”
人工智能生成的内容已经大规模地在网上出现。在线虚假信息监测机构NewsGuard在5月份警告称,他们发现了49个新闻网站,看起来完全是由人工智能编写的。
而根据《华盛顿邮报》的报道,营销和公关机构越来越多地将它们的文案交给聊天机器人,使人类作家失去了工作机会。
但是,在Shumailov和Anderson的研究结果出来之后,希望不被AI超越的人类作家们还不能太过自满。
Shumailov表示,人类生成的数据并不是训练AI所必需的绝对要素,人类生成的数据之所以有用,是因为它们包含了自然变化、错误和不太可能的结果。“所以人类肯定会提供帮助,但同时也不意味着人类数据是一个重大要求。”