新浪新闻客户端

【睿见】胡泳等 | 大语言模型“数据为王”:训练数据的价值、迷思与数字传播的未来挑战

【睿见】胡泳等 | 大语言模型“数据为王”:训练数据的价值、迷思与数字传播的未来挑战
2024年05月08日 17:31 新浪网 作者 盘古智库

  伴随着ChatGPT的问世和流行,关于生成式人工智能的意涵和影响迅速成为学界和业界的关注焦点。在这场由大语言模型引领的非监督性深度学习浪潮中,一个核心议题就是训练数据。对训练数据的规模和质量的追求,演绎了“万模大战”形势下的“数据为王”法则。而在训练数据的价值、功能和误读的背后,是对数据概念的改写、对数据可供性的迷信和对数据所有权的争夺。训练数据的具体架构和内部机制引发了智能传播生态的重建和信息生产秩序的重构,在这一变革之中也蕴藏着大语言模型时代的数字危机,其具体体现为蒸馏式传播的偏见再生产、过滤式传播的信息保守化和随机性传播的意义之消散。大语言模型及其训练数据急需破除规模迷思,着重思考如何让数据切实成为社会技术系统的一部分。

  本文作者系盘古智库学术委员、北京大学新闻与传播学院教授胡泳。文章来源《西北师大学报社会科学版》2024年第3期。

  本文大约16000字,读完约40分钟

  引言

  自2022年11月OpenAI首次向公众开放聊天机器人ChatGPT以来,不管是科技精英、媒体从业者还是普罗大众都惊叹于这一被称为大语言模型(large language model,LLM)的生成式人工智能所拥有的类人智慧、应用前景和社会潜力。不仅Alphabet、Meta、亚马逊和英伟达等全球科技巨头都训练了自己的大语言模型,并给予它们以诸如PaLM、Titan、Megatron、Chinchilla等令人眼花缭乱的命名,那些尚未加入这场“万模大战”的新型公司和传统企业也正在围绕生成式革命而重新部署、设计、规划产品和未来商业模式。然而,在大语言模型和生成式人工智能一路高歌猛进的过程中,也始终充斥着担忧和批判的声音,其中一种强烈的声音指向一个似乎已成共识的问题,那就是大语言模型之“大”。

  若想理解大语言模型饱受争议的原因和根本,首先要弄清其前所未有的特征和这些特征所带来的变化。大语言模型是语言模型的一个子集,根据数据科学研究者的定义,语言模型就是根据一些训练数据,为一段从未出现过的文本匹配一个概率。正如信息理论家、自然语言处理研究者弗雷德里克·耶利内克(Frederick Jelinek)所说,语言模型的任务是为识别器(recognizer)提供关于概率的充分估计,并在上个世纪末就展示了如何直接从训练数据计算其参数,使其适合当前识别任务的文本。语言模型的研究开始于语言生成概率模型的研究。大语言模型之“大”在于它不断扩展的规模,而对于规模的追求则源自于语言模型的缩放法则(scaling law),即语言模型的性能依赖模型的规模,具体包括:参数数量、训练数据的大小和计算量,最终的模型效果会随着以上三个因素的指数增加而得到显著提高。这就意味着,若想提高语言模型的性能,可以通过提高模型的参数量、扩大训练数据的规模来实现。而当规模超过某个临界阈值时,模型的性能会显著高于此前的随机效果,这种在小模型中没有,而在更大规模的模型中出现的能力,就是大语言模型的“涌现能力”。

  实际上,多年来人工智能领域存在诸多相变现象(phase transition),即问题中的某个参数发生较小的变化便会引起问题的某个属性发生突变的现象,而相变现象与问题的求解结构密切相关。具体到今天正在发生的大语言模型引领的生成式革命中,深度影响着问题求解结构的参数就是训练数据(training data)。大语言模型和生成式人工智能在根本上高度依赖此前的语料库,即训练数据进行无监督或半监督式的自我深度学习。训练数据是大语言模型能够获得生成、推理、预测等能力的基础。也正因如此,围绕生成式人工智能的“万模大战”还应有另一重题中之义,那就是“数据大战”。

  由是,若想讨论今日人工智能革命的潜力和危机,绝对无法绕开的话题就是训练数据,以及训练数据对于数据意涵、智能传播和信息生产的改变和重构。

  一、大语言模型的“数据为王”:训练数据的价值与误读

  近年来,包括卷积神经网络(CNN)、循环神经网络(RNN)、图神经网络(GNN)在内的诸多深度神经网络(DNN)广泛实践于各类人工智能的任务中,完成了一轮又一轮社会化的落地和推广。在日常生活中,人们早已习惯并熟稔于人脸识别、语音识别、机器翻译、文本转换等技术应用的存在。今天,以ChatGPT、New Bing、文心一言为代表的聊天机器人的流行依然内嵌在深度神经网络的发展脉络中。而深度神经网络与此前非神经模型的传统机器学习的区别就在于:传统机器学习依赖人工的特征设计、特征提取和统计方法,而深度神经网络则依赖机器的自动、自主学习,将从大量的数据中学习低维连续向量作为特定任务特征,避免了以往繁复的特征工程(feature engineering)。尽管深度神经网络凭借其先进性已经取得了初步成功,但许多研究表明,深度神经网络所面临的关键挑战之一就是数据匮乏。由于深度神经网络通常具有大量的参数,在没有足够训练数据的情况下,它们容易出现过度拟合(overfitting)的问题,因此泛化(generalization)能力较差。基于这一挑战,自深度神经网络发展伊始,开发者就致力于构建数量庞大且质量较高的数据集。这一传统也延续到今天在深度学习框架之下发展出的大语言模型,可以说,训练数据是大语言模型发展的基本保证和必要条件。

  预训练模型的第一个应用浪潮发生在计算机视觉领域。当时被作为训练数据的都是有标记的数据,起到关键作用的是一个名为ImageNet的大型视觉数据集,该项目手动标记注释了上千万的图像,图像的类别也具有较高的细粒度。基于ImageNet数据集,包括ResNet-50在内的一些预训练模型广泛应用于计算机图像领域的诸多下游任务中。由于自然语言处理中的下游任务更加复杂和多样,需要标记的数据相较图像而言也更具复杂性和模糊性,因此尚未出现一个如ImageNet般的成熟的有标记数据集。结果就是人类力量的干预进一步撤退,大语言模型的开发者们放心地将庞大的、杂而无章的未标记数据交给机器进行自监督学习。当人类的主观能动性让位给人工智能的深度学习,黑格尔式的主奴辩证法便开始在今日的人机关系中悄然上演。

  2017年谷歌推出的Transformer架构作为自然语言处理模型已经能够持续不断地从更大的模型结构和更大的数据体量中持续受益。2018年谷歌的高级AI研究员雅各布·德夫林(Jacob Devlin)发表了BERT模型的论文。该研究表明,在大型数据集上进行训练并针对特定任务进行微调,而无需对特定任务的架构进行大幅修改,就能够将GLUE分数(衡量自然语言处理任务表现效果的指标)提高到85%。这一在概念上简单但在经验上有效的新语言模型再一次将自然语言处理推向了新的高度。BERT模型的效果之好、影响之广,在2020年的一篇研究论文的发现中尽显无疑——在很短的时间内BERT就成为自然语言处理实验中无处不在的基线,以该模型为基础进行分析和改进的研究论文超过了上百篇。而BERT作为此后大语言模型的基准线,它所奠定的基调就是:在预训练阶段使用大量无监督的文本让机器进行自监督训练,同时把文本包含的语言知识以参数的方式编码到Transformer架构中;到微调阶段,则使用较小数据量并引入新的特征以更加细化和准确的方式解决具体任务。

  受BERT模型的影响,一众预训练模型都纷纷加入了以大规模著称的语言模型行列,而若想在效果上有所改进,则会在增加训练数据体量和参数规模上作文章。比如,英伟达在2019年推出了宣称是当时世界上最大的语言模型Megatron-LM,该模型有83亿个参数,并在来自英语维基百科、Open Web Text、RealNews和CC-Stories数据集的174GB文本上进行了训练。此后,各大科技公司就如军备竞赛一般,不断公布着基于更多训练数据的更大的语言模型,仿佛训练数据是一种永生资源,永远没有被消耗殆尽的那一天;而只要数据规模和参数规模与提高模型性能成正相关,这场以塑造更大更强语言模型为目标的军备竞赛就永远不会停歇。

  实际上,这场人工智能革命的潜在危险正在伴随着人们对训练数据的误读而发生。首先训练数据并非不可耗尽,一项来自Epoch AI Research团队的研究预测,高质量的语言数据存量将在2026年消耗完毕,低质量的语言数据和图像数据存量将分别在2050年前后枯竭。然而,矛盾的一面恰恰在于,一壁是高质量训练数据的储备告急,一壁是科技公司对训练数据的不加节制。《经济学人》2023年4月发布的一篇报道称:随着最近诸如在大型语言模型上运行的ChatGPT和图像制作系统DALL-E2等生成式人工智能工具的兴起,公司已经开始在直接抓取的更大数据存储库上训练它们的算法;这些训练数据,在大多数情况下,均不加区别地来自开放的互联网。科技公司对训练数据的贪婪恰好对应了今天我们关于训练数据的另一重误解,而数据规模其实并不是优化模型的万能灵药。

  规模是远远不够的,这主要有两个原因:首先,当前的模型在“标记化”数据上运行,并且是生成式的,其中每个输入模态都必须转换为编码向量的“词元”(token)序列或集合。虽然这种方式适用于文本,因为文本已经是一系列离散标记,但却不太适合连续的高维信号,比如视频这种信息形态。其次,目前的模型只能进行非常有限的推理形式。这些模型中缺乏抽象的潜在变量,这就排除了对感知的多次交互的探索和寻找实现目标的最佳行动方案。

  数据规模的有限性还体现在另外一重层面:规模不能保障多样性。互联网作为一个庞大且融合了多元文化的数字虚拟空间,也必然容纳着海量且庞杂的数据。正是利用互联网的这一基本媒介特点,训练数据和生成式革命才有实践的基础,也正因如此,一系列类似Common Crawl的训练数据集可以在多年的网络爬行中收集并过滤数据,最终形成语言模型的学习养料。然而,有研究表明,即使训练数据集的数量非常之多、互联网的涵盖范围非常之广,也无法避免训练数据中多种人群参与程度的一致性,进而也无法保证训练数据的多元性和多样化。以英语语料的训练数据为例,那些在当前话语结构中占据霸权地位的观点和声音更有可能被保留,这就意味着白人至上主义、厌女主义、年龄歧视等观点在训练数据中占据过大的比例,该比例甚至会超过这些观点在现实世界普通人群中的流行程度。由此,建立在这些训练数据集之上的模型,会进一步加固少数人群的霸权话语,而抹消普通人和边缘人群的声音。

  诚然,训练数据对当前的大语言模型发展是不可或缺的,认识到训练数据的价值和重要性,是理解今日人工智能革命的发展阶段和特征的前提和基础。曾经的互联网产业走过了“内容为王”“渠道为王”的阶段,在生成式人工智能发展如火如荼的当下,“数据为王”正在成为跨国科技公司的下一个竞争法则。然而在训练数据风起云涌的时刻,关于数据的迷思也萦绕其中:今天我们如何定义数据?在训练数据出现之后,数据的概念发生着怎样的改变?在训练数据可供性的背后,隐匿着哪些技术的有限性?围绕着训练数据,互联网平台又将如何搅动新的竞争格局?这些都是我们在“万模大战、数据为王”的背景下需要重新思考和回答的问题。

  二、训练数据的迷思:数据的概念、特征与产业新变

  (一)训练数据的概念迷思:训练之下,何为数据?

  图灵奖得主吉姆·格雷(Jim Gray)曾经梳理了科学研究有史以来的四种范式(Pxviii):在数千年之前,科学发现依托于经验,主要路径是通过描述自然现象;数百年之前,科学研究走向理论化,通过使用模型归纳总结科学规律;几十年前,科学研究迎来计算时代,利用计算科学可以模拟、解释更复杂的问题;到了今天,精通数据库分析的研究人员依托于电脑存储、设备捕捉和模拟器生成的数据,辅之以操作程序,使得数据探索成为继经验研究、理论研究、计算研究之后的第四大科学研究范式。当科学日益成为数据密集型的科学,技术也越来越离不开数据这一核心资源。

  有学者曾总结了数据生产方式所经历的三个阶段,这三个阶段对应着人类社会数据量的三次重大飞跃:第一个阶段是运营式系统阶段,这个阶段的数据以数据库的概念存在,代表性的应用就是医院系统中的医疗数据、银行系统中的交易数据、超市系统中的销售记录,建立在运营式系统上的数据库的广泛使用带来了社会数据量的第一次飞跃;第二次飞跃发生在Web 2.0时期,这一时期在技术基础上是个人电脑和一系列移动终端的普及,在文化基础上是博客、论坛等个人书写媒介以及此后的一系列社交媒体使得用户生产内容成为网络文化的主流,在技术和文化二者的共同作用下,数据在这一阶段获得了爆炸式增长;数据发展的第三个阶段是感知式系统阶段,这一阶段的硬件条件是各式各样传感器的诞生及其在社会各个角落的铺设,这些不易察觉而又无所不在的传感器每时每刻源源不断地以自动的方式产生着数以万计的数据。也正是在这一阶段,大数据概念应运而生,数据的自动式生产正是大数据概念的关键含义。从这一阶段开始,对大数据的储存、处理和应用也成为计算科学研究的热点问题。

  从系统中的数据库到用户生产的数据再到无所不在的大数据,数据不仅在规模上发生了跳跃式的增长,更是在数据来源的主导类型上走过了从被动数据到主动数据再到自动数据的三大阶段。而到今天,伴随着大语言模型的开发、成型和应用,数据生产方式和相对应的类型再一次发生改变,“训练”在成为“数据”的修饰语和限定词的同时,也昭示着此后未经训练的数据将不足以称之为数据。在未来的人工智能时代,不能用于训练和未经训练的数据将失去数据作为重要生产资料和平台资产的价值和用途。

  如果我们要对训练数据的概念进行辨析,关键是要发现训练数据相对于此前的大数据而言具有哪些不同。训练数据是依托大数据的规模基础和储备发展而来,而大数据在其概念出现之初,是指无法在一定时间内用常规机器和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。从关联主体来看,网络大数据是指“人、机、物”三元世界在网络空间中彼此交互与融合所产生的,并在互联网上可获得的大数据。首先,训练数据在数据处理技术上较以往有了突破性的进展,随着数据爬行、数据过滤、数据清洗、数据标记等手段的成熟,高质量的可用数据成为数据资产化的首要技术前提。如果说大数据更多的是一种“庞大但不知何以为”的数据总称,未来的训练数据则是一种“庞大但可为”的数据筛选结果。其次,训练数据突破了大数据的“人-机-物”的交互关系,而更多体现为一种“机”的内循环,是略过人和物的介入之后,经由机器的自监督学习而如永动机般自我生产的数据生成过程。

  此前的数据依然依托于“人”而生成,不管是现实世界的公众还是赛博空间的用户,所产生的主动数据、被动数据、自动数据也都依然是人类的行为痕迹和语言文本,但到了生成式人工智能时期,新的数据依托于此前的旧数据而生成,经由多次训练之后会造成一种“数据套娃”式的困境。在大语言模型贪大的潮流之下,无数次的滚雪球式数据训练会逐渐稀释掉人类数据的情感浓度和行为逻辑,最终留下的是失去源头和索引的,被洗刷掉人为痕迹的机生数据,这时,数据本身以及围绕数据的一系列概念(比如个人信息、网络隐私、数据所有权等)都要重新定义,甚至不复存在。毕竟当数据抹去了人类的痕迹,也就必然规避了人类社会的伦理规范,这些依托人类的文字、语言、情感、行为的原始数据在经由大语言模型的多次试炼之后,在机器的包裹之下逐渐逃逸出生命个体的范畴。

  (二)训练数据的功能迷思:数据可供性背后的有限性

  可供性(affordance)作为一个传播学领域舶来的新概念,近年来已经成为人们分析媒介、技术以及一系列交互关系中非人行动者功能的常见关键词,更成为新媒介、新技术出现后人们用来阐释其未来潜能的常见框架。可供性虽然一直处于概念定义和理论阐释的变动当中,但始终不变的一点是对媒介技术物可供性的分析必然包含着对技术物所在的交互关系和参与者网络进行分析。遵循这一传统,训练数据的可供性主要体现在两个方面:一方面体现在训练数据在人机交互过程中对人的能动性的补充(甚至替代),借助训练数据的力量,机器编码正在替代人类编码成为另一种知识生产和创造的新方式,计算机传统中的工程师文化也将被机器人文化所改写;另一方面体现在训练数据在大语言模型的多要素网络中起到了至关重要的作用,训练数据与算法和计算一起,共同构成了决定机器学习模型性能的三大主要影响因素。与此同时,目前的缩放法则又表明,未来的机器学习能力将在很大程度上取决于训练大型模型的大量数据的可用性。如果从时间层面考察大语言模型的纵向更迭,人们很容易得出这样的结论:训练数据不断扩大的规模是推动大语言模型增长和发展的助推器。

  然而,训练数据可供性的另外一面是训练数据的有限性。这种有限性首先表现在它的储备有限性。2022年10月发表的一篇论文得出结论:“高质量语言数据的库存很快就会耗尽;预计时间是在2026年之前”,当然还有更多其他可用的文本,但这些少量可用文本被锁定在公司数据库或个人设备上,无法以Common Crawl允许的规模和低成本的方式进行访问。实际上,除去未来预测不谈,仅从当前的现实情况来看,训练数据的数量也必然是有限的,其原因在于训练数据是一种稀缺资源。这一论断看似与今日的海量数据构成一组矛盾,但训练数据的规模之大和训练数据因资金投入的高昂而具有某种程度的稀缺性是同时存在的。首先,以适合机器深度学习的方式获得训练样本是昂贵的;其次,从这些训练样本中完成机器学习的过程也是昂贵的,因此在现实情况下,训练样本的数量不得不是有限的,这是由其成本特征造成的。

  事实上,围绕着大语言模型,数据、算力、电力、劳动力都是高额成本的来源——训练GPT-3使用了1.3吉瓦时的电力(足以为美国上百个家庭供电一年),OpenAI为此耗费的成本估计为460万美元。GPT-4是一个大得多的模型,成本也极其高昂,要耗费1亿美元去训练。有研究总结了训练数据所包含的多种成本,这些成本具体而言包括获取原始数据、清理数据、存储数据和将数据转换为适合深度学习的形式的成本以及计算机硬件成本;训练数据的成本不仅包括经济成本,也包括从数据中学习所需内容和完成特定任务的时间成本,以及由于计算资源的有限性而从超大数据集中进行次优学习的“机会成本”。

  训练数据的有限性特征决定了当前以数据贪多和模型贪大为策略的大语言模型发展路径并不是长久之计。蒙特利尔学习算法研究所(Mila-Quebec AI Institute)的创始人约书亚·本吉奥(Yoshua Bengio)表示当前的这种增长模式并不能无限期地持续下去,这是因为大语言模型变得昂贵的速度比大语言模型变得更好的速度要快得多,其背后更深层次的逻辑是计算能力需求的扩展速度比输入数据的扩展速度要快得多。OpenAI的CEO山姆·阿尔特曼(Sam Altman)也认为无限增长的拐点已经到来。2023年4月13日,阿尔特曼在麻省理工学院的演讲中说道:“我认为我们正处于这个巨大模型终结的时代,未来的发展趋势不再是更大的模型,而是用其他手段塑造更好的模型。”然而,无限增长的拐点到来并不意味着训练数据在大语言模型中的退场,相反,增长神话的破灭恰恰印证了训练数据可用性的重要性,也正因如此,众多科技公司都将人工智能发展的重点布局在编制私有的训练数据这一工作上。围绕着日渐稀缺但依然必要的训练数据,平台之间在数据专有权上的争夺只会愈演愈烈。

  (三)训练数据的产业迷思:争夺数据专有权的平台之战

  从广泛意义上来讲,数据是以计算机和网络为载体,在其中流通的以二进制为基础,以0、1组合为表现方式的比特形式。然而,这样宽泛的定义并不符合产业层面的数据观。那些更为平台青睐的数据定义可以分为资产论和技术论两种路径,前者将大数据视为资产,突出其所具有的规模、迅速、多样以及需经由技术开发才能产生价值等特征;而后者则强调大数据在海量数据挖掘分析需求下产生,是在信息收集的基础上,采用算法分析、数理统计、机器学习等手段对海量数据进行加工和价值挖掘的计算机技术。这也意味着,今天我们讨论数据时,已经不存在一种“纯粹”的数据概念,所有进入话语层面和实践层面的数据都是那些为平台、政府和机构所用的具有高使用价值的生产资料。

  而作为生产资料的数据,在现行的平台经济模式中呈现出排他性、竞争性的特征。虽然在围绕数据的有关争论中,有一类观点认为数据具有公共性、共享性特征,不能为特定主体所占有,然而在真实的市场环境中,数据正在为不同的平台所独享,而造成这一情形的原因则来自今日平台特定的商业模式和可用数据背后的高成本特征:首先,从平台的商业模式上来看,不管是在平台初创期间对数据规模“雪球效应”的高度依赖,还是在失去增长魔力之后,对用户数据“千人千面”的精耕细作,数据的规模和质量始终是平台网络效应的重要驱动力;其次,从数据应用的技术和经济特征上来看,从数据存储到数据整合再到数据分析等数据利用过程的各个阶段,平台都需要花费大量的固定成本投入到自身的平台数据训练中,这就使得每个平台都有了维护和巩固数据排他性特征的动机和理由。也正是因为今日数据的排他性和维护数据所需要的必要财力和技术基础,在既有的平台格局中呈现出了极其不均衡的分配状况:数据,尤其是掌握在具有市场垄断地位的大平台手中的高质量数据,已然构成了相当强大的竞争壁垒。

  可悲的是,以数据为主导的网络效应和以占有数据专有权为手段的垄断模式并不会随着大语言模型新机会的到来而得到改变,相反,这场人工智能游戏依然以数据为筹码,能够进入牌桌的还是往日的科技寡头,甚至,玩家规模会进一步缩小。这是因为生成式人工智能所需要的训练数据对数据的质量提出了更高的要求,而高质量数据则更加凸显了其排他性。在未来,数据的质量与数据的价值紧密挂钩,而数据的质量也与公司的财力和技术水平高度关联,因此高质量的训练数据集将会比现有的可用数据更加具有稀缺性,也必然会为掌握高质量训练数据的市场主体构筑更加强有力的竞争壁垒。那些缺乏高质量数据储备量和获取入口的市场主体,要想与高质量数据拥有者展开产品和服务维度上的竞争,要么通过支付高昂对价或合并收购获取新鲜数据流(而这对于初创企业几乎是天方夜谭),要么被迫接受其提供的产品或服务被击败的残酷事实。于是,未来的趋势将是平台对数据严守之下平台公共性的再度削弱,以及相伴生的平台力量的再度增强。笔者曾将“平台的力量”解释为具有舆论宣传、认知操控的“符号力量”和将几乎全部的人类文明扁平化为代码的“信息力量”。在训练数据作为未来人工智能发展范式的模型底层基础的前提下,我们几乎可以补充说:平台的力量还将表现为“数据力量”,数据不再只是生产资料,更成为一种权力。围绕这一权力,未来的趋势将是各家平台阻碍数据跨平台转移、加剧数据集中,直至形成难以打破的数据垄断。

  三、训练数据之后:数字传播在人工智能时代的挑战

  (一)“蒸馏式传播”与“偏见”的再生产

  被称为“深度学习之父”的杰弗里·辛顿(Geoffrey Hinton)曾区分通往人工智能的两条道路,它们分别是以数字形式执行的不朽计算和依赖硬件的可朽计算,二者的代表分别是数字计算机和人类大脑。数字计算机的传统计算方式就是不朽计算,其“不朽”之处在于不管在哪个具体硬件上运行相同的程序,都能精准地执行指令且得到同样的效果。随着机器学习技术的发展,计算机有了另一种获取程序和任务目标的方法:基于样本的学习。这种新范式让我们可以放弃之前计算机系统设计的一项最基本的原则,即将软件设计与硬件分离的关系转变为软件与硬件的协同设计。辛顿将这种软硬件协同设计命名为可朽计算(mortal computation)。现在发展正盛的大语言模型实际上依然是不朽计算,它们共享知识的方式是权重共享。由于这种不朽性需要付出高额的成本(正如前文所提到的三种类型的成本),并且还会牺牲硬件的丰富性与模拟性,因此辛顿认为,未来人工智能发展的道路将会是可朽计算。可朽计算的一个重大问题就在于其所采用的知识蒸馏(knowledge distillation)的方法,知识蒸馏的模型训练方式比当下的训练数据模式更加骇人听闻。如果说今天所采用的训练数据的方式是让模型通过学习数据得到正确答案,那么在知识蒸馏的训练模式中,则是直接训练其泛化能力。辛顿在演讲中做了一个具体的比喻:特朗普发推特时常常会对各种事件做出非常情绪化的回应,这会促使其追随者改变自己的“神经网络”,从而产生同样的情绪反应;这样一来,特朗普就将偏见蒸馏到了其追随者的头脑中,这与事实无关,而是从一个领袖到追随者获取偏执的运作反馈,但它确实非常有效。

  辛顿所说的如改变神经网络一般的偏见蒸馏和观念植入并非天方夜谭。事实上,即使我们今天尚未迈步到辛顿所说的可朽计算时代和知识蒸馏的训练模式,在当下大语言模型依托训练数据和权重共享的不朽计算时代,偏见就已经找到了其滋生的温床。首先,在生成式革命之后,智能传播的偏向性来自于文本来源的偏向性。目前互联网所有文本的贡献者就存在不平衡性,而文本贡献的不平衡性则来自于对互联网访问和使用本身的不均匀性,也就是说,互联网数据在地域上更大比例来自于发达国家和发达地区,在年龄上更大比例来自于花费更多时间在虚拟世界中的年轻用户。其次,除了互联网使用的整体分布特征之外,训练数据所依赖的特定样本库也具有性别、年龄、种族等维度上的不平衡性。比如,社交网站Reddit曾作为GPT的重要训练数据来源,皮尤研究中心(Pew Research Center)既往调查显示:美国67%的Reddit用户是男性,64%的用户年龄在18岁至29.13岁之间。又如,同样作为训练数据重要文本来源的维基百科,女性编辑者在英文维基百科中只占13.6%,在全部语言的维基百科中,女性编辑者只占8.8%。互联网作为二十世纪末诞生的新型书写媒介,从来不曾置身于权力结构之外。虽然互联网内含民主化、多元化、草根化等价值和文化愿景,但也受限于新技术创新扩散的特征,在使用者和贡献者的分配上从来无法做到均质化分布。如此一来,当生成式人工智能选择将以往互联网的文本作为自己的养料进行自我学习时,也会同步复制书写权力的不平等和媒介使用的不均衡。

  除了互联网这一书写媒介必然带来的数据来源的偏向性之外,训练数据的偏向养成还来自于对既有刻板印象、霸权思想、歧视观念的内容再生产。比如,即使是全球最大的两个公共图像档案库Google Open Images和ImageNet也远没有做到数据的多样性、代表性和普遍性,在这些来自搜索引擎和图像托管网站的照片集中,只有30-40%的照片是女性,只有5%的肤色被列为“深色”,而标记为男性的图片更大比例上是以技术工人的身份出现,而标记为女性的图像则大多数身着泳装或者内衣。这些包含着刻板印象的固有成见正在机器学习模型上被大量复制,新的技术跃进并没有带来文化创新,甚至有文化倒退的风险。大语言模型对偏见的生产和传播不仅体现在对刻板印象的复制,它有时还借助情绪传播的力量进行语义的连接和身份的编码,比如有研究发现谷歌提出的自然语言处理预训练技术BERT在实际应用中会产生身份编码的偏差,BERT不仅将与残疾人相关的短语与更多负面情绪词联系起来,而且将有关枪支暴力、无家可归和吸毒成瘾的词语经常关联在对精神疾病的文本讨论中。

  如果说今日平台的偏见生产来自算法茧房、情绪传播和圈层文化,那么生成式内容所产生的偏见不仅通过训练技术复制了互联网时代的窠臼,更因为机器编码霸权造成了语言的滥用和“数据茧房”的产生。而数据茧房则意味着在一轮又一轮的数据套娃式训练模式下,人工干预让位于机器学习的内容生产方式将更加凸显其封闭性,伤害和风险就在这种重复性而非前进性的信息模式中不断自动生成。

  (二)“过滤式传播”与信息生产的保守化倾向

  在生成式人工智能的运行过程中,数据质量是衡量训练数据可用性的重要指标,而近年来无限扩张的大语言模型使得海量的训练数据集容易造成一种数据冗余,即数据量的增大并不必然与数据价值的提升呈正相关关系,反而会造成无用信息和有害信息的泛滥成灾。首先,不同数据集的大量数据如何存储到单一系统中;其次,所有数据的聚集会造成无用数据对后续数据分析和数据使用工作的干扰。有一项目标为通过提高训练数据的质量以提升深度学习算法的分类精度的早期研究表明,保留数据集中的坏数据比丢弃数据集中的好数据更妨碍机器性能,当一个实体拥有丰富数据时,这种趋势就更加明显。因此,数据清洗和数据过滤几乎成为所有数据驱动型产业的一种必要。随着生成式人工智能和聊天机器人直接与互联网连接越来越普遍,这些机器系统也将摄取越来越多的未经审查的数据,而这些数据很多情况下并不适合作为训练数据进行使用。更危险的是,训练数据有可能被修改和添加无关信息和有害信息,使得算法学习不良行为以完成对人工智能的操控,这种以训练数据为标靶的网络攻击被称为“数据投毒”(data poisoning)。正因这种危险性的存在,今日着眼于生成式人工智能领域的科技公司都会对从互联网抓取的数据集进行过滤,再将过滤后的数据注入算法展开训练,这种过滤操作一方面可以拦截一系列恶意数据,另一方面也可以甄别出互联网上被操纵的数据点,避免机器遭受数据投毒式的恶意攻击。

  然而,这种数据过滤的操作最大的问题在于,谁来定义什么是数据投毒,谁来界定哪些数据属于无关数据,哪些数据属于有害数据?诚然,在机器的自主化学习和自动化数据标记的过程中必然会出现“指鹿为马”式的基础性错误,但是在有关政治和文化领域的话题中,情况往往不是非黑即白,在对与错、是与否之间存在诸多暧昧不清的争议且值得探讨的“灰色地带”,而数据集管理并不是处理这些携带有不确定性问题的完美解决方案。正如有研究指出:“如果没有仔细的上下文分析,过滤机制很可能会审查和删除一些边缘化经验”。举例来说,C4数据库(Colossal Clean Crawled Corpus)是一个建立在Common Crawl数据集上的清洁数据库,该数据库每周爬取大量的网页数据并对数据进行过滤和清洗,最终生成一个可为上万亿参数的大语言模型使用的训练数据集。C4数据库在进行数据过滤和清洗时会丢弃400余个被划定为“肮脏”“下流”“淫秽”“不良”的类型单词,这些单词大部分涉及性行为、性器官、性癖好、性取向等与性相关的单词,还有少部分涉及种族歧视的词语。毫无疑问,该过滤机制可以在某种程度上有效规避色情内容、歧视内容的传播,但这种机器自动审阅并删除内容的做法有时也会压制性少数群体在虚拟空间的边缘化生命经验和非主流话语体系。从当前的训练数据操作上来看,机器识别和自动删除的一个危险就是,“普遍”之外的“例外”和“一般性”之外的“特殊性”会被当作错误数据而遭过滤,因此提高数据质量的关键问题是如何从数据噪声中区分出所谓的“异常”。毕竟,机器永远无法担任人类多样性文化的唯一仲裁者,整齐划一的数据只会加剧单一话语的霸权、内容的同质化和价值的保守化倾向。

  在大语言模型数据管理的范式下,这种过滤式传播会造成对媒体既有注意力的固化。今天的训练数据从收集、清洗到输入、输出阶段都高度依赖现存的媒体文本,而当这些文本作为人类社会的代表时,我们面临的风险是主流观点的永久化和媒体权力的结构性失衡,以及固化公众注意力的分布侧重。当一个传媒体系的议程设置较少关注和报道社会运动、抗议事件和对主流权力构成挑战的话语,那么经由训练数据过滤后的信息和文本则会更加具有价值锁定的风险。另外,训练数据还将剥夺人类记录和书写历史的权力,由于它对史料的学习完全建立在既有的被文字化和文档化的历史叙述中,而那些秉持着口承传统的口述史、生活史的历史记录方式则会被排除在训练数据之外。过度依赖网络现有语料和史料的结果就是那些未经报道的事件、未经书写的历史在大语言模型的中介作用下再一次地消失在人类文明的记忆中。由于大语言模型和训练数据不以承继人类文化为己任,而是以生成看似流畅的语言为目标,因此,比训练数据造成的蒸馏式传播和过滤式传播更可怕的是随机性传播,这意味着:大语言模型不仅在摧毁本应丰厚的历史,更在摧毁本应具有意义的语言。

  (三)“随机性传播”与意义的消散

  大语言模型虽在称谓上冠以“语言”之名,训练数据虽包含巨大的人类文本,但究其实质,它是一场有关统计学的巨大练习和游戏。大语言模型凭借其注意力机制(self-attention)可以根据每一个词所处的位置来确定该词和其他词之间的相关性,从而直接输出最有可能关联的信息,并由此完成在提示(prompt)的不同部分之间建立联系的过程。这就需要大语言模型在训练阶段从头开始学习语言内部的关联性,通过动用上万亿的词元和数十亿次的训练,大语言模型的注意力网络会逐渐将它所接收到的语言结构编码为神经网络中的数字,也就是权重。大语言模型虽然在表面上可以读懂并且表达人类的语言,但并不是以语言语法的方式,更不是以理解意义的方式,而是以统计的方式。因此,与其说大语言模型是一个拥有高级智慧的类人大脑,不如说,大语言模型更像是一个拥有超高性能的算盘。

  计算语言学家埃米莉·本德(Emily M.Bender)曾对传统意义上的语言和用作训练数据的语言进行对比:语言是符号系统,即形式和意义的配对,但大语言模型的训练数据不是“语言”,而只是形式——它们无法获得意义。也正因如此,在2021年那篇导致AI研究者被谷歌解雇的论文《论随机鹦鹉的危险》中,研究者们将大语言模型比作“随机鹦鹉”(stochastic parrot);她们认为大语言模型是根据关于如何组合的概率信息,胡乱地将它在庞大的训练数据中观察到的语言形式序列缝合在一起,但没有任何意义的参照。模型语言之所以意义匮乏是因为它并不基于现实环境和实地交流而产生,相反,大语言模型是从大量的作为训练数据的书面文本中获得书写和对话能力的。但是,人类社会大量的常识并不存在于书面文本中,而是存在于人类与物理环境交互的过程中。基于此,被称为“卷积网络之父”的计算科学家杨立昆(Yann LeCun)称:即使是规模再庞大的训练数据也无法弥补人工智能缺乏常识这一问题。在实际应用过程中,聊天机器人看似对答如流的文本背后时常可见的是诸如逻辑问题、捏造事实、前后矛盾、虚假信息等低级错误,更需警惕的是,聊天机器人会给出具有偏向性和歧视性的有害回答(正如前文所述)。大语言模型虽然可能在辅助基础性文本任务、协助代码编写工作等方面具有良好表现,但一旦涉及语言、内容和文本的创作等更高阶任务时,其危险性就在于对虚构和幻觉的制造。

  然而,媒介使用者日常在与大语言模型进行交互时却难以发现这一点,人们更容易被机器的语言流畅性所迷惑,人们会出于语言交流惯性,倾向于为没有“意义”的模型语言赋予意义。这就造成一种表面交互之下的交流单向性:作为交流一方的人工智能不具有意义,对话语意义的赋予和理解实际上源自作为交流另一方的个人,于是,意义的幻觉产生,同样产生的是交流的幻觉。今天,将人类与ChatGPT等聊天机器人的互动过程称为交流是一种对交流本意的违背,人们看似得到了即时反馈和回答,但实际上信息和话语在撒播之后始终是没有投递和抵达的“对空言说”。正如传播学者约翰·彼得斯(John Peters)所说:“交流是一种没有保证的冒险。凭借符号去建立联系的任何尝试,都是一场赌博,无论其发生的规模是大还是小。我们怎么判断我们已经做到了真正的交流呢?这个问题没有终极的答案,只有一个讲究实际的答案:如果交流双方后续的行动比较协调,那就是实现了真正的交流。”

  如果说,“共识”和“共同行动”是交流真正达成的标准,那么聊天机器人永远无法做到这一点,因为训练数据从未与使用者分享想法,基于训练数据的大语言模型也并不以交换想法和意图、理解交流者的心理、适应交流背景为目标,而是以寻找语言组合的最高概率为任务。然而,交流不是概率与计算,交流应该是主体与他者进行调和的努力。在大语言模型中,机器与人类并不共处于一个话语空间,训练数据与符号系统也画不上等号,达成调和、共识和共同行动的可能性更是无从提起——哪怕机器正在使用类人的语言。

  结语:未来,我们需要什么样的数据?

  训练数据在改变传统数据概念和使用方式之余,也对未来的信息生产、数字新闻和智能传播提出挑战。在变革和风险同时抵达之时,我们需要慎重思考数据应有的发展方向。首先,毫无疑问的是,未来有价值的数据一定是高质量数据,当大语言模型拨开“贪大”的迷雾后,数据的质量终将成为竞争的焦点。需要注意的是,高质量数据并不是一味使用自动化的数据清洗、数据标记和数据过滤等数据处理手段得来的,而是应该保证数据的多样性、代表性和包容性,在避免编码霸权产生和数据审计者权力过大的前提下,发展多元的数字文化。

  其次,未来训练数据发展的方向一定是专业化的,正如信息经济学者、谷歌首席经济学家哈尔·罗纳德·范里安(Hal Ronald Varian)所说:数据是广泛可用的,然而缺乏的是从数据提取出知识的能力,数据收集的根本目的是根据需求从数据中提取有用的知识,并将其应用到具体的领域之中。训练数据的专业化是指为特定行业、特定领域定制开发更具有针对性的训练数据集,并为“小而专”的语言模型所使用,这将有助于弥补当前大语言模型在涉及具体的专业性问题时呈现出的知之甚浅的缺陷。

  最后,为了对数据进行更加谨慎的管理,建立文档化的数据集不失为一种上上之策,如果只是简单地将训练数据库建立为一个包含各种观点和信息的集合,将只会重蹈大量抓取和收集网络文本的覆辙。数据作为人工智能时代一项重要的生产资料甚至是平台时代的重要战略资源,日常的数据库管理不仅应该包含数据的类型信息、数据的内容信息、数据的来源信息,更应该注明数据收集的方式、数据选择的动机、数据包含的价值观以及数据所服务的行动目标等。

  “最好的数据就是更多的数据”(There is no data like more data)的数据迷信已经破灭,当前的生成式人工智能所展现出的“智能眩晕”背面的无能和无知已经说明:更大的模型并不意味着更好的结果。训练数据和大语言模型需要破除规模的迷思,更多地思考如何让数据切实成为社会技术系统的一部分。

  斯坦福大学计算机科学教授珀西·梁(Percy Liang)表示,有证据表明,提高模型效率可以提高模型的能力,而不仅仅是增加模型的规模。“我们已经看到,在高质量数据上训练的较小模型优于在低质量数据上训练的较大模型。”高质量的语言数据包括书籍、新闻、科学论文和过滤后的网络内容,但生成速度慢且成本高。低质量数据包括博客、论坛和社交媒体上的帖子,数量虽然众多,但基于低质量数据的模型可能很难实现最近机器学习模型中出现的范式转变。为此,社会需要思考,如何更好地鼓励人们生产更多高质量的数据,而不是听任平台借助算法不断增加用户在其上花费的时间,仅仅是为了大量生产价值低劣的数据。低质量数据的批量化生产只是服务平台的利益,而不是公众的利益。

  与此相联系,现在训练一个机器学习网络往往需要一个庞大且容易抓获的训练数据集,所以互联网成为首选。如果我们想让未来的人工智能模型不至于有太多的偏见和谬误,那么仅仅从互联网上盲目地收集文本是不够的。如谷歌大脑(Google Brain)的高级研究科学家达芙妮·伊波利托(Daphne Ippolito)所说:“是否需要在整个互联网上进行训练?或者我们是否有办法只过滤那些高质量的内容,并提供我们想要的语言模型?考虑这些问题真的很重要。”

  在未来,要找到高质量、有保证的未暴露于人工智能的训练数据将变得越来越棘手。为了开发更先进的人工智能产品,大型科技公司可能向其程序提供人工智能生成的内容,或者可能无法从合成数据中筛选出人类信息,这对模型和互联网来说,都意味着灾难性的改变。可以想象,充满偏见、谎言和谬误的模型输出将迁移到程序的未来迭代中,随着时间的推移,错误会被放大到难以置信的地步。

  在最近一项研究中,牛津大学机器学习研究员伊利亚·舒迈洛夫(Ilia Shumailov)和他的合作者提出了“模型崩溃”的说法,用以描述“随着时间的推移,模型会产生遗忘的退化过程”,几乎就像它们正在衰老一样。崩溃的原因正在于,在训练中使用模型生成的内容,会导致生成的模型出现不可逆转的缺陷。研究者最后指出,当大语言模型依靠从互联网上爬取的数据生成内容时,其所收集到的那些有关人类与系统的真实交互的数据将变得越来越有价值。

  当然,正如合成数据本身并非全然是坏的一样,人类生成的数据也绝对不是黄金标准,人类和机器的输出同样可能与现实不符。例如,许多现有的歧视性人工智能产品都是在人类所创造的数据上进行训练的。开发人员可以通过在更具代表性的数据上训练模型来管理人工智能生成的内容,以减轻偏见等低级错误。过滤会成为一个日益重要的研究领域,因为它对模型的质量有巨大的影响:一个凭小规模高质量输入训练的程序可以胜过一个臃肿的程序。

  如果对训练数据不能进行很好的管理,将会出现的一种最糟的局面是:人工智能吞噬彼此的输出,反过来又吞噬彼此,这是一种递归的同类相食,最后没有任何有用的或实质性的数据留下。又或者,也许聊天机器人不会吃掉自己,而是会渗出难以察觉的数字铅痕,这些痕迹随着时间的推移在互联网上积累,不仅毒害机器人自己的“食物和水”,也同时毒害人类的“食物和水”。

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
来自于:北京
权利保护声明页/Notice to Right Holders

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2024 SINA Corporation

All Rights Reserved 新浪公司 版权所有