大模型时代：被污染的人类元数据

发布日期：2024-08-13 08:06:09 浏览次数： 3356

作者：数字罗塞塔计划

微信搜一搜，关注“数字罗塞塔计划”

PART 01

数据黑暗时代：

AI是救世主吗？

在信息时代的浪潮中，互联网数据以惊人的速度呈现出爆炸式的增长。从社交媒体上的日常分享到科研领域的专业数据，从商业交易的实时记录到全球新闻的即时传播，不仅数据的产生量呈指数级上升，数据类型也更加复杂和多样。但与此同时，很多信息也因网站、平台的更新或关闭而面临消失的威胁，因此，最近一段时间有关“互联网坍塌”的说法也甚嚣尘上，相关介绍参见本号文章《新媒体数据归档与保存：应对互联网崩塌的挑战》。

事实上，早在2015年互联网之父之一的Cerf就曾提出过深刻的“数据黑暗时代”命题：“如果目前的数据由于存储硬件和软件原因不能长期保存而丢失，未来的人类将不知道我们今天发生的大部分事情，而使我们的时代成为数据黑暗时代！”

不过，AI大语言模型（Large Language Model，以下简称“大模型”或“LLM”）以其强大的数据处理能力和智能化水平，在进行数据采集、抓取各类信息资源时一定程度帮助保留了可能因传统存储方式不可靠而逐渐消失的重要信息。例如，LLM在构建结构化信息提取任务时，从海量的HTML网页文件中提取有价值的内容，并通过其强大的自然语言理解和总结能力，实现对海量文本的高效信息处理，这些信息被LLM抓取并保存下来，以供后续的分析和研究。

此外，AI大模型在处理文本图像、音频视频这类非结构化数据时，也能通过自然语言处理和图像识别技术，提取和理解其中的关键语义信息，并将其保存为结构化的数据形式。

但是，随着基于大模型的AIGC（Artificial Intelligence Generated Content，内容生成式人工智能）的飞速发展，其介入也带来了一个不可忽视的问题——人类元数据被污染。

PART 02

AI污染：

互联网数据的双刃剑

自2022年11月30日ChatGPT这类AIGC问世，AI正在以前所未有的速度生成着各种类型的数据，从文本到图像、视频到音频，互联网上AI生成数据比例急剧上升。这些数据的涌入在丰富互联网内容的同时，也带来了极大的隐患。由于当前AI技术的局限性，其在生成内容时往往会出现错误或偏差。并且，AI生成的数据与人类元数据相互交织之后，难以区分哪些是真正的人类创造，哪些是AI的模拟之作。这种模糊性不仅挑战了我们对信息真实性的判断能力，还引发了一系列的道德和法律问题。例如，国外自媒体用AI恶搞生成特朗普被捕照片，引发了社交网络的疯狂转发和讨论。

不仅如此，国内利用AI伪造新闻的事件也屡屡发生。一些人为赚取平台流量补贴，实现流量变现，利用AI合成技术编造谣言蹭热度、博眼球，毫无底线。

此外，AI算法在解读和处理人类元数据时，也可能会误判或曲解其真实含义，这种情况在自然语言处理领域尤为突出。由于语言的复杂性和多义性，AI系统很难完全理解人类语言的深层含义和上下文关系。因此，在生成内容时，AI可能会产生偏离原意的信息，从而导致信息的失真和误导。这种误导性信息不仅会影响人们的决策和行为，还可能对社会产生负面影响。

PART 03

递归诅咒：

AI与人类元数据的冲突

更为严重的是，当互联网数据中AI生成的比例过大时，可能会导致大模型的崩溃。这种崩溃并非仅由数据量的激增引起，而是随着AI生成数据的不断增加，大模型在一边“吸取”大量网络数据用于训练的同时，又一边生成大量数据“散布”于互联网，它们在处理过程中可能陷入“递归诅咒”的困境。递归诅咒是指AI在处理数据时，会不断地复制和改写已有的数据，导致数据的重复和冗余。这种重复和冗余不仅会降低数据的处理效率，还会加剧元数据的模糊化。

具体来说，就是通过AI生成的内容，再一次进入在线数据库，并被用于训练新的AI，每一代模型都是在上一代模型的数据基础上训练出来的，这样一代又一代地持续下去。数据在多次的复制、改写和融合的过程中逐渐失去了其原有的清晰度和准确性，这不仅会影响我们对数据质量的评估，还可能导致大模型在处理数据时出现错误和偏差，模型也会因此逐代退化，最终导致模型崩溃。

如示例所展示的，模型在被输入一段建筑设计、建造相关的文本后，最初生成的内容与建筑密切有关，但几代过后居然出现了一堆驴头不对马嘴的“野兔”。随着时间的推移，AI生成数据中的错误会不断累积，AI又反复从生成的数据中学习，最终使AI对现实的认知更加错误，并导致学习模型很快就会忘记它最初训练时使用的原始数据，遗忘真正的现实。

PART 04

硅基文明原点重启：

人类元数据的守护之战

其实就当前的情况来说，很多人不会在意并检验AI生成的内容与事实是否存在一些很小的偏差，即使是内容出现很明显的错误，大众也会因“一眼假”、“好辨认”对其保持着宽容的态度。但当AI不再出现明显的“一眼假”迹象时我们是否还能继续保持这种乐观的心态？随着劣质信息在网络信息中的占比越来越大，并且技术发展到人们难以分辨“真伪”时，再来制止AI的野蛮生长恐怕将为时已晚。例如，以下四张照片中，只有第一张是真人照片，其余三张图片均为AI生成，你还能分辨出来吗？那如果这些照片被不法分子嫁接到犯罪场景中去了呢？

虚拟现实、机器人、人工智能等这些以硅为基础的“生命体系”虽然具有强大的计算能力和数据处理能力，但其自身不具备辨别能力和净化能力，待大量虚假乃至误导性的信息充满人类的知识空间，硅基文明也会随之崩溃。那如何避免AI生成的内容质量一代不如一代，并减少更多的垃圾信息进入互联网呢？

首先是在能区分AI和人类生成内容的前提下，采用新的、干净的、人工生成的数据集重新引入模型训练中。但AI已经具备了极高的模仿能力，生成内容与人类数据极为相似，目前已经很难、以后恐怕更难直接通过技术手段辨别哪些是人类元数据、哪些是AI数据。

在上述措施越来越不可行的情况下，尽快备份人类元数据就成了最终的选择。人类元数据记录了人类文明的历史、文化、科技、艺术等各个方面的信息，是理解人类文明本质和发展硅基文明脉络的关键。保留原始的人类数据集副本，避免其被AI生成的数据污染，然后可以根据这些数据定期从头开始重新训练或刷新模型。因此，我们需要建立有效的数据备份机制，通过定期备份人类元数据，以便在数据丢失或被污染时能进行恢复；同时，需要加强对备份数据的管理和维护，以确保备份数据的完整性和长期可用性。

PART 05

结语

在大模型时代，人类元数据是AI学习和进化的关键资源，保护这些数据的重要性不言而喻。并且，随着AI污染人类网络信息库的问题日益凸显，人类元数据不仅成为了地球文明的基石，也成为了未来硅基文明重启的钥匙。我们迫切需要通过加强数据质量管理、建立健全的数据保护机制并做好数据备份工作，既为人类文明的传承和发展留下宝贵的财富，也为硅基文明原点重启做好准备。

数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明，我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见，共同为人类文明的传承而努力奋斗！