“污染”数据怎么办？

2024-02-19 18:04毛振华

瞭望东方周刊 2024年3期

关键词：人工智能污染内容

毛振华

某网络平台“国足捧起大力神杯”的AI 图

ChatGPT（由OpenAI 训练的大型语言模型）的横空出世，叩开了新世界的大门：原来人工智能可以让生活如此便利。随着越来越多AIGC（生成式人工智能）工具陆续诞生及应用，全社会对人工智能给予了空前的关注和期待。

然而，狂欢过后，问题随之而来。由AIGC生成的图片、新闻、问答等开始蔓延到网络世界的各个角落，随着技术不断升级，将它们与真实世界区分开的难度亦越来越大。

AIGC引发的人类数据库“污染”问题，已摆上台面。如何面对這一全新挑战，人类无法回避。

一张国足捧起大力神杯的图片，在网上广为流传。如果不是因为图片内容与公众的认知存在过大反差，仅就图片而言，人物表情、动作、背景，完全能达到以假乱真的地步。

如此“逼真”的图片，据网络发布者称，是由AI（人工智能）生成。看似无厘头搞笑，但带来的风险却是实实在在的——它传递的错误信息很可能会被大众认定是真实的，导致谣言大范围传播。

这并非杞人忧天。

黄灿灿晶莹剔透的葡萄、嫩粉色娇艳欲滴的海棠花、被阳光穿透斑驳的云彩……这些网络上的图片，尽管视觉效果惊艳，但都被证明由AIGC合成。不少网民担心，诸如此类照片大量充斥在网上，不但混淆着人们的认知，长此以往技术迭代进步后，AIGC生成图片恐怕将变得愈发真假难辨，从而将人类的数据库“污染”。

担心并非多余。现实生活中，在美国科罗拉多州举办的一场艺术博览会上，一幅名为《太空歌剧院》的画作获得数字艺术类别冠军。但是，该作品先由AI制图工具生成，再经Photoshop软件润色而来。事件在网络上引发讨论，不少艺术家指控AI作品参赛是作弊。

图片可以“作假”，以客观为本的新闻更是可以“生成”。

跟踪错误信息的调查机构“新闻守卫”（NewsGuard）研究发现，由AIGC生成的虚假新闻和信息已开始爆发性增加，正成为当前互联网时代的一项全新挑战。

“新闻守卫”报告称，生成虚假文章的网站数量自2023年5月以来激增了1000%以上，从49个增至600多个，涉及15种语言。这些网站每天生产大量文章，内容涉及政治、社会等多个领域。背后的动机各异，包括动摇信仰制造破坏，或者依靠两极分化的内容吸引点击量，获取广告收入。

该作品先由AI 制图工具生成，再经Photoshop润色而来。事件在网络上引发讨论，不少艺术家指控AI 作品参赛是作弊。

AIGC技术的进步让几乎任何人都能轻松创建看似合法的新闻网站，生产的内容往往与真实新闻难以区分。

例如，有一篇AIGC生成的文章虚构了有关“以色列总理内塔尼亚胡精神科医生”的故事，这个虚假故事被广泛传播，甚至出现在了电视节目上。有的网站将真假新闻混淆在一起，大大增加了欺骗性故事的可信度。

“新闻守卫”提醒，这种情况的危险在于人工智能的范围和规模，当它与更复杂的算法结合时，误导性信息的扩散规模和速度将前所未见，成为一种新的信息战。

AIGC新闻造假看似遥远，其实已经发生在我们身边。2023年12月28日，重庆市奉节县警方发现，网民王某成在某资讯平台利用AI写作软件，编造发布了一条“某地一煤矿发生事故已致12人遇难”的帖文，引发网民关注，造成不良社会影响。经警方调查，王某成这么做的目的是为了博人眼球、吸引流量。他本人也受到了应有的处罚。

与AIGC生成虚假新闻类似的是，在一些短视频平台，利用AIGC制作视频传播虚假信息的情况也越来越普遍。

《瞭望东方周刊》记者在某短视频平台上发现，这类视频往往以AIGC创作出来的智慧老者、小和尚等“数字人”形象出现，他们“讲话”的声音、字幕也是由AIGC生成。对操作熟练的人来说，一个小时制作多段这类视频不在话下。而视频传播的所谓养生知识、人生哲理、生活理念，要么观点偏激、要么夹带广告“私货”，对老年人和儿童具有很强的欺骗性。

奇安信集团行业安全研究中心主任裴智勇表示，无论声音还是图像，都可以通过特定的数学变换分解成若干个特征向量，对每个向量赋予特定的一组参数，就可以形成特定的声音或图像。所谓AI换声，就是通过机器学习的方法，用某个人以往的声音作为样本进行学习，从而给声音的每个特征向量赋予特定的参数，之后再用这组参数读出新的内容，就可以做到语音、语气甚至情感的模仿了。

美国加利福尼亚大学伯克利分校数字取证学教授汉尼·法里德认为，AI技术的进步让诈骗者能轻易地根据简短的音频样本来复制声音。

“两年前，你可能需要大量音频来克隆一个人的声音。但现在，只要你在社交平台上发一段超过30秒的音频，复制声音就可以迅速实现。”汉尼·法里德说。

现阶段，多数人对AIGC生成的内容持平和与宽容的态度，是因为很多内容“一眼假”。但当技术跃升到难以分辨时，再敲响警钟恐怕为时已晚。

在某款爆火的AIGC工具诞生之初，《瞭望东方周刊》记者试用发现，体验感并不好。例如，对“刘翔在哪一年夺得世乒赛冠军”这样一个显然错误的提问，它给出了“刘翔在2004年获得了世界乒乓球锦标赛冠军”的回答。重复一遍提问，又给出了2005年的答案。而对于“泰山是济南的著名景点吗”，它第一次的回答是“是的，泰山是济南市的著名景点。它位于山东省泰安市，是中国五岳之一，有着悠久的历史和丰富的文化”。相隔一段时间再次提出相同问题后，该工具才对答案进行纠正。但时隔近一年再次提出类似问题，该工具已经能够很好应对，不再出现类似低级错误。

中国信通院云计算与大数据研究所人工智能部主任曹峰认为，生成式人工智能借助预训练学习、微调学习、提示学习和强化学习等技术手段，再不断通过人类反馈，实现了更强的自我学习能力。这正是其强大和可取之处。

AIGC经过反复专业训练和数据积累，生成答复内容的准确性、个性化将逐步提升，届时再分辨将难上加难。因此，由AIGC引发的人类数据库“污染”问题是渐进式的，隐蔽性强，危害性不易被察觉。

技术越是进步，其生成内容的真假就愈发难分辨，对传统世界形成“吞噬”。仅从技术角度而言，这将是一个难以阻挡的趋势。

很难想象，未来人们检索的图片、数据、问答，比如动物的外貌、植物的外形、书画的内容等，有相当一部分是经过AIGC修饰的。将这些“生成”的内容与真实世界对比的时候，人们又会以怎样的心态来看待这个世界，做出怎样的判断。

除了“污染”人类数据库，AIGC暗藏的另一个问题就是“自噬”。换言之，知识生成的过程是倒退而非前进的。

根据最新研究，将由人工智能生成的内容反馈给同类模型训练，可能导致模型质量下降甚至崩溃。这种自我吞噬现象被科学家们称为模型自噬。

研究人员指出，虽然AIGC算法在图像、文本等领域取得了巨大进展，但持续使用合成数据来训练模型会导致模型变得封闭，并最终失去多样性和准确性。

来自美国斯坦福大学和加利福尼亚大学伯克利分校的一篇最新论文印证了这一点，2023年6月的GPT-4在一些任务上的表现客观上要比3月更差。比如用同样500道“判断给定整数是否为质数”的问题来测两个版本，发现3月份的GPT-4答对了488个，而6月只对了12个。

不止如此，代码能力也下降了。研究人员认为，仅限AIGC生成的内容“喂”给模型，而没有新鲜的数据，即由人类标注的数据，只会导致AIGC性能下降。

AIGC带来的负面效应已经引起了相关部门重视。我国在2023年施行的《生成式人工智能服务管理暂行办法》，专门提出要采取有效措施提高训练数据质量，增强训练数据的真实性、准确性、客观性、多样性，实质是为AIGC的未来进步空间拓宽赛道。

科技的发展最终要服务于人类的幸福美好生活。当大量虚幻甚至错误的信息使人类的知识空间变得不再纯粹时，及时纠偏就很有必要。特别是在当下AIGC发展初期，放眼长远果断采取措施迫在眉睫。

现在，越来越多平台开始要求AIGC生成的内容必须明确标注，以帮助人们作出正确理解。为AIGC设置“禁区”已很有必要，新闻领域就是其中之一。

数秦科技执行总裁兼首席科学家崔伟称，AIGC生成的伪劣新聞已成为公害。例如，常常有自媒体发布油价上涨的新闻，但打开一看，近期并没有官方消息发布。

“仔细观察，可以发现这类新闻具备共性特征，诸如标题很惊人、吸引流量，点击量和评论数都很高；内容非常格式化，先说新闻，然后几百上千字谈影响，煞有介事。有意思的是，每一篇都不尽相同，但是又非常类似。评论往往是网民不管真假大倒苦水，最终是平台、自媒体赚了流量，读者宣泄了情绪，没人知道事实到底如何。”他表示，当AIGC被用于生成虚假信息时，其速度和规模的优势会迅速放大误导性内容的影响，导致公众信任危机和社会秩序混乱。

“对于AIGC生成的内容，必须要有所约束。”他建议，尤其是要从源头端、平台端加强管理，在新闻范畴内严禁AI无中生有生成虚假新闻大肆传播，更要杜绝假新闻的生产沦为工厂化、流水线。一旦发现，坚决清理相关内容，避免把辨别真假的困难留给大众。即便是出于“黑色幽默”目的，也要将生成内容放置在非新闻栏目下，且明确标注，避免谣言被信以为真。

2023 年7 月7 日，2023 世界人工智能大会在上海举行，观众参观主题为“交响”的AIGC艺术展（辛梦晨/ 摄）

加强科技伦理治理，促进科技向善将成为一项长期工作。

崔伟等人士认为，技术本身并不具备道德判断能力，它的应用取决于人类用户的意图。因此，制定和执行有关AIGC应用的伦理指导原则和法律法规显得尤为重要。这不仅需要技术开发者和使用者的责任意识，也需要相关监管机构的有效介入。

北京航空航天大学法学院副教授赵精武表示，国家互联网信息办公室、工业和信息化部、公安部在2022年底制定了《互联网信息服务深度合成管理规定》，明确了深度合成服务提供者的法定义务，例如应当采取技术或人工方式对深度合成服务使用者的输入数据和合成结果进行审核。

“除了政府监管，科技公司、媒体、教育机构以及大众都应在其中扮演重要角色。”赵精武认为，这不仅是一个技术问题，更是涉及社会治理、公众教育和国际合作的广泛问题。

以技术之力治理技术之乱，已提上日程。

“随着技术的进步，社会的适应和应对机制需要更新。比如新闻机构和社交媒体平台需要开发更高效的工具和方法，来识别和过滤AIGC生成的虚假内容。”新火科技控股有限公司区块链专家王阳平认为，区块链技术有助于破解AIGC诱发的数据及知识造假难题。

他表示，新闻摄影、物种照片、公共知识等均可被记录在区块链上，且全程可溯源、内容透明不可篡改、永久记录，可有效辅助人们提高认知和辨别能力，减少网络虚假知识及谣言的产生。