百模大战，困于语料

2024-05-20 06:25徐乃帅

看世界 2024年7期

徐乃帅

近两年来，以ChatGPT为代表的AIGC（生成式人工智能）产品的出现，引领了新一轮的科技热潮。国内的互联网科技企业紧跟潮流，纷纷推出各自研发的AIGC产品，目前已出现200多款大模型，形成了“百模大战”的混沌之势。

其中颇让人关心的一个命题是，中文世界的AIGC产品何时能赶超西方，尤其在大语言模型这一领域，能否撼动当前ChatGPT一家独大的地位？

今年3月9日，央视财经频道《对话》栏目对百度董事长李彦宏进行独家专访。李彦宏表示，文心大模型在中文领域已经明显超过了ChatGPT-4。然而此话一出，立刻引起了多方讨论和质疑。

其中最具代表性的，是前搜狗CEO、百川智能创始人王小川在一次访谈中给出的看法：李彦宏对自己的产品有误解，产生了一定“幻觉”；而另一个更广泛的观点则是，纵然文心大模型已经在中文某些特定的领域超过ChatGPT，也不值得国人感到骄傲，毕竟ChatGPT本就是一款以英语为主的产品。

英语是全球无可否认的世界语言，在政治、经济、文化和科技等领域都被广泛使用，这也使得大量的数据都以英语产生。这反映在不同语言AIGC的对比上，不仅意味着总数据量的差距，更体现在高质量训练语料的差距。

业界普遍认为，中国的大模型发展要实现突破，必然要依赖于中文语料库，而中文语料库有着显著的短板。从客观视角来看，中文AIGC产品想要真正赶超ChatGPT，或有着相当长的一段距离。

“质”与“量”双缺

语料，顾名思义，即语言的材料。

任何一款大语言模型，都需要对海量的、多样性的语料进行充分学习，这是其输出内容的基本素材，也是大数据时代人工智能的重要特征。

当然，这并不意味着只要搭建好框架，把足够多的中文数据“填鸭式”地喂给AI，就能让大模型“自学成才”。只有高质量的语料，才能训练出一个优质的模型。

诸如贴吧、微博等社交平台上的交流内容，诚然具有一定的真实性和多样性，能够反映人们的日常语言习惯和表达方式，但另一方面也存在大量重复的同质化、无意义内容；各个小说网站上海量的文学创作，也同样面临此类问题，更何况此类语料库往往还涉及隐私、版权等问题。

能够被认为是高质量训练语料的，一般认为包括了出版著作、文献期刊、新闻报道、百科全书式知识等，已经被人工筛选检验过的文本类型。

而这些优质文本，在投喂给AI之前，也仍需要对数据进行一定的“预处理”，使其成为结构化数据更便于AI识别。“预处理”的工作往往需要投入大量具有一定相关专业素养的人才去完成。因此这两年来，广州、杭州等一线城市“数据标注师”“AI训练师”等岗位的招聘需求激增。

中文“数据标注师”的具体工作，包括清理无效字符、纠正病句错字、对文本进行分词，以及就内容进行主题、场景等方面的关键词标注等。

相较于英语，中文的语法结构和表达方式存在很大差异，且存在大量的方言和口语变化，需要针对中文的特点进行专门的语料标注和整理工作—其中“分词”正是“预处理”中最为繁琐的一项。

只有高质量的语料，才能训练出一个优质的模型。

英文句子中的单词，天然具有空格这一分隔符，而中文句子中没有词的界限，所以在进行中文自然语言处理之前，通常需要先进行“分词”，即手动隔开基本词汇。

随着语言处理技术的发展，“分词”大概率会变得不再必要。但就目前来说，仍需人类逐步教会AI如何有效识别中文语句中的信息。

实际上，包括语音、图片等领域在内的“数据标注师”，目前已成为国内人工智能行业从业人数最多的一个群体，被称为人工智能领域的“罗塞塔石碑”，正构筑着人工智能发展的底座。

而相较之下，英语世界很早就建成了不少系统化、优质的语料库。

2008年，美国杨百翰大学的语言学教授Mark Davies主持创立了美国当代英语语料库（COCA）。作为当今世界上最大的在线免费英语平衡语料库，COCA目前包含超过5.2亿单词的文本。最重要的是，COCA涵盖了各种英语使用情境和地域，为AI的自然语言处理提供了宝贵的数据资源。

此外，国外还有英语国家语料库（BNC）、乔治城大学多层语料库（GUM）等多个英语大型语料库，都已完成了基础的整理和标注工作，无疑是为以ChatGPT为代表的大语言模型的发展提供了极佳的土壤。

在出版物权威数据库方面，全球最大的三个数据库社会引文数据库（SCI）、社会科学引文数据库（SSCI）和人文艺术引文索引数据库（A&HCI）当中，超过90%的文章都是用英语发表的，这必然使得依赖英语训练的大模型，更具有可信性和权威性。

由此看来，ChatGPT当下的领先，实则是理所应当。

来自“语料”的诅咒

去年12月，谷歌的大语言模型Gemini闹出过一个离奇的笑话。

不需要任何前置对话，当用户使用中文提问“你是谁”的时候，Gemini会回答自己是“文心一言”，一个由百度公司开发的语言模型，甚至会告知自己的創始人是李彦宏。

当用户用英文提出同样的问题时，Gemini给出的则是正常的回复。

很显然，这大概率是由于谷歌把百度文心一言的输出内容作为训练数据，而数据清洗工作又不到位的结果。不过同时，这也带出了另一个更严重的问题—互联网上语料的相互污染。

有传闻称，目前各类内容平台上的很多中文语料，都是由大模型生成的，或者至少写了其中一部分，因此谷歌才会不慎“中招”。

2023年2月，美国华裔科幻文学家特德·姜发表文章称：ChatGPT等大语言模型，实质是对互联网语料库的有损模糊压缩。

按特德·姜的观点，用大语言模型生成的文本来训练新的模型，如同反复以JPEG格式存储同一图像，重复操作下去会丢失越来越多的信息—大语言模型生成的内容在互联网上流传得越多，真实的内容就越难以辨识，大模型对现实的认知会逐渐扭曲，“幻觉”现象就会越严重。

2023年6月，牛津、剑桥等高校的研究人员发表过一篇论文《递归之诅咒：用生成数据训练会使模型遗忘》。论文用实验结果证明，用AI生成数据训练新的AI，最终会让新的AI模型退化乃至崩溃。

而之所以会出现“AI生成数据训练AI”的情况，根本原因在于数据量的不足。就连OpenAI都公开承认过训练数据稀缺，已无法满足ChatGPT饕餮般的胃口，甚至还因为部分训练数据集涉及版权纠纷，而接连吃到官司。

用AI生成数据训练新的AI，最终会让新的AI模型退化乃至崩溃。

2023年4月28日，江西抚州大数据标注产业小镇，当地职业院校学生正在从事数据标注的学习和实践

实际上，版权也是互联网语料污染的另一个因素，即创作者为了抗争“不正当”抓取数据的行为，故意设下了“圈套”。

如此情景，正是验证了全国政协委员、知乎创始人周源在近期的两会上所说的话：“我觉得今天构建‘水库的工作大家都重视得不够，反而比较看重怎么去打水的环节，比如训练模型怎么去进行数据和内容的爬取。”

倘若说，英文领域的大语言模型的发展，受到了训练语料不足的掣肘，中文大模型面临的形势，只会更加严峻。

寻求解决之道

中文语料无论是“质”还是“量”，都远远比不上英文语料，而语料本身的污染，同样是一个颇具挑战性的命题。那么，难道说中文世界的AIGC产品，就没有超越ChatGPT的可能了吗？

或许换一种理解大语言模型的思路，就能获得不同的答案。

大语言模型不一定非得成为“全知全能”的存在，而是可以深挖某个特定的垂直领域，“落地”到具体的“场景”里去检验自我，获得不断提升。

正如李彦宏提及文心大模型超过ChatGPT-4时所举的例子，ChatGPT-4无法理解“沁园春”这一词牌名，而“文心一言”可以作出一首漂亮的古词—至少在写词这一领域，“文心一言”确实超越了ChatGPT。

目前，国内的工业、教育、医疗、政务等领域，都在进行着深层次的智能化变革，有着庞大的需求和优渥的市场化氛围，这或许能给部分体量“小而精”的语言模型一次弯道超车的契机。

至于综合性大语言模型的发展，则仍需有良好的培育土壤。

2023年12月20日，中国网络空间安全协会在北京发布了用于大模型的首批中文基础语料库，包括1亿余条数据，500亿个“Token”（文本处理的最小单位）。中文基础语料库的发布，象征着各界初步达成了协作的共识，而这仅仅只是一个开始，后续依然有漫长的道路要走。

目前，国内还有不少可以开发的大型语料库，如中国期刊全文数据库，收录了7400余种各类期刊；如中国国家图书馆，有藏书3700万册；又如以北京语言大学的汉语语料库（BCC）为代表的各大高校语料库，该语料库有150亿字，包含了报刊、科技、古汉语等多领域的语料内容。

对此类中文语料内容进行系统性梳理和标注，需要花费大量的人力物力，难以凭借一家之力完成，不妨倡议共同开发，创建一个能够让各方共享的大型语料库。

这就需要由相关部门牵头，从业界达成普遍共识、并建立规范化章程开始，强化数据安全和知识产权保护，逐步加快对高质量中文數据集的开发和利用，给中文语料的市场化流通提供一个更好的环境。

而另一种可能性则是，将来出现了一款能够精准处理语料的大语言模型，协助人类从这项繁琐的工作中获得“解放”—当然在此之前，人类得想办法不让特德·姜的预言成真。

责任编辑吴阳煜 wyy@nfcmag.com