在计算机领域,作为算法的其中一类,大型语言模型的用途日益广泛。它可以学习数十亿个单词和短语之间的统计关联,并完成语言翻译、摘要生成、文本分类和问题解答等任务。
这类模型采用了一种名为“神经网络”的灵感架构,通过不断调整那些被称为参数的值来执行模型训练,并以抹去文字的方法,完成现实与预测结果之间的比对。
完成训练后的模型不仅可以自动生成美好的诗歌,还能正确回答很多生活中会遇到的小问题,在一定程度上给予了人们较大帮助。
不过,目前的语言模型并没有感知语言意义的能力,因此,模型在执行任务的时候,可能发生“胡言乱语”的情况。更令人担忧的是,模型在选择源头学习数据时存在局限性,会给之后的工作带来严重的伦理缺陷或实践缺陷,比如泄露私密数据、提供错误信息、助长虐待或偏见等。因为大多数此类模型由大型科技公司开发,其内部工作原理并不对外展示,所以,想要解决上述问题并不容易。
为了克服这些难题,打破大型科技公司对自然语言处理的垄断,减少可能出现的有害影响,一个名为“BigScience”的国际合作项目推出了BLOOM模型的早期版本,希望它能有助于减少人工智能语言模型的有害输出。
BLOOM模型是第一个大规模多语言模型,拥有1760亿个参数,并由数百名研究人员完成,其中大部分是学者,包括哲学家、法律学家和伦理学家,也有一些来自脸书、谷歌等公司、以个人身份参与工作的员工。该模型的计算训练工作得到了价值700万美元的公共资助,从规模来看可与OpenAI、谷歌等公司开发的语言模型相媲美,但它将是开源的。
通常情况下,包括Reddit网站在内的大多数语言模型都直接从网络上抓取语言,而语言模型的好坏却取决于其基于的数据集。对此,Hugging Face公司的机器学习研究员雅辛·杰尼特认为:“选择模型需要学习的文本是一项非常关键的任务。”
为了选择文本资源,研究人员参与了非洲自然语言处理社区Masakhane、 LatinX in AI、Machine Learning Tokyo等在内的一系列社区团体研讨会。此后,BigScience 的研究人员从500个来源中精心挑选了规模为3410亿字的数据集中近2/3的内容。
其内容不仅包括《自然》等文章,还包括语义学者这类人工智能支持的学术出版物搜索引擎。杰尼特表示:“我们希望确保那些与他们的国家、与他们所说的语言以及与数据密切相关的人能够参与进来,共同选择进入模型训练的语言文本。”
研究人员为解决语言模型存在的缺陷付出了诸多努力。首先,他们充分利用现有的计算能力,在使用多语言网络进行抓取的同时,对数据进行了质量过滤,还完成了隐私编辑工作。其次,他们还通过减少网站的过度呈现,来克制模型中可能产生的偏见与歧视。虽然BLOOM模型不可能完全消除偏见,但在确保提供多元文化和高质量资源的基础上,模型的整体质量可以得到很大的提升。
作为一个拥有人工智能模型和数据集的开源平台的公司,Hugging Face的联合创始人托马斯·沃尔夫评价说:“BLOOM模型背后的代码和数据集是开放的,所以研究人员可以试图了解有害行为的根源,这可能有助于未来迭代版本的改进。”
同时,在模型评估方面,研究人员除了比较BLOOM模型与其他模型在回答问题方面的能力,还设置了更为多样化的指标,包括语言模型产生特定刻板印象的强度、语言模型在特定语言下产生的偏见大小等。布朗大学自然语言学习研究员艾丽·帕弗里克认为:“由于这个模型已经被训练成多语言,因此它可能对语言有着更深的理解,有助于其能力延伸至各类任务。”
目前,BLOOM模型正处于3个月训练期的最后几周。训练结束后的模型可供研究人员下载,并开展进一步的实验和新数据训练。
需要说明的是,第一,下载并运行该模型需要很大的硬件容量。第二,为允许实验室跨服务器共享模型,BigScience还将发布更小且更少的硬件密集型版本,完成分布式系统的创建。第三,近期Hugging Face公司还会发布一款应用程序,帮助使用者在不下载的状态下查询BLOOM模型。第四,在使用该模型之前,使用者需要签署一份不断发展的法律许可,不得用模型来服务不当目的。
目前,BLOOM模型已在多领域得到了应用。它既可以作为探索人工智能的工具,又可以从历史文本中提取信息,还可以完成一些生物学方面的分类工作。