“语言智能”多人谈

2023-08-01 07:23:37宋柔李斌王宝鑫杨子清伍大勇李辰荀恩东苏祺

语言战略研究 2023年4期

宋柔李斌王宝鑫杨子清伍大勇李辰荀恩东苏祺

语言学能为大规模语言模型的完善做些什么

宋柔（北京语言大学信息科学学院）虽然大规模语言模型（以下简称“大模型”）的出色表现震动了社会，但是也暴露出了一些根本性的不足，比如：生成的文本会有事实性错误和逻辑谬误；缺少正误判断能力；规模过于庞大，消耗太多的算力；不具备人脑的深度抽象能力和由之而来的创新能力。随着大模型的数据量和参数量不断扩充，这些缺陷会有所改善，但大模型的系统架构决定了不可能完全消除这些不足。

为了帮助大模型克服这些缺陷，语言研究可以做如下工作：第一，研究话语理解的难点，从语言学的角度提供专项的正例和反例，使大模型以较小的代价学到更多更精的语言知识，减少话语生成中的错误。第二，将逻辑规则和数学公式与其自然语言表述成对地输入给大模型，提高大模型的逻辑推理能力。第三，研究话语单位上下文相关性的范围和约束，使大模型轻量化。比如，根据对小句复合体的研究，語篇具有小句内、小句复合体内、小句复合体间的三维结构，不同维度的上下文关系完全不一样。遵循这种结构，大模型的转换器输入窗口的宽度为小句即可，注意力机制无需关注跨小句的词语关系，如此可以减少参数。第四，通过话语研究来揭示人脑语言理解与生成的机制，为大模型的根本改造提供启示。

大模型的应用使语言教学的目的和方式发生了改变。因为不同母语者交流的语言障碍基本不复存在，以培养语言技能为目标的语言教学需求将大为减少。这种情势下，语言教学应向两个方向分化。一是高级语言人才的培养。除了精通语言使用外，还要深入学习语言规律、语言比较、语言认知、语言文化等等。二是普及型的自然语言学教学。应将自然语言学设为大学基础课，讲授各种语言单位的概念和在复杂对象中提取概念的方法，培养学生的联想、类比、归纳、抽象、演绎的逻辑思维能力，这些能力是人工智能时代从事各种工作都需要的基本能力。培养这些能力的课程需要让学生熟悉研究对象，但语言使用是他们早已熟悉的，无需另外学习，这是自然语言学课程的独特优势。

语言智能要重视高质量基础数据研发

李斌（南京师范大学文学院）作为人工智能的一个重要领域，语言智能需要依托大量的基础数据进行研发和应用。这些基础数据包括语料库、词典、语言模型等，它们为语言智能的算法和应用提供了必要的支撑和基础。从ChatGPT来看，它所使用的GPT3.0和3.5版，只有570GB的纯文本语料，约4000亿字（tokens）。相比于互联网上的海量数据，这个规模并不算巨大，而其使用的语料主要为英文数据，中文语料比例不足1/20，中文GPT还有很大的研发空间。

在当前的语言智能领域，中文语言数据的质量和数量仍然存在不足，因此，语言智能研发者需要加强对基础数据——语料库的研发。语料分为生语料和熟语料。生语料是指从原始数据源中直接获取的未加工、未清洗、未分类的文本数据，规模通常是海量的，包括新闻、社交媒体、论坛、博客等。生语料常常含有大量的噪声、错别字以及不同的拼写、语法和语言习惯，需要经过预处理和清洗才能用于分析和建模。熟语料是经过预处理和清洗之后得到的高质量的文本数据，可用于训练和测试自然语言处理模型。熟语料可以是标注的和非标注的，标注的熟语料是在文本数据中给出相应的标签或注释，用于监督学习；非标注的熟语料则是没有任何标签或注释的文本数据，用于无监督学习。

然而，目前的困境在于，无论是学术界还是工业界都需要熟语料，但是很少机构或企业愿意标注文本数据。因为数据加工成本高、难度大，建设周期长，难以产生直接的经济效益。由于缺乏数据发布平台和良好的版权保护机制等因素，数据标注出来也面临着被低价收购甚至盗用等不利局面。因此，需要从根本上理顺数据标注的研发机制，借鉴欧美的成熟机制，结合国内实际，在知识产权保护与共享、数据发布与商业模式、数据标注相关的诸学科布局（数据科学、语料库、计算语言学等）方面建立良好的平台与生态，促进高质量熟语料的基础数据研究与生产，推动语言智能研究与产业发展。

国家社科基金项目“中文抽象语义库的构建及自动分析研究”（18BYY127）

认知智能大模型对语言信息处理技术及应用的四大影响

王宝鑫、杨子清、伍大勇（科大讯飞股份有限公司北京研究院）随着ChatGPT、GPT–4等为代表的大型语言模型的发布，人们无不为其惊人的理解和生成能力所折服。这些认知智能大模型可以理解绝大多数的自然语言指令，生成和人类水平相当的长篇文章，这预示着人工智能将在各个领域产生深远影响。

认知智能大模型在智能语言信息处理能力上实现了重大突破，具体包括5个方面：记忆并处理海量语言数据，实现信息的全量记忆和参数化处理；理解自然语言中的语义和上下文，实现任意任务的自然语言处理和对话式理解；进行逻辑思考和推理，完成复杂逻辑的思维链推理；生成多种风格和角色的长文本，实现多角色多风格长文本生成；及时根据用户的反馈进行交互修正，提高了对话交互的准确性和流畅度。

基于上述突破性进展，认知智能大模型将在4个方面对语言信息处理技术及应用产生巨大影响。第一，改变信息获取方式，让人们更快找到所需信息。认知大模型可以直接理解用户需求并生成相关内容，大幅提高信息获取效率。第二，革新内容生产模式，高效创作高质量内容。认知大模型可以在短时间内自动生成各种类型的文本，彻底改变内容创作的生产模式，给各类文字工作者带来极大的便利。第三，通过对话完成各类任务，提高用户体验和工作效率。在办公场景中，认知大模型可以协助员工处理日常工作，提高效率；在教育领域中，可以提供个性化辅导，促进教育公平和质量。第四，提高科研领域工作效率并推动创新。认知大模型可以帮助研究人员快速查找文献，提出新思路，并辅助编写研究报告等，降低科研门槛，加速科研创新。

认知智能大模型技术的出现与发展，为人们的生活带来了巨大便利，也带来了一些挑战。在未来的发展过程中，我们应关注该技术在伦理、隐私和社会影响等方面的问题，努力降低其潜在风险。同时，我们也需要不断探索和创新，让认知智能大模型在未来的应用中发挥更加重要的作用。

文本纠错技术发展的三大关键要素

李辰（阿里巴巴达摩院）随着人工智能技术的快速发展，文本纠错技术成为自然语言处理领域的一个重要分支。通过对文本的分析和理解，计算机可以自动识别和纠正文本中的拼写、语法、逻辑等错误，从而提高文本的准确性和可读性。使用文本纠错技术可以帮助避免语言错误，提高文本的准确性和可读性，从而让文本更易于理解和处理。

文本纠错技术的发展历程可以分为3个阶段：基于规则、基于统计和基于深度学习的纠错技术。纠错技术从使用人工编写的规则进行文本纠错和修正，发展为自动从大量语言数据中学到纠错规律和模式；从需要大量的人力和时间进行规则的编写和维护，转变为需要大量的训练数据和计算资源进行训练和优化。

在推动文本纠错技术发展的过程中，3个关键要素起着至关重要的作用：算法的创新、用户体验的改进和产品服务质量的提升。

首先，文本纠错技术的发展得益于评测带动算法研究的模式。大量的高质量评测数据被用于训练文本纠错模型，数据的丰富性和质量推动了算法的研究和优化。文本纠错算法的开源也为研究人员提供了更加开放的平台，使得从业人员和技术研究者能够更加便捷地进行研究和开发。

其次，文本纠错技术使得用户体验得到了明显的改进。通过深度学习技术，文本纠错算法能够更加准确地识别和修复错误，从而使其可用性大幅加强。此外，一些文本纠错应用也采用了交互式界面和用户反馈机制，为用户提供更加便捷和个性化的使用体验。

再次，文本纠错的产品服务质量得到了持续提升。通过开源和大模型技术的应用，研究人员能够构建更加强大和高效的文本纠错算法，提供更加准确的纠错服务。同时，越来越多的机构和企业成功应用文本纠错技术，通过产品和服务提升其在线服务的质量和效率。

通过评测、数据、开源和算力等多方面因素的推动，文本纠错技术得到了不断进步。随着大语言模型技术的发展，文本纠错模型可以处理更加复杂和庞大的语言数据，在大语言模型时代迎来新的发展机遇。

语言智能技术赋能第二语言智慧教育

荀恩东（北京语言大学信息科学学院/语言资源高精尖创新中心）智慧教育的核心是智慧教学。智慧教学有两个含义：一个是“智能地教学”，强调智能技术赋能教学全过程；一个是“智慧的教学”，强调教学的结果。

“智能地教學”包括两个方面的内容。第一，通过智能技术更好地建设数字化教学资源，提供给教师和学生，推进教育资源的供给侧改革；第二，采用智能技术研发具有教学功能、可以充当教师角色的智能工具，直接赋能学生，实现无师值守的个性化学习。

构建面向第二语言的智慧教育教学资源，一方面要重视教师的经验，更好地发挥传统教学模式的作用；另一方面也要重视大数据的作用，建设语言要素库、教学课件和学生语言练习题库等，这些是教学资源的基础。对于语言数据，既要重视非母语数据，也要重视母语数据。非母语数据包含学习者的行为数据，其中蕴含着学习过程、学习偏误等信息；母语语言生活数据更不可偏废。让构建的语言教学内容能够被学习者更好地理解和掌握，更符合学习者未来语言生活的实际情况，实现对学生成长的价值引导，是智慧教育的目标之一。

研发智能语言教学工具，则应围绕听、说、读、写、译5个主要技能，研发具有单项或多项功能的专门工具，实现服务于学习的人机交互，打造智能语伴。其中采用的语言智能技术应包括：语音合成技术，让计算机发出自然标准的语音；语音评测技术，让计算机自动检测学习者的发音偏误，给出发音训练指导；汉字书写评测技术，让计算机检测学习者汉字书写的正确性，实现规范化汉字书写；作文写作辅导和评测技术，提升学生写作能力和水平；机器翻译技术，帮助学生更好完成翻译学习；分级阅读素材推荐，为学生提供难易适中的阅读素材；等等。这些技术都已成熟，但仍要面向二语学习场景进行专门的适配性开发。

“智慧的教学”体现在教学模式和教学方法两个方面。在教学模式方面，与传统的语言教学相比，智慧化的语言教学打破了时空的限制，利用数字化教学平台实现了数据驱动的联通互动教学，顺应了教学样态的改变。因此，教学模式也需要做调整和优化，例如，改变一位教师一门课的传统的模式，发展为“1 + N”的团队教学模式，即一位主讲老师，多位助教协作完成课程教学。在教学方法方面，教师采用数据驱动的智能技术，利用学习者学习行为信息，对学习者学情进行自动画像，量体裁衣，有针对性地因材施教，实现个性化教学。

语言智能加速跨学科融通和人才培养模式革新

苏祺（北京大学外国语学院/人工智能研究院）在学科建设日渐强调打破专业壁垒，推行新工科、新医科、新农科和新文科的背景下，语言智能技术将成为引发多学科知识聚变的重要抓手。

强大的语言理解能力使语言智能系统在知识获取和生产方面展现出巨大优势。结合其广泛的底层知识库，语言智能系统能够回答各种学科的基础知识性问题，并提供充分的信息细节，使教学转向更具创造力的思维活动。在知识交流方面，其角色可类比为一个无所不知的家庭教师，在知识广度上大大超越了传统单一学科的认知能力。以数字技术与人文学科融合的数字人文为例，语言智能可提供大量实例，辅助文科学生更为平滑地掌握程序设计等技术方法，培养计算思维和工具理性；也可助力理工科学生快速建立起人文基础知识体系，提升人文素养，重塑价值理性。语言智能系统能够充当学科之间的粘结剂，有效拉近学科距离，促进跨学科视野和思维方式的转变。

语言智能系统的“1对1”交互模式，也使其顺应了现代社会对教育形态和人才培养的需求，有助于突破现有工业化教育模式，实现全流程自我导向学习。语言智能系统能够通过推荐学习材料、辅助阅读、规划自学路线、优化知识推理等提供个性化教学服务与学习支持，并进一步提升了教育的公平性。其多语言理解和语言生成能力，使学习者和研究者可以突破语言障碍，在获取信息时可以更便捷广泛地吸收国外资源，在知识生产中可以更专注于思维本身的创新，从而带来学习和生产效率的提升。伴随而来的则是教师对语言智能环境下教学定位和方式的再思考。对于某些基础课程的教学与评估，如语言学习、写作、程序设计等，教师有必要调整已有课程设计，探索课堂内外与语言智能工具的有效结合。

现有通用语言智能系统在回答准确性和深度等方面仍有不足，未来需要在领域专家的指导和领域数据的训练下，积极倡导研发垂直领域的语言智能系统，提升其专业性。同时，也应积极发挥教师在语言智能工具使用中的引导作用，敦促和启发使用者提高提问和甄别回答质量的能力，保持谨慎与批判性思维，警惕语言智能工具阻碍人的主体创造性，确保其成为思维的延伸，促进知识的创造性建构与转化。

责任编辑：逯琳琳