朱奕瑾, 饶高琦
(北京语言大学 国际中文教育研究院,北京 100083)
中文教学资源是指应用于中文教学各环节的各种教育资源,包括中文教材、教学视频、课件、语音识别软件、在线字典、语法练习软件等。教学资源建设是当今国际中文教育事业发展和学科建设的重要内容,对事业的智慧化转型和高质量发展起到关键作用。(1)马箭飞,梁宇,吴应辉,等.国际中文教育教学资源建设70年:成就与展望[J].天津师范大学学报(社会科学版),2021,(6).然而,当前国际中文教育在教育资源,尤其是语料库资源方面存在数据建设、开放服务等方面的困难。而ChatGPT为代表的大规模语言模型及其应用的出现无疑为国际中文教育在语料库资源方面的探索提供了一种新的可能。
在实践中,ChatGPT展现出了相较于小模型更突出的优势:1.语料生成流畅且内容准确。2.具备大规模文本生成能力。而当前国际中文教育资源建设中存在数据建设困难、大规模定制语料的技术能力不足等问题。针对这些问题,ChatGPT自然流畅的语料生成能力可以解决教育资源建设中的数据建设问题,同时ChatGPT具备的大规模文本生成能力可以结合提示工程(prompt-engineering)对语料进行定制和筛选,进一步提高中文教育资源的质量和效益。这些具体的优势背后则蕴含了更为深刻的变革。首先,ChatGPT等大模型应用的出现逐渐改变了知识的生成方式,知识生产方式逐步由“手动式”“半自动式”转向“自动化”和“智能化”。(2)冯志伟,张灯柯,饶高琦.从图灵测试到ChatGPT——人机对话的里程碑及启示[J].语言战略研究,2023,(2);郑永和,丁雨楠,郑一,等.ChatGPT类人工智能催生的多领域变革与挑战(笔谈)[J].天津师范大学学报(社会科学版),2023,(3).这一变化为国际中文教育数字化转型带来了机遇和挑战。资源生产成了当前最重要的应用抓手之一。其次,在教学资源质量方面,一些地区的中文语用环境薄弱,同时缺乏中文文化体验,难以提供全面的中文教育服务。生成式教育资源有助于改善局部教育资源不足的问题。此外,ChatGPT可以根据资源建设者的需求批量定制语料,以生成符合不同教学类型的资源,进一步提高教育资源的针对性。
基于此,本文尝试基于大规模语言模型(以ChatGPT为例)建设国际中文教育领域的生成式文化例句库,利用提示工程(prompt-engineering)进行例句筛选,并使用构建词表的方式将当代共同价值标准融入教学例句库中,从研究背景、例句库建设方法、例句评价筛选和结论等方面对生成式文化教学例句库进行阐述。
随着大模型应用场景的不断拓展,传统语料库的局限日趋明显。为解决这一问题,本文提出了生成式语料库概念。相较于传统语料库需要依赖人工采集真实数据,生成式语料库可以通过提示来调整语料内容,快速生成符合语言规范的句子。而当前的教学实践中,语料库在预习、课堂讲授、教学评估的各个环节都发挥着重要作用。由于不同环节所需的语料库内容各不相同,因此需要按需定制的语料库来满足教学需求。这与生成式语料库的“按需定制,快速生成”的理念相契合,可以提高语料库的效率和灵活度。在此基础上,本文探索了生成式语料库应用于教学的可行性,并期望为教育资源领域带来更多的创新和变革。
生成式语料库是一种基于ChatGPT为代表的大模型应用大规模语言模型的教学语料库,其中例句来源于生成式语言模型,目的是让学生通过这些例句能够更好地学习和掌握自然语言的语法、词汇、语义等方面的知识。传统语料库通常通过对自然语言文本采集、存储、加工,凭借大规模语料库提供的客观语言事实。(3)荀恩东,饶高琦,肖晓悦,等.大数据背景下BCC语料库的研制[Z].语料库语言学,2016.与传统语料库的语料来源不同,在生成式语料库的建设过程中,语言模型可以根据人工提示给定的条件和语境,生成符合语法和语义规则的自然语言句子。生成式语料库与传统在线语料库相比在很多方面更有优势:
1. 精度方面,生成式语料库是经过特定的算法和技术生成的,可以更加准确地满足用户的需求。相比之下,传统语料库中可能会包含大量噪声数据或与用户需求不符合的内容。例如资源建设者可以通过在提示中举例,引导语料库批量生成符合规范的例句,而在传统语料库中筛选却不一定能找出符合规范的例句。
2. 适用度方面,传统语料库的范围通常是某一确定领域,例如“中文古典文献库”只适用于文学研究,具有局限性。而生成例句库可以根据不同的需求和目的生成多样化的句子,例如不同主题、语言风格等,具有更高的适用度。
3. 自然度方面,生成式语料库可以通过提示工程控制生成句子的自然度,例如在句长、词长、词类和主要句法关系等方面进行控制。而传统语料库则难以控制生成句子的自然度,可能会产生语法、用词不当等问题。除此之外,生成式语料库还具有实时性,随时可以根据需求生成自然流畅的句子。而传统例句库则需要大量的人力和时间进行拓展,效率相对低下且无法满足用户的需求。
4. 成本方面,生成式语料库在道德标准评价和可扩展性上具备成本较低的特点。道德标准评价是生成式语料库在应用中需要考虑的一个重要方面。目前已经有研究人员尝试通过特定的训练方法和数据筛选等手段,使得ChatGPT生成的大部分文本更符合道德标准,这就在一定程度上减少了时间和人力成本。同时,生成式语料库不需要大规模数据收集过程即可在已生成的例句基础上进行扩展。例如,可以将“去+地点”这一结构扩展为“去北京/上海/香港”等内容。因此在成本方面,生成式语料库大大优于传统语料库。
5. 版权方面,ChatGPT生成的文本是通过自然语言处理算法自动生成的,避免了版权问题的出现。而传统语料库通常是从已有的文章、书籍等中抽取或者收集而来,这些文本往往存在版权问题。由此可见,与传统语料库相比,生成式语料库的生成内容更加可信、可重复,不会引发版权纠纷和法律风险。
可以看到,虽然传统语料库可以在短期内获得大量数据,在规模方面存在短期优势,但生成式语料库可以通过调整端口等方式弥补规模方面的不足。除此之外,生成式语料库在自然度、精度、适用性和版权方面具有长期优势,并且在长期内更具有成本效益。
由于生成式语料库在规模和精度等方面具备以上优势,本文选择以大规模语言模型生成的方式建设一类典型的国际中文教育语料库,即例句库。本文中的例句库具有以下特点:
首先,生成式语料库具有动态性。由于生成式语料库是由人工智能系统不断学习和生成新的内容,从而具备不断变化的数据库。因此,它可以作为创建广泛和多样化例句集合的工具,可在各种语言学习和自然语言处理中应用。
其次,生成式语料库具有稳定性。由于大规模语言模型具有强大的鲁棒性,使其能够完成多种自然语言处理任务。虽然这些模型生成的例句具有一定的随机性,但例句数据库可以使用语言模型构建,并提供可靠的教学例句。
同时,生成式语料库个性化特点利于打破“信息茧房”(4)信息茧房,是指通过算法推荐、个性化定制和筛选过滤等方式,使用户只能看到和自己观点相符合、能引起共鸣的信息,从而导致信息孤立、信息封闭和认知偏见等问题。。教师和学生可以根据自己的偏好和要求调整思维链的方向和内容。此外,提示工程对生成的例句具有重要影响,教师和学生都可以利用语言模型,并根据自身需求不断更新例句库,增强例句库的个性化特点。
最后,生成式语料库的操作便捷。信息素养尚处于起步阶段的教育资源建设者也可根据自身需求建设符合教学需求的例句库。
综上,生成式语料库具备动态和稳定特性,结合其高度的个性化和强大的可操作性,可以使其成为语言学习和自然语言处理中极具应用价值的工具。在信息技术的赋能下,生成式语料库更加贴合网络教学环境,助力教师在线上教学中更新符合线上教学环境的教学方法。
例句库是国际中文教育实践中最重要的语料库类型之一。近年来随着相关研究的不断深入,例句库的规模和质量均取得了显著提升。然而,长期以来,不论在辞书领域还是教学实践中,例句的价值观问题都没有得到充分的重视。目前,多数通识性中国文化教材大多只涉及具体的文化表现形式,而中国优秀文化中价值观的内容却体现较少。建立共同价值标准例句库不仅可以满足语言教学需求,还能减少跨文化教学中的文化冲突,使得学生能够更好地理解其他文化,减少由于跨文化交际而产生的隔阂和误解。
共同价值观是人类社会目前普遍崇奉和接受的思想和观念。由于共同价值观凝结的是人性中的真善美情愫,因而其表现形式是普遍主义的。这些基本价值观包括人权、自由、平等、正义、尊重、责任和公共利益等,被认为是所有人类社会的共同目标。
目前,与当代共同价值标准相关的文件有《联合国世界人权宣言》《联合国教科文组织世界宣言》和《联合国可持续发展议程》等,旨在确立全球共同的人权标准和原则。其中,在《联合国世界人权宣言》(1948年)中强调了人权是普世的、不可分割的和平等的,并明确规定了各种基本权利和自由的内容。(5)世界人权宣言(联合国大会1948年12月10日通过)[J].人民论坛,1994,(11).同时,《联合国可持续发展议程》(2015年)中从全球可持续发展的局势上提出了要增强可持续发展的普遍性和平等性,呼吁各国采取行动保护地球,促进人类的发展和福祉。(6)陈迎.联合国2015年后全球发展议程:从理念到实践[J].当代世界,2015,(4).这些文件都体现了不同文化中自由、平等、博爱、民主、法治、人权等观念的共同性。
综上所述,当代共同价值标准的理论是涉及政治、伦理、社会学等多个领域,同时由于这一标准在全球范围内的大部分地区都具有共识性,目前并没有明确的文件规定符合共识价值标准的教育资源体系。由此可见,结合共识价值体系建构国际中文教育领域的例句库资源尤为重要。
语言文化教学的目标与跨文化能力之间有着必然的关系。(7)祖晓梅.跨文化能力与文化教学的新目标[J].世界汉语教学,2003,(4).国际中文教学包含跨文化交际过程,更需要在教学内容方面探索不同文化之间价值观的异同点。因此,针对共识价值观的教学资源可以创新国际中文教育文化教学内容,增强学生对中国文化的共情,同时可以满足教师文化教学的需求。
当前《国际中文教育用中国文化和国情教学参考框架》(以下简称《参考框架》)规范了国际中文教育领域的文化教学内容,使得文化教学符合“由浅入深、由具体到抽象、由零散到系统循环往复、螺旋上升的特点”(8)吴勇毅.文化的理解与分享——《国际中文教育用中国文化和国情教学参考框架》之要义[J].宁波大学学报(教育科学版),2023,(1).。然而,《参考框架》仅仅为文化教学提供了规范,教师可以在教学中对《参考框架》的使用进行适当调整。吴勇毅(2022)指出,教师可以根据教学对象、其语言水平、教学阶段和教学环境对某个文化点的讲授深浅与体验方式进行适当的拓展或延伸。由此可见,在《参考框架》的规范和引导下,教师可以结合自身的教学需求灵活调整教学内容。
综上,共同价值标准例句库可以填补深层文化教学资源的空白,在教学上为国际中文教师的文化点讲授提供新思路,使得教师可以在教学过程中从不同文化的共性入手,更好地展示中国优秀文化中的价值观。
由于只有为模型提供准确的指令才能获得理想的文本产出内容,因而需要设计清晰、具体的指令以指导模型的输出。基于这样的认识,我们选择了以ChatGPT为数据来源,采用人机交互方式建构生成式例句库,并结合国际中文教育领域的例句特点,采用提示工程理论提高输出文本的准确度和相关性。具体而言,在建构例句库的过程中,首先通过人工标注生成了备选词表,并利用词表中符合共同价值标准的词汇以人工筛选和人工智能生成两种路径建构例句库。
根据国际中文教育例句库的需求,本文对《国际中文教育水平等级大纲》(以下简称《等级标准》)进行标注,并生成符合共同价值标准的教学词表。
《等级标准》是国际中文教育领域的一种标准化、规范化的等级标准体系,其中高等词汇包括7~9级,共有5636个词语。通过对《等级标准》的高等词汇进行标注,从“主体、行为、状态和属性”四个方面筛选出符合共同价值标准的词汇1014个。并将这些词汇选定后进行标注,最终生成词表,见表1。
表1 词表示例
这一过程利用大规模语言模型,根据训练数据中词语的上下文语境和情感标签判断词语的感情极性。在研究中发现人工智能在判断以上词语的情感倾向时的正确率为70%,因此需要在标注情感极性时进行人工筛选。人工筛选过程中,作者参考《台湾大学中文情感极性词典》从词语的情感方面进行筛选。综上,通过ChatGPT和人工标注共同生成了备选词表。其中,词表中共有正向词1014个,负向词740个,中性词3882个。本文中的例句来源以正向词为主,词表中的负向词和中性词用于备选,需在提问时设计特别的框架进行引导。
作者参考了《商务馆学汉语词典》等国际中文教育领域常用的词典和《汉语教程》等教材,结合已生成的词表,从中总结出常见的词性组合。在此基础上,本文总结了两种生成式例句库建构路径,即人工筛选为主以及人工智能生成为主。具体内容如下:
1. 人工筛选为主。在人工判定《等级标准》和词典中的词语后确定符合当代共识标准的词表,教育资源生成者在统计国际中文教育领域经典教材中的典型语法结构、常用情景以及词性组合结构后利用词表形成提示框架。例如选择词表中正向词“榜样”一词,明确常见的词性组合“名词+动词+名词”,例句语法点为“是字句”,常见的场景为“中国校园”。将这些信息依次输入,即可生成例句“她是我们班的榜样。”这样生成的例句更为规范,但需要耗费较多的人力进行统计和筛选。
2. 人工智能生成为主。直接使用《等级标准》中的词语对ChatGPT进行提问。教育资源生成者再通过设定提问框架对人工智能生成的例句进行筛选。例如可以提问“用案件一词造句,要求句子是单句,句子长度在12~15个词之间。所有句子要符合中国语言环境的具体场景,如果词语负面,句子也要符合共同价值标准。”在这样的标准下生成的句子即可符合大多数共同价值标准例句的要求。为提高例句的质量,生成后需要抽样人工确认和调整。其中,抽样确认工作的重点在于确保语料中的生词没有被遗漏并且符合共同价值标准,人工调整包括修改语料中不符合现代汉语语感的内容,最终形成适用于教学的高质量例句。
综上,本文在设计提问模板时参考了两种建构路径,力图在保证符合普遍场景前提下的例句更加规范,更符合教学需求。
由于当前语言模型生成文本具有不稳定性,例句筛选在例句库的建设过程中尤为关键。本文结合提示工程,建构了以ChatGPT和人工互动为核心的语料库加工建设流程。该流程通过生成式例句库的建设,结合国际中文教育领域中的例句设计原则,实现了对例句的筛选和优化。为了进一步提高大模型在例句生成过程中的性能,本文采用思维链推导的原理,通过提示工程对例句进行筛选,最终生成了适用于教学的共同价值标准例句库。
目前已有国际中文教育领域的教育资源建设者根据教学实践在宏观层面提出了例句的设计原则,具体内容如下:
1. 规范性原则。例句设计应考虑到例句中生词的难度等级、句法结构和语义关系等。因此,设计例句时应充分考虑例句的规范性,使得学习者可以借助例句顺利习得生词。该例句库在词表生成中确定了生词的难度等级,需要通过对句长、词类和语法关系方面进一步筛选和控制,从而增强例句的规范性。
2. 实用性原则。张文华(2012)认为例句设计应该有实用性,注意例句中的文化背景因素,并且例句设计不应有消极暗示的感情因素。(9)张文华.对外汉语教学中的例句设计[J].文学界(理论版),2012,(10).本文建构的共同价值标准例句库中的生词符合共同价值标准,而文化背景方面需要进一步筛选。同时,王弘宇(2011)认为例句应兼顾表达和理解,符合外国人说出的原则。(10)王弘宇.建立教材例句库的构想[J].世界汉语教学学会通讯,2011,(2).因此,在设计例句时,应选择符合汉语的语言环境的例句,使例句满足日常交际的需要。
3. 趣味性原则。为提高教学例句的可学性和趣味性,可从时事新闻和歌曲影视中进行例句筛选,从而提高学习者的学习兴趣。
基于以上原则,本文认为,共同价值标准生成式例句库的评价体现在以下两个方面:一是例句在道德评价上符合当代共同价值标准,二是例句可以应用于国际中文教育领域的教学实践。针对这两个方面,为了让所有的例句符合共同的价值标准,本文使用了生成词表的方法,对词语进行了价值标准评价。对于后者,本文总结了以下标准:
1. 语法关系方面。相关研究表明,由于学习者会受到句法结构和句子长度的交互作用的影响,(11)高思畅,王建勤.句法结构和句子长度对汉语学习者口语韵律组块的影响[J].世界汉语教学,2020,(1).因此生成例句时应控制句子中的语法结构和例句长度,减少例句中的焦点,凸显例句中生词的语义特点,尽量做到语言形式和意义一一对应。结合以上理论,本文中的例句标准以单句为主,句子长度在12~15个词左右。
2. 语用原则方面。例句应减少歧义,具有规范性,同时要包含丰富的社会环境,因此,本文中例句的渠道为正式书面语等,在保证例句社会性的同时保证其权威性和准确性,同时避免在例句中使用过于口语化或方言化的词汇和表达方式。
3. 词汇搭配方面。例句中应包含丰富的词性搭配,同时词性搭配要符合大多数汉语例句,应利用国际中文教育例句中常用的语法结构,例如“定中结构”“状中结构”等,并以此为标准用思维链推导的方式对例句库进行了筛选。
根据以上标准,运用思维链(chain-of-thought,CoT)推导的方式对教学例句进行筛选。
思维链(Chain of Thought,COT)是指人们在思考问题时所形成的思维流程或思维路径。具体的提问指令是ChatGPT等大模型在应用过程中呈现出来的思维链表现形式。结合思维链的推导准则,确定准确的提问类型对文本生成具有重要作用。在大规模语言模型的应用中,思维链提示作为简单而广泛适用的方法可以增强语言模型的推理能力。(12)Jason Wei,Xuezhi Wang,Dale Schuurmans,et al.Chain-of-Thought Prompting Elicits Reasoning in Large Language Models[J/OL].2022:arXiv:2201.11903.https://arxiv.org/abs/2201.11903.前文提到的所有例句生成路径都需要基于大规模语言模型进行思维链推导。因此,如何使用思维链推导的方式建构提示问句是教育资源建设中需要进一步探讨的问题。本文结合例句库的建设过程,根据提示工程已有理论和例句库的评价标准的思维链推导原则:
首先,大规模语言模型的生成具有一定的随机性。因此,应设计明确简洁的指令,使其明白教育资源建设者的需求。具体包括“不要回答除了……以外的内容”“你的角色是……”,以及“你的任务是……”等。只有在提问过程中明确语言模型的角色、任务和回答范围,才能更有效地获得答案。
其次,当前的大规模语言模型在例句生成过程中存在容易失去句子焦点的情况,因此,在程序性指令的过程中应明确句子的焦点。具体方法有通过标点明确句子焦点,例如使用“”{ }等标点以及正则表达式(13)正则表达式是一种用来描述字符串规律的表达式,广泛应用于文本处理和编程中。它可以通过一系列字符和特殊字符的组合来匹配符合特定模式的字符串。本文应用正则表达式匹配语料中的生词,以确保生成过程中生词没有遗漏。、Markdown(14)Markdown是一种轻量级标记语言,常被用于快速排版和发布文档,并广泛应用于各种文档处理场合。本文使用Markdown语言生成例句,旨在方便资源建设者直接从生成结果中提取例句。等明确的语法形式提高提问效率。
同时,明确例句具体的情景也可以提高例句的生成效率。在设计提问框架时可以明确例句出现的常见情景,例如“中国食堂、公园、博物馆”等,可以使例句更符合日常交际,满足例句的交际需求。
除了以上原则,确定合适的提示类型也可以提升提问效率。在提示工程领域,已有提示类型包括任务性提示、示例性提示、限定性提示、个性化提示和编程式提示等不同的提示方式。不同类型的提示会对生成的文本产生影响。
1. 个性化提示是指为模型提供特定角色,指导ChatGPT输出和角色相关的内容。在提示过程中测试了“教育专家”“国际中文教育领域的专家”“中小学语文教育专家”等角色,由于以上这些角色生成的句子在语义上差别不大,因此在最终的提示框架中根据国际中文教育的教育目标选择了“具备共同价值标准和跨文化交际能力的教育专家”这一角色。
2. 任务性提示是提示工程中一种常用的选项,用于指导ChatGPT通过为模型提供特定的任务输出。例如在例句库的建设中提示任务“请为我生成例句。”
3. 示例性提示是指在提示中提供特定的示例控制ChatGPT文本的生成。在例句库的生成提示中,可以给出规范例句作为参考,以规范例句为标准进行提问,以提高提问效率。
4. 限定性提示是指在提示中为模型提供一组特定输入,以此指导ChatGPT生成更可控、更可预测的文本。在提示语(prompt)应用中,多数倾向于使用英文编写。本文在例句库建设中尝试了使用英文编写限定性提示,但生成的例句大多不符合共同价值标准,同时不适合用于教学。例如“国际学生们经常在中国食堂里喝酒。”因此本文决定选择中文作为提示框架来引导生成的句子。
5. 编程式提示是指在提示中给定具体的语法指导模型生成文本。例如可以在建设例句库时给定明确的语法,使得所有例句根据已有的搭配精准搭配生词。
基于以上的提示原则和提示类型,本文对不同的提示进行了研究和调整。以下以“榜样”一词为例在不同的提示下生成了不同的例句。见表2.
表2 提示对比
综上,本文提出了提问框架供教育资源建设者使用,这有助于大规模创建更有效和高效的例句数据库。因此在和ChatGPT交互的过程中设计了如下指令,便于使用者利用ChatGPT精准高效地生成教学例句。具体内容如下:
“请你担任具备共同价值标准和跨文化交际能力的教育专家。基于{“词表”:{“词语一”,“词语二”}},按顺序完成以下任务:
任务一:每个词造一个句子。希望这些句子都是单句,句子长度在12~15个词之间。所有句子要符合中国语言环境的具体场景,如果词语负面,句子也要符合共同价值标准价值观。
任务二:用正则表达式匹配任务一中的搭配,如“词语一|词语二”,用括号里的词生成“现代汉语词语搭配词表”。词语搭配来源可以是社交媒体、电影报刊或经典文学作品,注意词语搭配的语法结构要多样,包括但不限于“定中结构、状中结构”等,有一定的文化内涵。每个词生成两个语法搭配。只输出两个搭配,不要回答其他问题。
任务三:用任务二的搭配造句,用Markdown格式输出,不要回答除了句子以外的内容。
本框架适用于国际中文教育领域一般性的例句生成。在这一提问框架下每个词可获得两个例句供使用者选择。框架中的“词语一、词语二”等可替换为《国际中文教育中文水平等级标准》中各个等级的词语,同时资源建设者可在任务一中根据需求补充例句出现的情景,例如“所有句子要符合中国食堂的具体场景”,使例句更加满足具体的教学需求。
结合以上研究,本文利用《等级标准》中的7~9级词汇中符合共同价值标准的词建设了小型例句库,旨在以此个例句库为例,尝试探索生成式例句库的建设方法。在前文提问框架的基础上,本文使用人工筛选和人工智能生成的两种生成路径共生成了10432个句子,即为5216个生词每个词生成了两个适用于国际中文教育的例句。
限于篇幅,本文对例句库中前十个生词生成的例句进行简单展示,如表3:
表3 生成式例句示例
基于ChatGPT提出的生成式语料库理念对国际中文教育例句库的建设具有指导意义。本文选择传统教学例句库中容易被忽视的例句价值观问题,尝试采用生成式理念快速建构符合共同价值观标准的例句库。实践表明以大规模语言模型为基础建设国际中文教学的生成式例句库效果尚佳,且具有很高的可行性,希望以此为国际中文教育例句库的建设提供有益的思考。
以提示工程理论为基础建设生成式例句库这一目标是个漫长的过程。目前本文提出的提问框架不足以应对所有例句的情景,还需要教育资源建设者根据自身的教学需求继续改进提问框架。在例句的规范性上,目前ChatGPT生成的文本时常存在不符合现代汉语语感的问题,需要对生成句子进行进一步筛选和人工改写。同时,本文的例句库规模相对较小,例句范围仅仅以共同价值为标准,例句种类不够全面。未来会继续探索生成式例句库的可能性,以便更好解决国际中文教育领域教育资源不足的问题。