基于语料库的中医汉语主题词表构建

2022-06-06 13:24刘华李晓源
华文教学与研究 2022年2期
关键词:主题词语料库

刘华 李晓源

[关键词] 语料库;词语聚类;主题词;中医汉语词表

[摘  要] 分类词表研制是促进中医汉语教学发展的重要前提。基于现有中医汉语类教材、中医专业类教材、中医网站三大语料来源,建设中医汉语语料库;利用词语聚类算法和图式语义场理论,形成中医汉语内部主题分类词簇,有助于构建中医汉语主题分类词表体系。该研究方法可为其他专门用途汉语的词表建设提供参考。

[中图分类号]H08  [文献标识码]A  [文章编号]1674-8174(2022)02-0077-09

近年来,伴随汉语国际化的传播发展,专业领域汉语人才的需求在不断扩大,专门用途汉语(Chinese for specific purposes)正成为国际中文教育发展的新方向。中医汉語,作为专门用途汉语的重要组成门类,其教学体系也在实践中得到完善发展。中医汉语词表是开展中医汉语教学的重要基础,词表的构建离不开真实的素材来源与科学的构建方法。基于各类中医语料素材所形成的中医汉语语料库,能为中医汉语的词表构建提供强大的语料支撑和数据基础,结合计算语言学中的词语聚类方法,所获得的分类主题词语集合,可进一步提升词表构建的系统性和科学性。

词表的筛选创建需以真实语料作为底层依据。伴随互联网技术的迅速发展,网络平台已成为语言传播交流的重要媒介,是呈现当今汉语使用情况的开放窗口。因此,在中医汉语语料的收集中,注重对网络语料的获取分析,通过爬虫软件工具,有针对性地抓取中医官方网站的语料素材,可确保底层语料来源的真实。

中医汉语词语不仅包含传统医学知识,而且体现丰富的中华文化理念。学习中医汉语的对象大致可分为两类:一是高等本科院校中医专业类留学生,该类型学生已接受过较高程度的汉语教育,对中医汉语的文化词义具备一定理解能力;另一类是对中医文化感兴趣的中文学习者,该类型学习者汉语水平参差不齐,在理解中医文化内涵时有一定难度。因此,中医汉语词表的创建应关注上述两类对象的现状和需求,注重词表分类的整体系统性。通过基于语义关联度原理的主题聚类方法,将具有文化内涵的词语进行合理分类,依据词语语义的相关性,形成具有主题属性的体系词表。

1. 中医汉语分类词表构建理论与方法

1.1 图式理论和语义场理论

图式理论认为,人们对事物的认识是基于某一主题的知识开展形成的。各种事物都有其不同的特征,图式理论能对事物的特征进行总结归类,寻找事物彼此间的关联属性,使之形成结构性认知储存于人类的头脑中。具体应用到汉语习得层面,汉语交际的各类领域图式是由对应的词语群落组成的。

该词语群落是一个巨大的语义总场,汉语的词语意义主要是通过场内词与词之间的关系表现而来。语义场中的词语都有其概念区间,并在内部形成系统的场级分类。每个语义场会在一个共同语义要素的支配下组建系统的词语语义群落,上一层级词语的义素会为下一层级各词语所共有。词表创建可充分结合图式理论和语义场理念,形成以主题为导向的词表库,有利于帮助学习者在头脑中形成语义联想网络,促进语言的习得记忆。

1.2 主题词簇界定与分级

主题是交际的出发点或对象,亦是思想和语言交际的中心。主题具有群集特性,在文本内容中起到聚拢作用,是语料信息的集中体现。主题词簇是指与某一主题紧密关联的词语群(刘华,2008)。借鉴“领域词语”的分类原理,根据主题词簇在语料中出现的频率和权重,可将其分为两类:主题通用词和主题专类词。

主题通用词是指在两个或两个以上关联度高的主题中可以共用,且使用频率高,具有一定区别作用的词语;主题专类词则是区别话题度高,且细微特征明显,领域个性强的词语。基于该分类原理,可以把中医汉语理解为一个大的主题范畴,每个主题内部可进行分级分类。一级主题包含主题通用词,主题内容更广泛,领域涉及面更大。二级主题包含主题专类词,主题内容更具体,主题描述更细致。如中医汉语中“中医治疗”主题一级词表多包含有关治疗的通用词语:内治、外治、调养、病症、精神、疗法等;而其下一级分类的“针灸”“推拿”“刮痧”等主题类别则体现各自对应的治疗手法,其分别包含的词簇是更具区别特征的专类词语。

1.3 基于语域主题的词语聚类方法

语域题材是指不同场合、情景、领域、交际背景下所使用的语言素材。语言并非独立于语境或情景产生,而是由多种情境特征构成的。领域词聚类原理可利用词语在不同类别(即语域)语料中分布的差异性(即不均匀性)来计算词语对于该类别的贡献度(刘华,2010)。中医汉语包含大量中医领域性专业词语,这些领域性词语具有鲜明的分类区别特征,代表专属于中医领域内的特色内容。

词语聚类的核心原理是利用词语在不同类别语料中分布的差异性来计算词语对于该类别的贡献度。比如,虚词(如“的、和、在”)在不同类别语料中的频率几乎一样,散布均匀;而某些词语(如“经络、气血、寒热、阴虚……”)在“中医”类的语料中出现的频率会远高于它们在其它类别(如体育、政治、娱乐等)语料的频率,它们是中医类别的领域词语。

TF-IDF(term frequency-inverse document frequency)是常用的文本分类的特征提取算法,其中,TF是词频,IDF是逆文本频率指数,其原理是某类词在一篇文本语料中出现的频率高,并且在其他文本语料中出现少,则认为该类词类别区分能力强,语义聚合程度高,适合提取作为分类特征。TFIDF公式本质上反映了词语区分文档主题类别的能力,计算词语在某一话题中的TFIDF值之后,将特征向量倒序排列,那些具有强主题区别能力的词语会排在最前面。

主题词聚类的计算公式(刘华,2010)如下:

其中,[pij=TijLj],Lj是类cj含有的所有词的次数之和,Tij是词i在类cj出现的次数; [pi]-[kpijm],其中m为类别数;N(Wi)表示训练语料中出现词wi的次数,N是训练语料中所有词出现次数之和;n>=1。

主题分类完成后,按照上述公式计算出语料文本中词语的权重,运用n(n>=1)参数主要用来调节词频在选词过程中的影响。当n取值较小时,词频的影响作用变大,倾向选择词频大的词;当n取值较大时,词频的影响作用变小,倾向选择词频小的词。当n=1时,可获取中医领域的通用词语;当n等于2和3时,则中医领域的通用词语变少,而内部类别区别度高的专业词语变多。为了更全面地获取通用词和领域专用词,将词频的影响作用调适到一个较适中的程度,将n设定取值为1.5。

2. 中医汉语聚类词语表构建与词表分析

2.1 中医汉语词表研制流程

中医汉语词表研制主要包含以下步骤:(1)结合中医汉语类教材、中医类教材、中医网站三大语料来源,建设中医汉语语料库。(2)借鉴中医汉语教材和中医网站的知识分类体系,构建中医汉语主题库。(3)将语料库按主题分类,通过词语聚类,获得分类领域特征明显的主题词语。(4)通过人工校对和专家审核,形成具有实用价值的中医汉语词表。

2.2 中医汉语语料库建设

为更有效采集归整中医汉语类语料资源,形成科学合理的主题分类词语库,本研究结合中医汉语类教材和中医类门户网站资源,通过语料采集技术爬取相关语料文本,创建中医汉语语料库。

中医类网站主要以“中医中药网”(https://www.zhzyw.com/)为主,该网站行业知名度、访问量高,内容丰富,分类明晰,主题涵盖广,适用群体广泛,对后期词表创建具有较高适用参考价值。

中医汉语类教材以《中医汉语综合教程》(北京语言大学出版社,2013年)、《实用中医汉语》(外语教学与研究出版社,2010年)、《中医汉语口语入门》(高等教育出版社,2008年)三套教材为主,该类教材主要以留学生和海外学习者为使用对象,内容分类编排合理全面,采用功能—文化相结合的编写理念,整体设计注重汉语交际实用性。

同时为确保后期词表建设分类的合理专业性,语料库建设还收纳了中医专业类教材的部分内容,参考《中医基础理论》(中国中医药出版社,2019年)、《中医基础入门》(军事医学科学出版社,2008年)两本教材部分章节。

2.3 中医汉语主题库构建

由于目前有关中医汉语词语大纲的研究较少,缺乏成熟的词语大纲分类项目作依据支撑,本研究整理归纳了三大语料来源的主题分类体系,以此作为中医汉语词表的创建参考。依照图式理论的词语习得认知理念,汉语词汇的习得记忆通过相互作用的知识结构共同完成。中医知识,凝结我国数千年传统文化智慧结晶,包含大量中国哲学思想和伦理文化,如“阴阳”“五行”“上火”“气”“开窍”等。知识结构中的各模块内容,并非孤立地存在于内部结构中,而是彼此关联,相互影响,形成了独特的中医文化体系。本研究借助中医内部知识的图式结构,从中医文化和医学问诊的角度出发,重点结合现有中医汉语教材和中医网站的主题编排思路,对中医汉语的词表创建进行主题分类。

通过以上三类语料来源的主题分类可知,中医汉语教材类语料共有主题包含中医基础知识、中医治疗、中医养生三个主题,该主题均包含了中医汉语教学的核心内容,是词表建设分类的重要依据。同时,在中医网站和中医教材语料中还存在其他分类的交叉内容,可适当进行合并归类。如中医诊断,是中医体系中诊察病情、辨别病证的基本理论,在中医汉语类教材前两套教材中均有出现,应当添加作为一个主题分类。中药知识,在教材主题分类中较为零散,但其作为中医系统知识的重要组成部分,对于今后进入专业学习的学生而言十分重要,且在中医诊治的汉语交际场景中常涉及中药类专业词语,因此中药知识可纳入词表主题分类中。中医药历史、文化典故、文化习俗几个分类属于中医文化传播的内容,可合并归属于中医文化一个类别中。

综上合并归类,中医汉语词表的一级主题大类包含:中医基础知识、中医诊断、中医治疗、中药知识、中医养生、中医文化六大类(图2)。一级大类建立好后,参照中医网站和中医类教材的分类内容,通过去重筛选将下一级内容归并到每个一级大类中(表2)。

2.4 语料主题分类

主题编排分类完成后,将所搜集的文本教材和网站语料按照主题内容分别放进每个文件夹中。为方便软件对语料数据进行提取、统计、关键词聚类,语料格式全部采用TXT 文本形式。示例文本中 H (Head)是课文对话标题,T (Text)是课文对话内容,W (Word)是本篇对话中与主题相关生词表。每篇文本语料均以<>开始,以</>结尾。由于各TXT文本已归入到细致的小类中,因此在人工进行词表的筛选处理时,需注重把握小类主题的领域特征,把不能显著展现该领域特征的词语进行删除。

2.5 中医汉语语料的文本降噪、分词处理、词频统计

语料收集和歸类完成后,接下来利用刘华研发的“汉语助研”软件(语料库建设统计一体化工具),对语料文本进行降噪处理和分词统计工作。由于语料是通过网络爬取和软件扫描识别获取,在文本中会出现各种不规范的格式符号,如垃圾广告链接、网络用语字符、乱码符号等。这些无关的符号信息会影响词频统计的准确度,因此需要对其进行降噪处理,并结合人工检查校对,最终形成可使用的纯文本,同时进行分词处理。

词频的统计结果可为下一步词语聚类的权重计算提供依据。语料中含有大量实体意义不明显的功能词,如“的、了、是、在、和、很”等语气助词、副词、介词、连词。这类词本身并无明显区别意义,但出现频率很高,在其他主题语料库中亦是出现频率最高的日常用词,散布较均匀,不具有主题意义的区别性。为避免受到该类词语的干扰影响,达到突显中医汉语专门领域词语特性的目的,我们需要对该类词进行筛选去除,从而确保专业领域词语的纯净度。

2.6 中医汉语来源的主题聚类与词频统计

词频能直观明晰地展现某个词语在中医语料中的使用情况,一定意义上表明该词语在中医教材编排中的重要程度。但主题词语的提取与词义的主题聚合度密切相关,词频统计并不能完全解决词语主题特性的筛选问题。解决此问题需通过词语聚类的算法,对中医语料的关键词特征进行提取,从而获得中医特征领域词。

参照刘华《词语计算和应用》中关键词特征提取方法,通过对词语进行切分、词频统计、加权计算和特征选择,最终生成文本类别核心向量,向量中的特征词可作为该分类文本的特征领域词,权重越大,词语的领域属性越强。(参见上文2.3计算方法与公式)

中医网站语料主题词聚类(排名前30):

中医药、中医、经络、辨治、临床、津液、脾胃、气血、脏腑、针灸、养生、血瘀、病机、舌质、方剂、配伍、健脾、情志、传承、外治、临床、病证、督脉、黄芪、茯苓、艾灸、白芍、诊疗、解毒、舌苔

中医专业类教材语料主题词聚类(排名前30):

气血、药典、中医、脏腑、经络、清热、证候、中药、水煎、脾胃、情志、养生、本草、血瘀、健脾、功效、血虚、寒邪、配伍、阳虚、化痰、亏虚、气滞、燥湿、阳气、阴虚、胃经、味甘、活血、穴位

将上述两类来源语料词聚类排名与基本频次排名进行对比,可发现部分词语在基本频次表中排名较后,出现频次低,但在其对应的主题词聚类表中排名靠前,权重较高。

表3展示了词频位序和聚类位序的排名升降对比情况,如词语“中医”“脏腑”“中药”在教材语料的词频中排名分别为19、68、76,在主题词聚类中大幅上升,位居3、4、8;词语“中医”“临床”“气血”在网站语料的词频中排名29、35、44,在主题词聚类中大幅上升,位居2、5、8。由此可知,僅依靠词语出现频率作为词表筛选的方法是不可取的,该方法并不能确保提取词语的专业特性。结合词频和聚类特征提取方法,能更便捷地筛选出具有强中医领域特性的主题词。

六个大主题类别按照上述聚类权重计算后,都可获得一个基于权重大小排列的词序列表,该列表可作为主题词表的初级参考。如“中医诊断”大类中前15位词语的聚类计算结果样例,见表4。

2.7 中医汉语主题通用词表与主题专类词表构建

根据语义场理论,中医专业领域本身具有明晰的内容类别体系。我们基于中医知识体系和汉语词语语义场理论,对整体中医语料进行逐级分类。分类级别越细致,主题专类词语出现越多。以“中医诊断”一级大类为例,其二级大类包含“四诊”“八纲”“辨证”,其中“四诊”的下一级又包含“望诊”“闻诊”“问诊”“切诊”的三级分类。即“中医诊断”聚类词语视为一级词语,“四诊”视为二级词语,“望诊”视为三级词语。

如上文提及,主题通用词一般是指行业领域内使用频率较高、使用范围最广的基础词语,主题专类词则是专业特点更突出、分类属性更强,能区别主题细微特征的词语。表5显示的是二级主题库“四诊”主题词聚类,表6显示的是“四诊”主题库分支下的三级主题库“望诊”的主题词聚类。结合表5与表6的词语聚类情况进行统计,两表共有词语可划定为二级主题通用词,即“四诊”的主题通用词,剩下的词语通过核对筛选,可划定为三级主题专类词,即“望诊”的主题专类词。如表5和表6中,“气血”“脏腑”“诊断”“外感”四个词语在两个等级表中都共同出现,因此可将其视为二级主题通用词。以此类推,将二级主题中共有的词语划定为一级主题通用词。

通过聚类计算可以获取类别中与主题语义关联度高的词语,但在上下级分类中,会出现彼此重合的情况,上一级词语的通用概括性更强,下一级词语的专业区别度更高。为避免分类词语出现杂糅混乱的问题,需要借助“主题通用词”和“主题专类词”的概念界定,对上下级词语进行筛选校对。使之达成上下级词语分类的功效:最高层级分类体现中医领域的宏观概貌,底层分类体现中医各系统的细化专业属性。

2.8 中医汉语主题词语补充扩展

语言具有不断变化发展的动态属性,纵使聚类算法可提取语义聚合程度高的词语,但随着语料信息的不断丰富,依旧存在部分还未涉及但关联度高的词语,这些词语也应纳入中医主题词表中。

具体操作可运用刘华研发的“词语聚类、词语联想、词语扩展在线检索”(http://www.languagetech.cn/nlp/word/word_demo.aspx)软件对词表进行补充完善。该软件基于超大规模分类语料库建立而成,可在线实现相关主题词语的聚类扩展功能。利用该软件能实时获取网络平台的相关主题新词,有助于实现类别词语的扩展补充。如中医汉语词表创建中,将“中医治疗”下的二级分类“针灸”输入该软件中,出现可作为本研究词表的补充词语:奇穴、腧穴、经穴、耳针、刺法等。

此外,还可借助自然语言处理与信息检索共享平台(http://www.nlpir.org)的word2vec工具继续补充完善词表。该工具原理是将词转换成对应向量的形式,在向量空间中词语之间可通过定量的方式进行彼此关系的度量。在词表分类中,词语向量空间的相似度,主要是指语义联想的相似度,即通过语义相似度的计算得出联想度高的词语。如将一级大类“中医诊断”的语料放入软件中进行计算,橙色是主题词“人体”在文本中的特征聚类词,蓝色部分为语义联想词(图4)。上述“中医诊断”的下一级分类是以“四诊”“八纲”“辨证”为主,而通过词语语义网扩充,我们可知在“中医诊断”的下一级分类中还可补充有关“机体”的关联词语。通过词语语义的联想关系,将具有相似性的词语补充进词表中,可弥补因人工分类带来的词语提取不平衡性的问题。

3. 结语

词表的语料来源对词表创建具有先决判定作用,以往词表多基于现有文本素材收集,结合人工审核筛选创建形成。本研究充分考虑当今语言信息的传播方式和流通特性,锁定具有动态更新功能的“中医网站”作为词表重要来源之一。通过网络爬虫获取大量候选的词语集合,不仅能较全面获取分类齐全的中医素材,且能确保所选语料具有流通性和真实性。

词表的编写需讲究体系与层次,中医汉语由于领域特点较突出,词语文化内涵丰富,若不进行合理分类编排,易造成词表体系的繁杂。本研究基于中医汉语语料库资源,通过聚类算法形成的主题关键词词簇,能更好地突显主题领域特征,为各主题内部的词语主题分类提供依据,便于词表创建中主题场景应用的提取与调度,帮助学习者树立中医词语整体系统观。在词表后期构建中,我们也发现纵使扩大了语料搜集的来源范围,但依旧无法避免在选词抽样过程中出现随机性。因此借助词语扩展工具生成语义相似的关联词语,能有助词表的完善和优化。

本文以语料库与计算语言学方法作为研究手段,对中医汉语词表的创建路径进行初步尝试。但由于人力物力有限,词表依旧有不少需要完善的空间,如扩充词表语料来源的收录采集量、研制中医汉语词表分级大纲、总结中医汉语词语构词方式等。后期将以本研究作为延伸依据,针对现有不足进行修补完善,以期为中医汉语的词典编纂、教材编写、主题教学提供价值参考,推动中医汉语的研究发展和应用实践。

[参考文献]

刘 华 2007a 基于文本分类中特征提取的领域词语聚类[J]. 语言文字应用(1).

——— 2007b 基于关键短语的文本分类研究[J]. 中文信息学报(4).

——— 2010 词语计算与应用[M]. 广州:暨南大学出版社.

刘长征,张 普 2008 对外汉语教学用词表的多元化与动态更新[J]. 语言文字应用(2).

李 强,袁毓林 2019 生成词库理论和名词语义的结构描述与概念解释[J].语言学论丛(1).

李 泉 2011 论专门用途汉语教学[J]. 语言文字应用(8).

李 泉, 宮 雪 2015 通用型、区域型、语别型、国别型——谈国际汉语教材的多元化[J].汉语学习(1).

梁红梅,何安平 2010 语料库的“教学加工”与教材编写[J].当代外语研究(10).

苏新春 2013 词典与词汇的计量研究[M].上海:上海辞书出版社.

王砚农 1992 谈谈“中医汉语”系列教材[J]. 世界汉语教学(4).

夏志明,刘 新 2015 一种基于语义的中文文本相似度算法[J]. 计算机与现代化(4).

杨开平 2018 基于语义相似度的中文文本聚类算法研究[D].电子科技大学硕士学位论文.

喻雪玲 2013 基于语料库的商务汉语话题库及话题词表构建[D].暨南大学硕士毕业论文.

袁毓林,卢达威 2018 怎样利用语言知识资源进行语义理解和常识推理[J]. 中文信息学报(12).

张雷平 2019 中医语言研究的百年回顾与思考[J].江淮论坛(3).

钟心怡 2019 中医汉语教材的词汇编排与中医专业课程的契合度研究[D].南京大学硕士毕业论文.

周小兵,干红梅 2008 商务汉语教材选词考察与商务词汇大纲编写[J]. 世界汉语教学(1).

A corpus-based approach to constructing a vocabulary of subject terms of TCM Chinese

LIU Hua, LI Xiaoyuan

(College of Chinese Language and Culture, Jinan University, Guangzhou, Guangdong 510610, China)

Key words: corpus; Chinese for specific purposes; word clustering; Chinese vocabulary of TCM

Abstract: The vocabulary in specific field is the basis for compiling textbooks of Chinese for Specific Purposes and guiding Chinese teaching. Based on TCM Chinese textbooks and TCM websites, a TCM Chinese corpus was constructed. A hierarchical topic clustering vocabulary system in TCM Chinese teaching is constructed by  applying  theories of Chinese for Specific Purposes, and using the methods of word clustering, word association and semantic web construction in computational linguistics. This method can provide a reference for the construction of vocabularies for Chinese teaching in other fields.

【责任编辑 匡小荣】

[收稿日期] 2021-07-13

[作者简介] 刘华,男,暨南大学华文学院教授,博士生导师。主攻方向:计算语言学、海外华语及华文教

学、智能汉语教学。李晓源,女,暨南大学华文学院博士生。主攻方向:国际中文教育、海外华语及华文教学、计算语言学。

猜你喜欢
主题词语料库
基于语料库翻译学的广告翻译平行语料库问题研究
视佐词导
浅谈语料库分类及用途
国内外语料库建设研究简述
运用语料库辅助高中英语写作
主题词:青春
取消公文主题词的真正原因是什么?
公文主题词消失的原因浅析
对公文中主题词标引的思考
语料库与译者培养探索