杨海丰,陈明亮,赵臻,2**
(1.湖北中医药大学信息工程学院武汉430065;
2.湖北中医药大学针灸治未病湖北省协同创新中心武汉430061)
常用中文分词软件在中医文本文献研究领域的适用性研究*
杨海丰1,陈明亮1,赵臻1,2**
(1.湖北中医药大学信息工程学院武汉430065;
2.湖北中医药大学针灸治未病湖北省协同创新中心武汉430061)
目的:评价常见中文分词软件在中医文献研究领域的适用性,提出研发中医文本分词专用软件的思路。方法:安装和操作常见中文分词软件,运用中医文本样本进行分词实验,比较不同中文分词软件分词准确性、分词速度、易操作性、可靠性、可扩展性、可移植性等性能。结果:中文分词软件分词准确性、分词速度、易操作性、可靠性、可扩展性、可移植性等性能存在差异,难以同时使所有性能达到最优。通过比较各种中文分词软件,发现盘古分词软件分词准确性最高、易用性较好且分词效率高,最适合中医文本分词。结论:研发中医文本分词专用软件可能是解决中医文献研究中分词问题的最佳途径。应从建立中医药学标准语料库,完备中医药学词典库,引进、优化和创新分词算法,开发中医文本分词软件等方面加强基础性研究。
中文分词软件中医文本挖掘比较性研究
文献研究是继承创新中医药理论、方法、技术和经验的重要途径。随着中医古籍数字化和现代电子化中医文献信息资源剧增,以中文分词为基础的文本分类、聚类、自动文摘等文本挖掘方法得到广泛重视和运用[1-4]。中文分词是将连续字序列按照一定规范重新组合成词序列的过程[5],处于非结构化中医文本预处理的核心,被视为与中医药学语言系统建立联系的前提[6-10],是从海量中医文献中提取隐含知识的关键。中医文本分词工具是实现中医文献研究转向智能文本挖掘的关键。现阶段国内外有关中文分词理论、方法和技术的研究多数仍处理论或实验阶段且偏向自然语言处理和信息检索,成型可用的中文分词软件较少;中医文本分词则以《中医药学主题词表》、《中医药学常用名词术语词典》等词性标注研究为主,对中医文本分词的算法优化研究、软件研究[6]较为少见。本文通过比较常见中文分词软件的性能,结合中医文本分词特点推荐适用的工具,并初步探讨研发中医文本分词软件的思路。
1.1 研究对象的确定
以“全文=‘中文分词工具’OR‘中文分词软件’”为检索式,在中国知网、万方、维普等数据库中检索近20年发表的期刊论文共1 318篇(去重后),提取文中用于中文分词的软件名称,统计软件(不含研究者自行开发的软件)使用的频数。选择频数排位较高的7种软件作为研究对象,分别是:IKAnalyzer、SCWS、PHPAnalysis、CIPP_JS分词、盘古分词、Jieba分词、NLPIR。
1.2 资料来源
参考上述7种中文分词软件的开发商官网、帮助文档及有关论文,获取各软件开发技术、主要功能、分词算法等方面的信息。
1.3 材料与方法
1.3.1 研究方法
根据业内专家[11,12]对中文分词系统的评估要求,选择分词准确性、分词效率、易操作性、可扩展性、可移植性等性能作为评价指标。采用方便抽样从某中医药大学信管专业大四某班学生中抽选5人,提前告知测试者研究目的、程序和要求,但不培训7种分词软件的安装调试方法。让每个学生在实验室用同型号同配置计算机独自安装和调试7种分词软件,并用指定中医文本完成分词实验,之后对各软件分词速度、易操作性、可扩展性、可移植性等性能作出主观评价,最后由研究人员汇总综合。
1.3.2 实验环境及材料
实验环境:选用某中医药大学计算机实验中心5台同型号同配置的PC机(Intel core i5四核、6 G内存),在每台PC机上提前新装各分词软件运行环境(操作系统均安装Windows 7、Solr 4.1、Tomcat 7、JDK 1.8_65/64位)。
实验材料:节选邱茂良主编(上海科学出版社出版,第五版)的《针灸学》中十二经络与奇经八脉(第1.2.1小节)的叙述部分,共计2007字。
1.3.3 数据处理与分析
手工记录测试者对软件的主观评价并要求测试人员认定,然后计算分词准确率、召回率及其综合分类率,对易操作性、可扩展性、可移植性等性能作出定性评价。
2.1 基本情况比较
7种分词软件均发布于近10年,除IKAnalyzer、 Jieba分词为工具类库外,其他5种均为独立运行使用的软件系统,软件的详细介绍见表1。从所用算法看,IKAnalyzer、SCWS、PHPAnalysis等主要采用以词典或(和)规则为基础的字符串匹配的分词算法,而盘古分词、Jieba分词、NLPIR则主要采用以统计或(和)规则为基础的分词算法。此外,其中5种工具均支持某种开源协议。
2.2 分词准确度比较
分词准确度指相对同一段语料而言,软件分词结果与人工分词结果的一致性程度,主要体现分词软件处理歧义切分的能力。在给定的测试环境下,分别用7种分词软件测试以下两段针灸学文本(表2),以针灸学专家人工标注的分词为参照,计算各软件分词准确率和召回率。从各软件分词的结果来看(表3),准确率从高到低依次为:盘古分词、Jieba分词、IKAnalyzer、SCWS、CIPP_JS、NLPIR、PHPAnalysis;召回率从高到低依次为:IKAnalyzer、Jieba分词、盘古分词、SCWS、NLPIR、CIPP_JS、PHPAnalysis。根据Van Vijsbergen于1979年提出的综合分类率(F1)计算公式[13],调和准确率和召回率后得到的F1值从高到低依次为:盘古分词、Jieba分词、IKAnalyzer、SCWS、NLPIR、CIPP_JS、PHPAnalysis。通过对比各软件分词的效果,表明盘古分词软件对给定中医测试文本的分词准确性最好,PHPAnalysis最差。
本文认为造成各软件分词准确度差异的主要原因:一是对中医证候、经络、穴位等术语识别能力不同,如:“胃肠实热型”普遍被拆分为“胃肠/实/热/型/”;二是对中文歧义词切分处理方式不同,如:“手三阳经从手走头”中,第1个“手”字不能单独成词,而第2个则可以,但第2个“手”却被划分为“从/手/走/头”、“从/手走头”甚至“经从手/走头”。
表1 7种常见中文分词软件基本情况比较
表2 测试文本原文及其人工分词结果
2.3 分词速度比较
分词速度一般指分词软件在特定运行环境下单位时间内完成分词的文本字数。由于软件处理能力受硬件环境、软件结构、算法、网络宽带、软件开源情况等方面影响较大,难以在严格实验条件下通过嵌入计时器程序或其他方式精准计时。因此,本研究参考各软件帮助文档中描述的分词速度,结合测试者对分词速度主观感受情况,综合评价各软件的分词速度。结果表明7种软件对所选实验材料的分词速度表现出较大差异,其中IKAnalyzer、盘古分词、SCWS分词速度远高于其他4种软件(表4)。
表3 7种常见中文分词软件中医文本分词结果比较(按F1值大小排列)
表4 7种常见中文分词软件的分词速度比较
2.4 易操作性比较
易操作性一般指软件系统被用户正确安装、使用和维护的难易程度。7种分词软件操作性的具体情况见表5。从表5可知,它们中除IKAnalyzer、Jieba分词外均有可视化操作界面,多数附有用户操作手册,但大多数不支持文本导入;都支持用户自定义词典,但提供的词典管理工具被理解和操作的难易程度不一。总体来看,它们操作性从易到难排序为:CIPP_JS分词、盘古分词、NLPIR、SCWS、PHPAnalysis、IKAnalyzer、Jieba分词。
2.5 可扩展性比较
可扩展性一般指软件系统被调整、扩充、延展以适应外部环境和需求变化的能力[14]。7种分词软件扩展性的具体情况见表6。从表6可知,它们基本都提供面向不同开发语言或开发框架的接口,基本都同时支持GBK和UTF-8,除CIPP_JS分词和NLPIR外其他均可获取源码。总体上看,IKAnalyzer和Jieba分词作为工具类库,能十分灵活的被集成到软件系统中,可扩展性最好;SCWS、盘古分词、NLPIR、PHPAnalysis、CIPP_JS分词作为独立软件,可扩展性依次降低。
2.6 可移植性比较
可移植性一般指软件系统从一种环境移植到另一种环境后还能正常工作的能力[14]。7种分词软件移植性的具体情况见表7。从表7可知,它们基本都采用当前主流的具有面向对象特征的第四代语言开发完成,部分软件具有多种语言开发的版本。它们中除PHPAnalysis、CIPP_JS分词、盘古分词主要适用于Windows平台外,其他均可通过适当的环境配置支持跨平台运用,尤其是NLPIR、SCWS、Jieba分词。综合各种因素,它们可移植性从好到差依次为:SCWS、Jieba分词、NLPIR、IKAnalyzer、PHPAnalysis、盘古分词、CIPP_JS分词。
表5 7种常见中文分词软件的易操作性比较
表6 7种常见中文分词软件的可扩展性比较
表7 7种常见中文分词软件的可移植性比较
3.1 对7种常见中文分词工具的综合评价
总体上看,IKAnalyzer和Jieba分词同为工具类库,可扩展性较好但不易被掌握和使用;前者分词效率较好、分词准确性一般;后者分词准确性较好,但分词效率一般。CIPP_JS易操作性好,但在其他指标上表现均不理想。盘古分词分词准确性和分词效率高,且易操作性和易维护性较好,但可移植性较差。NLPIR可移植性好,易操作性和易维护性较好,但分词准确性和分词效率低。PHPAnalysis则在各项指标上表现均较一般。事实上,分词准确性、分词速度、易操作性、可扩展性、可移植性等指标间存在固有矛盾,任何分词软件均不可能在这些指标上同时达到最优。因此,应结合具体领域中中文分词处理的实际情况选用分词软件,或以开源工具为基础做二次开发更为可取。
3.2 对适合中医文献研究的分词软件特点的分析
与其他专业文献相比,中医文献用语简明、结构紧凑、词性多变、语义丰富,中医文本分词除要正确识别其中的症状、诊断、证候、治法、治则、病名、中药、方剂、穴位等专业术语外,还要处理类似古汉语中广泛存在的一词多义、词性多变、搭配灵活、语境复杂等导致的歧义切分问题[6]。对于中医文献研究而言,在云计算等现代计算技术支持下,软件分词的效率、可扩展性、可移植性已相对不重要,而分词准确性和易操作性则被视为影响中医文本挖掘的关键因素。上述各软件中,盘古分词软件分词准确性最高、易用性较好且分词效率高,故7种分词软件中盘古分词最适合中医文本分词。值得一提的是,并非其他软件就一定不适用。如:CIPP_JS可操作性好但分词准确度较低,笔者根据CIPP_JS软件使用指南将“手三阳经”、“足三里”等词汇添加到其词典并填写“词性”、“词频”后再测试,结果分词准确度明显提高(表8)。因此,分词软件是否适合于中医文本文献分词,应主要考察其分词准确性和易操作性。分词准确性方面应重点考虑其分词算法原理,若采用基于词典匹配的分词算法,则必须支持用户添加词条或管理词典;若采用基于统计和规则的分词算法,则必须支持语料库导入并有一定的统计频率、自我更新或自主学习能力。易操作性则主要考虑所提供的词典管理工具或自主学习工具、操作简易程度和用户体验。
3.3 对研发中医文本分词专用软件的思考
现有分词软件主要面向大众化中文分词处理需求,研发中医文本分词专用软件可能是解决中医文献研究中分词问题的最佳途径。通常,影响软件分词效果的主要因素包括词典完备性、分词算法设计、分词知识组织、学习机制等[15]。我们认为,要研发分词效果好的中医文本分词专用软件还有很长一段路要走。当前应重点开展以下基础性研究:一是建立中医药学标准语料库,研究在开放性中医文本语料库中获取、表达、检索中医文本分词知识、知识的接口,为探索和优化分词算法提供基础性资料。二是完备中医药学词典库[6]。构建基于本体的中医药学概念体系,形成类似于系统化医学术语集(SNOMED)的中医药学术语标准系统。扩展中医药学主题词表收词范围,对中医药学术语词条词性、词语搭配、词频统计等特征进行标注。三是优化和创新分词算法。评价中文分词新技术在中医文本分词研究中的适用性及其改进算法。研究中医文献的语法结构、句法结构、语义规则、用语习惯等特征,特别是加强基于统计和规则的中医文本分词算法设计研究,探索基于语义理解的中医文本分词算法。四是开展对中医药学词典结构知识,基于本体的中医药学术语匹配规则、句法规则、语义规则知识,以及分词软件的开发、优化等方面的研究。
表8 CIPP_JS软件在词典调整前后分词结果的比较
综上,本文通过安装操作7种常用中文分词软件并实施小规模中医文本分词测试,综合比较了这些分词软件在中医文本文献研究中的适用性,基于中医文本分词特点给出了恰当选用中文分词软件的建议,并初步探讨了研发中医文本分词专用软件的思路。限于测试语料和实验条件限制,本文未能在严格实验环境下利用大规模非典型中医文本语料库更加客观准确地测量和评价这些分词软件,故对于试图选用本文所述分词软件开展中医文本挖掘的研究者而言,所提建议仅供参考。本文认为,研发中医文本分词专用软件是突破中医文本歧义切分瓶颈、改善用户体验,解决中医文献研究分词问题的必然途径。下一步应对常用中文分词软件实现算法、基本架构及其功能特点作深入对比研究,同时加强中医临床各科标准语料库研究和中医药学词典库研究,为中医文本分词专用软件设计和开发提供参考、奠定基础。
参考文献
1丁晓蓉,吕毅斌,王志飞,等.基于文本挖掘技术分析类风湿性关节炎、强制性脊柱炎、溃疡性结肠炎和哮喘中医用药规律.世界科学技术-中医药现代化,2010,12(5):828-832.
2谭勇,郭洪涛,郑光,等.利用文本挖掘技术探索中医药治疗疾病的用药规律.世界科学技术-中医药现代化,2010,12(5):823-827.
3周奇,陈威妮,姜淼,等.利用文本挖掘技术探索中西医治疗骨质疏松症的用药规律.世界科学技术-中医药现代化,2012,14(1):1288-1293.
4刘孟宇,周奇,郑光,等.基于数据挖掘技术肺癌中医药治疗用药特点和规律研究.世界科学技术-中医药现代化,2013,15(3):535-538.
5余战秋.中文分词技术及其应用初探.电脑知识与技术,2004,32:81-83.
6张帆,刘晓峰,孙燕.中医医案文献自动分词研究.中国中医药信息杂志,2015,22(2):38-41.
7周雪忠.文本挖掘在中医药中的若干应用研究.浙江:浙江大学博士学位论文,2004:11.
8姚媛媛.针灸概念语义网络的构建研究.北京:中国中医科学院硕士学位论文,2014:5-29.
9蔡晓鸿,马利,沈绍武,等.基于Lucene的中医肝病文献检索与管理系统研究与设计.中国卫生信息管理杂志,2012,9(5):42-46.
10蔡晓鸿,游秋云,王平.失眠症中医药信息平台构建的思路与方法.中医杂志,2013,54(9):747-749.
11黄翼彪.开源中文分词器的比较研究.郑州:郑州大学硕士学位论文,2013:5.
12刘开瑛.中文文本自动分词和标注.北京:商务印书馆,2000:1-5.
13李原.中文文本分类中分词和特征选择方法研究.长春:吉林大学硕士学位论文,2011:5.
14张倩,袁玉宇,张旸旸.《系统与软件可移植性》标准中可移植性定义的研究.信息技术与标准化,2009,10:50-54.
15关宏超.基于统计的开放式汉语自动分词.大连:大连理工大学硕士学位论文,2002:3.
Analysis onApplicability of Common Chinese Word Segmentation Software in Literature Study of Traditional Chinese Medicine Text
Yang Haifeng1,Chen Mingliang1,Zhao Zhen1,2
(1.Information Engineering College of Hubei University of Chinese Medicine,Wuhan 430065,China; 2.Hubei Provincial Collaborative Innovation Center of Preventive Treatment by Acupuncture and Moxibustion, Hubei University of Chinese Medicine,Wuhan 430061,China)
This study was aimed to evaluate the applicability of common Chinese word segmentation software used in the literature study of traditional Chinese medicine(TCM)text,in order to put forward ideas on developing specialized TCM text word segmentation software.By means of installing and operating Chinese word segmentation software,the text segmentation experiment was conducted on TCM text samples.Aspects,such Chinese word segmentation accuracy, speed,maneuverability,reliability,extendibility,portability and other characteristics,were compared among different Chinese word segmentation software.The results showed that there were differences on the accuracy,speed, maneuverability,reliability,extendibility,portability among different Chinese word segmentation software.It was difficult to achieve best performance on different aspects by single software.Through the comparison of different Chinese word segmentation software,the Pan-Gu Segment software showed the best performance on accuracy,with good maneuverability,and high word segmentation efficiency,which was the most suitable for word segmentation in TCM text. It was concluded that developing specialized TCM text segmentation software may be the best solution to meet the requirement of text segmentation in TCM literature study.Basic studies should be strengthened from aspects,such as the construction of standard TCM copus,the completion of TCM dictionary base,the introduction,optimization and innovation of word segmentation algorithm,as well as the development of word segmentation software for TCM text.
Chinese word segmentation software,traditional Chinese medicine,text mining,comparative study
10.11842/wst.2017.03.024
R229
A
(责任编辑:王慧慧,责任译审:王晶)
2016-09-13
修回日期:2016-09-14
*针灸治未病湖北省协同创新中心科研项目(HBPCIC-2016-011):针灸治未病数据库研究,负责人:赵臻。
**通讯作者:赵臻,教授,博士生导师,主要研究方向:中医药数据处理与分析。