李钊 熊威
【摘 要】报社校对软件使用效果不尽如人意,其中一个重要原因是分词结果不理想。文章根据报社校对业务特点,在自建文本分词合理结果集的基础上,通过对公开分词工具的评测比较,探索适用于报社自动校对的中文分词技术方案。这对深入研究报社自动校对系统,提升报社新闻出版质量意义重大。
【关键词】自动校对;中文分词
一、引言
目前市场上校对软件有不少,采用的自动校对技术方法都是在中文分词的基础上,进行分析纠错。分词结果不理想,校对效果自然不会好。所以提升自动校对效果的一个研究方向就是中文分词研究。
对报社而言,过去以采编为主,内容为王,缺乏技术沉淀。近几年,随着融合发展,技术得到了更多重视和投入。但是要完全自主研发分词技术,依然面临着很多困难。因此引进第三方技术成果,来帮助实现定制化应用也是报社技术发展的一种方法。只是需要结合校对业务需求选用合适的中文分词工具。
二、报社校对业务需求
由于语言文字现象的复杂性,新闻文本中的差错类型多种多样。根据表现形式,具体分为以下几类:
⑴文字差错:这类差错是新闻出版差错中最主要的部分,常见的包括错字、别字、多字、漏字、颠倒字、繁体字等。
⑵词语差错:词语是语言系统中最活跃的组成形式,很多词语在词音、词形、词义上近似,因此容易混淆误用。
⑶语法差错:主要指违反汉语语法结构规律的句子。
⑷政治差错:在涉及政治敏感问题方面,出现导向性、政策性和技术性错误。
⑸标点符号差错:违反国标《标点符号用法》的标点符号使用错误。
⑹数字差错:违反国标《出版物上数字用法的规定》的数字使用错误。
⑺计量单位差错:违反国标《量和单位》的计量单位使用错误。
⑻英文拼写差错:英文内容表述中出现的词语拼写错误。
⑼知识性差错:内容表述中涉及的有关知识不正确。
校对系统作为一种自动化辅助工具,就是要尽可能识别并纠正以上文字差错,以帮助校对人员减轻工作量。
三、中文分词工具选择
中文分词技术是自然语言处理中一个重要组成部分,在国内外都有几十年的研究历史,也有很多优秀成熟的解决方案。目前公开实用的中文分词主要可分为学术类、市场类和开源类三种。
⑴学术类:由高校相关院所研发,主要用于科学研究。知名代表有中科院NLPIR、哈工大LTP、斯坦福大学Stanford NLP、复旦大学FudanNLP等。目前各高校采用的分词服务模式不尽相同,有共享版、试用版、付费版等。
⑵市场类:科技企业基于市场需求和技术导向而研发的开放化服务平台。知名代表有百度AI、腾讯文智、玻森BosonNLP等。目前根据不同开放策略,在线分词授权有免费和收费两种方式。
⑶开源类:由个人技术研发并公布在代码托管平台上的开源项目。知名代表有paoding、ansj、jieba、Jcseg等。这类分词都提供开源代码,只要遵循开源协议,即可免费使用。
基于报社融合发展的技术成本管控和校对业务需要,选择可免费使用且带有词性标注的分词工具。所以将斯坦福大学Stanford NLP、复旦大学FudanNLP、百度AI、玻森BosonNLP、jieba、ansj、Jcseg这7款中文分词工具作为备选对象开展评测工作。
四、分词工具评测方法
判断分词工具是否适用于报社自动校对,主要看分词效果。采用黄金标准(Golden Standard),编制一份正确合理的分词结果集作为参考开展评测。由于评测目的是衡量适用度而非准确度,因此重点考虑的是词语切分逻辑和词性标注精度。根据新闻出版文本差错和自动校对常见问题,分词需要具备以下六个能力维度。
⑴歧义识别:能识别并根据语境正确切分歧义内容。
【例句】
“研究生命令本科生”分词标准“研究生/名 命令/动 本科生/名”;
“这块地面积小”分词标准“这块/代词 地/名词 面积/名词 小/形容词”。
⑵新词发现:能识别未登录词,并准确标注词性。常见新词有人名、地名、机构名等。
【例句】
“王总和小丽结婚”分词标准“王总/人名 和/连词 小丽/人名 结婚/动词”;
“吴江西陵印刷厂”分词标准“吴江西陵印刷厂/机构名”。
⑶短语组合:能识别常用的短语词组。
【例句】
“这样的人才能经受住考验”分词标准“这样的人/代词 才能/动词 经受住/动词 考验/名词”;
“信息技术应用于教学”分词标准“信息技术/名词 应用于/动词 教学/名词”。
⑷数字区分:能正确识别出各种数字组合词,例如时间词、数量词等。
【例句】
“一亿人有60%投票”分词标准“一亿/数词 人/名词 有/动词 60%/数词 投票/动词”;
“9月20日购入1KG面粉”分词标准“9月20日/时间词 购入/动词 1KG/数词 面粉/名词”。
⑸英文区分:能正确识别出各种英文组合词,例如中英混合词、英文单词、网址、邮箱等。
【例句】
“一件T恤衫”分词标准“一件/数词 T恤衫/名词”;
“官网www.foreo.com”分词标准“官网/名词 www.foreo.com/网址”。
⑹错误切分:当文本存在错误时,切分结果必须要么是散串,要么依然是一个词。
【例句】
“不原看到”分词标准“不/副词 原/副词 看到/动词”;
“新加泊旅游”分词标准“新加泊/名词 旅游/动词”。
分词效果评测指标包括召回率(Recall)、准确率(Precision)、F值(F-mesure)和错误率(Error Rate),以下分别简记为R、P、F和ER。
定义:N为黄金标准切分词语数,e为分词错误标注词语数,c为分词正确标注词语数,则以上指标计算公式如下:
除了分词效果,评测中文分词工具的适用度还要考虑并发性。并发性决定自动校对运算性能,主要看接口并发调用的限制和方法。
五、评测结论
编制一份涵盖六个维度共计2000个例句的分词结果测试集,对7个备选中文分词工具进行评测,评测结果如下:
从结果可以看出,适用于报社自动校对效果最理想的中文分词工具是百度AI和玻森BosonNLP,性价比最高的是ansj。
在实际应用中,可以采取多分词混合使用的技术解决方案。在语料训练上使用百度AI和玻森BosonNLP,在校对算法上使用ansj。另外根据自动校对需要,还可以对开源分词代码进行修改和优化。至于如何进行开源分词二次开发则有待下一步研究。
【参考文献】
[1]宋柔.计算机辅助汉语校对系统[J].当代语言学,2001,01,45~54.
[2]石敏.中文文本自动校对系统[D].江苏科技大学,2015.
[3]杨尔弘,方瑩,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,01,44~49.
[4]黄翼彪.开源中文分词器的比较研究[D].郑州大学,2013.