基于实测数据的中英文智能编校系统对比研究

2020-08-25 07:45易龙周涛
出版科学 2020年4期

易龙 周涛

[摘 要] 随着人工智能技术的发展和出版行业的数字化,出版业逐渐向智能化方向发展。编校部分是目前进行出版智能化相对容易实现的环节,本文分别选取三款中文和英文编校系统进行测试后发现,现有的编校软件基本都可以发现拼写错误、错别字等问题,但对于需要结合文本分析的问题查找和纠错能力仍需改进。因此,目前编校软件的智能化程度尚处于比较初级的阶段,随着人工智能技术的进步,未来有望实现更高层次的智能化目标。

[关键词] 编校系统 智能出版 校对软件 智能编辑

[中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2020) 04-0015-07

A Comparative Study of Chinese and English Intelligent Editing System Based on Measured Data

Yi Long  Zhou Tao

(The College of Literature and Journalism, Central South University, Changsha,410012)

[Abstract] With the development of artificial intelligence technology and the digitization of the publishing industry, the publishing industry is gradually becoming more intelligent. The editing stage is currently a relatively easy to realize for intelligent publishing. This article separately tested three kinds of Chinese and English editing systems. It is found that the existing editing software can basically find problems such as spelling errors and typos, but the ability to find and correct errors combined context still needs to be improved. Therefore, the degree of intelligence of the editing software is still at a relatively preliminary stage. With the advancement of artificial intelligence technology, it is expected that a higher level of intelligence will be achieved in the future.

[Key words] Editing and proofreading system Intelligent publishing Proofreading software Intelligent editing

1 智能编校系统的相关研究与实践

内容加工中的审编校流程相对偏向业务操作,学者研究大都是从制度建设、编辑职业素养等方面呼吁提高编校质量。20世纪90年代中期,随着国内出现的一批中文校对系统,部分学者注意到技术给编校带来的变化。邢如云在介绍计算机校对系统的原理、应用后,提出由传统校对方式向现代校对方式的过渡方式[1]。刘哲双提出新技术条件下将校对的位置前移至文字加工阶段的方案,并指出编校功能新环境下渐趋同一的形势[2]。具体操作层面,刘新永等提出利用人工智能的智能学习功能,饲喂系统校对符号,在学会识别校对符号的基础上利用图像识别技术,实现对纸质校对稿的人工替代[3]。胡佩等认为,目前的校对软件是以主要由人工维护的字词库或语法库为依托, 通过软件进行比对识别, 查找错误并给出修正建议的。这一模式主要围绕字、词展开, 对整句的语义解读和校对乏善可陈, 且存在着字词库扩容之后误报率上升的固有缺陷。因此, 这只能称为自动化, 尚不足以称为智能化[4]。即使是中文校对技术上较为成熟的黑马校对[5]和方寸校对两款产品,也存在很多不足。

近几年有不少学者研究智能出版方向,大都将智能编校作为出版智能化方向的一个环节来阐述,专题研究较少。出版从业者对智能编校系统进行技术方面的研究,如西南大学期刊社基于Word VBA技術研究出易于操作的一键智能编校系统[6],通过将程序嵌入到Office中标注敏感词句、重复词句、自动调整图片格式等提升编辑工作的效率。张瑞麟等[7]通过对国内外期刊广泛使用的网络采编系统种类及其功能的比较和分析,关注智能编辑系统、智能校对系统的开发及应用情况,如玛格泰克开发的编校规范化功能插件、腾云采编系统的机器自动审校稿功能、Note First参考文献辅助编校系统、勤云采编系统的参考文献自动校对功能等。对现有智能编校系统实际使用情况的研究文献较少,此研究期为学界和产业界提供参考。

2 审编校内容加工与人工智能的结合

不论是传统出版物还是数字出版产品,审稿、编辑加工和校对工作是出版的必要环节,为确保出版物的质量,这些环节必须严格执行,但是众多的环节和大量的工作十分耗费编辑出版工作者的精力和时间,尤其现在信息加速生产,传统的编辑出版节奏难以跟上信息生产的速度。随着自然语言处理、图像识别等人工智能深度学习方向技术的出现和发展,计算机逐步“认识”和“理解”自然语言,在此基础上加工代替人类的部分工作,甚至可以“识别”图像,对图像做一些处理。

在编辑对作品加工处理的过程中,审稿是从整体上评估作品,决定稿件的取舍。这需要审稿者综合政策和市场因素,结合出版单位自身发展情况来决定,审稿者不但是重要的“把关人”,而且需要为稿件的修改提升指明方向,这个环节编辑仍然承担着不可替代的作用。在期刊编辑的过程中,传统的方式主要依靠编辑为稿件寻找合适的审稿人,一方面会较为低效,另一方面精准度受限。审稿人智能推荐[8]功能则在一定程度上提升了“审稿人—待审稿件”匹配效率和精准度。

编辑加工则从微观上检查原稿,匡正、修饰、润色和校对,包括主稿中消除政治性、思想性差错,完善原稿观点,订正事实材料,纠正知识性差错,核对引文,调整结构,润饰文字,修改使用不当的标点符号,修改表格、图稿;还有对注释、参考文献表、附录、目录等辅助文稿的编辑加工;对术语、人名地名、单位等的技术加工整理。

铅活字排版使得编校合一转向细分,校对成为发排后、印制前的独立工序。计算机技术发展和出版工作的数字化,使得校对的内部功能发生变化,校异同的功能逐渐失去其作用,编辑更多地集中精力校是非,校对在工作中承担着编辑的部分职责,编校又逐渐合一。因此,本文研究的是编校系统,不刻意把编辑和校对区分开。目前普遍采用计算机校对和人工校对相结合的模式[9]。

目前,出版行业的数字化为其进一步智能化提供了基础,智能化又是数字化发展到一定阶段的结果。人工智能符号主义学派的代表人物尼尔斯·J.尼尔森(Nils J. Nilsson)曾将人工智能定义为“关于知识的学科——怎样表示知识以及怎样获得知识并使用知识的科学”[10]。出版则是将人类研究的知识、拥有的智慧加工整理然后展示出来,两者都是关于知识和知识加工的学科,可谓殊途同归。

结合上述分析,在出版的内容加工环节中,人工智能技术带来的变化在偏向微观处理的编辑加工和校对工作中更容易开展和实现。目前,印刷环节在我国仍然处于数字化的普及期、网络化的推广期、智能化的探索示范期[11]。选题策划和发行营销方面虽然能提供决策参考,但发展时间较短,应用范围不广。因此,本文选取人工智能在编校系统中的应用情况做调查研究,期待从调查中了解编校系统的现状并预测其未来发展方向。

3 中英文编校系统测试与分析

3.1 中文编校系统

3.1.1 中文编校系统的发展情况简述

20世纪90年代,“黑马校对系统”“工智校对通”“文捷校对系统”“三欧中文校对系统”等针对汉语的校对软件和系统陆续出现,这些系统以词语查错为主,是人工校对的辅助工具。后来这些系统要么已出售,要么已停用,目前仍被大量使用的是“黑马校对软件”。

根据黑马公司网站[12]的数据计算可知 ,全国至少90%的出版社使用黑马校对系统。据调研,编辑人员通常会用黑马校对系统过一遍稿件,至于是否将其作为一次独立的校对和作为第几次校对则视出版社情况而定。除企业使用外,部分高校编辑出版等相关专业将黑马校对软件的使用列为需要掌握的技能加以学习。黑马校对软件在发展过程中,不断适应市场需求的变化更新版本,目前已经推出第21代,有可以嵌入Word、WPS、Acrobat Pro、PS等多种产品界面使用的单机版,有可供30台电脑同时使用的多机版,还有不限客户端数量的服务器版和可供用户调用到自有编辑平台的接口调用版,其提供的各种服务基本满足企业组织和个人的校对需求,且校对内容也由简单的校异同升级为含校对政治性、社会性、知识性等校是非问题上。

除了黑马校对软件外,市场上还有诸如北京方寸无忧科技发展有限公司研发的方寸智能校对与知识审核系统、北京百分点信息科技有限公司研发的智能媒体校对系统和智能文书校对系统、达观数据的文档智能审阅系统等编校系统,这些企业大都关注文本处理并提供数据分析服务,他们不仅服务于出版行业,还面向金融、法律、教育、传媒等多种行业的文本处理。这些软件都有较好的兼容性,能适应不同的应用场景和终端设备,提供嵌入版、接口版、定制服务以及为网站提供整站校对等服务。也有一些出版企业致力于研发符合出版全流程的智能编校系统。据新华社2019年8月14日电,知识产权出版社自主研发的国内首个人工智能编校排系统“中知编校”在国家知识产权局正式亮相。该系统采用模块化工作模式,含智能审校、原稿留痕、电子折校、自动排版等多种模块,各模块可单独使用,也可组合应用,但尚未大规模投入使用[13]。

3.1.2 中文编校软件实测

本文选取2014年《出版专业基础知识(初级)》资格考试[14]中的一道改错题目作为样本来测试校对软件的表现,经过调整后这道题目共设置有16处错误。在现有研究条件下,本文选择三款可供个人用户(C端)使用且应用范围较广的校对软件进行测试,分别是方寸无忧校对系统、北京无错字科技有限公司的无错字校对助手 、北京字根科技的JCJC人工智能錯别字检测系统,下文分别简称为方寸无忧、无错字、JCJC错别字检测。

参考邢如云对校对软件测试项目的列举,这里主要从错误的查找能力和错误的修改能力两个方面对上述三款软件做评估。

(1)错误的查找能力

正确率=找对的错误总数/实际错误总数

漏报率=没有找到的错误/实际错误样本数

误报率=没有错误被标识成错误样本的数量/所有找出的错误的数量

(2)错误的修改能力

准确率=改对的数量/实际错误样本数

精度=改对的数量/找出的错误数量

一致性:对同一文件两次校对的结果是否一致

注:方寸无忧选择的是word嵌入版,选择的校对方式是查准校对;无错字选择的是校对助手电脑端内置的“无错字—写作”软件; JCJC错别字检测选择的是个人专业版。

方寸无忧共找了8个错误,其中7个都修改正确,精度高,误报率低。适合运用在部分错误较多文稿的毛校初校中,可以尝试直接应用机器的修改结果,这样能提升校对效率。但是其查找错误数量比率很小,放在后面的校对中难以发挥作用。

无错字则找出27处错误,看这其中错报的原因发现软件会将一个问题分成两个甚至多个问题,以“别有一番乡间野趋”短语为例,软件在其中画了两处错误,一个为“番乡间”,建议改为“番相见”,一个为“野趋”,建议的修改的选项中有“野趣”。无错字的优势是漏报率低,如果原稿质量较好,在编校过程中能提高发现错误的效率,但如果原稿质量本身较差,软件的误报率又高,页面将一片批红印记,让人眼花缭乱,反而会降低编校效率。

JCJC错别字检测的准确率和精度相比前两款软件而言较低,且个人专业版不能在网页上直接修改,结果是以报告的形式呈现,且不按错误的顺序排列,无疑加大了编校的难度。但其个人专业版的年费仅需30元,售价上有竞争优势。

3.2 英文编校系统实测

白雾作家(WhiteSmoke)是一个集语法、拼写、标点符号和文体检查于一体的英语写作工具[15]。它是由美国威尔明顿市2002年成立的白雾作家公司研发的,可以在任何文本应用程序和浏览器的一次单击中激活,指出存在的潜在错误。它也有桌面版、网页版、移动应用(App)和浏览器插件等多种版本。其评价文章的指标主要是句子的长度、句子结构,重复程度、语态、表述的正式性、词汇选择等几个方面,并为用户评分提出修改建议。

润色作家(StyleWriter)是一款由专业的编辑、校对者和专家汇集各类作家写作技巧的辅助写作软件[16]。这款软件根据可读性指标(Bog Index)、 句子平均长度(Ave Sentence)、被动指标(Passive Index) 三个指标来对文章进行润色。其中,可读性指标主要与句子平均长度、词语可读性(Word Bog)和句子的表述等有关,而这些基本上又和句子的长度、词性、专业性等因素有关。

易改(1Checker)是校宝在线(杭州)科技股份有限公司旗下的产品,由来自英国剑桥大学的技术团队与国内互联网公司工作人员合力研发的一款提供自动校对服务的软件,可以帮助企业处理海量文本信息,也可以帮助个人提升外语写作能力[17]。目前该产品对个人用户免费使用。

为了解这三款软件的使用情况和效果,这里选取了两篇英文文献。一篇来自2019年全国大学生英语竞赛的改错真题。另一篇来自《中国科技翻译》期刊中的《一篇外国编辑修改的英文稿(一)》[18]一文中的内容,是中国的一名编辑将撰写的文章译成英文后由设在英国伦敦的“欧洲科学编辑协会”的编辑修改,是实际工作中的案例。

这三款英文编校软件是文章编辑和作者常使用的辅助写作修改软件,但实际测试中三款软件没有一个将两篇样本文章中的错误修改正确。这两篇文章的修改难度比较大,不存在简单的拼写错误,主要是语法错误和一些需要联系上下文才能发现的错误。白雾作家和润色作家在文章中查找相应数据库中的词汇,根据各自的算法,列出该词汇可能存在的问题。以润色作家为例,提出的修改建议包括:把抽象词汇改具体,如system;提醒易混淆词汇注意辨别,如historical;去掉重复性词汇,如really和very,但并未对文章中的错误进行修改。选取学术论文(Academic Paper)模式修改润色句子时,润色作家对样本文章的处理方式与之前的评价指标并无显著差异。由于是论文,文中有较多的被动语态,但软件给出的建议却把被动语态的句子都转换为主动语态。易改虽然对文本进行修改,注意到可能存在名词单复数、谓语动词因第三人称单数、时态等各种问题的变换、单词拼写和大小写等问题,但仍然没有一处修改正确。

4 现阶段智能编校系统的基本特征

通过上述测试可以发现,中文和英文的编校软件在拼写错误、错别字方面基本都可以发现识别,且可以提供质量较高的修改服务。就速度而言,机器编校的速度是普通编辑编校速度的几十倍甚至百倍,有的编校软件在出版中甚至承担了一个校次,减轻了出版社的校对压力。部分数据库更新快、内容准确性较高的编校软件,对政治、社会敏感错误也有较好的查错改正能力。这对编校新闻稿件和政治性及时事性强的出版物来说减轻了许多工作量。根据实测数据及实地调研,可以将目前的智能编校系统总结为如下特征。

4.1 编校系统设计有待优化

对于需要联系上下文才能发现的错误,编校软件难以辨识出来。有些句子结构较复杂的,编校软件分词容易出错,分词出错就容易导致误报、错改等情况。这些问题在优化数据库内容和结构后会有所改善,其中选取合适优质的训练样本集十分重要,比如可以选择将新闻语料作为校对数据库的样本学习训练。新闻语料更新及时,符合当下社会的语言习惯,且用词差错率较小,准确率相对较高。此外,有些系统在联网处理分析时还会出现系统卡顿、闪退等故障,尤其在文字量较大的情况下,有待进一步优化提升。

4.2 修饰润色文稿的功能仍然难以实现

从英文的编校软件中我们可以看出虽然软件有辅助作者和编辑润色修饰文稿的功能,但并不能发挥其作用,有时甚至适得其反。修改和润色文章需要对文章有一套评价体系,但目前的系统评价句子和文章的指标较单一,而现实中不同文体的写作风格相差很大,在词汇的选取和句子的结构上都有很大差别。而其根据自身设计的算法提出的修改建议也显得单一刻板,也会漏报文章中存在的明显错误,难以保证文章中词汇语法等方面的修改质量。语言是供人交流沟通的工具,文字是人类思想、文化及情感的载体,评价的指标本身就难以判断,因此编辑在未来很长一段时间内仍将继续承担修饰润色文稿的重任。

4.3 个人用户编校需求提高,面向C端的服务将成增长点

通过对中英文编校软件的分析,我们可以发现并不只有编校工作者使用这些软件,个人也是这些编校软件目前的重要用户,比如高校学生、科研工作者、自媒体用户等,他们是现在社会信息的重要生產者,其中的需求不可小觑。对编校软件的开发企业来说,个人用户虽然收取费用较低,但是对企业服务器和软件应用环境的性能要求相对较低,用户基数更大,面向个人用户是值得关注的方向。

4.4 需要加强与各行业的信息合作,及时更新编校数据库

以专业编校软件黑马为例,其采用定期更新的方法,也与许多行业建立了稳定的合作关系。但是对于新闻传媒行业来说,仍然难以满足需求,比如国家领导人换届选举后,相应的职位发生变化,这就要求数据库信息能及时更新。新华社为解决黑马校对软件更新慢的问题,建有自己的多媒体数据库,将遍布全球的新闻信息上传至自己的数据库中。其中的中文文字系统保存有自1948年以来新华社刊发的所有中文电讯稿,新华社社办报刊和精选稿件,其中有人物库、组织机构库、法规库、背景资料库、中外文词汇翻译、国际译名库等[19]。这有效地解决了黑马校对系统数据更新慢,新闻语料不足的问题,但仍然存在新闻语料库和校对软件库中的资源信息接口不统一、格式不兼容等问题,需要进一步改进。

5 结 语

目前,智能编校可以通过比对数据库信息发现人工编校时难以发现的词汇拼写错误和一些有特定规则语法的错误,并且可以提供修改建议,整体上尚处于1.0发展阶段。未来智能编校将进入2.0阶段,能够结合上下文语境查找错误,从整体上帮助审稿者对稿件进行评估并做出修改润色。随着人工智能等技术的进步,机器在文本理解、推理、判断及解释等能力的发展,最终有望实现更高层次的智能化目标。

注 释

[1]邢如云.引进电脑校对系统 提高书报编校质量[J].新闻出版交流,1996(3):46-47

[2]刘哲双.新技术条件下校对做什么?[J].出版广角,2002(2):44-45

[3]刘新永,林玲娜,柯文辉.人工智能技术在科技期刊出版中的应用[J].科技传播,2019,11(17):15-17

[4]胡佩,李小青.“人工智能+校对”的应用前景分析[J].现代出版,2019(2):59-61

[5]张渊.黑马校对软件应用刍议[J].出版广角,2018(6):58-60

[6]崔玉洁,文娟,廖坤,等.基于Word VBA技术的一键智能编校系统[J].编辑学报,2018,30(6):624-626

[7]张瑞麟,吴益伟,袁醉敏.国内外期刊网络采编系统的应用分析[J].科技通报,2016,32(8):247-250

[8]田欣,马瀚青,郑军卫,等.国内外5种主要网络同行评议系统平台对比研究[J].中国科技期刊研究,2014,25(11):1363-1368

[9]国家新闻出版广电总局出版专业资格考试办公室.出版专业实务·初级[M]. 崇文书局,2015:282

[10]王晓光.人工智能与出版的未来[J].科技与出版,2017(11):4-6

[11]张羽玲.《中国印刷业智能化发展报告(2018)》解读[J].印刷杂志,2019(1):5-13

[12]北京黑马飞腾科技有限公司.出版社[EB/OL].[2018-10-16].典型用户.黑马校对.见http://www.bjhm.com.cn/dianxingyonghu/shownews.php?lang=cn&id=222

[13]张泉. 智能图书编校排系统助力图书出版数字化转型[EB/OL].[2018-10-16].科技.新华网.见http://www.xinhuanet.com/tech/2019-08/14/c_1124876164.htm

[14]2014年度全国出版专业技术人员职业资格考试出版专业基础知识(初级)试题及参考答案[J].中国编辑,2015(03):92-100

[15]WhiteSmoke. About us[EB/OL]. [2018-10-16].WhiteSmoke. https://www.whitesmoke.com/about.html

[16]StyleWriter. How does StyleWriter work?[EB/OL].[2018-10-16]. StyleWriter. http://www.stylewriter-usa.com/how-does-stylewriter-work.php

[17]校宝在线集团.关于我们[EB/OL].[2018-10-16].1checker(易改).http://www.1checker.com/About/Companyinfo

[18]沙棘.一篇外国编辑修改的英文稿(一)[J].中国科技翻译,1990(3):37-39

[19]靖纯.基于新聞语料库的中文自动校对改进方案探讨[J].中国传媒科技,2016(6):15-17

(收稿日期: 2019-11-02)