莫西
【摘 要】当计算机科学应用于出版领域,通过计算机视觉的图像识别、语言判断、逻辑处理和专家系统,模拟人的思维进行反应的智能处理编校软件,迅速改变编辑校对的工作模式,由于编辑这一特殊职业所要求对各种错误的判断能力和改错准确程度,目前编校软件还有一定的局限性。为了有效提高软件的编校水平,利用互联网汇集全球的编辑经验,共建共享网络编校系统。及时对语料库的收集、整理、加工和测试,利用人工智能技术提高词汇自动检索过滤质量。本文根据软件在编辑工作中不能解决的各种问题进行归类分析,提出应对措施。
【关键词】编校软件;局限性;网络编校
【Abstract】When the application of computer science and technology in the publishing field, using computer vision image recognition, linguistic judgment, logic processing, expert system and simulate human thinking of intelligent may responses to treatment editing software and changes in the mode of editing and proofreading rapidly. However, there are some limitations for the current series of editing software, due to the editor is special profession which was required to response to all the wrong judgment and correction accurately. In order to effectively improve the level of the software, the use of the Internet are suggested to gather the world's editorial experience and to build a shared network system, So that the corpus can be timely collected, collated, processed, tested, and automatic retrieval and filtering the quality of vocabulary can be improved by using artificial intelligence technology. According to the classification and analysis of the problems that can not be solved in the editing work, this paper puts forward the measures to deal with them.
【Key words】Editing software; Limitation; Network editing
当计算机科学应用于出版领域,编校软件对文字的自动检测极大地提高了工作效率,编校软件是一种能胜任编辑复杂工作的智能型机器人的雏形。机器人是人工智能科学领域,人工智能是计算机科学的分支,集文化、历史、艺术、哲学、心理学和计算机科学为一体的智能识别判断处理程序。通过计算机视觉的图像识别、语言判断、逻辑处理和专家系统,模拟人的思维进行反应的智能处理编校软件,需要达到的目标不仅对图文进行自动检测,还通过逻辑判断出思想内容的正误。
1 网络编校策略
由于编辑这一特殊职业所要求对各种错误的判断能力和改错准确程度,需要长期的学习与实践才能在相关专业领域达到一定的编辑水平。一个人的时间精力、专业水平、文化修养、知识积累、判断能力是有限的。当编辑操作计算机上的编校软件只能采集本人发现的问题,整理添加到本机上的错词库,比较而言整个社会对相关文化知识的潜能是巨大的,利用互联网汇集全球的编辑经验,共建共享网络编校系统。将编辑工作中发现的各种问题收集到网络语料库,有效提高软件的编校质量。今后编辑书稿直接进入互联网上的相关编校网站,把文件加载到网站指定的编校系统里,点击相关命令按钮进行编校工作,编校结果自动形成审核意见和文字编辑加工报告,下载意见、报告和修改好的书稿进行复审、终审。
在实际工作中遇见的编校软件不能解决的,经过人工发现的错误问题,整理存入网站的服务器指定的数据库,待专家审核后加入网络语料库,积累和加大语料库的容量,加强语料处理的能力。以最大程度发挥全球同行的智慧充实完善编校软件知识库,有关文字词句、专业术语、人名地名等专有词汇自动检索比对的质量就有较大的提升,网络编校反过来又对人工编校形成有力的补充。
编校软件根据《现代汉语词典》最新版在传统的二分检索法的基础上,建立索引和转换知识库,通过增加一个检索过滤器提高效率。由于开发编校软件的公司的财力、人力和知识水平有限,对语料库的收集、整理、加工和应用测试等环节出现不能满足社会发展的需要,编校软件借助各种专业电子词典也不能完全解决编辑在实际工作中的问题。尽管不断推出新的版本,始终没有突破本地计算机的版本升级方法。最近,北京黑马飞腾科技有限公司推出的《黑马网站查错V18版》只是对网站上的网页文字进行检查,将整站和指定范围下载到本地计算机上来操作;支持html、shtml、asp、php、jsp 等各种类型网页。这种V18版不是真正意义上的全球共建共享的网络编校系统。
2 编校软件的局限性
由于目前编校软件主要功能和优势仅体现在词语的编校上,在其他方面仍有局限性,还需要人工进行仔细编校。编校软件出现的问题有以下几个方面:
2.1 疑似错误
对疑似错误词句标注粉色待人工排疑,如:“正当须求”、“既总发行”、“面封设计”、“函套”。
2.2 文字错误
①词句的形近字错误,有的错字组成的词也是汉语中就有的词,需要根据语言环境进行分析才能做出判断,例如“人口”误作“入口”,“木科”误作“本科”,“读法”误作“续法”,“胶合”误作“绞合”,“不失时机”误作“不失时计”等。
②正确词组在不适合的语言环境中的错误
如“品位”和“品味”,一般“品位”用作名词,如“艺术品位高”,而“品味”当动词用,如“品味人生”。类似需要判断的有:检查—检察,反映—反应,权利—权力,启示—启事,截止—截至等。[1]遇到这些容易误用的词组,需要检查具体在语言环境中的作用。
③两词之间相连的词头和词尾前后2字组合成错词或组成合理的词时,编校软件是不能检查出来,如:“前后勒口”把“前后”“勒口”拆分组成“后勒”并提议改成“后勤”。
④有的专业术语中的一个字不同,所代表的概念、意义就大不一样,如果这个字用错,校对软件就不能发现。例如,地质学中的“侏罗纪”与“侏罗系”,“碳酸岩”与“碳酸盐岩”,“拗陷”与“凹陷”,等等。
⑤对翻译书稿注意人名、作品名、地名等对应统一。如某书讲凯恩斯在伊顿公学的某数学老师,同一个老师,却翻出两个名字,第79页为“赫斯特”,第87页为“赫思特”。[2]在文章不同位置(如摘要、正文、插图、表格、参考文献等)对同一对象的写法不一致。
⑥简繁体的正确使用
如“繁体转简体”的文稿:什么字可以是简体,什么字不可以是简体。如:“藉口”应作“借口”,而“声名狼藉”的“藉”不能转为“借”;清代画家“华喦”不能转为“华岩”,“覆盖”不能转为“复盖”,而“覆信”可转为“复信”,“曹霑”不能转为“曹沾”等。
⑦字母的大小写、正斜体出现的错误,编校对软件检查不出来。
⑧字母与数字混淆,例如,把字母“I”当作数字“1”, 把字母“O”当作数字“0”。[3]
2.3 标点符号错误
①该用标点符号的地方没有使用,例如“画一十字”,其中的“十”字应该加引号。
②没有正确使用逗号,在该用顿号或分号的地方均用了逗号。软件能将引号、括号、书名号等的错误显红,如:有前引号而无后引号的,括号套法不规范等问题显红,但标点用法是否合理还需要人工去判断。
③把冒号“:”当作比例号“:”使用。
④把一字线“一”当作破折号“——”使用。
⑤把“X”当作乘号“×”使用。
2.4 公式错误
公式中很多错误都不能被编校软件查出来,包括正体与斜体,大写与小写,上角标与下角标,不符合科学规则,不符合编排规则,同一个公式在不同地方出现时的写法不一致,等等。
2.5 插图错误
插图和表格的错误以及图(表)位置错误,软件都不能发现和解决插图及表格的问题。
2.6 物理量和单位的符号错误
①国家标准中有明确规定的物理量,没有使用其法定的符号。
②误用物理量的单位,如质量的单位误用成kN。
③没有使用法定单位,如长度单位用了A。计量单位的错误:如“加温到42度”,其“度”应改为“℃”或“摄氏度”;再如:(翻译书稿)某人身高五英尺四寸,其错在单位对应问题上,这里“英尺”应对“英寸”而不是“寸”等。[4]
④SI词头用错,如把m写成M. 把k写成K . 把μ写成u,等等。
2.7 数字的用法
编辑工作中执行GB《出版物上数字用法的规定》。分清何时用“阿码”,何时用“汉码”,特别是“阿码”书写的数值(含小数、分数、百分数和科学计数法)不能拆分转行。[5]
2.8 编号错误
如图序、表序、层次标题序号和参考文献序号,等出现错误。
2.9 逻辑关系错误或者算式的计算错误
如“z=2 ,y=3 ,x>y”“1/3 338≥1/2 000”“a= 2,b=3,x=α+b=6”,等等。
2.10 病句问题
编校软件对书稿中的思想不正确,不合逻辑、不合语法、不合修辞的错误无能为力。
①成分残缺是指文稿的病句中残缺主语、宾语、谓语的,如:从这一件平凡的小事中,说明了一个大问题。“从”、“中”二字删除即可。
②主谓配搭不当,如:由于工人甩开膀子大干,这个厂今年的生产任务已经提前实现了。“实现”应改为“完成”。
③动宾配搭不当,如:我们一定要尽量节省不必要的开支和浪费。“浪费”删除即可。
④状语与中心词配搭不当,如:他深深地保持着沉默。“深深”应改为“一直”。
⑤结构错乱,如:广大知识青年表现了无比的学习文化科学知识热忱。“无比的”置于“热忱”的前面即可。
⑥用词不当,如:老师对我们的帮助教育的事例,可真是罄竹难书啊!贬义的“罄竹难书”应改为“不胜枚举”。
⑦呼应混乱,如:只要经常锻炼,才能增强体质。[6]“只要”应改为“只有”。
2.11 概括问题
书中涉及的是农民内容,如“让法律走进大众生活”[7]被软件正常通过,“大众”应改为“农民”。
2.12 版面格式不规范统一
版面格式问题无法利用编校软件进行检查,如版式设计的书名、章名和页码在天头,又出现在其他地方,各级标题的字体、字号、色彩、空行等,只能靠人工进行核对。
3 应对措施
3.1 单机版编校软件,在编辑文稿之前使用编校软件对错误进行粗略过滤,有的在校对环节使用。对编校软件查出来的问题需要人工进行排疑,没有检查出来的还需要编辑仔细审核和编辑加工,确保在文字词句、语法修辞、公式符号、插图表格、版式格式、思想内容等方面无差错。专业词汇编辑需要相关的知识与原则进行判断,可以利用互联网上的搜索引擎查找验证。采用人工编辑为主与软件编校为辅的应对策略,解决目前编校软件局限性的问题。
3.2 互联网操作的网络编校系统还没有问世之前,建议采用编校软件多机版,授权在单位局域网内部使用,通过自带的用户库管理系统,扩展和使用共享用户词库。客户端的每个编辑校对检查出来的错误及时添加到局域网服务器上软件的错词库,通过集体的编辑经验尽可能增强对错误词句的检查力度。
3.3 建立软件机校流程制度,在流程中出现的问题,及时报送相关部门处理。
3.4 编校软件及时升级到新版本,被人工检查出来而软件不能发现的各种错误,发送到软件开发公司,以便收集、整理、加工和测试,充实编校软件语料库的。软件开发公司可以采取技术手段,客户在使用软件出现标注粉色的疑似错误时自动发送到开发公司,由公司组织专家审核排疑。
3.5 编号一般是有规律性的,如:图1—图50,表1—表50,中间缺号、跳号、重号,软件采用特定的编程就可以自动检测出来。
3.6 插图和表格的错用或位置错误,与编号不一致问题,在计算机视觉的图像识别没有出来之前,只有靠编辑来核对。
3.7 对应统一问题,编校软件自动提取相近的词和页码,待编辑排疑。
3.8 通过互联网汇集全球的编辑经验,共建共享网络编校系统是一种全新的观念。软件开发公司根据这一思路,策划组织实施网络编校系统的开发,可以借鉴在线翻译和百度百科模式。软件开发公司可以采取客户对语料库的贡献分值与网络编校使用分值的值差来获得收益。采取这一策略极大地促进网络编校系统的建立和完善。
4 结语
单机版、多机版编校软件向智能型网络编校系统发展,将是出版领域的一场革命,改变人们思维模式和工作程序。也是计算机人工智能的一次质的飞跃,不仅是对文稿问题的智能判断,还能促进其他领域的发展。
【参考文献】
[1][2][4][5]何敏.试论出版社编辑配备校对软件“黑马”后,校对存在的必要性[J].校对之友,2007(4).
[3]胡晓强,黄晓红.辅以校对软件条件下的编校工作重点[J].编辑学报,2012(3).
[6]游本遥.常见病句的语法错误[J].语文教学,1979(3).
[7]2003-2012年出版专业基础知识(中级)试题真题与答案[J]. doc in 豆丁. http://www.docin.com/p-623720341.html.
[责任编辑:汤静]