中国语言资源集自动排版系统的设计与实现

2022-05-31 16:54:53林雅雯潘思行韦柳陈欢
科学与财富 2022年1期
关键词:技术

林雅雯 潘思行 韦柳 陈欢

摘  要:中国语言资源保护工程接下来要进行的重要工作就是将调查成果结集出版。1500多个语言点材料的处理,如果仅仅依靠人工去操作,无疑是一项庞大的工程。同时,每年有不少语言学专著和论文也可能涉及到字音和词汇对照表的排版编辑。基于此,采用计算机相关技术设计自动排版系统,将最大限度地提高工作效率。

关键词:C++技术;中国语言资源集;自动排版系统

教育部、国家语委自2015年启动中国语言资源保护工程以来,到现在已经进入到第二期。这些年来,工程进展顺利,取得了一系列的重大成果,社会反响良好。按照预定的计划,,接下来面临的是各个材料的结集出版等问题。不管今后的语言材料最终如何出版,其中,字音对照表、词汇对照表和语法例句对照表是成果中必不可少的内容。而这部分工作是最耗费时间和精力的工作。

语保工程在顶层设计中就充分考虑了成果的内容和形式,因此在调查者提交结项材料的格式中已经做了严格的规定,1500多个语言点的材料格式完全一致,这也就為我们利用计算机技术来处理相关数据提供了便利条件。

由于汉语方言1的调查主要是分为单字、词汇、语法和长篇语料等几个部分来进行的,因此在结集出版的时候,会分为语音卷、词汇卷、语法卷分别出版,因此对于这些材料的处理,我们也是分不同的模块2来进行。本系统中的单字、词汇、和语法三个模块分别对应出版成果中的字音对照表、词汇对照表和语法例句对照表。本文以汉语方言中的单字材料处理为例,简单的介绍我们所开发的这一自动排版系统。本文所涉及的材料样本为广西汉语方言调查点材料的原始调查数据,一共六十个方言点。

1、自动规范方言点文件名

根据语保工程的相关要求,我们需要将几十或上百个EXCEL材料进行统一汇编。那么,计算机要处理的第一步是:自动规范文件名。文件名的格式可以根据用户需求自定义。比如,可以按照县级行政区划的名称命名,也可以按照语言系属_县级行政区划来命名,还可以按照省_市/州_县/县级市_乡/镇_村等多种方式来设定,具体的命名方式由用户自己确定,因此系统中设定的是“用户自定义”方式。

2、数据材料的预处理

按照语保工程的统一要求,通过计算机自动遍历所有的语言数据材料,对音标数据进行规范,完成数据材料的预处理。需要让计算机自动分析判断以下两个方面的问题:

第一个方面,是对材料数据的规整和规范处理。这其中包括五项内容:第一音标一律用IPAPanNew字体;第二就是调值一律采用宋体上标;第三是送气符号一律采用[ʰ],不用[h]第四,零声母符号不标;第五同音符号“=”一律采用上标。第二个方面,是对所有语言材料中一字多读的数据进行统计分析,以便于后面对单页能够排版的方言点数量进行预处理。

3、多列数据的合并处理

语保项目要求提交的数据是一个声韵调分开的三列数据,但是最终出版物则要求将D、E、F三列中的数据合并在一起,写入到新的word文档对应的表格里。同时,如果在H、I、J列中有数据的话,需要将这三列也合并,再换行写入到上文提及的D、E、F列数据合并写入后的单元格中去。这就要求在这一步骤中需要做两个方面的处理,一是三列合并,二是需要判断在H、I、J三列和L、M、N三列中是否有数据,如果有,那么需要合并后再换行写入。

4、跨表格的数据读取和写入处理

跨表格的数据写入处理是本程序的最核心部分。首先是确定表头,前文已经提到,从第二行开始,第一列中的数据内容为文件名(即方言点名称)。第一行中的每列数据内容则是调查条目及其所对应的中古音韵地位,即在同一单元格中分两行实现,第一行为序号和单字,第二行为单字所对应的中古音韵地位。在确定好表格的表头之后,接下来最重要的任务就是将前面处理好的数据写入到新文件中对应的表格。

打开系统进入单字处理模块后,我们可以根据操作界面来选择相应的出版页面大小,如下图四,版面大小可以由用户自己定义,或者按出版社指定的版面大小。这将涉及到单页能够排下的数据量,且本系统在设计时已经考虑数据溢出报错的相关问题。

再选择单页表格中的列数,即单页表格中写入的单字数,每页表格数和对齐模式按照默认方式即可。然后选定语料在计算机中存储的文件夹即可。

最后选择写入的WORD文件保存的位置,然后点击生成。当出现了图六对话框后,说明已经全部读取和写入数据,也就是说语料数据自动合并写入到规定表格的工作已经完成。

除此之外,还有版面设计的相关问题,比如资源集出版的时候如果是按照行政区划来发行,可能会出现单本书涉及60个以上语言点的情况。这个时候可以考虑采用单个蝴蝶页或是多个蝴蝶页来排版,这也可以让系统通过对材料的遍历进行自动设置。

6、结语

总之,如果充分利用计算机技术对语言材料数据进行处理,能够极大地减轻人工手动工作量,同时避免大量的手工操作失误。我们运用本系统来处理120个语言点字音对照表的汇编工作,所耗费的时间不会超过5秒。应用在语言保护工程的工具软件已经十分丰富,我们从语言资源数据的采集、校验再到最终材料的处理,都充分利用了计算机这一工具。也只有如此,才能使我们的语言保护工程进展顺利。

参考文献:

1、Bruce Eckel,thinking in java ,机械工业出版社,2007.4

2、伍高远,Excel VBA编程实战宝典,清华大学出版社,2014.8

3、教语信司函,教育部语信司 关于启动中国语言资源集(分省)编写出版试点工作的通知,2018,27号

作者简介:林雅雯(2000.10-),女,汉族,广西合浦人,本科生在读,主要从事东亚语言研究;

潘思行(2000.04-)男,汉族,广西扶绥人,本科生在读,主要从事汉语方言研究;

(基金项目:广西职业师范学院2021年大学生创新创业训练计划国家级立项项目:南宁白话语言文化材料调查与整理,编号:202114684007)

(基金项目:广西职业师范学院2021年大学生创新创业训练计划国家级立项项目:基于数据库的东亚语言音系整理研究,编号:202114684002;)

猜你喜欢
技术
探究电力信息和电力通信技术的融合
红松嫁接方法和技术要点探析
浅析无机房电梯相关技术要点
辽西干旱山区山杏育苗及造林技术分析
大采高综采工作面初采期间瓦斯综合治理技术
电力配电柜的应用技术
有关计算机网络安全问题的分析与探讨
浅析建筑物钢筋砼与砌体结构抗震加固的技术方法
浅谈钢筋混凝土结构建筑应用外包粘钢加固技术
探讨电力系统中配网自动化技术
科技视界(2016年21期)2016-10-17 20:00:58