基于 Gephi 的海峡两岸科技术语差异可视化研究

2023-07-23 18:31刘金婷韦沁代晓明
中国科技术语 2023年3期
关键词:可视化

刘金婷 韦沁 代晓明

摘 要:为了推进海峡两岸科技术语的对照和统一工作,文章对《海峡两岸大气科学名词》(第3版)所收录的两岸科技术语进行了综合分析。文章对所收录术语进行了分类,分为完全一致术语、不完全一致术语和完全不一致术语3类。对于不一致术语,主要从数理统计、字频统计、词频统计并结合可视化分析进行研究,以全面了解海峡两岸术语差异情况。研究结果表明,海峡两岸大气科技术语一致率较高,为72.92%,不一致率为27.08%。海峡两岸科技术语用字、用词具有高度一致性,不一致的地方主要体现在对字的内涵理解或使用习惯等方面。

关键词:Gephi;两岸术语;大气科学术语;可视化

中图分类号: H083;P4文献标识码: ADOI:10.12339/j.issn.1673-8578.2023.03.005

Abstract: This paper made a comprehensive analysis on the crossstrait scientific terms included in Crossstrait Chinese Terms in Atmospheric Science (3rd Edition), which would help promote the work of crossstrait scientific terms comparison and unification. We classified the related terms into three categories: completely consistent terms, incompletely consistent terms and completely inconsistent terms. For inconsistent terms, we mainly conducted a detailed study from the aspects of mathematical statistics, word frequency statistics, word frequency statistics and visual analysis, so as to fully understood the differences between terms across the Taiwan Strait. Our results show that the consistency rate of atmospheric science terms across the Taiwan Strait is high as to 72.92%, and the inconsistency rate is 27.08%. There is a high degree of consistency in the use of words and expressions of scientific terms across the Taiwan Strait. The differences are mainly reflected in the different understanding of the meaning of words, or the problem of usage habits.

Keywords: Gephi; crossstrait term; atmospheric science term; visualization

收稿日期:2022-09-30修回日期:2023-03-28

基金項目:国家语言文字工作委员会“十三五”科研规划2019年度委托项目“科技名词常用词表”(WT135-60)

1 研究背景

海峡两岸科技专家对两岸名词不一致所造成的交流障碍与混乱有深刻感受,因而在“汪辜会谈”中,把“探讨科技名词统一”工作列入共同协议。1999年3月,由全国科学技术名词审定委员会(下文简称“全国科技名词委”)牵头组建的大陆大气科学名词代表团赴台参加了“海峡两岸大气科学名词学术研讨会”。全国科技名词委作为大陆牵头人,于1994年启动了海峡两岸名词对照和统一工作,对促进海峡两岸科技交流与发展发挥了重要作用。两岸专家一直本着“积极推进,增进了解;择优选用,统一为上;求同存异,逐步一致”的精神来开展这项工作。至今海峡两岸大气科学界已举办十届大气科学名词学术研讨会。

多位专家对海峡两岸科技名词的对照统一工作做了研究。如周其焕[1]指出海峡两岸术语的差异在于用字与用词的不同,并建议“老词老办法,新词新办法”。周诗健等[2]提出,“科学性是名词定名要求中最重要的前提;繁简适度, 逐渐过渡;要关注人名、地名的翻译问题。”王存忠等[3]将海峡两岸大气科学名词分成7类,如完全一致或比较一致的名词、分歧比较大的名词等。代晓明等[4]归纳了海峡两岸在汉字使用习惯、翻译分歧、字母词以及其他方面的分歧,指出这些问题是海峡两岸科技名词领域的普遍问题,对其他领域也有参考意义。裴亚军[5]详细介绍了海峡两岸组织科技专家共同编纂《中华科技大辞典》的相关工作,并指出这是我国科技名词规范化领域取得的一项新成果,拓展的一条新路径。张晓娜[6]运用语言变异理论,对两岸科技名词的变异现象进行了深入研究。

数据可视化是快速认识、深入了解数据集的捷径,相对于列表,可以更加直观地展示数据内容,挖掘数据内涵。耿学华等[7]全面总结了网络可视化的分析研究。何晓萍等[8]对大数据的演进路径、研究热点与前沿进行了可视化分析。目前,还没有专家应用自然语言处理技术和数据可视化等方法对海峡两岸大气科学名词进行综合分析,本文基于Gephi对两岸大气科学名词进行可视化分析,以更直观、系统地了解两岸科技用字、用词的差异性。

2 研究基础

本文以2020年全国科技名词委公布的《海峡两岸大气科学名词》(第3版)(以下简称《两岸大气科学名词》)为基础,利用科学计量学方法对其中收录的术语进行综合统计分析。《两岸大气科学名词》包括大气、大气探测、大气物理学、大气化学、动力气象学、天气学、气候学、应用气象学等部分,收词7000余条;分为正篇和副篇,正篇以大陆名拼音排序,副篇以英文名字母排序。

2.1 研究方法

2.1.1 统计方法

应用统计方法综合分析《两岸大气科学名词》收录术语的总量、不一致术语的数量及比例等,并统计不同分类下各种数据及数据关系,从学科角度给出定量分析,以全面了解两岸大气科学名词的差异。

2.1.2 自然语言处理方法

术语由字或词(元组)组成,有的术语就是一个元组,有的术语是多个元组组合。两岸术语有差异则是组成术语的字或元组有差异,如果元组定名不同,而涉及这个元组的术语很多,则会造成两岸术语差异性较大,如果对于这些造成一系列术语差异的元组进行逐个统一,那么两岸科技术语的差异度必将大幅降低。因此,研究这些造成系统性差异的字和元组非常重要。可以应用自然语言处理技术对《两岸大气科学名词》进行字频和词频分析。其中对术语分词采用基于点式互信息原理,如果字与字总是相伴出现,结合的稳定度高,则判断它为一个词。

2.1.3 多工具融合方法

采用Python、Excel、Matlab、Gephi[9]等多种工具进行统计、可视化分析等。其中Python、Excel、Matlab主要用于数据处理、统计分析以及图表制作,基于复杂网络的可视化分析软件Gephi用于可视化图谱的实现。

2.2 數据处理

以《两岸大气科学名词》正篇部分的术语为数据处理对象。首先对数据进行预处理,利用Python、Excel等软件进行词条对比,根据大陆名与台湾名的相似情况分类,分为完全一致术语、部分一致术语和完全不一致术语,分析这3类术语的数目及所占比例。对于完全一致术语和部分一致术语,只做数据统计工作。对于完全不一致术语,给出其统计指标,利用自然语言处理技术对字频、词频进行深入分析与可视化展示。

3 结果分析

3.1 统计结果分析

将《两岸大气科学名词》正篇部分的术语分为大陆名、台湾名和英文名3列,这些术语按照大陆名汉语拼音顺序排列,共7051条。去除其中的又称条目191条,得到正式术语6860条。在6860条术语中,不考虑字形差异,大陆名和台湾名完全一致术语4470条,不一致术语2390条;在不一致术语中,又包含完全不一致术语1858条,部分一致术语532条(见图1)。

可见,大陆名与台湾名一致的术语为5002(4470+532) 条,一致率为72.92%,完全一致率为65.16%,部分一致率为7.76%,不一致率为27.08%(见图2)。

对于部分一致术语,海峡两岸在今后的科研交流中可以逐渐引导采用一致术语,逐步取得完全一致。对于完全不一致术语,需要详细研究其不一致之处,了解海峡两岸定名的特点,逐渐向部分一致发展。1992年朱福康[10]提到海峡两岸有些术语不统一,会造成一系列术语都不统一,比如大陆名为“尺度”,台湾名为“幅度”,英文名为scale。经过多年科技交流,海峡两岸已经将这一术语统一为“尺度”,在《两岸大气科学名词》中收录了15条相关术语(如表1),其中因“尺度”定名的统一而有13条两岸术语实现了统一,只有“耗散尺度—消散尺度”“天气尺度—綜觀尺度”还不统一,这是海峡两岸专家共同努力的成果。可见,研究这类会造成系统性影响的术语,在下一步两岸交流中逐渐去统一这些术语,则非常可能统一相关的一系列术语。

3.2 字频分析

海峡两岸科技名词的差异在于用字或用词不同,或者同一个字、词在两岸具有不同的内涵。本节从字频分析角度结合可视化研究来分析海峡两岸大气科学名词的差异。

3.2.1 综合分析

经统计,在1858个完全不一致术语中,大陆名(包括53个“又称”)所包含的汉字总数为8946个,可以得到平均术语长度为4.68(不考虑字母与数字),其中不重复汉字个数为1019个。

列举其中频次前20位的汉字(见表2),可以看出频次最高的3个汉字海峡两岸均为“气”“度”“流”,可见海峡两岸用字是高度一致的;处于第四位的“表”,对应台湾名的“计”,可见海峡两岸用字不同但对应一致;频次第五、第六、第八的汉字也相同。综合来看,前20位汉字中,大部分汉字相同,但是详细分析后可发现,大陆名中的表、计、仪,虽然在台湾名中也包含,但是两岸的内涵不同。

选取大陆名中前100位汉字形成关键字共现图(图3),同时选取台湾名中前100位汉字形成关键字共现图(图4),可以看出两个关键字共现图非常接近,但是经过交流分析发现,其中的表、计、仪、送、器等字,海峡两岸科技专家对其内涵的理解不一致,但经过多年交流双方已了解各自的内涵,有望在下一步工作中逐步统一。

3.2.2 典型案例分析

我们对“表—计”和“计”“仪”“器”“送”等进行网络分析。将大陆名中结尾包含“表”的术语选出,共101条,分别建立点文件和边文件,点文件中包含Id、Type和Label项,边文件中包含Source、Target、Weight项等信息,输入Gephi建立网络,其中共有203个节点、202条边,图的类型采用无向图,边合并策略为总和,布局采用fruchterman reingold,如图5。可以看出,大陆名以“表”结尾,对应的台湾名都是以“计”结尾,通过分析其术语英文名可以发现,大陆名中的“表”,其英文名基本以“meter”结尾(见表3),如果海峡两岸能够将“表”与“计”统一,那么将有近百条术语得到统一。

我们进一步分析大陆名中包含“计”“仪”“器”的不一致术语,以及台湾名中包含“送”的术语,建立同一文件,共得到95条术语,这些术语中“计”“仪”“器”“送”的使用并不统一,比较混乱(见表4)。根据Gephi的要求建立点文件和边文件,将数据导入Gephi可得图6,其中共有379个节点、280条边,图的类型采用无向图,边合并策略为总和,布局采用fruchterman reingold。从图6可以看出,大陆名中包含“计”“仪”的术语多,包含“器”的少,台湾名中包含“送”的术语也较少,基本上台湾名中的“送”对应大陆名中的“仪” 。

3.3 词频分析

词是能够独立活动的有意义的语言成分,是自然语言处理系统中重要的知识载体与基本操作单元[11]。共词分析方法最早是在20世纪70年代中后期由法国文献计量学家提出的[12]。词频统计相关研究很多,如商瀑[13]基于《中华人民共和国国家情报法》做了词频统计与分析,文禹衡等[14]运用词频统计分析法分析了《中华人民共和国个人信息保护法》文本的主题分布规律,并借助社会网络分析软件对核心词与法条之间的关系进行了可视化分析。词频分析法利用能够揭示或表达核心内容的主题词出现的频次来确定它的重要性。

3.3.1 综合分析

在《两岸大气科学名词》中,很多术语由多个元组组成,元组在稿件中的出现频次显示了它的重要性,也提示有可能是两岸术语不统一的源头。由于是在科技术语中分词,所以本文中只考虑两字词,得到结果如表5,由位居前100的分词建立共现图(如图7、8)。通过表5和图7、图8可见,气候、温度、天气、辐射、大气等术语,两岸没有差异,但是湍流—亂流、急流—噴流、涡动—渦流、输送—傳送等,两岸还未统一名称。下面将以这4组对应术语展开筛选,建立网络图(如图6~8)。

3.3.2 典型案例分析

对湍流—亂流、急流—噴流、涡动—渦流、输送—傳送进行网络分析。首先各自建立相关术语表,按照Gephi要求分别建立点文件和边文件,将数据导入Gephi,可得图9、10、11和12。其中图的类型采用无向图,边合并策略为总和,图9和图10布局采用fruchterman reingold,图11和图12布局采用Yifan Hu 比例。

由图9可以看出,所有术语都围绕湍流、亂流两个中心点,模块化值为0.276,说明这些术语具有一定的稳定性,但是并不高;因为大陆名与台湾名之间为一一对应,所以它们之间的度为1,整个图的平均度为1.5,说明中心化程度较高;图密度为0.041,数值很低,这是由于各个术语之间独立性强,较少交叉。

由图10可以看出,所有术语都围绕急流、噴流两个中心点,模块化值为0.236,说明这些术语的稳定性并不高;因为大陆名与台湾名之间为一一对应,所以它们之间的度为1,整个图的平均度为3.021,说明中心化程度非常高;图密度为0.066,说明各个术语之间有交叉。

从图11可以看出,这些术语有多个中心点,分别是涡动、渦流、涡旋和渦旋,模块化值为0.52,说明这些术语的稳定性高,模块化程度高;整个图的平均度为1.379,说明中心化程度非常低,呈现分散化;图密度为0.048,说明各个术语之间交叉性不高。

从图12可以看出,这些术语有3个中心点——输送、传输、传送,还有两个边缘点——传递、转换。模块化值为0.404,说明这些术语的稳定性较高,模块化程度较高;整个图的平均度为1.326,说明中心化程度非常低,呈现分散化;图密度为0.404,数值较高,说明由于各个术语之间联系较紧密,有交叉性。

4 结语

本文从定量角度综合分析了《海峡两岸大气科学名词》中两岸术语的差异性,并基于复杂网络的可视化软件Gephi,对部分不一致术语进行了可视化分析。综合来看,海峡两岸大气科学术语一致率较高,为72.92%,不一致率为27.08%,不一致的术语只占少数。

对于不一致术语,本文主要从数理统计、字频统计、词频统计并结合可视化分析等进行了研究。结果表明,海峡两岸科技术语用字具有高度一致性,不一致主要体现在对字的内涵理解不同。从字频分析来看,涉及表、计、仪、器的术语两岸都有,但是含义有差别,从而造成一系列术语的不统一。从词频来看,海峡两岸用词也有高度一致性,但是由于隔阂较久、区域习惯问题等用词会有差异。本文主要研究了湍流—亂流、急流—噴流、涡动—渦流、输送—傳送等相关术语,并进行了可视化分析。

解决一个基本元组的统一问题,就会系统地解决一批术语的统一问题。因此,下一步海峡两岸科技术语交流的重点还是放在基本元组的统一方面,对于“老词”尽量统一,对于“新词”一定统一。

本文的研究内容对于了解海峡两岸科技领域用字、用词具有参考作用。海峡两岸建立长期稳定的交流渠道,加强沟通交流,对了解科技术语差异、避免差异、消除差异、逐步统一有重要意义。

参考文献

[1] 周其焕.为促进海峡两岸科技名词对照统一而努力[J].科技术语研究,2006,8(1):58-60.

[2] 周诗健,王存忠.大气科学名词两岸交流取长补短[J].科技术语研究,2003,5(1):39-41.

[3] 王存忠,周诗健.海峡两岸大气科学名词比较[J].科技术语研究,1999(4):39-41.

[4] 代晓明,李玉英.海峡两岸大气科学名词交流述评[J].中国科技术语,2009,11(1):49-57.

[5] 裴亞军.科技名词工作新的发展和延伸[J].中国科技术语,2020,22(4):1.

[6] 张晓娜. 海峡两岸科技名词变异现象研究[D].哈尔滨:黑龙江大学,2017.

[7] 耿学华,傅德胜.可视化数据挖掘技术研究[J].计算机应用与软件,2006(2):85-87.

[8] 何晓萍,黄龙.大数据领域演进路径、研究热点与前沿的可视化分析[J].现代情报,2015,35(4):46-51.

[9] 关迎晖,向勇,陈康.基于Gephi的可视分析方法研究与应用[J].电信科学,2013,29(S1):112-119.

[10] 朱福康.大陆与台湾大气科学名词同异初探[J].气象,1992(7):54-55,61.

[11] 费洪晓,康松林,朱小娟,等.基于词频统计的中文分词的研究[J].计算机工程与应用,2005(7):67-68,100.

[12] CALLON M,LAW J,RIP A.Mapping the Dynamics of Science and Technology:Sociology of Science in the Real World[M].London:Macmillan,1986.

[13] 商瀑.论国家情报工作的运行机理:基于《中华人民共和国国家情报法》词频统计与分析[J].情报杂志,2020,39(2):5-10.

[14] 文禹衡,于琳.我国个人信息法律保护现状、主要问题及完善路径:基于《中华人民共和国个人信息保护法》的词频统计与分析[J].图书馆理论与实践,2022(4):12-21,28.

作者简介:刘金婷(1980—),女,全国科学技术名词审定委员会事务中心副研究员,主要研究方向为术语学、气象学。发表文章近10篇,参编《大数据百科术语辞典》。通信方式:liujt@cnterm.cn。

韦沁(1983—),女,科学出版社地质分社策划编辑。研究方向为地质学专业出版。担任责编出版图书超过150种,责编的《自然灾害风险地图集》获2022年优秀地图作品裴秀奖(金奖),责编图书获得输出版优秀图书奖2部、海洋优秀科技图书奖1部,入选第四届“三个一百”原创图书出版工程1部。通信方式:weiqin@cspm.com.cn。

通讯作者:代晓明(1969—),男,编审,中国人民大学图书馆、情报与档案学专业管理学博士,研究领域为术语管理和信息资源管理。全国科学技术名词审定委员会事务中心副主任,中国辞书学会理事,全国语言与术语标准化技术委员会第六届术语学理论与应用分技术委员会(SAC/TC 62/SC 1)主任委员。主编《两岸中小学生科技词汇》《常见科技名词规范使用手册》,执行主編《两岸科学技术名词差异手册》,参编《两岸科技常用词典》。在各类报刊上发表文章50余篇。通信方式:daixm@cnterm.cn。

猜你喜欢
可视化
无锡市“三项举措”探索执法可视化新路径
基于CiteSpace的足三里穴研究可视化分析
自然资源可视化决策系统
三维可视化信息管理系统在选煤生产中的应用
基于Power BI的油田注水运行动态分析与可视化展示
自然资源可视化决策系统
基于CGAL和OpenGL的海底地形三维可视化
可视化阅读:新媒体语境下信息可视化新趋势
“融评”:党媒评论的可视化创新
重大主题报道的可视化探索——以浙江日报的实践为例