涉外警务人工智能翻译研究可视化分析

2022-02-10 01:42陈孝宗
关键词:警务语料库公安

陈孝宗 丁 宇

一、引言

2017年国务院公布《新一代人工智能发展规划》[1],将人工智能上升为国家战略。2022年初国务院印发《“十四五”数字经济发展规划》,提出要在“语言智能等重点新兴领域,提供体系化的人工智能服务”[2]。在此背景下,人工智能与翻译的结合成为当前我国语言服务行业信息化进程中的一个热点问题。同时随着“互联网+”行动“一带一路”“大湾区”建设的大力推进,入境中国的外国人数量日益增加,涉外警务案事件迅速增长,涉外语言服务应用不断拓展,整合人工智能翻译与涉外警务,利用人工智能翻译赋能涉外警务,成为当前我国智慧警务和公安信息化进程的一个重要方面。近年来,我国有不少学者就人工智能翻译做了诸多有益探索,百度、讯飞、有道、腾讯等公司在人工智能翻译应用方面也大有建树,但国内外文献初步搜索发现,结合涉外警务的研究或实践并不多见。基于此,本研究以中国知网(CNKI)中文和外文数据库所收录文献为研究对象,借助CiteSpace[3]可视化分析工具和知网自带分析工具,结合定性和定量方法,对涉外警务人工智能翻译研究与实践相关文献进行分类整理,有助于了解涉外警务人工智能翻译研究的趋势与特征,为国内涉外警务翻译的理论研究与应用提供借鉴。

二、数据来源与分析

(一)文献来源

中国知网(CNKI)中外文数据库是本研究的数据来源,检索日期为2022年8月29 日(下同)。为保证文献的全面性和权威性,本研究分多次检索,以“人工智能翻译”“警务+人工智能翻译”“警务+翻译”为主题、题名和关键词进行精确搜索,分别获得1035篇、15篇和119篇,作为研究的分析数据样本。收集数据时,导出参考文献格式选择为Refworks,并保存为txt文档,再经CiteSpace进行格式转换后重命名为以“download _”开头的文本文档,经手动清洗降噪后,导入CiteSpace进行计量分析。

(二)研究工具

研究采用CiteSpace(6.1.R3 Advanced版本)文献数据可视化分析软件进行数据统计与文献分析。该软件由美国德雷克塞尔大学信息科学与技术学院华裔学者陈超美教授基于JAVA语言开发。使用该软件通过对特定领域文献的计量分析,可将相关文献知识可视化,探寻相关学科和领域演进的关键路径及其转折点,并能够进一步探寻学科研究前沿与热点。此外,知网自带分析可视化工具也作为辅助研究手段加以使用。

(三)结果分析

1.人工智能翻译相关主题发文态势

近年来人工智能翻译相关研究成果可谓层出不穷,相关语言服务应用领域不断拓展。如图1知网检索显示,2014年以来以“人工智能翻译”为主题的文献数量增长迅速,年均发表接近100篇,说明相关研究应用总体上处于上升阶段。该趋势与人工智能翻译(机器翻译)的发展脉络保持一致。从人工智能翻译发展历程来看,相关研究和实践从早期基于规则的机器翻译(Rule-based Machine Translation, RBMT)[4],发展到基于语料库的机器翻译(Corpus-Based Machine Translation,CBMT,包括基于实例Example-based和基于统计Statistics-based)和基于神经网络机器翻译(Neural Machine Translation, NMT)的方法论和应用实践。如图1所示,1990年以前人工智能翻译主要基于规则和实例,发展迟滞;1990年代,随着基于统计的机器翻译的发展,人工智能翻译进入波动发展阶段,但文献发表数量不多。2014年以来,随着神经网络及深度学习等技术的飞速发展[5],相关文献开始呈现出爆发式增长,进入快速发展期,相当程度上得益于人工智能技术的进步。

图1 人工智能翻译主题文献发表趋势

从文献主要主题来看(见图2),“人工智能”和“机器翻译”两个主题占了接近总文献数的一半,单纯涉及语言服务文献只有10篇,人工智能翻译服务涉外警务的主题则更少,说明有关人工智能翻译在涉外警务领域的研究和应用非常欠缺。有鉴于此,本研究利用多次文献搜索,进行数据筛选和叠加,从而更准确找出人工智能翻译在涉外警务方面的研究和应用趋势。

图2 知网人工智能翻译文献主要主题

2.涉外警务人工智能翻译研究与应用趋势

第一次检索以“警务+人工智能翻译”为主题、题名和关键词,获得15篇文献,但相关度为零;第二次扩大范围,以“警务+翻译”为主题、题名和关键词,搜索得到119篇文献,剔除无关内容后得73篇学术论文(含一篇外文文献)。基于上述检索,使用CiteSpace对文献进行可视化分析,主要采用知识图谱分析、聚类分析等方法对文献进行定量分析按照文献出版时间为“2002-2022”,时间切片(Time Slicing)单位为1年,词汇来源(Term Source)为“主题(Title)”“摘要(Abstract)”“关键词(Keywords)”“关键词Plus(Keywords Plus)”设为抓取源;节点类型(Node Types)为关键词(Keyword),生成聚类图形(图3)。

图3 警务翻译关键词共现分析

如图3所示,知网数据库的73篇文献关键词生成了34个聚类(Cluster),选取节点较大的聚类进行共现分析。共现分析知识图谱中,以圆圈来表示节点,其大小表示该关键词出现的频次,频次越高,节点越大。由图3可见,翻译、涉外警务、警务英语、语料库、警务翻译、外警培训、翻译策略、人才培养、教学模式、公安院校是(按节点大小排序)为出现频次最高的10个关键词,说明这些领域是近20年来警务翻译研究的热点问题。

结合表1中关键词(选取前10个)出现的频次(Count)和中介中心性(Centrality,超过0.1的节点称为关键节点)来看,语料库、警务英语、翻译、涉外警务、外警培训等关键词同时具有较高频次和中介中心性,说明国内关于警务翻译的研究主要聚焦于涉外警务的人工翻译,包括书面和口头的翻译理论、实践和方法研究,并未直接涉及人工智能翻译和涉外警务相结合的情况,比较接近的研究主题也只是从语料库角度进行探讨。

表1 警务翻译关键词共现频次和中介中心性(按出现频次从高到低排序)

因前述文献搜索分析结果主题聚焦不足,未能反映人工智能翻译和涉外警务结合的情况,再分别以“警务+翻译+语料库”“警务+机器翻译”“公安+翻译+软件”“警务+翻译+平台”为主题、题名和关键词多次搜索文献,剔除会议、学术资讯、无关主题等不符合要求的文献后,结合上述两次搜索结果,最终得到中文相关文献8篇、英文文献1篇,并基于上述相同参数设置继续采用CiteSpace和知网自带工具对中文文献进行分析。

图4关键词共现分析显示,8篇文献关键词生成7个聚类(Cluster)。当中,构建、设计、警务翻译、语料库、语料标注、双语对齐、语料噪音(按节点大小排序)为出现频次最高的7个关键词,而像语音识别、语音合成、多语言信息服务系统架构、多语言模板翻译引擎、智能语音等主题关键词节点很小,说明研究聚焦点集中在语料库的创建和设计上面,而深入涉及人工智能翻译或机器翻译与涉外警务相结合的研究匮乏。近20年来文献发表最多的2017年,也只有4篇文章(图5),其他年份每年只有1篇甚至为零。

图4 关键词共现分析

图5 知网涉外警务人工智能翻译主题文献发表总体趋势

结合上述主题关键词共现频次和关键词共现分析并深度挖掘文献数据发现,涉外警务人工智能翻译主题相关文献主要从语料库角度出发,探索涉外警务翻译语料库建设面临的问题与解决方案[6-8],最贴近人工智能翻译主题文献只有2篇,分别指向公安智能移动翻译软件的研究与实现[9]以及警务智能语音服务平台实战应用研究[10],其他类似研究则尚未出现。由此可见,虽然已有学者针对公安涉外警务语言服务作出了有益探索,但对人工智能翻译在公安涉外警务中的应用却着墨甚少,且这些研究以理论探讨居多,未形成有效的可供推广的应用设计。研究梳理还发现,在实践应用方面,目前国内实现人工智能翻译的涉外警务翻译平台仅有两例,一是成都警方2016年推出的全国首个涉外警务同步翻译系统,二是武汉同年上线的警用翻译平台“光谷翻译官”。从目前了解情况来看,国内其他地区并未有人工智能翻译在涉外警务的应用实践,反而仍有不少地方主要借助人工翻译方式推进涉外警务,如广东警方2014年开始引入外语翻译社会机构服务涉外警务,吉林警方2018年建立了涉外警务翻译人才库,公安涉外警务英语服务更多依赖人工而非人工智能。

三、研究发现与展望

通过分析人工智能翻译及其在涉外警务领域的相关研究和应用,观察结论可归纳如下。

(一)国内人工智能与翻译结合研究在近年呈现迅速发展的趋势,文献发表数量在不到十年间增长了数十倍(2013年4篇,2020年189篇,2021年160篇年,2022年预测达到221篇,见图1),说明随着人工智能技术的飞速发展和国家发展战略、产业政策指引以及配套措施的落实落地落细,人工智能翻译已经成为当前的研究热点,在可预见的未来相关研究和应用将继续保持热度。然而,人工智能翻译相关主题的发文多涉及技术方面的探讨,关联语言服务领域的文献不多,后续研究应该加大该方面的投入。

(二)涉及语言服务领域的人工智能翻译研究热度不足,尤其是涉外警务翻译领域,二十多年来仅有不到10篇文献,基本处于停滞不前的状态,这种情况一定程度上和公安业务的行业特殊性有关。公安业务工作往往涉及保密原则和证据合法性问题,这就造成了相关研究长期未能深入,使得目前大多数文献都只是停留在探讨人工智能翻译技术,以及建立语料库来解决涉外警务人工笔译和口译问题的层面上,直接讨论人工智能翻译介入公安业务工作可行性的文献寥寥无几[9]。

针对以上问题,可从三个方面加以改变:一是提高涉外警务翻译研究人员的技术能力,增加对翻译技术的深入了解,加强人工智能翻译技术研究,包括自然语言处理(NLP)中机器翻译和语音识别、深度神经网络,及其与大数据及云计算技术融合。二是加强涉外警务人工智能翻译平台实践应用研究,应通过调研国内乃至国外涉外警务翻译系统平台的应用状况,建设涉外警务翻译资源数据库(包括翻译记忆库)。三是努力推进涉外警务人工智能翻译平台的设计建设,在功能设计方面,能够根据不同需求、不同场景(如出入境、治安、交管等)实现模块化、标准化功能设计和搭建;在建设规范方面,能够平衡保密原则和公开原则,进行人工智能翻译合法合规建设并做好相应的推广适配工作。

四、结语

“计算机辅助翻译、翻译语料库、大数据、云翻译等概念以及这些概念所承载的翻译技术,正不以人的意志为转移地冲击着传统翻译。”[11]当代信息技术和人工智能产业化深入发展,人工智能与翻译的结合正在成为当前我国语言服务行业信息化进程的热点之一,同时随着“互联网+”行动“一带一路”“大湾区”建设的大力推进,加强涉外警务执法与服务也成为中国对外交流的重要组成部分,利用人工智能翻译赋能涉外警务,是当前我国智慧警务和公安信息化建设的一个重要方面。本研究在梳理人工智能翻译及其在涉外警务领域研究的基础上,利用可视化工具CiteSpace(6.1.R3 Advanced版本)对近20年来中国知网上收录相关文献进行计量分析,揭示了现阶段涉外警务人工智能翻译应用与研究存在的问题,并提出相应建议,为今后人工智能翻译赋能涉外警务语言服务的研究和应用提供一定的参考。

猜你喜欢
警务语料库公安
博物馆:上海公安史图片展
《语料库翻译文体学》评介
Frequent attacks on health workers in China: social changes or historical origins?
环球警务专访
“10岁当公安”为何能畅通无阻
浅谈港航公安网上警务公开的现状和问题
警务训练中腹痛的成因及预防
论公安司法鉴定人出庭作证
基于JAVAEE的维吾尔中介语语料库开发与实现
警务指挥与战术研究现状及发展趋势