顾巨凡
【内容提要】近年来,随着人工智能技术的不断进步,国际传播人工智能语料库建设越来越成为涉及国家安全、意识形态和话语权建设的重要阵地,语料库建设将为国际传播领域推广机器翻译提供坚实的技术支撑,人工智能语料库应用可有效提高对外传播内容核心竞争力。中国外文局等专业从事多语种对外传播工作的单位多年来积累了历史语料储备优势、语种丰富度优势、新媒体技术转换优势和人工及工作机制保障优势。建设国际传播人工智能语料库应基于中国外文局自身资源建设国际传播平行语料库,联合其他同质近似外宣新闻媒体等建设国际传播比较语料库并集成数据库为机器翻译和智能写稿奠定基础。
【关键词】人工智能 语料库 话语权 自然语言处理
随着我国国际话语体系建设的不断深入,国际传播事业需要不断优化传播布局、拓展传播渠道、完善机制平台并深化融合发展,从而更好地对外传播中国发展成就并积极影响对象国涉华舆论生态。为贯彻落实习近平总书记在党的十九大报告中提出的要高度重视传播手段建设和创新,提高新闻舆论传播力、引导力、影响力和公信力,党的国际传播事业要抓住时机、把握节奏、讲究策略,体现时度效要求等重要政策讲话精神,外宣媒体需进一步强化信息化和语料库功能服务,以更好地讲好中国故事,对外展现真实、立体、全面的中国形象,综合提高国家文化软实力。國际传播人工智能翻译语料库是指基于互联网工作平台,运用以神经机器翻译技术为基础的人工智能翻译技术,对国际传播等相关领域的语料资料进行数据化处理和加工,建立系统对外传播党政文献、领导人著作、讲话及外宣图书、期刊杂志及网络新闻宣传内容为主的语料数据库,并在此基础上进一步建立国际传播综合人工智能语料库。该工程是提升新一代人工智能科技能力服务党的对外传播事业的重要创新型举措,是配合“十四五”创新技术举措实施的有效组成部分,更是落实习近平总书记十九大报告讲话精神的重要举措。本文拟通过讨论国际传播人工智能语料库建设的必要性与战略意义、可行性与条件,进一步探讨此类专门性国际传播人工智能语料库建设的途径和方法。
一、建设国际传播人工智能语料库的必要性与战略意义
(一)国际传播人工智能语料库建设是涉及国家安全、意识形态和话语权建设的重要阵地
近十年来,自然语言处理技术越来越成为国际竞争的新焦点。自然语言处理技术是引领未来的战略性技术,世界主要发达国家将发展自然语言处理技术作为提升国家竞争力、维护国家安全的重大战略,加紧出台规划和政策,围绕核心技术、顶尖人才、标准规范等强化部署,力图在新一轮国际科技竞争中掌握主导权。当前,我国国家安全和国际竞争形势更为复杂,必须放眼全球,把自然语言处理技术发展放在国家战略层面系统布局、主动谋划,牢牢把握自然语言处理技术发展新阶段国际竞争的战略主动权,打造竞争新优势、开拓发展新空间,坚持总体国家安全观、坚决维护国家主权、安全、发展利益,有效保障国家安全。
我国日益提高的国际话语权建设需求与翻译及多语报道人才培养不平衡不充分矛盾突出。因此,亟需建设大量收入优秀中译外精准语料的数据库,解放国际传播翻译写作人力,并在实际工作中有效提高效率的综合性服务平台,为国际传播能力建设解决技术和束缚生产力发展的瓶颈性障碍,促进我国政治话语权地位综合提升,推动中华优秀传统文化创造性转化,创新性发展。目前,国际传播专项语料库建设虽具备基础语料,但仍有大量语料资源散落,亟需整理整合。仅中国外文局外文出版社出版的《习近平谈治国理政》一书,就涉及中、英、法、俄、阿、西、葡、德、日等21个语种,是十分宝贵的语料库资源。从新中国成立之初至今保存的资料中陈旧性历史资料为数不少,有些已经处于濒状态,亟待保护性开发整理。
按照党中央、国务院部署要求,应抢抓人工智能发展重大战略机遇,构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国,为此,迅速发展人工智能将成为社会主义现代化的组成部分和重要体现。人工智能技术也有利于发展和改善创新对外宣传方式,着力打造融通中外的新概念新范畴新表述,对外解读传播好新时代中国特色社会主义思想和中国智慧、中国方案,对形成富有中国特色的国际传播话语体系、增强国际话语权具有重要现实意义、实用价值和长期效益。同时,建设国际传播人工智能语料库还将为我国国际传播能力建设和国际话语权建设提供重要的智力支持和战略研究保障。
(二)语料库建设将为国际传播领域推广机器翻译提供坚实技术支撑
我国日益提高的国际话语权建设需求与多语语料库建设不平衡不充分的矛盾日益突出,国际传播可应用的语料库精准度差、专业性不强已经严重制约对外传播工作对机器翻译等新技术的使用。以中国外文局为例,新中国成立初期至今出版的多文版领导人著作及外宣期刊,含有大量珍贵且极具参考价值的多文版语料,但大多以档案形式存储,且由于出版年代久远,纸质版资料保存难度逐年增加。因此,亟需对承载以习近平新时代中国特色社会主义思想为代表的领导人著作及此前几代领导人著作、讲话等珍贵党政文献做系统梳理,形成供国际传播参考使用的大型多语种语料信息数据库。此外,目前国内外市场的语料库建设虽小有规模,如微软、百度等,但涉及国际传播领域的语料信息大多新闻专业性不强,意识形态、立场及语汇色彩不能有效地为我所用,因此,在应用人工智能及自然语言处理技术的前提下,设计建设外译我党执政理念、经验成就等的精准智能辅助翻译综合基础性语料库,为国际传播能力建设提供基础性、支撑性技术应用已迫在眉睫。
(三)人工智能语料库应用可有效提高对外传播内容核心竞争力
语料库建设将对大量语料资源进行快速、高效的有机整合,进行语料库的深加工,实现语料库的个性化服务,改变传统对外传播工作模式。建设过程中将会充分考虑到语料多样性及语言的变化性,添加一些与对外传播相关的词汇并实时更新语料库,以激发使用者的工作自主性和积极性,或可利用自主检索手段解决翻译过程中所遇到的问题,增强其对相关语言知识的理解,帮助使用者进行语料的归纳总结,增强翻译能力。另外,语料库的建设过程中将大量参照翻译学理论及语言学理论,并在语料库中加入大量词条及翻译实例,加强翻译对于中外语言异同的理解,使其在更大范围内方便译员查阅相关资料及进行译文校对,切实提高使用者的翻译效率及翻译质量。
(一)基于外文局自身资源建设国际传播平行语料库
国际传播语料库项目将全面梳理、收录新中国成立以来各文版多语种《今日中国》(原《中国建设》)、《人民中国》等历史性语料,形成中外文对照的平行语料库,将20种语言文字出版的2000多种图书、21种印刷版期刊和25种网络版期刊做系统整理,按照政治经济、外交军事、民生文化等形成信息分类检索功能,用于进一步翻译或者机器翻译研究。
(二)联合其他同质近似外宣新闻媒体等建设国际传播比较语料库
可以通过语料信息关键内容检索,建立相关语种、相近主题新闻资源库。此阶段工作拟与其他中央国家外事、外宣单位合作,如新华社、《中国日报》、中央广播电视总台、《人民日报》(海外版)、《环球时报》英文版等,广泛收集相关语料内容,精细加工并做内容标引等,为人工智能搜集素材、写稿奠定强大的语料信息基础。
(三)集成數据库为机器翻译和智能写稿奠定基础
语料库建设面临的一大难题是历史语料的处理,历史语料库中的内容需要对陈旧语言信息做过滤,需邀请几十个语种专家,对语料库内容做重新审校处理,邀请计算机和语言学双料专家对语料进行分类及赋码处理,合成具有先进人工智能搜索等功能的先进语料库。在用户属性分析、信息个性化推送方面也将引入逻辑回归算法及协同过滤算法等,对党政机关外事部门、中央外宣媒体、科研教学机构等不同种类型用户属性做更细化的定位分析处理。未来语料库将进一步丰富智能数据库的信息资源,包括历史外语语料的数字化、各类社会公共服务数据资源的接入等,并在此基础上引入虚拟智能机器人技术,借助机器学习算法实现新闻标题、摘要、配图的制定,进而实现新闻的自动生成。语料库还将时刻关注中央机关及国家外事外宣部门主要国际传播活动最新动向,不断收集有关词、固定搭配以及句子等。为了提高翻译质量,该语料库在收录大量词、句的同时还将深入挖掘其文化内涵并将这些词汇、句子进行有机整合。
国际传播人工智能语料库工程是主动应对国际国内新形势新需求,把握人工智能发展的重大历史机遇,为维护和提升新时代我党国际形象和对外影响力而实施的一项系统化工程。语料库的建设将以掌握和提升当代最新政治理念全球发布的数量、速度和质量为总体目标,未来将主要服务于各国政党、政要、智库和其他研究机构以及我国党政外宣外事主管部门、驻外使领馆、大型“走出去”企业等。
作者:北京中外翻译咨询有限公司总经理
责编:李倩