术语知识库信息资源建设的多模态发展

2024-05-13 16:08曾朵
信息系统工程 2024年4期
关键词:多模态短视频

曾朵

摘要:语言基础设施是数字时代新媒体和网络支撑下的信息、知识传播与承载的集成体,是语言数据、工具、技术整合和信息化建设的标志,术语知识库即为语言基础设施的典型代表。结合当前社会表达“视频化”的数字时代现状,提出术语知识库作为特定领域术语、概念、知识的系统化、可视化呈现,其未来将向多模态信息资源建设发展,如使用短视频的呈现形式,即利用语言、视觉、听觉、姿势、空间等多模态符号资源再现术语概念相关知识。术语知识库的短视频多模态信息资源将为特定行业领域如翻译的科研、教学和实践提供重要支持。

关键词:术语知识库;语言基础设施;多模态;短视频;翻译技术

一、前言

2021年《国务院办公厅关于全面加强新时代语言文字工作的意见》发布,指出我国语言文字信息技术创新不适应信息化和人工智能发展需求,要求推进语言文字融媒体应用,加强语言文字信息化平台建设,提供优质学习资源和信息服务资源。语言基础设施是数字时代信息、知识传播与承载的集成体,是语言数据、工具、技术整合和信息化建设的标志,术语知识库即为语言基础设施的典型代表。作为信息服务资源的构成,术语知识库的建设与发展有助于我国新时代语言文字工作。

术语知识库是特定领域概念知识的结构化表达,通过可视化呈现术语语义的逻辑关系,实现了术语管理、翻译技术与知识本体的有机结合[1]。当前,术语知识库作为数字化、多模态传播媒介呈现出多语言发展与多模态实现趋势[2]。受欧盟“多语主义”理念影响,多语术语知识库建设符合“多语主义”语言政策,进一步为不同国家跨文化交流奠定基础。信息知识资源的多模态传播符合数字时代用户的数字认知要求,以EcoLexicon为代表的部分术语库已实现多模态构建,在用户界面实现融合语言模态和视觉模态的多模态表征,即为相关概念提供对应图片等可视化数据,帮助用户理解概念内涵、术语间关系等。

短视频作为多模态产品,是新媒体时代炙手可热的网络视听媒介,已成为社会表达“视频化”的主要表征,不仅在用户规模、经济效益等方面取得显著成绩,而且具备社会影响力,能够影响人们的思维方式[3],可以预见术语知识库的短视频多模态呈现趋势,本研究关注术语知识库的短视频多模态信息资源建设。

二、術语库及术语知识库概述

术语库是专业领域术语资源的集成。根据国家标准化管理委员会2019年发布的《建立术语数据库的一般原则与方法》(GB/T 13725-2019),术语是专业领域中一般概念的词语指称,术语数据库是储存术语信息的数据库。术语库类型多样,术语条目是术语库的基本单位,指术语信息集合中包含的一个概念相关的术语数据。术语库的建库程序包括基于语料库的术语提取、术语标准化和术语管理。其中,术语管理指任何对术语信息的深思熟虑加工,术语管理系统专为译员、术语专家和其他用户设计,用于收集、维护、获取术语数据。术语库管理有助于系统性收集、描述、处理及传播概念及其指称。

术语知识库是知识本体在语言服务领域的适应性变体[4],是术语库的发展与超越,是术语管理迈向知识管理的标志。术语知识库的概念最早于1992 年由加拿大渥太华大学信息技术与工程学院的英格丽·迈尔(Ingrid Meyer)提出,其以英法双语术语知识库COGNITERM为建设雏形,讨论了术语知识库的基本结构与功能[5]。此后,伴随着数字技术、大数据与人工智能等互联网技术的不断发展更新,术语知识库依靠术语学、语言学、计算机科学、知识工程学等相关学科领域的理论、方法,在理论基础、资源建设、数据管理、实际应用等方面已取得一定成果。当前已有许多国际组织、政府机构、国际企业、高校等建立了大型术语库、术语知识库,如联合国(UN Term:The United Nations Terminology Database)、世界贸易组织(WTOTERM)、欧盟(The EU Term Bank)、微软公司(Language Portal)、法国标准化协会(NORMATERM)、西班牙格拉纳达大学(EcoLexicon)、欧洲(CLARIN)、加拿大政府(Termium)等。

三、术语知识库建设的理论基础

多语言、多模态术语知识库是翻译技术知识体系化演进的最新成果,体现了多领域交叉渗透的集成优势,如术语学理论、知识本体理论、计算机科学等相关理论为术语知识库建设提供了理论基础。

术语学理论中,定名、术语标准化、术语管理等与术语知识库建设密切相关。例如,术语定名时应遵循的重要原则之一是单义性,即一个术语只表达一个概念,同一概念只用一个术语来表达,应尽量避免同义术语、同音术语和多义术语的出现,否则可能造成系统结构上的混乱。标准化指在具体或抽象的事物完成其功能的过程中,用人为的方法消除不必要的个别属性,使这些事物符合某种标准,从而保证事物能够相互交换而不受生产时间和地点限制的一种全社会活动,早期的标准化工作只限于产品的标准化,后来标准化的对象慢慢扩大到语言资源等更多领域[6]。术语管理也是术语知识库建设的重要组成,主要涉及术语的提取、编辑、储存与检索。

知识本体的创建即术语知识库建库的关键。知识本体与哲学、现代术语学、计算机科学关系密切。在需要进行领域客体分析时,首先需要找出这些客体之间的关系,建立这些客体的集合。这个集合是对领域中各个客体所代表概念的明确、形式化、可共享的描述,形成了该领域的知识本体。《牛津英语词典》对于知识本体的定义相当宽泛,表述为“研究存在的科学或学问”,正是哲学领域中对知识本体主要关注的范围。美国计算机专家尼彻斯曾提出一种构建智能系统方法的新思想,认为智能系统由知识本体和问题解决方法两部分组成,前者涉及特定知识领域共有的知识和知识结构,是静态的知识;后者涉及在相应知识领域进行推理的知识,是动态的知识,至此,知识本体成为计算机科学领域智能系统的重要研究内容。在传统术语学中,很多人把客体仅仅理解为客观的事物,但从知识本体的角度看,术语不仅仅是名词或名词短语,也可以是动词、数词、形容词、副词等,因此传统术语学是基于概念的,而现代术语学是基于知识本体的术语学[6]。

四、数字化短视频传播环境

信息时代,数字文化影响着当代社会生活。十九世纪以来,世界由印刷文化走向二十世纪的电子文化,再到二十一世纪的数字文化[7]。当代社会生活中数字技术的广泛使用反映数字文化的存在,“数字化可视为文化的标志之一,因其既包括人工制品,同时也包括符号和交流系统,是区分当代生活方式与其他方式的最佳标准”[8]。

数字文化背景下,新媒体已全面渗透社会生活。报纸、杂志、广播、电视等传统媒体尽管有着可信度高、受众群体固定等特征,但同时也面临着信息获取成本高、交互性不足、传播模式单一等问题。根据联合国教科文组织的定义,新媒体即网络媒体,可理解为以数字技术为基础,以网络为载体的信息传播媒介[9]。

短视频作为新媒体时代炙手可热的网络视听媒介,已成为社会表达“视频化”的主要表征,不仅在用户规模、经济效益等方面取得显著成绩,而且具备社会影响力,能够影响人们的思维方式[3]。2023中国网络视听发展研究报告数据显示,短视频在我国2022年网络视听行业市场规模中以40.3%(2928.3亿)的高占比位居榜首;用户数量上,根据中国互联网络信息中心(CNNIC)发布第51次《中国互联网络发展状况统计报告》,截至2022 年12 月,我国短视频用户规模达10.12 亿,较2021 年12 月增长7770 万,占网民整体的94.8%。

短视频社交软件在海外市场发展态势迅猛,海外已有社交媒体平台进一步开拓短视频市场。以Tiktok(海外版抖音短视频App)为例,其自2017年成立以来用户规模快速增长,在7年的时间里吸引了15.3亿用户,用户平均每天使用时长为 52 分钟,且日活跃用户量达10.5亿,Tiktok已成为当今最具吸引力的社交媒体应用软件。有学者指出,通过社交媒体在网络上进行的视频活动以及 YouTube 或 Bilibili 等平台上用户生成内容的激增,将继续塑造和渗透我们的交流方式[10]。

五、数字时代术语知识库的多模态信息资源建设

随着互联网、大数据、云计算、人工智能、区块链等新一代信息技术的不断发展,数字技术已全面渗透人类社会各领域,给人类社会带来了广泛而深刻的影响。这些影响不仅改变了人们的工作方式和生活方式,也改变了社会经济的发展模式和人们的思维方式。根据中国互联网络信息中心(CNNIC)发布的第52次《中国互联网络发展状况统计报告》,截至2023年6月,我国网民规模达10.79亿,互联网普及率达76.4%;39岁以下互联网网民群体占比达52.5%。可以发现,年青一代已然是数字土著,对比作为数字移民的父母长辈,数字土著对于数字技术的适应性较高,且生活极大依赖于数字技术和在线应用。

数字技术之于术语知识库至关重要。术语知识库的建库流程通常包括语料收集、数据处理、双语术语提取与管理、关系抽取、数据存储、知识体系化可视化呈现,均需要大量技术支持。以知识组织理论为术语知识库建库宏观理论指导,建库流程可分为知识获取、知识表示与知识运用;依据术语学理论完成数据的原始积累与处理;进而按照知识本体视角进行专业领域知识本体的系统化、可视化构建,要求借助技术帮助实现从理论到实际操作。

对比传统术语库、术语知识库的单语言、单模态主要呈现方式,当前术语知识库已呈现出多语言、多模态发展趋势。如西班牙格拉纳达大学 LexiCon 研究小组研发的环境领域术语知识库EcoLexicon等部分术语知识库已实现多模态构建,在用户界面实现融合语言模态和视觉模态的多模态表征。以术语词条“abiotic(非生物的)”为例,检索后界面将出现一幅以输入词条为中心,四周呈发散状的知识图谱,各发散节点为与中心术语词条相关的概念以及对应其他语种的术语;定义模块即展示该术语词条的定义,即“非生物来源的,用于描述生态系统的非生命元素(即太阳辐射、温度、湿度和 pH 值)”,并对其中涉及的关联术语以下划线标示,点击相关术语即可跳转到对应术语词条;资源模块提供每个概念/术语相关的资源,包括图像、文档URL、视听材料等,点击资源模块下的选项即可获取相关信息,以多模态方式描述术语概念,帮助使用者获取相关知识。

不同代际的人对于信息的获取、权威信息的来源渠道有着不同的认知。根据艾瑞網《2016年中国短视频行业发展研究报告》,人们通过短视频来满足表达和沟通、人际交往、信息获取、娱乐消遣以及碎片化阅读的需求。作为移动新媒介的短视频融合了文字、图像、声音、色彩等多模态信息,具有反映、塑造甚至影响现实的能力。

本研究提出数字时代术语知识库信息资源建设多模态发展的未来发展方向,以短视频方式整合相关术语知识。当前,EcoLexicon等部分术语知识库已支持以超链接形式关联维基百科等相关网页,网页内容根据其设计包含文字、图片、表格、数据、视频等多模态信息,但网页非直接为服务术语知识库设计,部分内容与术语关联不大,仍需要用户主动寻找相关信息,本研究即提出以短视频方式整合相关术语知识,利用语言、视觉、听觉、姿势、空间等多模态符号资源再现术语概念相关知识,进一步加强术语知识库的多模态信息资源建设。

六、短视频多模态发展的术语知识库应用

术语知识库是特定领域术语、概念、知识的系统化、可视化呈现,其中文字、表格、图片、短视频等多模态信息资源有助于使用者理解、掌握相关概念内涵。除供大众查阅外,术语知识库的短视频多模态信息资源建设为特定行业领域如翻译的科研、教学和实践提供了重要的支持。

1. 术语知识库的短视频多模态信息资源为科研提供了语言资源和工具,且有助于使用者高效理解相关术语概念。对于特定领域的科研人员而言,一方面多语言术语知识库将为特定学科领域,如翻译研究提供数据资源,另一方面术语知识库将有助于科研人员掌握其所在学科领域的发展脉络,追踪学科发展前沿,提高研究效率和准确性。

2. 教学方面,教师可以利用术语知识库短视频多模态资源,为学生提供丰富的学习材料和工具。学生通过使用特定领域的术语知识库辅助其学习,可以实现对相关术语、知识的快速检索,并利用术语知识库提供的多模态信息资源辅助其理解。

3. 术语知识库短视频多模态资源为行业实践提供便利和支持。如对外翻译实践中,译者可利用特定领域术语知识库进行译前准备,理解并掌握行业术语,积累专业领域知识。多语言、多模态术语知识库也支持公共服务和政府机构的多语言沟通和服务,提高社会的公平和包容性。

七、结语

随着全球化的不断加速以及信息技术的迅猛发展,语言交流与跨文化交流已变得愈发频繁与密切。语言基础设施的建设对于社会发展具有重要意义,有助于促进跨文化交流和理解,推动经济发展和国际合作,支持教育和知识传播,保护和传承语言文化,提高社会公平和包容性。术语知识库作为语言基础设施的典型代表,呈现出多语言发展与多模态实现趋势。同时,考虑到短视频作为社会表达“视频化”的主要表征,本研究提出术语知识库多模态信息资源建设的短视频发展趋势。术语知识库的短视频多模态信息资源建设也为特定行业领域如翻译的科研、教学和实践提供了重要支持。

参考文献

[1]苗菊,牛军.政治话语双语术语知识库的谱系法构建——以“一带一路”倡议相关术语体系为例[J].中国翻译,2020,41(02):99-106.

[2]苗菊,吴聪聪.数字认知与传播中的多语言多模态术语知识库——社会应用与价值实现[J].中国科技术语,2023,25(04):12-20.

[3]王晓红.短视频助力深度融合的关键机制——以融合出版为视角[J].现代出版,2020(01):54-58.

[4]宁海霖.基于多模态术语知识库的译者知识获取[J].中国科技术语,2022,24(03):34-40.

[5]Meyer, I. Skuce, D., Bowker, L. Towards a new generation of terminological resources: An experiment in building a terminological knowledge base[A]. Proceedings of the 16th International Conference on Computational Linguistics[C]. Nantes, 1992: 957.

[6]馮志伟.现代术语学引论[M].北京:商务印书馆,2011.

[7]Deuze, M. Participation, Remediation, Bricolage: Considering Principal Components of a Digital Culture[J]. The Information Society, 2006, (2): 63-75.

[8]Gere, C. Digital Culture[M]. London: Reaktion Books, 2002.

[9]陶丹,张浩达.新媒介与网络广告[M].北京:科学出版社,2001.

[10]Bogucki, ?. & Díaz-Cintas, J. An Excursus on audiovisual translation[A]. In Bogucki, ?. & Deckert, M. (eds.). The Palgrave handbook of audiovisual translation and media accessibility[C].Cham: Palgrave Macmillan, 2020.

基金项目:2015年度国家社科基金重大项目“双语术语知识库建设与应用研究”(项目编号:15ZDB102)研究成果

责任编辑:张津平

猜你喜欢
多模态短视频
“去阅读”时代短视频自媒体发展现状及其文化解读
符号学视角分析恶搞短视频
移动社交时代短视频的传播及营销模式探析
多模态话语中的詹姆斯·卡梅隆电影
网络环境下大学英语多模态交互式阅读教学模式研究
多模态理论视角下大学英语课堂的构建
新媒体环境下多模态商务英语课堂教师角色定位
用户自制短视频的受众研究
后现代视域下新媒体短视频的美学特征