融合词性标注与协同过滤算法的口译顺句驱动研究

2024-01-22 01:11郑俊辉
关键词:口译协同矩阵

杨 科,郑俊辉,洪 叶

(1.西南民族大学外国语言文学学院,四川 成都 610041;2.西南民族大学计算机科学与工程学院, 四川 成都 610041;3.成都文理学院外国语学院,四川 成都 610401)

目前,在教育行业已广泛地使用数据挖掘技术来解决口译专业所面临的问题.近五年来,从全国口译大会,到全国翻译技术研究与教育高峰论坛,再到一系列口译技术专栏研讨,口译领域的技术变革、口译职业所面临的技术挑战,以及口译教育中的技术创新,已成为国内外学者持续关注的焦点问题[1].目前的主要挑战包括自动翻译工具的崛起、信息爆炸和信息过载、技术和行业术语的变化、口译实时性要求、文化和语境的理解、教育革新的迫切需求等.早在90年代中期,口译实践中对ICT技术的应用开始进入研究视野.计算机辅助口译(Computer Aided Interpretation, CAI)作为基于CAT的一项计算机辅助人工口译的新思路,目前已在数字化新时代的背景下成为了口译界热门研究方向.词性标注与协同过滤推荐算法作为自然语言处理和机器学习领域的研究热点,为汉英口译质量的提高提供了新的思路和方法.

随着计算机辅助翻译(CAT)技术的不断发展,口译辅助技术在实现改进方面取得显著进展.这些改进主要集中在提高口译任务的实时性、精确性和用户体验上. 其中涵盖的关键方面包括但不限于语音识别(ASR)准确性提升、机器翻译(MT)集成如神经机器翻译(NMT)进一步优化,以及实时翻译建议和多模态翻译等领域的创新.尽管这些进步为译员提供了更为流畅及用户友好的工作体验,但仍然需要谨慎应对一些挑战,如语境的复杂性、文化差异以及特定领域的专业术语.口译人员需要具备深刻的文化理解和语境分析能力,以确保翻译的准确性和自然度.顺句驱动作为汉英口译中的一种常用技巧,可以帮助翻译员更快地理解原文,并更准确地传达所需翻译信息.然而,由于口语表达本身的实时性特点,顺句驱动技巧在实际应用中存在一些困难,如长句和复杂句的处理等.为了解决这些问题,本文提出了一种基于词性标注规则的协同过滤算法,以技术辅助顺句驱动技巧在口译中的应用.

首先,词性标注作为一种对文本中词汇进行语法属性标注的方法,可以帮助译者更准确地理解原文的语义和结构.通过对汉英两种语言的词性进行对比分析,可以发现它们在某些方面的相似性和差异性,从而为译者提供更为精确的翻译指导.此外,词性标注还可以辅助译者进行句子结构的转换,使得译文更符合目标语言的表达习惯.其次,协同过滤推荐算法作为一种广泛应用于推荐系统的技术,其主要思想是通过分析用户的行为和偏好,发现用户之间的相似性,从而为用户推荐他们可能感兴趣的内容.在汉英口译领域,我们可以将译者视为用户,将翻译任务视为推荐内容.通过构建译者之间的相似度矩阵,可以为每位译者推荐与其翻译风格相近的任务,从而提高翻译效率和质量.同时,协同过滤推荐算法还可以根据译者的历史翻译记录和评价信息,为其提供个性化的翻译建议和反馈,有助于译者不断优化自己的翻译策略.

协同过滤算法受益于大数据.协同过滤是一种推荐系统算法,其主要目标是根据用户的历史行为和其他用户的行为来预测用户可能感兴趣的项目或内容.大数据集提供了更多的用户行为数据和核心名词信息,这可以用来训练更精确的协同过滤模型.在真实系统中,用户与核心名词之间的交互数据通常是稀疏的,即大多数用户只与少数核心名词互动,大数据技术有助于处理这种稀疏性问题.同时协同过滤算法需要比较大的用户-核心名词矩阵来进行计算.使用大数据技术可以更有效地处理大规模的用户和核心名词数据,提高算法的扩展性.该策略结合了词性标注和协同过滤算法,针对口译顺句驱动中的判断选择核心名词,因此能够在一定程度上提升口译的质量和准确性.大数据技术可以用于实时处理用户行为数据,以便及时更新推荐模型,反映用户的最新兴趣和行为.本文先后介绍了口译顺句驱动技巧的基本概念和方法、词性标注和协同过滤算法的原理和应用.最后,通过实验验证了该组合方法的有效性和应用优势.本文的主要创新点如下:

1)本文采用了融合词性标注与协同过滤的独特方法研究顺句驱动,这一方法有望为口译质量的提升提供全新的途径.通过强调句子级别的推荐和词性标注有助于更精确地改善口译表现.

2)本文利用大数据的数据挖掘技术,更全面地分析口译数据,以获得深入的见解.这是大数据与协同过滤结合的关键创新点,能够为提高口译质量带来更强大的分析和洞察.

3)协同过滤算法通过分析口译员与不同口译资源(如翻译工具、培训资料、行业论文)的关系,可以通过记录口译员的使用历史和评价等信息来建立用户-资源关系模型.

口译质量的提升效能的研究是对口译质量提升的探索性研究,也为未来更深入的口译质量研究领域提供了核心名词推荐基础.

1 词性标注与顺句驱动的关联性

词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程[2].同时词性标注也是自然语言处理领域的基础[3].词性标注(Part-of-Speech Tagging,PST)主要是各类文本基于机器学习任务(如:语义分析、指代消解等)的预处理步骤,是自然语言处理中一项非常重要的基础性工作.词性标注具体方法流程见图1.基于规则的词性标注方法是较早的一种词性标注方法,其基本思想是按兼类词搭配关系同时利用上下文语境建造词类消歧规则[4].技术层面看,60%的研究依然采用传统的标注、检索和提取工具,仅40%的研究会采用一些新兴的更为先进的语料库技术与工具[5].尽管随着标注语料库的规模不断扩大可利用资源也日益增多,然而仍然存在一个挑战,即:目前仍然需要依赖人工提取规则的方法,而这一方法的效率相对较低.为此,应运而生了一种基于机器学习的规则自动提取方法.其中NLTK(Natural Language Toolkit)库是一种被广泛应用于自然语言处理任务的Python库.在本研究中,没有直接单独使用NLTK库模块对语言进行预处理,而是调取汉英双语语料后使用JIEBA库进行中文源语的分词与词性标注,并在口译顺句驱动视角下有机结合协同过滤推荐算法进行算法的设计和实现,本研究旨在利用自定义的算法和数据处理方法,以更好地适应汉英口译实操及学习领域的特定需求并进一步解决问题.因此,本研究在方法选择和实验实施上更加侧重口译顺句驱动算法的独特性和个性化优化.

图1 词性标注方法流程图

词性标注在为后续文本分析提供基本的词汇信息方面具有重要作用,如:文本分类、实体识别和语义分析等任务,从而有效提高文本处理的效率和准确性.

“顺句驱动”实为顺译,译员按照所听到的原句顺序,根据实际情况,对句子进行切分,细化为多个信息单位,基于此,通过连词把各个单位串联起来,表达出对应的语义[6].在顺句生成过程中,可以结合词性标注结果,选择合适的词汇进行填充,提高顺句生成的准确度,进而提升口译输出的整体质量.切分技巧(chunking)是同传译员的必备技巧之一,即译员将发言人冗长而复杂的句子切分为短小且意义完整的小句,而后再将这些短句连接起来,组成完整的意义.在运用切分技巧时,对源语长句的切分是同声传译的重点,因此词性标注显得尤为关键.通过词性标注,可以更准确地理解源语言句子的语法结构和意义,从而更好地进行语句切分.同时,词性标注还可以协助译员判断单词的重要性和作用,从而更好地组织翻译内容,使翻译更加流畅和自然.

综上所述,词性标注和口译顺句驱动之间有着密切的关联,词性标注是口译顺句驱动的重要组成部分,可以帮助译员更好地理解源语言句子的语法结构和意义,从而更好地进行翻译.

2 基于语料词性标注的协同过滤推荐算法

2.1 基于模型的协同过滤推荐

基于模型的协同过滤算法是一种经典的推荐系统算法,它通过建模用户和核心名词之间的关系,利用用户历史行为数据来预测用户对未知核心名词的喜好程度.下面将详细介绍该算法的原理.

1) 数据表示

在基于模型的协同过滤算法中,通常使用用户-核心名词评分矩阵来表示用户历史行为数据.这个矩阵由用户数量和核心名词数量构成,其中每一行代表一个用户,每一列代表一个核心名词,而每个元素则表示用户对核心名词的评分.这些评分可以是真实的评分值,也可以是表示用户行为的隐式反馈指标,比如观看次数、点击次数等.

2)权重获取的途径与方法

在基于模型的协同过滤推荐算法中,关于权重获取的途径与方法,可以采用基于TF-IDF算法的方式.TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)是一种用于信息检索和文本挖掘的常用算法,通过计算文本中词项的权重,可以应用于口译专业领域的个性化推荐.本研究使用基于TF-IDF算法进行口译领域的个性化推荐.具体而言,首先对口译文本进行分词,使用分词工具并去除停用词等无用信息.然后,计算每个单词在所有口译文本中的词频以及其出现的文档数,进而得到逆文档频率.通过计算单词的TF-IDF值,即词频与逆文档频率的乘积,可以获得每个单词的权重.在这个过程中,对于核心名词,可以计算其所在句子中所有单词的TF-IDF值之和,作为核心名词的权重.这种基于TF-IDF的权重计算方法能够有效捕捉到核心名词在整个口译文本中的重要性,从而在协同过滤推荐中更准确地反映用户的喜好和关注点.

3) 模型训练

在训练阶段,算法通过分析用户历史行为数据来构建一个模型.一种常见的模型训练方法是对矩阵进行分解,它可以将用户-核心名词评分矩阵分解为三个矩阵的乘积,分别代表用户的特征矩阵、核心名词的特征矩阵以及评分的权重矩阵.矩阵分解是将这个评分矩阵分解为若干个低秩矩阵的乘积,通过这个过程可以提取出用户和核心名词的隐含特征,捕捉到用户与核心名词之间的关系.常见的矩阵分解方法有奇异值分解(Singular Value Decomposition,SVD)和交替最小二乘法(Alternating Least Squares,ALS).

SVD是一种经典的矩阵分解方法,它将评分矩阵分解为如下形式:

其中,D评分矩阵,U是一个用户特征矩阵,每一行代表一个用户的特征向量;S是一个对角矩阵,包含评分矩阵的奇异值;V是一个核心名词特征矩阵,每一列代表一个核心名词的特征向量.

这种分解可以提取出用户和核心名词的隐含特征,从而捕捉到用户与核心名词之间的关系.在SVD分解中,通过计算矩阵的奇异值分解来得到特征矩阵.通常使用奇异值分解中的k个最大奇异值和相关特征向量来保留主要信息,这样可以减少计算量并提高模型的泛化能力.

另一种常见的模型训练方法是交替最小二乘法(Alternating Least Squares,ALS),它通过迭代优化用户和核心名词的特征向量来逼近用户-核心名词评分矩阵.ALS是另一种常用的矩阵分解方法,它通过迭代优化用户和核心名词的特征向量来逼近评分矩阵.具体原理如下:

其中R表示用户对核心名词的评分矩阵,X表示用户对隐含特征的偏好矩阵,Y表示商品所包含隐含特征的矩阵.

ALS的核心就是这样一个假设:打分矩阵是近似低秩的.换句话说,就是一个打分矩阵R可以由分解的两个小矩阵X和Y的乘积来近似.这就是ALS的矩阵分解方法.为了让X和Y相乘能逼近R,因此需要最小化损失函数(loss function),因此需要最小化损失函数,在此定义为平方误差和(Mean square error,MSE).

一般损失函数都会需要加入正则化项(Regularization item)来避免过拟合的问题,通常是用2,所以目标函数会被修改为:

在每轮迭代中,ALS算法会固定用户矩阵或核心名词矩阵,然后利用最小二乘法来更新另一部分矩阵.通过交替优化用户和核心名词矩阵,最终得到能够较好拟合评分矩阵的模型.ALS算法会交替更新用户和核心名词的特征向量,并通过最小化均方差损失函数来优化模型.模型训练的目标是寻找到一个能够最好地拟合用户历史行为数据的模型,从而可以用来预测用户对未知核心名词的喜好.

4)预测阶段:

在预测阶段,算法利用训练阶段得到的模型来预测用户对未知核心名词的评分.具体形式如下:

常用的相似度度量方法包括余弦相似度和皮尔逊相关系数.

皮尔逊相关系数:

其中,u和v分别是评分向量,和表示各个向量对应的分量,和表示每个向量对应的均值.

余弦相似度衡量了用户和核心名词之间的夹角,值越接近1表示相似度越高;而皮尔逊相关系数则衡量了用户和核心名词之间的线性相关性,值越接近1表示相关性越高.

根据相似度权重和用户的历史评分,算法可以计算出对未知核心名词的预测评分.预测评分可以用来度量用户对该核心名词的喜好程度,从而为用户推荐最相关的核心名词.

5)推荐排序:

最后一步是根据预测评分对用户可能感兴趣的核心名词进行排序,并向用户推荐与之相关的前几个核心名词.推荐排序可以根据预测评分的大小来进行,通常越大表示用户越可能对该核心名词感兴趣.

需要注意的是,在实际应用中,基于模型的协同过滤算法还需要解决稀疏数据和冷启动问题.稀疏数据是指用户-核心名词评分矩阵中大部分元素为空,这可能导致无法准确地预测用户的偏好.冷启动问题是指对于新加入系统的用户或核心名词,由于缺乏历史数据,很难进行准确地推荐.解决这些问题是基于模型的协同过滤算法的研究重点之一.

推荐排序可以根据预测评分的大小来进行.通常,预测评分越大表示用户越可能对该核心名词感兴趣,因此可以将预测评分作为排序依据进行推荐.

基于模型的协同过滤算法通过建模用户和核心名词之间的关系,利用用户历史行为数据来预测用户对未知核心名词的喜好.它通过训练阶段构建模型,在预测阶段根据相似度计算和用户历史评分进行预测,并根据预测评分进行推荐排序.该算法在推荐系统中得到了广泛应用,为用户提供个性化的推荐服务.

基于模型的协同过滤推荐算法中,计算核心名词权重采用基于TF-IDF算法的方法.具体而言,可以通过以下步骤计算核心名词权重:

①对口译文本进行分词:使用分词工具对口译文本进行分词,并去除停用词等无用信息.

②计算词频与逆文档频率:对于每个单词,计算其在所有口译文本中的词频以及其所出现的文档数.逆文档频率指的是单词在所有口译文本中出现的文档次数的倒数.词频与逆文档频率的乘积就是该单词的TF-IDF值.

③ 计算核心名词权重:对于每个核心名词,计算其所在句子中所有单词的TF-IDF值之和.

计算完核心名词权重之后,可以使用该权重作为推荐系统的输入特征之一,以此来为用户推荐相关口译文本.具体而言,在协同过滤推荐算法中,核心名词权重可以与用户历史数据一起使用,用于训练用户口译习惯模型和预测用户的口译偏好.

2.2 核心名词协同过滤的算例分析

现有研究已经明示,不同的词汇在句法构建和句意整合中的作用会受到其在句法结构中的地位以及其词汇特性的影响,其中句中核心名词的作用尤为显著[7].译员在口译的过程中无论是交替传译还是同声传译,实际的听译过程都需要迅速判断总领全句、划分意群的关键名词或名词短语.核心名词作为建构源语句子的重要单元,在源语意义领会及译语输出方面起着重要作用.

以下为CATTI英语口译语料库中的汉英同传语料案例:

在银行系统内,大型国有银行的贷款份额也由远超60%下降到不足40%,但是容量较小、受地方政府政策影响较大的小型地方银行则增加了市场份额.几周前,本人出席了在大溪地召开的太平洋国家卫生部长会议,目睹了气候变化对当地人民造成的影响.一个十几岁的少年法鲁乌对气候变化的了解令人赞叹.他告诉我,他和他的朋友们一直在讨论如果图瓦卢被海水淹没了他们该怎么办.他朋友中许多人决定与图瓦卢共存亡,听后深受触动,这些孩子本该欢度童年,然而他们却在思考是要离开家园还是与自己的家园一同走向灭亡.

基于以上示例,需要安装jieba、snownlp库,并将文本文件命名为′corpus.txt′.

运行下列伪代码,将输入文本中每个词语的词性标注结果:

运行以上代码,可以得到以下词性标注结果:

[(’在’,’p’),(’银行’,’n’),(’系统’,’n’),(’内’,’f’),(’,’,’x’),(’大型’,’a’),(’国有’,’a’),(’银行’,’n’),(’的’,’uj’),(’贷款’,’n’),(’份额’,’n’),(’也’,’d’),(’由’,’p’),(’远超’,’v’),(’60’,’x’),(’%’,’x’),(’下降’,’v’),(’到’,’v’),(’不足’,’v’),(’40’,’x’),(’%’,’x’),(’,’,’x’),(’而’,’c’),(’容量’,’n’),(’较小’,’a’),(’、’,’x’),(’受’,’v’),(’地方政府’,’n’),(’影响’,’vn’),(’较大’,’a’),(’的’,’uj’),(’小型’,’a’),(’地方’,’n’),(’银行’,’n’),(’则’,’d’),(’增加’,’v’),(’了’,’ul’),(’市场’,’n’),(’份额’,’n’),(’.’,’x’)]

…………

其中,词性标注的含义可以参考下表1.

表1 词性标注含义

根据词性标注结果,筛选确定核心名词.收集语料中核心名词的权重,将不同的核心名词进行分组:

①意群1核心词:金融、信贷、政府、债务.

②意群2核心词:银行、贷款、政府、信贷、金融.

③意群3核心词:卫生、气候、淹没、灭亡.

然后基于不同的核心名词,计算不同语料核心名词的权重.

加权操作:根据不同核心名词的权重对它们进行加权,得到核心名词的总体权重[9].相较于隐式核心名词,显式核心名词的权值更大,但密度也大,因此所显核心名词占比相对较小.在收集各类不同的语料核心名词数据后,数据需要进入预处理流程,主要为减噪和归一化.

2.3 基于语料库词性标注的协同过滤推荐

为了验证基于顺句驱动的协同过滤推荐算法是否在口译质量提升方面具有明显优势,首先在语料库中进行了初步的词性标注.NLTK库可以方便地实现对英文的词性标注.深入了解词性标注理解和处理文本数据至关重要,并且可以为研究和应用提供有用的信息.本文对深入研究词性标注可以提供更多的背景和洞察力,特别是在文本处理和语言理解方面.尽管已经有成熟的工具库可以进行词性标注,但深入研究这一知识点仍然具有价值.这有助于研究者更好地理解文本数据处理的基本概念,并在需要时更好地运用这些知识.基于语料库词性标注的协同过滤推荐算法基本原理为:根据语料库对核心名词的权重,发现与核心名词和权重相似名词.并基于核心名词的权重历史信息,计算出当前核心名词的权重,如图2所示.

图2 基于语料库协同过滤推荐算法的核心名词图谱

3 实验数值评测

3.1 实验环境及相关数据

1)实验环境配置

实验采用PyTorch1.4.0深度学习框架,编程环境Python3.7.9;实验运行环境为Ubuntu16.04系统;CPU为Intel Core i7-6700k CPU,内存为32GB;GPU为TITAN V,显存为12GB;CUDA版本为10.2.

2) 实验数据

实验所用的数据基于CATTI汉英语料中提取的一段较为典型的汉英语句,从中提取核心名词:金融;信贷;政府;卫生;淹没;灭亡,债务;气候;银行.

3) 实验步骤

①对句子进行词性标注

使用NLTK工具对汉英语句进行词性标注,将标注结果用于后续的协同过滤推荐算法中.

②构建相似矩阵

使用余弦相似度计算不同核心名词之间的相似度,得到一个相似矩阵.相似矩阵中每个元素表示两个核心名词之间的相似度,可被用于后续的协同过滤推荐算法中.

③使用协同过滤推荐算法进行预测

使用基于相似矩阵和偏好矩阵的协同过滤推荐算法,对下一个可能出现的词进行预测.在预测时,考虑以下两种情况:

A:仅使用相似矩阵进行预测:在这种情况下,只使用相似矩阵来预测下一个可能出现的词,不考虑词性信息.

B:结合词性标注的协同过滤推荐算法:在这种情况下,除了使用相似矩阵,还结合了词性标注信息,以提高模型的准确性.

3.2 预测模型

计算形成如下较具代表性的核心名词词类的权重预测模型,见表2.

表2 核心名词的权重表

该表格代表了一个汉英口译顺句驱动应用中的核心名词权重预测模型.每一行对应一个核心名词,而每一列代表不同的主题,包括金融、信贷、政府、卫生、淹没和灭亡.表格中的数值表示了每个核心名词在各个主题下的权重值,这些权重值是通过预测模型计算得出的.相似度列则展示了每个核心名词与其他核心名词之间的语义相似度,数值在0到1之间进行了归一化处理.这些相似度权值提供了关于核心名词之间关联程度的信息,以便更准确地反映它们在语义上的相似性.

在口译应用中,这样的预测模型可以用于确定在特定主题下每个核心名词的重要性,从而帮助系统更好地理解口译文本的主旨.例如,在金融主题下,“银行”可能被赋予更高的权重,而在卫生主题下,“气候”可能更为关键.这个模型的应用有助于提高口译系统的智能水平,使其能够根据文本内容进行有针对性的分析和推荐,从而更好地服务于用户的需求.

3.3 推荐结果分析

矩阵相乘前需要先将缺失值补充为所有权值的平均值,否则相乘后的推荐矩阵会倾向于权重大的核心名词,如果不想对权值进行补充,可以单独计算不使用矩阵相乘的方法[8].

根据上面的相似度表查询出相似核心名词,结合不同语料进行推荐.词类标注自动化不是一项任务,需要大量的技能、知识和精力来标注数据,在标注数据时会遇到管理大型团队、确保数据质量、符合数据安全标准的问题,使标注任务花费更多时间而效率低下.协同过滤算法的原理简单,算法易于分布式实现,可以处理海量数据集,可以通过增加计算节点很容易处理大规模数据集.利用群体行为来做决策,使用中已经被证明可以很好地推荐多样性、新颖性的核心关键词[8-9].

4 实验结果分析

4.1 实验的几种评测指标

可以通过准确率、召回率、覆盖率来评测推荐算法的精度[11-12].

1)召回率Recall

召回率(Recall)是分类模型评估中的一个重要指标,它衡量了模型正确预测正例(True Positive,TP)的能力,即模型能够找出真正正例的比例.召回率的计算公式如下:

其中,TP表示模型正确预测为正例的数量,FN表示实际为正例但被模型错误预测为负例(False Negative,FN)的数量.根据上述公式,召回率的取值范围为[0,1],值越高表示模型正确预测正例的能力越强.

2) 准确度(Accuracy)

准确度(Accuracy)是分类任务中常用的一个指标,它反映了在测试集中预测正确的类别的比例.准确度的计算公式如下:

其中,真正类(True Positive,TP)是指模型正确预测为正类的样本数,真负类(True Negative,TN)是指模型正确预测为负类的样本数,假正类(False Positive,FP)是指模型错误预测为正类的样本数,假负类(False Negative,FN)是指模型错误预测为负类的样本数.

3) 覆盖率(Coverage)

覆盖率(Coverage)是指一定的空间中面积占比或者长度占比.它可以计算某种数据所占整体数据的一种重要参数.典型的计算公式如下:

其中,A为被覆盖数据的特定情形,B为数据的原始信息.实际的计算公式是指采用实际测量的方式来计算覆盖率,比如采用一定的比率来测量,如将尺寸等分,求出比例等.

本模型采用定性的方法,通过语料库、顺句驱动和词性标注验证假设,旨在阐释顺句驱动和词性标注对口译技能互动机制的重要性机理、从而预测顺句驱动能力在口译学习效果上的准确性,为丰富口译理论提供支撑,使得口译过程的重点更加突出,层次更加清晰,内容安排更科学[13].同时明确以顺句驱动为核心的口译技能的各项能力维度在重要性上的差异以及这些子技能在实践中提高的难易程度差别,从而完善口译技能体系构建研究[14].基于顺句驱动的词性标注实验结果见表3.

表3 HMM隐马尔科夫词性标注与基于顺句驱动的词性标注对比表

本文实验采取了基于统计方法与规则方法相结合的词性标注方法.通过对比词性赋值算法下的直接词性标注,可以看出基于顺句驱动的词性标注优势更为突出.

4.2 基于顺句词性标注的协同过滤推荐算法实验结果

如表4所示,基于顺句词性标注的协同过滤推荐算法与较为流行N-gram算法通过准确率、召回率和覆盖率的对比实验结果,可以看出基于顺句的协同过滤推荐算法优势更为突出,丰富了人工智能时代的口译技术发展与口译职业及口译教育变革的时代热点议题.口译员可以根据核心名词权重进行筛选和优化,选择更加重要、更有意义的词语进行优先加工,从而提升口译的质量和效率,口译核心意群更为突出.基于此实验结果,后续研究可考虑扩大实验规模,选取更多口译内容,分别使用传统的顺句驱动技巧和基于词性标注规则的顺句驱动技巧进行口译.然后将口译结果输入到基于内容的协同过滤算法中,通过分析口译内容的相似度来推荐相似的口译内容.最后将推荐的口译内容与原始口译内容进行比较和分析,以评估词性标注与协同过滤算法结合的方法对口译质量的实际影响.

表4 N-gram算法与基于顺句词性标注的协同过滤推荐算法对比表

5 结语

人工智能等技术已引发了口译行业广泛的变革和深刻的发展.本研究采用一种相对客观的研究方法,以顺句驱动为切入点,采取跨学科思维和方法,将翻译学与算法相融合,并通过数字形式进行研究分析和验证.自然语言处理旨在用更加智能的方式替代人工,从而能够对大规模宽领域的自然语言信息进行处理[15].因此,基于词性标注规则的协同过滤算法能够更快速、更准确地定位顺句驱动技巧在同传过程中的应用.本研究以口译为研究视角,特别是同声传译中的重要原则——顺句驱动,分析发现顺句驱动在口译的实际应用中,将词性标注与协同过滤推荐算法结合会具有更为突出的优势.基于这一结论,可以通过多维度、多途径对互动内容、空间、进程等进行深入探讨,从而提升口译的准确性,对口译质量的优化设计具有显著作用.本研究初步验证了该方法在不同语言和不同领域的口译中的应用,突显了口译顺句驱动中词性标注结合协同过滤推荐算法的关键意义.未来,可以进一步优化和改进本文提出的方法,如采用更先进的词性标注技术和更复杂的协同过滤算法.此外,本研究所选的方法也可以为口译者能力评估、口译学习者考试分数测量、现场表现评估等实际效果的深入研究提供有力的基础.

猜你喜欢
口译协同矩阵
蜀道难:车与路的协同进化
“四化”协同才有出路
中外口译研究对比分析
三医联动 协同创新
初等行变换与初等列变换并用求逆矩阵
EAP视听说对英语口译关联迁移的增效性——以交替传译为例
矩阵
矩阵
矩阵
论心理认知与口译记忆