郭蕾
关键词: 自然语言处理; 英语翻译; 智能评分系统; 资料库; 特征提取; BP网络
中图分类号: TN912.34?34; G633 文献标识码: A 文章编号: 1004?373X(2019)04?0158?03
Design of intelligent computer scoring system based on natural language
processing for English translation
GUO Lei
(Yangtze University, Jingzhou 434023, China)
Abstract: Since the current scoring system has the disadvantages of long running time, and large deviation between scoring results and manual scoring results, an intelligent computer scoring system based on natural language processing is designed for English translation, so as to reduce the workload of manual scoring and improve the scoring efficiency. The structure layers of the English translation scoring system is constructed, including the translation data collection module, information feature extraction module, analysis model construction module and result feedback scoring module. The language model of the English translation scoring system is established. The probability distribution for the specific sentence or word sequence of the translation is summarized by using the model. The information features of users′ English translation documents and translation training sets are extracted. The similarities between feature keywords are calculated according to the extracted feature results. The fitting calculation is conducted by using the particle swarm optimized BP network, so as to realize intelligent scoring for English translation. The experimental results show that the minimum difference between the score of the designed intelligent scoring system and the manual score is only 0.1, and in comparison with the existing scoring system, the designed intelligent scoring system has a much higher score accuracy, less running time of scoring, and more stable operation.
Keywords: natural language processing; English translation; intelligent scoring system; database; feature extraction; BP network
隨着国际经济形势的发展与国际贸易的拓展,英语这一国际通用语言的学习也受到了越来越多的重视[1?2]。英语学习中,翻译练习是必不可少的部分,英语翻译的评分已逐步从全人工评分,逐渐转入半人工参与机器评分和计算机智能评分[3]。英语翻译计算机智能评分系统设计是当前智能评测方面的重点研究课题,受到了很多专家与学者的重视[4?5]。
文献[6]中采用基于隐马尔科夫模型的英语译文评分系统,结合马尔科夫模型与维特比对比系统输入译文与参照译文间的相近词,并对相近词进行匹配,计算二者之间的近似度,进而对比译文语句之间的相似度,根据对比结果,实现译文评分。该系统评分结果的准确度较高,但计算量较大,耗时较长。文献[7]设计的基于语料库的英语翻译评分系统,通过对语料库材料结构的词语搭配分析,获得词语配准比,对比输入译文的词语搭配与结构,对译文进行评分。该系统的评分结果误差较大,且词语配比分析过程复杂。
針对现有评分系统中存在的问题,设计一种基于自然语言处理的英语翻译计算机智能评分系统。通过仿真实验,将该系统与当前评分系统及人工评分方式进行比较,验证了所设计评分系统具有较高的运行稳定性与准确性,整体性能优于当前评分系统。
1.1 英语翻译评分系统结构层次构建
所设计的英语翻译计算机智能评分系统模块主要有:译文资料收录模块、信息特征提取模块、分析模型构建模块和结果反馈评分模块。各模块的层次关系见图1。
在系统初始阶段,通过译文资料收录模块录入学生的英语译文,经由收录模块处理,生成标准化格式的资料库文件。信息特征提取模块主要用于资料库文件的内容细分,利用模块软件算法实现文件特征提取。分析模型构建模块主要是根据信息特征提取模块得到的特征提取结果,构建分数评定模型并生成对应的模型文件。在此基础上,通过结果反馈评价模块完成译文评分与评语反馈[8]。
1.2 基于自然语言处理的英语翻译评分系统
自然语言处理系统是用于人与计算机间有效通信的计算机智能系统。该系统可作为英语翻译评分系统的辅助部分来实现信息交互。综合分析评分系统的各层次模块,得到基于自然语言处理的英语翻译系统的整体构架如图2所示。用户通过用户端上传译文,经过计算机的自然语言智能处理与信息交互后,输入到系统的英语翻译评分模型中,利用模型文件完成评分并将评分与评价结果反馈到用户端;同时人工检阅评测端可利用信息交互模块查阅用户的英语翻译文档,并选择文档转换格式及训练模型译文集数据,提高评分模块的整体效果。
2.1 英语翻译评分系统的语言模型
统计语言模型能够给出译文特定句子序列或词语序列的概率分布[9?10]。
为简化计算,降低复杂度,引入三元模型。设三元语言模型内含的优先集合为[V],三元组合为[(u,v,w)],对应的参数为[q(wu,v)],且满足[w∈v?{STOP}],[u,v∈v?{*}]。[q(wu,v)]代表二元组合已知时,单词[u]和[v]之后出现单词[w]的概率。对于某一译文句子[x1x2…xn]的三元语言模型概率分布式为:
[p(x1x2…xn)=i=1q(xixi-2xi-1)] (1)
[q(wu,v)]需要满足的限制条件为:
[q(wu,v)≥0,且w∈v?{STOP}q(wu,v)=1] (2)
利用最大似然估计算法计算可求解[q(wu,v)],对应的计算式为:
[q(wu,v)=c(u,v,w)c(u,v)] (3)
式中:[c(u,v,w)]代表译文训练集中[(u,v,w)]出现的频次;[c(u,v)]为[(u,v)]在译文训练集中出现的频次。
针对不是所有在译文训练集中未出现的三元组合的概率为0这一问题,引入平滑算法,得到语言模型的描述式为:
[q(wu,v)=λ1*q(wu,v)+λ2*q(wv)+λ3*q(w)] (4)
式中:[λ1],[λ2],[λ3]代表平滑系数,且满足[λ1,λ2,λ3≥0,][λ1+λ2+λ3=1];[q(wv)]代表单词[v]已知时,单词[v]之后出现单词[w]的概率;[q(w)]代表单词[w]出现的总概率。
根据各单词出现的频次及用户英语翻译文档与标准译文集的概率分布结果,完成用户英语翻译文档的信息特征提取与译文训练集的信息特征提取,实现信息特征提取模块的特征提取功能。
2.2 相似度计算与英语翻译评分
为计算用户翻译结果与标准答案的相似度,引入关键词语的相似度计算,词语相似度的计算公式为:
[sim Word(A,B)=Same(A,B)Num(A)+Num(B)] (5)
式中:[sim Word(A,B)]为句子[A]与[B]的词形相似度;[Same(A,B)]代表句子[A]与[B]中相同词的数量;[Num(A)]与[Num(B)]分别代表句子[A]与[B]中的词语数量。
计算特征关键词相似度,采用粒子群优化后的BP网络进行拟合计算,根据计算结果与设定的评分标准进行对比,得到待评分译文的打分结果,并依据关键词相似度值的大小,分析用户英语翻译中的错误点,给出相应的评语,实现英语翻译的智能评分与结果反馈。
为了验证所设计的基于自然语言处理的英语翻译计算机智能评分系统的性能,需要进行一次仿真实验。实验平台系统为Windows 7系统,CPU主频为2.0 GHz,睿频为2.6 GHz,运行内存为6 GB,存储空间为64 GB,利用Matlab 7.1进行仿真实验结果的图、表绘制,系统实现算法的编程语言为Visual C++。采用所设计系统与现有评分系统以及人工评分方法进行实验,设定的评分总分值为100分,分别对比评分分数,实验结果如表1所示。表1中:DE表示待评分英语翻译文件;RM表示评分方式;RA,RB,RC分别表示所设计系统、现有评分系统以及人工评分方法;SC表示分值,单位为分,用字母C表示。
根据表1数据可知,所设计系统的评分结果更接近人工评分结果,最低差值为0.1 C,最高差值为0.3 C,说明所设计英语翻译评分系统的评分误差较小,评分性能较好。采用所设计系统与现有评分系统进行实验,对比评分过程的运行时间,实验结果如图3所示。图3中,RA,RB分别表示所设计系统与现有评分系统。
根据图3可知,所设计系统的评分运行时间变化曲线波动范围小于现有评分系统运行时间变化曲线的波动范围,说明所设计系统的运行稳定性更好。对于译文样本2,所设计系统的评分时间为4.7 s,现有评分系统的评分时间为6.1 s;对于译文样本4,所设计系统与现有评分系统的评分时间分别为4.9 s和5.9 s。可知对于同一译文样本,所设计系统的运行时间明显低于现有评分系统,说明所设计系统的评分效率更高。
本文设计一种基于自然语言处理的英语翻译计算机智能评分系统。构建系统的层次结构后,进行各层次模块设计,结合系统模块的运行流程,获得翻译评分系统的整体构架,采取语言模型等相关算法实现对应模块的效用。实验结果表明,所设计系统的整体性能优于传统系统,说明其具有较强的实用性。
参考文献
[1] 曲维光,周俊生,吴晓东,等.自然语言句子抽象语义表示AMR研究综述[J].数据采集与处理,2017,32(1):26?36.
QU Weiguang, ZHOU Junsheng, WU Xiaodong, et al. Survey on abstract meaning representation [J]. Journal of data acquisition & processing, 2017, 32(1): 26?36.
[2] 陈志明,李茂西,王明文.基于神经网络特征的句子级别译文质量估计[J].计算机研究与发展,2017,54(8):1804?1812.
CHEN Zhiming, LI Maoxi, WANG Mingwen. Sentence?level machine translation quality estimation based on neural network features [J]. Journal of computer research and development, 2017, 54(8): 1804?1812.
[3] 王海军.英语写作AES系统评分效度的实证研究[J].浙江工业大学学报(社会科学版),2016,15(1):89?93.
WANG Haijun. An empirical research into scoring validity of AES [J]. Journal of Zhejiang University of Technology (Social science edition), 2016, 15(1): 89?93.
[4] 谢荻帆,杜子芳.中国电影线上评分系统的改进[J].计算机应用,2018,38(4):1218?1222.
XIE Difan, DU Zifang. Improvement of Chinese films for online scoring system [J]. Journal of computer applications, 2018, 38(4): 1218?1222.
[5] 吕莉.软件分层结构故障优化检测仿真研究[J].计算机仿真,2017,34(10):371?374.
L? Li. Simulation research on fault detection of software hierarchical structure [J]. Computer simulation, 2017, 34(10): 371?374.
[6] 李茂西,徐凡,王明文.机器译文自动评价中基于IHMM的近义词匹配方法研究[J].中文信息学报,2016,30(4):117?123.
LI Maoxi, XU Fan, WANG Mingwen. Research on IHMM?based synonyms matching for automatic evaluation of machine translation [J]. Journal of Chinese information processing, 2016, 30(4): 117?123.
[7] 孔海龙.基于语料库的翻译质量评价:评《政府文件汉英翻译搭配冲突的调查研究》[J].中国科技翻译,2016,29(1):36?39.
KONG Hailong. Evaluation of translation quality based on corpus: comment on the investigation and research of Chinese?English translation collocation conflicts in government documents [J]. Chinese science & technology translators journal, 2016, 29(1): 36?39.
[8] 李侠.英汉机器翻译中的英语动词汉译研究[J].电子设计工程,2016,24(13):13?15.
LI Xia. A study on English translation of English verbs in English and Chinese machine translation [J]. Electronic design engineering, 2016, 24(13): 13?15.
[9] 王冰,郭东强.基于BP神经网络的企业内部知识转移绩效综合评价研究[J].情报科学,2016,34(1):141?145.
WANG Bing, GUO Dongqiang. Research on comprehensive evaluation of enterprise internal knowledge transfer performance based on BP neural network [J]. Information science, 2016, 34(1): 141?145.
[10] 李岗岗,赵婷婷.纺织科技英语强化训练的词汇分类方法[J].西安工程大学学报,2016,30(4):440?445.
LI Ganggang, ZHAO Tingting. Vocabulary classification method for intensive training of textile science and technology English [J]. Journal of Xian Polytechnic University, 2016, 30(4): 440?445.