自然语言处理的技术和产业应用现状与趋势分析

2019-03-19 12:10:24葛运东陈洪梅姚建民
产业与科技论坛 2019年17期
关键词:实例图谱译文

□葛运东 陈洪梅 姚建民

本文分析了自然语言处理的基础技术、基本应用,并依据技术覆盖面和深度,选择机器翻译为例,从主流翻译系统存在的不足,分析机器翻译现状和趋势,进而反思自然语言处理产业应用的现状和发展趋势。

一、自然语言处理基础技术

(一)分词。分词即将句子通过各种算法转换成词语串的过程。分词的难点有命名实体识别、交叉歧义、未登录词识别、领域歧义、多源异构数据的融合及多种粒度分词等。命名实体识别将文本中的实体按类标记出来,例如人名、公司名、地区、基因和蛋白质的名字等。

(二)词性标注。词性是词汇基本的语法属性。词性标注就是确定给定句子中每个词的词性并加以标注的过程。词性标注的难点在于歧义的消除,比如汉字“把”有介词(“你能把他怎么样?”)、量词(“一把匕首”)、动词(“把酒言欢”、“把门儿”)、名词(“刀把儿”、“话把儿”)。

(三)句法分析。句法分析即确定句子语法结构,生成句子中词汇之间的依存句法树。句法分析是实现最终目标的关键环节。常见的句法分析有句法结构分析、依存关系分析等。以获取整个句子的句法结构为目的的称为完全句法分析,而以获得局部成分为目的的语法分析称为局部分析。通过依存句法分析,生成句子的依存句法树,该句法树描述词语之间依存关系、搭配关系,搭配关系是语义相关联。

(四)语义分析。语义分析即学习并理解文本蕴含的语义内容。依据不同的语言单位,语义分析可以分为词汇级、句子级以及篇章级三种。词汇级聚焦如何获取词语粒度的语义,句子级分析整个句子级文本表达的语义,篇章级分析文本的内在结构及文本单元间的相互语义关系。

(五)篇章分析。篇章分析即确定篇章结构、分析篇章特征。其中基本结构分析是篇章内部关系各种结构的分析,包含了功能、逻辑、指代、话题、事件等结构。篇章特征主要包含了意图、可接受、信息、情景以及跨篇章等各方面的特征。

(六)自然语言生成。自然语言生成是指计算机根据一些关键信息并联合机器表达形式,生成高质量的像人一样写作的自然语言文本内容的技术。常见的生成方法有基于规则的方法、基于知识检索的方法以及基于深度学习的方法等。

二、自然语言处理的应用技术

自然语言处理一方面可以用于文本处理,服务于大数据应用,另一方面自身也有信息抽取、问答、机器写作、对话、机器翻译、阅读理解等应用技术,可用于信息检索、科技服务、人工智能、在线教育、医疗专家系统、金融分析等方方面面。

(一)信息抽取、知识图谱构建。信息抽取即生成文本的结构化信息。结构化信息点从文本中抽取后以统一的形式集成起来。信息抽取不进行整篇文档的全面理解,而是重点分析文本中包含相关信息的部分。

知识图谱构建是自然语言研究领域的热点,包含了实体识别、实体属性识别、事件抽取、关系抽取、概念实例化及规则学习等。其中的主要任务包括知识的建模、图谱构建、融合、推理计算以及赋能等。

(二)智能问答和智能写作。智能问答涉及理解语言内涵、推敲问答的意图、挖掘与问答贴切的相关知识,问答系统主要包含问答分类、分析、理解,答案的匹配、检索、生成等功能。

智能写作是指计算机利用算法和自然语言生成器撰写文本的过程,比如新闻写作,计算机利用人类专家预先设计好的算法模型快速搜寻与主题相关的信息,将其汇总到知识库,再提炼有价值的信息,形成新闻报道。

(三)智能对话。智能对话分为开放域、封闭域两种对话系统。该领域面临上下文篇章建模、对话状态转移、领域知识建模等各种问题。智能对话是商用最广泛的自然语言处理技术,应答机器人、智能音箱、客服机器人等在市场上大量涌现。

三、机器翻译存在的问题分析和展望

机器翻译是人工智能皇冠上的明珠,是自然语言处理领域所有关键技术的综合应用,突出反映自然语言处理技术存在的不足和未来需要研发的方向。同声传译系统已经在世界大会上引人注目的付诸应用,但就像百度吴华博士的观点:要先解决语义理解,机器翻译才可能取代人类。

根据翻译实践中的经验,对机器翻译常见问题的典型实例做了分析汇总,一方面揭示机器翻译技术的不足,更探讨自然语言处理技术面临的问题。

(一)最合适的译文不在词典或语料中出现,需要在词条译文基础上灵活编制。一些词汇或短语译文不能武断拷贝或映射,要根据上下文搭配灵活应对。比如Make或Produce这类通用词,生成译文后要做适当修饰,符合目标语语感,如实例1。

实例1:universities were faced with significant pressure to produce innovative results……

词典中动词produce的译文(vt.&vi.产生;生产;制作;创作;vt.制造;出示;引起;[经济学]生利)并不适合本句的上下文搭配,需要根据其主语“universities”和宾语“results”,灵活翻译为“研发”。produce这类词的译文非常灵活,依赖于搭配的主语和宾语,make、last等词语也类似。

(二)词典中译文是解释性的,实际译文需要灵活调整。词典中一些词条的译文是解释性的,不适合机器翻译直接用于目标译文生成,需要根据上下文环境做灵活处理,不能靠词典译文拷贝。比如:

实例2:But the most important to a visually oriented species like human beings is ocular data.

实例2中,ocular(词典译文:adj.眼的;眼睛的;可以看见的;看得到的)翻译成“眼数据”、“看得到的数据”都不恰当,翻译为“视觉数据”更符合上下文语义环境。这涉及词义选择,也涉及习惯短语以及在理解源语言语义的基础上对目标语词汇和句子的组织。

(三)领域适应最终是个语义分析问题。领域适应通常根据词汇同现信息建模,融合短上下文和长上下文。但根据以下实例可以判断,简单上下文统计仍然替代不了语义分析。

实例3:Because GPS signals are blocked inside of buildings and SLAM capable LADAR units are too heavy and/or expensive for most applications.

实例3中包含大量的电子领域术语,但application的译文恰恰不能选择电子领域常用的“应用程序”。这种不足可能是领域欠拟合,但领域过拟合也同样会导致词意选择错误。句子上下文的微妙语义差别很难用简单的词频等信息刻画,需要引入更深层的语义信息。

(四)专名、缩略语消歧需要借助知识图谱,简单上下文解决不了。一些专名、缩略语消歧需要根据广泛上下文,构建知识图谱或关系网络才能消除歧义,比如AP-NCC。

实例4:In an AP-NCC poll,44 percent of people supported the police using drones……

通过互联网查询,该AP-NCC的原文是Associated Press-National Constitution Center,而不是同样形式的其它缩写。这些专名或缩略语消歧已经完全不是翻译问题,而是知识图谱、关系网络的建构或语义理解,往往需要非常详细的知识图谱及关系网络等信息。

(五)翻译是由多个分离过程组织的知识图谱转换。复杂句型需要理解源语言的每个子句,结合语法和语义分析,恰当调整子句顺序和修饰关系,才能生成合理的译文子句、整句。子句间的修饰关系往往涉及知识图谱或者语义关系。

实例5:First and foremost,drones change the way that we see.

翻译既涉及到子句的调序,更需要语义分析才能决定子句间的修饰关系或者具体词汇的含义。翻译不仅需要句法分析、依存分析,也包含前文提到的译文选择同样的问题,是综合性非常强的分析和生成过程。

四、结语

梳理了自然语言处理的基础技术和应用技术,以影响广泛、技术模块复杂、实现难度最大的机器翻译技术为例,分析了目前技术路线和实现方法存在的不足。

未来自然语言处理技术应该从如下领域深度研发:研究新的自然语言处理模型,进一步提高机器翻译的理解能力。更细粒度更大规模的知识库建设。更要从目标语语义出发,基于实例或语言模型对译文进行修饰。自然语言处理和音频、视频等更多信息结合,多渠道、多媒体信息促进歧义消解,进一步提高自然语言处理的质量。

猜你喜欢
实例图谱译文
Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
绘一张成长图谱
译文摘要
水利经济(2020年3期)2020-02-22 11:38:33
补肾强身片UPLC指纹图谱
中成药(2017年3期)2017-05-17 06:09:01
I Like Thinking
主动对接你思维的知识图谱
完形填空Ⅱ
完形填空Ⅰ
杂草图谱
杂草学报(2012年1期)2012-11-06 07:08:33
译文