“互联网+”背景下语言文字信息处理技术与应用发展现状研究

2020-12-29 11:56黎谦
电脑知识与技术 2020年30期
关键词:机器翻译信息检索互联网+

黎谦

摘要:语言文字信息处理技术奠定了人机交互的技术基础,成为人工智能的热门领域。该项技术既是实现人机交流的突破点,也是当下衡量国家现代化水平的一项重要指标。该文阐述了语言文字信息处理的技术,并探究了该技术在“互联网+”背景下的应用发展现状。

关键词:“互联网+” 语言信息处理;机器翻译;信息检索

中图分类号:TP3        文献标识码:A

文章编号:1009-3044(2020)30-0194-02

语言文字信息处理技术是将人类在互动交流时所使用的语言处理转化为计算机可以理解的机器语言的一种技术,它是以语言能力为研究对象的模型和算法框架,是涉及语言学、计算机科学的交叉研究领域[1]。在“互联网+”时代,该技术的创新和突破既能够推动人机智能的发展,带来计算技术的革命,又能让人类进一步认识自身的思维和语言文字,更加重视对语言的教学和学习。

1 语言文字信息处理的技术分析

1.1 语言文字信息处理基础技术

1)词法分析

组成句子的基本单元是词。词法分析具体指的是先把句子中的字符串转变为词串,之后给句中所有词加句法范畴标记的过程。汉语是一种表意文字,它是以汉字作为单位的。对汉字的处理技术包括三步:一是汉字编码,二是汉字输入,三是汉字输出。在处理具体的汉语句子之前要做的就是先将句中的单词切分出来。目前机器自动分词的方法有两种,一是最大匹配法,二是最大概率法。而对屈折性语言(如英语)进行词法分析时,需要适当处理其词尾、前缀、后缀等,将词形还原。

词性即词汇所具有的基本语法属性。词性标注即判断句中词的语法范畴,明确其词性并标注出来的过程。标注的关键和难题在于消除歧义。一般词性标注所采用的方法有基于统计和基于规则两种。词法分析的另一个主要任务就是词义标注,重点问题在于怎样在具体句子中确定多义词的义项。在标注词义时,往往先明确语境,再标注词义。其方法也有基于统计和基于规则两种。

2)句法分析

句法分析的目的在于识别句中成分及它们的相互关系,明确该句的句法结构。判断单词序列是否符合给定语法,并对符合的句子进行句法结构分析。一般用来完成此种分析任务的程序模块被称作句法分析器。句法分析分浅层句法分析和完全句法分析两种。前者用来对句中结构简单的成分进行识别,后者则更为复杂,要通过句法分析得出句子的完整的句法树。

3)语义分析

语义分析即计算机在分析某个文档语义内容的基础上对其进行学习和理解。语义分析根据语言单位不同可分成篇章级、句子级和词汇级三个级别。词汇级的任务在于获得词语的具体意义,句子级的任务则在于分析句子的整体语义,篇章级的任务则在于提取文本结构,阐明文本单元彼此间所具有的语义关系。

4)篇章分析

篇章分析的目的在于明确篇章的结构,并概括提炼篇章的特征。通常篇章的基本结构分析,往往意味着对文本内部关系结构进行探究,即逻辑、指代、功能、事件或者话题等结构。

5)生成自然语言

生成自然语言指的是计算机在关键信息基础上加之机器表达形式,模拟人类写作并最终生成质量较高的自然语言文本内容的一种技术。基于深度学习的方法、基于知识检索的方法和基于规则的方法都是较为常用的生成方法。

1.2 语言文字信息处理的应用技术

语言文字信息处理除了能够处理文本,为大数据应用提供服务,它自身也有一些应用技术,比如机器写作、信息抽取、阅读理解、对话等,能夠应用在科技服务、在线教育、信息检索等社会的各个方面。

1)信息抽取和构建知识图谱

信息抽取的含义是计算机识别某个文档的结构化信息并最终生成。之后再将这些从文档中抽取出来的结构化信息按特定形式集中起来。应注意的是,信息抽取只分析文档的部分信息。在语言文字信息处理领域,知识图谱构建是热点,它包括事件抽取、实体识别、关系抽取、实体属性识别等。其任务为知识的建模、融合、赋能、图谱构建、推理计算等[2]。

2)智能写作和智能问答

智能写作的含义是计算机将自然语言生成器和算法作为自己的工具去“书写”文本。智能问答则更复杂,需要把握问答的目的、正确理解语言的深层意思、搜索符合问答主题的知识,问答系统的功能往往有分析、分类、理解和答案的检索、匹配、生成等。

2 语言文字信息处理技术的应用发展研究

2.1 信息检索

信息检索系统的工作通常包括四部分:一是处理文献信息,通过分析提取关键信息后,建立数据库或者转换文档;二是提问处理,对用户输入的查询词进行解释;三是匹配问题,即匹配查询提问和数据库及转换文档之中的内容;四是按照特定顺序将查询结果显示出来。信息检索需要利用自然语言检索和标引,它的每个阶段都离不开语言文字信息处理技术的应用。

1)处理文献信息

第一,自然语言标引,即计算机提取能够表征文档内容的信息或特征词加以标引。计算机自动标引是常用标引方式,其目的在于让文献拥有标引词,以便在具体检索过程中直接匹配检索词汇。自然语言标引包括字索引、词索引和短语索引三种索引方式。第二,自动抽取主题词,即按照文献所阐述的问题和对象提炼出主题词,并将其存入文献库和检索系统。当前自动抽取主题所采用的算法,是指对综合位置、词频等因素进行统计的一种方法。信息提取运用算法能够得到文档中重要性较强的句子,这就是主题句。之后还要对主题句进行语义分析以及句法分析,明确句子内部各部分的语义关系。第三,自动生成文摘,即对文档内容进行语义分析和逻辑分析之后生成具有可读性的摘要,介绍主体内容,便于用户判断文章是否符合自己的需要。第四,文本自动分类,即计算机系统以文档的属性或内容为根据将语言文本归为某个主题类别的过程,这样便于用户精确查找。文本分类可分为两类,一是自动聚类,二是自动归类。这两种分类方法都需要充分运用语言文字信息处理技术,比如词频统一、相似度计算、汉语自动分词、分类算法、特征提取等。

2)自然语言检索接口

检索系统通过检索接口和用户相连接,如果没有用户接口,那么系统功能就会被闲置。在“互联网+”时代,人们有了愈来愈高的检索要求。所以怎样让计算机更准确地理解用户意图、让用户更方便快捷地查询信息就成了一个重要课题。自然语言检索接口应运而生。作为人性化的智能接口,其功能在于接受用户输入的信息,让系统对用户提问进行语言分析,并通过人机交互判断出用户需求,从而得出更准确、全面的检索结果。

3)匹配控制

匹配控制包括自由词匹配和概念匹配。自由词匹配是按照特定的检索模型对用户提问和索引项进行匹配,并将包含自由词的摘要和URL反馈给用户。而概念匹配又被称为语义检索,它分析用户检索词的概念意义,并为其匹配出具有相近或相同意思的词语,这一功能对语言检索的多义和同义问题进行了解决。语义检索有两项基本功能,一是相关概念联想,二是同义扩展检索,而这无疑和语言文字信息处理技术密切相关,即该技术能够抽取文档概念,并对概念进行聚类,由此生成一定的概念空间。当用户输入文字后,检索系统会迅速匹配出在概念语义空间方面最为相似的概念,并按照相似性递减规律将检索结果呈现给用户[3]。

4)查询结果处理

查询结果处理指的是计算机用算法计算出相关度并以此为依据对检索结果进行排序,将和用户需求关系最为密切的结果排列在前。为了使服务更加个性化,还需要对用户检索行为进行追踪,并运用语义\语境对用户需求进行分析,将用户需求和文档进行概念匹配,使查询结果更符合用户兴趣。语言文字信息处理技术的提升能够提高查询结果的排序质量,因为它能够更准确地把握用户意图,更精准地匹配文献[4]。

2.2 机器翻译

1)机器学习

语言文字信息处理技术的一个主要特点就是更加依赖于机器学习的方法实现语言知识的获取。机器学习是主要研究怎样在经验的基础上通过计算对系统自身的性能进行改善的一门学科。机器学习的工作方式如下:首先,把大量训练数据输入计算机,从而构建出初始模型;之后运用测试数据来检查初始模型,使之不断完善,并最终生成一个训练完好的模型;最后,如果再接收到新数据,那么人类就能够运用计算机和新模型进行预测或者判断。此后的新数据、调整的参数、各异的特征等,都能够用来对算法的性能进行提升,使算法更加完善。

2)机器翻译

机器翻译是指计算机具有自动转换语言文字的功能。这里的语言文字等同于自然语言,要将它和人工语言区别开来,比如计算机编程语言即为人工语言。有专家学者指出,机器翻译实际上是语言文字信息处理技术的一个重要分支,它在具体的翻譯过程中会遇到很多语言文字信息处理的一些经典问题,比如词性标引、字词切分、句法分析等。机器翻译的方法分为基于规则和基于语料库的机器翻译方法两种。

在机器翻译之中,数据即语料被当作训练数据,并被用于模型的训练。语料被划分成各种类型,分别用于不同模型的训练。

下面以语言模型为例具体说明该过程对语言文字信息处理技术的应用。首先,选取目标语言中的大量语料,并让其成为训练数据,计算机运用此数据得到知识,并建构起一定的语言模型。但训练数据并不涵盖所有语料,所以计算机无法实现对所有样例数据的覆盖,这时一般就会用数据平滑算法来完善语言模型。很多语言文字信息处理的应用都运用语言模型来生成文本,这些模型以之前出现过的语境和单词为基础,通过接受相应的训练来让自身具备能够预测接下来出现的单词的功能。最终建好的语言模型具有预算句子出现可能性的重要功能,也是在此基础上译文才更加接近人类优秀的翻译文章。

不管是建立概率模型的过程,还是模型训练过程,都需要机器学习算法的支持。在模型建立的具体过程中,机器翻译也会应用参数特征来改进和完善自身的算法[5]。所以说机器翻译是语言文字信息处理技术的一个较为重要的研究方向,并且通过上述分析可知,语言文字信息处理技术在机器翻译中有着极为重要的地位。

2.3 社会计算

社会计算又称作社会计算学,指的是在“互联网+”背景下,将社会科学理论作为指导,运用现代信息技术为人类社会提供知识、探求规律、分析关系、推进交流、解决社会难题的一门学科。

社会媒体实际上是社会计算的重要工具和手段,社会媒体有海量用户,它允许用户在线上进行发布、交流、传递和分享,并最终形成一个虚拟的网络社区[6]。在“互联网+”背景下,社会媒体变得更加多样化,从最初的博客、论坛到如今的微信、社交网站等,由此它也成为网络技术发展的趋势和焦点。运用语言文字信息处理技术可以阐明社会媒体中的文本属性,社会媒体中出现的文本具有较强的实时性、字数不多、浅显易读,同时它具有较强的交互性、社交性。社会媒体使每个用户都拥有了创造和传播内容的权利,他们能够发布个性内容,进行社会化传播,这些网络用户也能够形成社会化网络。

社会网络类属于关系网络,以网络为媒介实现了个人之间以及群体之间的互通。运用语言文字信息处理技术提取社会网络中的关键字和高频词等,分析“互联网+”时代人类语言文字信息中所蕴含的新内涵,能够更加清晰地了解当下人类社会的行为方式和组织特点等,从而为人群的社会结构研究奠定基础。

3 结语

“互联网+”时代的语言文字信息处理技术具有非常广阔的应用领域和乐观的应用前景。作为涉及多学科领域的一种处理技术,其发展和繁荣必将极大促进相关学科的发展。各种语料库数据资源的不断丰富、新理论的不断出现、分析技术的迅捷发展、研究模型的逐渐完善,都为理论研究打下了坚实基础,语言文字信息处理技术的迅速发展也将使其在计算机科学研究中的重要地位得到进一步的巩固。

参考文献:

[1] 李生.自然语言处理的研究与发展[J].燕山大学学报,2013,37(5):377-384.

[2] 林奕欧,雷航,李晓瑜,等.自然语言处理中的深度学习:方法及应用[J].电子科技大学学报,2017,46(6):913-919.

[3] 史兆鹏,邹徐熹,向润昭.基于依存句法分析的多特征词义消歧[J].计算机工程,2017,43(9):210-213.

[4] 殷淑娥,田伟,于泳海.自然语言处理技术在搜索引擎中的应用[J].电子商务,2012(5):67,69.

[5] 冯志伟.机器翻译与人工智能的平行发展[J].外国语(上海外国语大学学报),2018,41(6):35-48.

[6] 方明之.自然语言处理技术发展与未来[J].科技传播,2019,11(6):143-144.

【通联编辑:代影】

猜你喜欢
机器翻译信息检索互联网+
互联网+新时代下人机翻译模式研究
“语联网+行业” 助力中国伟大复兴
医学期刊编辑中文献信息检索的应用
基于神经网络的个性化信息检索模型研究
教学型大学《信息检索》公选课的设计与实施
公共图书馆信息检索服务的实践探索——以上海浦东图书馆为例