张成琦
(湖南涉外经济学院,长沙 410205)
智能信息处理技术的应用与研究
张成琦
(湖南涉外经济学院,长沙 410205)
智能信息处理主要涉及智能搜索和信息处理等方面的功能,应用的主要技术是自然语言处理和理解。本文发现、总结了智能搜索和信息获取在自然语言理解应用中相关的问题,阐述了问题存在的根源以及解决办法。
智能搜索;信息获取;自然语言处理;自然语言理解
随着信息化技术的不断发展与深入,特别是网络技术的逐渐普及,人们对信息的需求也是越来越多,质量要求越来越高,这些所涉及到的都是当前计算机智能信息处理技术方面急需解决的难题,鉴于智能搜索和信息获取理论成熟性、深度,也鉴于它们在自然语言理解实验中取得了较好的效果,重点讨论下智能搜索、信息获取。
自然语言理解技术就是研究让计算机理解人们日常所用的语言,通过研究希望建立一种人和计算机之间友好的交互关系,关系建立主要有2种思路,一是实验模型思路,一种是直接应用模型思路。实验模型思路,是面向人工智能所期望解决的一般语言理解问题,主要是研究让计算机理解人的一般语言能力,能在计算机上建立一套计算机能够识别的语言库。按照这个思路,最终可能建成言语分析或生成所需的自然语言理解知识库。而直接应用模型策略是直接以应用为目标,无论哪种情况,都是专门针对某一具体领域采用解决自然语言理解的基本策略。
搜索其实采用的就是过滤器模型,通过标注和匹配两项工作,从原始数据中筛选出满足要求的数据。搜索有很多的类型,智能搜索是搜索中最高级的搜索类型,是基于语义搜索,搜索对象小到一句话,大到一段文字。不过它的主要对象是自然语言文本,智能搜索是自然语言处理的重要环节,它在使用过程的相关问题也就成为大家讨论的焦点。
1) 标注。搜索对象是标注的结果,而标注就是产生对文本的描述,标注的关键要素就是标注用词,而通常包含主题词与自由词两种类型。使用主题词存在的问题比较多,具体表现在词表不够用,内容陈旧,而且涉及内容过于复杂。鉴于此原因,使用自由词标注弥补了使用主题词的缺陷,同时不需要理解全文,效率较高。
2) 理解搜索要求。用户提出的查询数据的要求通常用都是很零散的,用户提出的数据查询要求,输入系统、经由自然语言理解前端句法语义分析器进行分析生成句法树,然后,系统通常以名词短语作为搜索的关键词在经过标注的文献库中搜索目标对象。
3) 实现智能搜索。智能搜索的大致过程是这样的,对两个或多个不同的文档进行标注,如果标注的结果完全一致,那么说明被标注结果相应的内容也是一致,那所标注的内容也就是用户所查找的目标对象,最终实现了智能搜索的目的。
信息获取相对于信息搜索来说,技术更先进,更成熟,它是一门综合性极强的技术,同时以深入的语言处理基本理论和技术作为支撑,研究多种基本的自然语言处理技术的综合应用,具有很好的研究价值。下面就信息获取的基本内涵、语言处理技术以及信息获取的基本过程等方面内容进行一些基本的讨论。
1)信息获取的内涵。信息获取是指从一段文本中抽取指定的一类信息,并将其形成结构化的数据,然后填入一个数据库中供用户查询使用的过程。获取的过程包含三个方面的内容:一是模板元素,主要涉及文章中的专有名词、时间词、数量词和词组等;二是模板关系,主要涉及命名实体之间的各种关系;三是脚本模板,主要涉及事件之中的各个实体、属性或关系。
2)语言处理技术。中文信息的处理包含三个种自然语言处理的技术:一是词切分和词性标注。主要技术是建立信息获取的词切分方法,开发合适的汉语词切分和词类标注软件。二是短语句法及语义分析,主要涉及句法成分的识别与标注,关键词提取,搜索特征集的提取、索引等。三是句群分析,主要涉及句间成分的传递、指代、引用信息表的建立和使用,以及概念关系的推理等。
3)信息获取的过程。信息获取过程有4个环节,一是描述信息,就是指利用信息模式描述大家感兴趣的信息,比如<公司名><产品名>。这样在系统中预定义类似的信息模式,存放在模式库中,供用户选用。二是词法、句法及语义分析,并做各种文本标注。借助合适的词典、构词规则等知识库的支持,比如名词短语有人的名字、机构的名称以及产品名称等,再比如动词短语有事件描述与事实陈述等。三是确定信息的最终形式,主要通过上下文文关联、指代、引用等分析和推理方式实现。四是结果输出,比如生成一个关系数据库或给出自然语句陈述等。
[1]傅承德.自然语言理解的方法与策略[M].河南人民出版社.2001,185
[2] 陈力为.计算机语言学研究与应用[M].北京语言学院出版社,1993,134