计算机汉语语义组织和检索述评*

2014-02-12 17:56王仕雪
通化师范学院学报 2014年2期
关键词:全文检索标引分词

王仕雪

(湖北民族学院图书馆,湖北恩施445000)

文献数据库产生以来,人们一直在用基于命令的布尔检索式来回答比较复杂的检索提问.90年代,一种以相关排序和智能文本处理为特征的“自然语言处理”(NLP)系统开始流行.国外对NLP引入信息检索(IR)已由理论研究开始转向应用,而国内尚处于理论探讨阶段.语义组织与检索是当今计算机情报检索领域的一种重要发展趋势.语义信息组织和检索是指利用某一检索词进行查询时,系统基于对语义内涵的理解以及用户提交的查询词所表达的概念内涵作为搜索依据,对自然语言进行处理,即对该词的近义词、同义词、狭义词、广义词均进行检索,以达到扩检、避免漏检的要求.关于语义信息组织和检索,在近30多年来已有很多相关的研究和实践.我国在80年代,语义组织与检索得到广泛关注,对各种方法的研究和实验已展开,并取得了不少成果.主要在以下几个方面进行了拓展性的研究.

1 汉语自动分词与自动标引

语义信息组织和检索是利用计算机,以文本中的词为处理对象的.西文以两个空格之间的字符定义为一个词,故计算机极易识别而将其自动分离出来,汉语则不行,因为汉语句子中词与词之间无空格作为分隔标志,而且,一个汉字可以同其他许多汉字进行组合构成不同含义的词和词组,并无形式化的规律.因此,计算机难以识别一个句子中哪个汉字或哪几个汉字的组合是词而自动把他们分离出来,也难于准确识别对检索有用词与无用词.所以,把句子用计算机切分成词,并建立知识词语库实现语义导航和查询扩展就成为汉语语义信息组织和检索的一个前提条件,而且在其他方面也有广泛的用途.进行汉语分词技术的研究,是为了解决自动抽词问题.汉语分词在我国提出较早,“最大匹配法”最早出现在1963年《文字改革》杂志上(刘涌泉),80年代提出的汉语分词方案很多,大致可以分为基于算法的分词方法和基于知识的分词方法两大类,而大多数方案属于形式匹配分词法.

汉语分词技术的研究可以说是语义信息组织和检索研究的“开路先锋”,如陈培久(1983)的词典切分组词法、王永成(1984)的部件词典法、梁南元(1985)的最佳匹配法OM、北京大学图书馆学系(1987)的主题词表法、邓钦与毛玉娇(1987,1989)的关键词法、江孝感(1989)的汉语词素自动词素分词法等,都属于形式匹配分词法,并且在80年代都已出现.到90年代,属于形式匹配分词法的新方案较少提出,如赵宗仁(1991)的语词结构类比法、陈豫和曾民族(1983)的CWSAIS法等.但80年代上述方案有些在90年代有继续改进和深入探讨,如王永成等的《论中文词切分中的歧义切分问题》、毛玉姣等的《汉文自动分词与自动标引的新尝试》、苏新宁的《汉语词切分算法的改进》、龚建伟的《中文自动标引中并行缩略词串的处理》等.形式匹配分词法比较简单可行,都有一定实用价值,例如王永成的部件词典法抽词正确率已达到90%左右,已基本达到实用水平.

王玮的《汉语文献自动分词存在的问题与趋向》认为,以上方法都存在优劣两面,至今没有一种方法完全解决汉语自动分词存在的词法的复杂性、切分的模糊性和语法分析问题,有必要向切分词典设计、汉语自动分析研究和神经网络分词方法方面发展.

汉语自动分词与汉语文献自动标引既有区别又有紧密联系,但是以自动标引作为题名的一些文献,往往只谈如何自动抽词的方法,而对于自动抽出的词是否符合文献标引的要求的问题,却很少见深入探讨的专文发表.

汉语自动分词不能脱离分词词典(关键词词典、停用词词典、部件词典、切分标记词典等),目前分词软件普及的障碍主要是缺少分词词典,研究论著也少见.

2 自由标引与自由词标引

自由标引与自由词标引虽都属于在检索中利用自然语言,但两者是不能混同的.自由标引是不根据词表的一种主题标引法,标引人员在对文献的情报内容进行分析之后,按一定规则自立标引用词来表达文献主题.这种标引方法的优点在于:由于不使用词表控制,标引速度要比使用词表的主题标引快许多倍,还可降低标引成本;可用与文献主题专指度一致的词进行标引,保证较高的检准率;标引过程是通过标引人员主题分析的,如果标引人员具有一定的业务水平,则其标引质量可大大高于抽词标引.自由标引主要适用于报纸文献、期刊文献的大型篇名数据库的标引,因为这类文献内容庞杂,新概念多,数量大,很难编制适用的词表,而且使用词表编制用功多,速度慢,建库单位实际条件往往不许可,自由标引方法在一些单位常见,但讨论的论文不多,代表性论文如张琪玉的《论自由标引》、宋明亮的《报纸文献机助自由标引研究及对汉语后控词表动态维护的思考》、高文生的《自由标引和只供检索的规范词表相结合建立档案检索系统的模式》等.

3 自动摘要

自动摘要是利用计算机自动地从原始文献中提取文摘,方法是将句子视为词的线性序列,将文本作为句子的线性序列.关于自动摘要的文献极多,早在1952年,美国IBM公司的H.P.Luhn就开始了自动编制文摘方法的研究,及至1958年,Luhn第一篇有关文摘的自动生成方法的文章才开始发表.这一阶段人们只是围绕文章字词层面进行特征提取,简单地依赖粗糙的统计数据和不同性质的特征的简单线性叠加.后来人们开始考虑文档的句法特征和语义特征.建立起以人工智能特别是计算语言学为基础的方法.

国内自动摘要的研究则起步较晚,1985年王兵才撰文介绍国外的自动摘要的研究情况.1980年代末以来,我国先后有大学和研究机构开展研究,开发了一批应用系统,并取得了许多重要理论成果.在应用系统的研究方面,80年代末,姚天顺开展了面向中文的“基于规则的汉语自动分词系统”的研究.90年代初李小滨、徐越开发了EAAS(English Automatic Abstract System)系统.王开铸在90年代研制了MATAS型军事领域摘要系统、HIT-863 I型摘要系统、HIT-97 I型英文摘要系统和HIT-863Ⅱ型摘要系统.王永成等人从1980年代末开始一直在进行此项研究,取得了较多成果,1997年研制了OA中文文献自动摘要系统.2003年,吴立德研制了文本自动综述系统,钟义信则先后实现了面向计算机病毒的Glance系统,面向新闻报道的News系统和面向神经网络学习算法领域的Ladies系统.

在理论研究方面,比较有新意的有杨建林的《一种使用自动聚类思想的自动文摘方法》,该文将自动聚类方法引入自动文摘研究,并用数学描述了聚类算法.郭俊文的《中文科技文献自动文摘系统的研究》描述了一个中文科技文献自动文摘系统,详细地描述了总体结构,各环节的内部表示和算法.李明的《从字频统计出发的中文文摘自动编写》针对汉字文本的特点,提出一种在单汉字字频统计分析基础上实现自动编写中文文摘的新设想.洪田玉、陈志刚的《一种跨语言的自动摘要技术》提出了一种不依赖于任何训练集和自然语言本身信息的自动摘要方法,该方法利用改进后的PageRank公式和HITS公式对文档所有句子打分排序,选取得分高的句子作为摘要.

4 自动分类

我国对基于自然语言的自动分类的研究起步较晚,从80年代至今仅有4次实验.第一次实验是朱兰娟进行的,可参见朱兰娟《中文文献自动分类的理论与实践》.第二次实验是金巍进行的,可参见金巍的《中文文献自动分类系统——以肿瘤学专业文献为例》.第三次实验是苏新宁、徐进鸿、史久林合作进行的,可参考《档案自动分类算法研究》.第四次实验是叶新明进行的,可参考《基于〈中图法〉的中文文献自动分类》.

成颖、史九林的《自动分类研究现状与展望》认为自动分类包括自动聚类、自动归类及类号同的自动转换三个方面.该文在回顾我国自动分类的历史和现状的基础上,分析了我国自动分类研究存在的不足,指出基于自然语言语义理解的分类专家系统是自动分类研究的发展方向.张琪玉的《分类主题法一体化自动标引系统的基本原理和方法》主要是讨论自动分类,该文提出用分面技术来构造自动分类用的分类表,根据体系分类法的类目内容范围划分规则来构造自动分类规则,使自动分类的过程大大简化.李洪清的《一个自动汉语正文分类系统的模型设计》提出模糊-神经方法设计自动分类模型.邓要武、王连俊的《图书自动分类专家系统可行性研究》讨论了专家系统技术用于自动分类的可行性.叶新明、徐进鸿的《中文文献自动分类研究》提出了中文自动分类的一般模式,同时分析了实现中文文献自动分类目前所面临的一些问题.卢香宵、叶新明的《自动分类与手工分类的比较》对两种标引方式作了一般的比较.

5 文本检索与全文检索

文本关键字词匹配检索是自然语言检索中使用最普遍的方法.这种方法不需进行任何标引,检索时则可用检索者认为合适的关键性字词,在文本中进行匹配查找、十分简便.所谓文本,可以是文献题名,或文摘,或文献正文.对储存文献正文的数据库的检索,称为全文检索.全文检索可以说是90年代自然语言检索的热点,研究成果甚多.顾耀芳《综述全文检索系统》对1991年上半年以前的国内全文检索研究成果作了综述,包括国外发展概况、全文检索系统涵义、全文数据库研制、全文本的前处理、文本检索技术等.尹汉军的《全文检索与其他检索的比较》对全文检索、文献检索、标题检索和受控词表检索四种检索方法作了比较,并分析了产生优劣的原因.杨学伦的《全文检索技术及其在图书馆中的应用》介绍了全文数据库建设的前处理和检索技术,讨论了图书馆发展全文检索系统的问题.1991年10月18日通过鉴定的“湖北省地方志全文检索系统”一般认为是我国第一个以一部专著为对象的全文检索系统,陈光祚和谢新洲的《湖北省地方志全文检索系统》对该系统软件作了详细介绍.

信息组织的目的是建立有序、有效的检索系统.信息检索的最高境界是基于语义概念的智能检索,这一目标的实现,从根本上来说,必须依赖有效的语义信息组织.根植于传统的分类、分面、主题、术语学、计算机科学的知识组织方法等技术的出现,为建立互操作的语义知识库实现汉语语义组织和智能检索提供了可能.

[1] 包冬梅.网络信息语义组织和检索的实现路径[J] .图书情报工作,2006,50(12):12-16.

[2] 孙清兰.高频词与低频词的界分及词频估算法[J] .中国图书馆学报,1992,18(2):78-81.

[3] 张琪玉.论自由标引[J] .图书馆学刊,1995,17(5):35-37.

[4] 谭翀,陈跃新.自动摘要方法综述[J] .情报学报,2008,27(1):62-68.

[5] 郭俊文.中文科技文献自动文摘系统的研究[J] .情报探索,1995(4):26-28.

[6] 成颖,史九林.自动分类研究现状与展望[J] .情报学报,1999,18(1):20-26.

[7] 顾耀芳.综述全文检索系统[J] .现代图书情报技术,1992(1):7-13.

猜你喜欢
全文检索标引分词
中医古籍医案知识元标引方法的思考及对策
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
档案主题标引与分类标引的比较分析
Oracle数据库全文检索性能研究
关于关键词标引的要求
关于关键词标引的要求
全文检索引擎Lucene系统模型与应用研究
全文检索引擎技术在电子病历中的应用