顾潇华,杨杰,陈立勋
(1.中国地质大学 长城学院,河北 保定 071000;2.河北大学 管理学院,河北 保定 071002)
目前,主题自动标引形成的索引均为关键字或关键词的索引.关键词在选择的时候,可以是主题词,也可以是没有经过任何规范化处理过的任意词汇,也就是自由词[1].用自由词作为关键词进行标引时,用户检索文献的时候就很容易造成误检或者漏检.如果将近义词、同义词以及多义词规范化地统一处理,将会提高查准率和查全率,而规范处理即为将关键词转换为主题词[2].
为提高检索效率,主题词有着重要的地位.所以,用主题词作为文献标引,形成检索标识进行检索具有明显优点.首先,主题词属于规范化词汇,具有单一性的特点,一个词能够准确地表达一个概念,不随时间变化,不被使用者的主观理解和上下文左右,是十分理想的分析元素[3].其次,主题词所反应的概念并不是孤立的,它可以通过逻辑组合形成索引标识,来表达文献的中心内容这就有效避免了标引词对文献主题表达不清,检索率不高的问题.用主题词作为检索词进行对中文文本数据的分析与研究,能有效避免由于检索词的不规范性所导致检索数据库中主题标识的冗余或缺失.
目前关键词-主题词转换实现方式主要包括3种:人工方式、计算机辅助方式和自动转换方式[5-7].1)人工方式,主要依赖智力劳动人工完成对应转换的操作,效率较低,但质量较高.2)自动转换方式,即由计算机根据释义词典、同义词表等各种语义工具通过各种相似度算法自动完成,效率较高,但质量参差不齐.3)计算机辅助方式,即由人与计算机共同完成,是当前各种关键词-主题词转换采用的主要编制形式.
如李纲在《基于词汇链的关键词自动标引方法》中,利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引[8].程肖、路蓓等在《热点主题词提取方法研究》中,基于多特征的融合提出热点主题词权重计算方法,构造出热点主题词判断公式HK,实现对热点主题词的提取[9].将关键词自动转换为主题词是计算机中文信息处理一直关注和力争解决的问题.
在海量的数据库文献中,并不能保证每篇文章的题名都能反映文章的主题,有的甚至再加上关键词也不能准确地表达文章的主旨[10].笔者是将文章的题名和摘要两者中的关键词抽出并转换为主题词,这样能有效地防止存取的主题词不能完全表达文章主旨问题的产生.
关键词自动转换主题词的过程可以分为以下几个步骤:第1步,利用已有的词法分析工具对文献进行分词处理和词性标注;第2步,将经过分词处理后的词汇信息根据词语的词性标注进行筛选和词频统计;第3步,将筛选和统计好的词与现有主题词表进行匹配,并重新进行词频统计;第4步,经过人工干预选择出能表达该文献主旨的相关主题词,并进行存储.
其主要的简单的设计流程如图1所示.在此模块中所应用的是中国科学院计算技术研究所开发的分词工具ICTCLAS(institute of computing technology,Chinese lexical analysis system),应用此工具对数据库中的中文文献进行分词处理和词性标注.ICTCLAS(institute of computing technology,Chinese lexical analysis system)是中国科学院计算技术研究所研制出的基于多层隐马模型的汉语词法分析系统,该系统的功能主要有:中文分词,词性标注,未登录词识别.分词正确率高达97.58%(最近的973专家组评测结果).其最主要特点是把分出的词都进行了词性标注,且标注详细,不仅把词类分得很详细,而且把每一类又分成若干更详细的类别.
在文献中,具有实际意义的词就是名词(n),还有与名词组合起来的形容词等等,这些词是描述性的词,可以对主题起到更好地表达,而其他的词比如量词(q)、代词(r)、介词(p)、助词(u)、标点符号(w)等等,则不具有实际意义.所以对文献中词语的筛选与统计,其实就是对文献中名词、动词等的筛选与统计,避免数据的繁杂和冗余,降低了工作量,提高主题词提取的准确性.
应用电子版中国分类主题词表将分词出的关键词转换为主题词,具体步骤包括文献分词处理、词频统计、关键词转换主题词和主题词存储.由于在前人研究中文献分词处理和词频统计技术已经比较成熟,本文着重讨论关键词转换成主题词的方法和步骤.
图1 关键词自动转换主题词步骤流程Fig.1 Flow chart of keywords automatically transform into subject headings
本方法使用国家图书馆出版社所出版的电子版中国分类主题词表来具体操作,其界面如图2所示.
图2 中国分类主题词表功能Fig.2 Function chart of chinese classified thesaurus
对于不规范的检索词,比如同义词、多义词等,利用电子版中国分类主题词表能将其规范化.例如学名为玉米的事物,在现实生活和文献中,有好多其他的别称,如:苞谷、苞米、棒子,玉蜀黍等等.在此主题词表的检索框中输入此类词汇的别称时,该词表系统会自动地将规范化的主题词汇输出.将所有的筛选出来的词汇经过规范化处理后,就可以得到所有有关文本的主题词.针对可能存在主题词重复的情况,再将其词频进行统计.经过人工筛选出确实能表达该文献主题的主题词,并进行数据存储.
首先,数据库中的表包括文献的名称、作者、出版社报刊名称、出版或发表日期以及存取出来的主题词等数据项.其次,主题词存取的数据处理流程体现在主题词存取过程中,通过计算机编程实现文献信息的读取,并利用分词工具对文献汉语语句做出分析并进行分词处理,处理过的词语信息经过词频统计,以方便主题词匹配时的重点选择,再人工干预选出能概括该文献主旨的主题词.其流程见图3.
图3 主题词自动转换的处理流程Fig.3 Program flow chart of subject headings automatically transform
本方法的重点就是汉语语句的分词处理和分词后对词语进行的筛选统计,以及主题词的录入.其实现使用了C#作为其主要编程语言,目的是减少其繁琐与易错性.使用Microsoft SQL Server 2000数据库实现标引词的提取和存储.
在中科院计算所汉语词法分析系统ICTCLAS中,对中文文本数据进行分词处理和分析.
如果仅对某些语句进行分词处理,可以将要分析的语句输入到上面的检索框中,再点击“运行”即可得到详尽的分词结果和词语信息.如图4所示.
如果对整个文件进行分析处理的话,点击“处理文件…”按钮,会弹出打开文件的对话框,系统会自动将分好的词语保存在相应的目录下,得到的文件留作后面统计处理用.
将汉语词法分析系统分析的词语信息进行统计,其算法如下:
1)初始化cizu,cixing,设定标示符flag,以及字符暂存zz,flag等于0时,表示算法在统计过程中,flag不等于0时,表示一个词组识别结束.
2)读取文件,用字符串(s)记录.
3)设定循环次数i(i在(0,s.Length-1)区间).
当flag等于0时,如果s[i]为空,则继续,i++;若s[i]是'/',则将cizu赋给zz,设置flag等于1,同时置cizu为空,i++;若s[i]是字,则将s[i]赋给cizu,i++.
否则,
若s[i]为空格,申请fenci类ci,将zz、词性赋值给ci,同时置zz为空,之后在fenci类中查找当前加入的词是否有记录,若有记录,则更新记录,数目加1,若没有记录,则新建.置flag为0,cixing为空,i++.
若s[i]不是空格,则将s[i]赋值给cixing,i++.
图4 汉语词法分析系统Fig.4 Chinese lexical analysis system
将文本的基本信息和提取的主题词保存在数据库中,就得到主题词标引的结果.存储过程其相关代码如下:
本文取得的结果是通过中国科学院计算技术研究所开发的汉语分词工具和电子版的中国分类主题词表这2个现有工具,利用计算机编程语言实现中文文献的分词、筛选统计,将分出的词语记录并加以统计词频,词频合适的词被视为能代表文本主旨词语,将其与主题词表进行匹配,从而自动转换成主题词进行存储.对分词得到的关键词进行主题词匹配所用到的电子版中国分类主题词表,存在加密的情况,所以在探讨阶段还需要人工干预,但是如果真正投入使用,与国家图书馆合作将其接口实现即可.
[1] 章洪流,徐伟,吴倩,等.关键词标引常见问题探讨[J].中国专利与发明,2008(8):66-67.ZHANG Hongliu,XU Wei,WU Qian,et al.Discussion on the problems of keyword indexing[J].China Invention&Patent,2008(8):66-67.
[2] 顾潇华,姜亦强,崔涛.中文自动标引、全文检索及搜索引擎三者关系的探讨[J].图书馆学研究,2011(17):88-89.GU Xiaohua,JIANG Yiqiang,CUI Tao,et al.Research on the relationships among Chinese automatic indexing,fulltext retrieval and Chinese search engine[J].Research on Library Sience,2011(17):88-89.
[3] 常鹏,马辉.高效的短文本主题词抽取方法[J].计算机工程与应用,2011,47(20):126-127.CHANG Peng,MA Hui.Efficient Short texts keyword extraction method analysis[J].Computer Engineering and Applications,2011,47(20):126-127.
[4] 曹裕才.关键词及其标引[J].医教研究,1991,19(3):1-2.CAO Yucai.Keywords and indexing[J].Medical Teaching Research,1991,19(3):1-2.
[5] 刘华梅.基于情报检索语言互操作技术的集成词库构建研究[D].南京:南京农业大学,2006.LIU Huamei.Research on construction of the integrated vocabulary based on interoperability technique of indexing languages[D].Nanjing:Nanjing Agricultural University,2006.
[6] 张琪玉.情报检索全过程中概念与标识的对应转换[J].图书与情报,2002(2):33-34 ZHANG Qiyu.In the information retrieval process concept and identification of the corresponding transformation[J].Library and Information,2002(2):33-34.
[7] 仲云云,侯汉清,杜慧平.电子政务主题词表自动构建研究[J].中国图书馆学报,2008,34(3):97-102.ZHONG Yunyun,HOU Hanqing,DU Huiping,et al.Research on thesauri for e-government which used computer-based automatic methods[J].Journal of Library Science in China,2008,34(3):97-102.
[8] 李纲,戴强斌.基于词汇链的关键词自动标引方法[J].情报、信息与共享,2011,141(3):67.LI Gang,DAI Qiangbin.Keywords automatic indexing based on lexical chains[J].Intelligence,Information&Sharing,2011,141(3):67.
[9] 程肖,陆蓓,谌志群.热点主题词提取方法研究[J].现代图书情报技术,2010,198(10):43-48.CHENG Xiao,LU Bei,CHEN Zhiqun.Research on extraction of hot keywords[J].New Technology of Library and Information Service,2010,198(10):43-48.
[10] 张树良,冷伏海.基于文献的知识发现的应用进展研究[J].情报学报,2006,25(6):700-712.ZHANG Shuliang,LENG Fuhai.Research on the applicational development of literature-based knowledge discovery[J].Journal of the China Society for Scientific and Technical Information,2006,25(6):700-712.