张曾昱(1.东北电力大学信息工程学院,吉林 吉林 132001;2.吉林医药学院,吉林吉林 132013)
医学白色文献知识元标引实践探讨
张曾昱1,2(1.东北电力大学信息工程学院,吉林 吉林 132001;2.吉林医药学院,吉林吉林 132013)
医学白色文献;知识元
医学文献资源根据信息来源的不同,可分为黑色、灰色和白色文献三种。医学白色文献指经过正式出版的、并在社会中公开流通的文献,包括图书、报纸、期刊等;灰色文献尚属于一种新型信息源,指非公开出版的文献,包括非公开出版的政府文献、学位论文、会议文献、科技报告、技术档案、内部刊物、交换资料、试验数据等;黑色文献是指非公开出版发行或者发行范围狭窄、内容保密的文献[1-3]。其中医学白色文献的内容价值和影响力最为巨大,是医务工作者最经常使用的文献种类,本文对此加以论述。
医学文献知识的组织方法与文献载体是同步发展的,如纸质文献常用的知识组织方式为目录组织。在电子文献时代,知识的组织方式更为智能,目前主流的知识组织方式为信息元组织,如关键词、作者、出版机构、题名和摘要等均属于信息元的组织方式。下一代的信息组织方式为知识元组织。所谓知识元,是指不可再分割的具有完备知识表达的知识单位,两者比较,知识元组织方式具有划时代的意义。首先知识元是显性知识的最小可控单位,如一篇文章通过关键词、作者等信息只能表现出该文章某一个方面,显然不能代表文章的全部。与之比较,信息元能够挖掘出文章更多有价值的信息;另外,知识元是具有一定结构的,通过对知识元结构人工或自动分析,可以导致知识价值的增值,甚至是催生新的知识,可见医学文献的知识元组织是目前最佳的知识方式,而对医学文献知识元的提取和标引,是实现知识元组织的基础和前提。
中文文献在正常情况下文献的逻辑意义由句子表示,分词的目的就是将以句为单位转化为以词为单位,缩小文献的知识组织粒度,便于对文献内容进行深入的数据挖掘。目前常用的分词算法主要包括基于理解的分词方法、基于词频统计的分词方法和基于字符串匹配的分词方法三种,作者选择字符串匹配算法实现医学白色文献的分词,其原因在于:一方面医学白色文献的种类和数量非常庞大,字符串匹配算法是首选的分词方法。另一方面从专业字典构建的难易程度分析,白色文献从编写至文献出版单位的审核、发表均经过作者和编审仔细的阅读和修改过程,基本保证了用词规范和准确,这极大降低了专业字典的构建难度。
分词后,由词语直接作为文献组织的基本单位仍然不是十分理想,主要缺陷为文献组织粒度过于细小,如一篇1万字的医学白色文献,可能划分为三千个词语,若100万篇这样的文献,将会出现30亿个词,再由此产生的知识链接数量是不可想象的;最主要的是并不是每一个词语均能表述文献表述的重点,相应的也就没知识链接的价值和意义。因此需要从已有的分词中找出关键词,浓缩文献有价值的信息。
向量空间模型(Vector Space Mode,VSM)是于20世纪70年代由Salton等人提出的一种模型,是文献资源的另一种表示方法,并成功地应用于著名的SMART文本检索系统[4]。VSM能够将文献内容进行处理,简化为向量空间中的向量运算。并且它以空间上的相似度表达语义的相似度,直观易懂。VSM模型由以下几部分组成,分别为:一、文档。文档就是文献内容的本身,如本论文就是一个文档。二、特征项。特征项是表示文档的语言单位,如上文的研究过程,将以句子作为医学白色文献的基本单位调整为词语,每一个词语就是一个特征项。三、特征项权重。特征权重项标识特征项的重要程度,用来在众多的特征项中,找到有价值有意义的特征项。实质上就是从词语中提取关键词的过程。
特征项权重的计算方法。特征项权重的主要的计算方法包括布尔权重、特征频率和TFIDF等几种。其中布尔权重和TF权重计算机方法具有一定的局限性,如仅考虑了特征项在文档出现的情况;TFIDF算法要优于前两者,却忽略了词语在文中位置所提供的参考价值,如不同的词语出现在标题、关键词和正文等处,所内涵的价值信息是不等的,因此对TFIDF算法进行修改,即在传统TFIDF算法的基础上,增加了词语的位置权值系统K值[5-6],若同一词语出现在多个位置上,按最大值计算。
提取关键词后,接下的工作就是将关键词还原回文献中所在的句子中,然后对句子进行特征分析,如判断句子是否完整等等,得到句子即为关键句,至此实质上意味着知识元提取的步骤已经完成,知识元就包括在关键句中。最后按着知识元的结构对关键句进行描述就完成了整个知识元标引的过程。
知识元标引完成后,实现了医学白色文献的知识元层面组织,降低了知识组织的粒度,但这并不是知识元标引的终点,如以CNKI数据库为例,笔者以HBV为检索词进行主题检索,总计得到47 517个结果,若在知识元的组织情况下进行知识元检索,必将得到更多的结果,医护人员在海量的信息面前更将无从下手。因此在未来的工作中,设计合理医学白色文献知识元描述框架和知识元链接框架,为医护人员信息的检索和获取提供便捷。
[1]梅玲.公共图书馆灰色文献收集实践与思考——以贵州省图书馆为例[J].图书馆学研究,2014(3):33-35.
[2]杨国华.灰色文献的探索与研究[J].河南图书馆学刊,2002,22(4):6-8.
[3]杨振力,赵跃亮.灰色文献数字化建设思考[J].四川图书馆学报,2012(1):44-47.
[4]曲立平.基于向量空间模型的方面挖掘方法研究[D].哈尔滨:哈尔滨工程大学,2013.
[5]付蕾.知识元标引系统的设计与实现[D].上海:华中师范大学,2009.
[6]王春利.护理学理论和实践知识的组织与映射研究[J].中国农村卫生事业管理,2014,34(8):1001-1003.
G254
B
10.13845/j.cnki.issn1673-2995.2015.04.015
1673-2995(2015)04-0270-02
张曾昱(1981-),男(汉族),馆员,硕士在读.
2014-10-26)