, ,鹏年 , ,
随着语义网技术的不断发展,本体(ontology)成为知识组织的研究热点,越来越多的研究人员开始构建基于本体的知识库。本体是共享概念模型的明确的形式化规范说明[1],包含概念、关系、属性、公理、函数、实例6个要素[2]。在本体的六要素中,概念是中心属性,其它属性都是对概念的明确的形式化规范说明。本体的构建需要以概念为核心,实现对领域概念术语的整合,概念获取是构建本体的重要工作。
中华人民共和国国家标准GB/T 15237.1-2000 中,将其“概念”定义为是对特征的独特组合而形成的知识单元[3]。军事医学概念应满足领域概念的一般性特点:首先是概念的词性通常为名词,其次是概念所表达的内容一般是一类或者具有实际意义的事物,不能太过具体[4]。军事医学是研究在军事活动中鉴定、保护、恢复和促进军队成员健康的理论、技术和组织方法的特种医学,是医学与军事学的交叉学科[5]。军事医学是一个特殊的分支范畴,目前学科体系的划分没有形成统一的标准,定义不明确,边界不明显。军事医学概念应包含军事医学领域的全部方面,其概念表达的全面性和代表性应获得领域专家的认同。随着时代变革及学科的不断发展演化,军事医学的概念也应不断更新。
军事医学概念包含通用性概念、上位学科领域概念和军事医学领域特有概念3个部分。
通用性概念是任何学科领域都需要的,属于通用本体的基本内容,在军事医学领域概念中也不可或缺,如时间、地名、人名、机构等。
上位学科领域概念(以军事医学为例)。军事医学是医学和军事学的交叉学科,军事医学概念与医学和军事学概念存在相似性[6]。因此既可以继承某些医学领域概念,如基础医学、临床医学、急救医学等概念,也可以继承某些军事学概念,如战创伤等军事伤病防治领域概念。
军事医学领域特有概念的特点是在军事医学领域频繁出现,而在其他领域及通用领域中出现的概率较小,如军队卫生学、军队流行病学、核化生武器医学防护学、军事生物医学工程学、军队卫生装备学、军事药学、军事医学史学等学科领域概念。
《中国图书馆图书分类法》(简称“中图法”)第五版中包含5大部类、22个大类、51 881个类目,中图法是我国图书情报界广泛使用的综合性分类法,对中文图书和文献的分类标引起到重要作用,能够为领域本体构建提供基本概念。其中与军事医学相关的类目为R82军事医学、R83航海医学、R84潜水医学、R85航空航天医学。
《军用医学主题词表》是军事医学领域的专业叙词表,是《军用主题词表》系列的重要组成部分,1993年出版。该词表对统一和规范我国军事医学用语、建立军事医学数据库、健全军事医学情报系统、实现全军联机检索和资源共享具有重要作用[7]。用户可以从字顺表、范畴表(学科分类)和英文译名3个角度查找。词表总词量为23 387个,其中正式主题词(含有专业名词)为20 662个,非正式主题词为2 725个,属大型专业词表。词表包含了军事医学领域内的概念系统,并提供了概念术语间“用、带、属、分、参”关系。词表中设置了族首词,表示在词族中概念最大的主题词。如在卫生装备的本体构建中,族首词“医疗后送工具”的款目格式实例如下:
汉语拼音→Yi liao hou song gong ju
款目词 →医疗后送工具* [0210]←范畴号
英文译名→Medical evacuation mean
参照项“代”→ D 伤病员运输工具
参照项“分”→ F 担架
·海军担架
海上伤员换乘工具
·换乘吊篮
救护车
卫生船舶
·救护艇
·卫生运输船
·医院船
卫生列车
参照项“参”→ C 卫生飞机
医疗后送飞机
在上面这个实例中,可以得到的本体概念有“工具、伤病员、担架、救护车、卫生船舶、救护艇、卫生列车、卫生飞机、”,而“海军担架、换乘吊篮”为概念的实例,“运输、换乘、后送”这种与动作相关的词可以作为概念之间的关系。
传统《军用医学主题词表》提供了相对丰富的军事医学概念及可靠的概念关系,是构成军事医学本体概念的良好基础,应该最大程度地加以继承。
专业词典能够对其领域内的专业词汇作出解释,因此可以从中抽取领域本体的概念及关于概念的定义。军事医学词典包括《军事医学辞典》 和《汉英常用军事医学词汇》等。代表领域内权威的书籍包括著作、教科书、百科全书等,其专业性较强,包含领域的概念及解释,可从中提取核心概念,用于领域本体的构建。军事医学的论著有《军事医学概论》和 《军事医学系统论》,教科书有《现代野战内科学》 《海战外科学》 《军事医学地理学》《防化医学》 《军事劳动卫生学》《军事环境卫生学》 《军事医学社会学》《军事检验医学》 《军事作业医学》 《核武器与核事件医学防护学》 《生物武器损伤防护学》《军队营养与食品卫生学》《外科学及战创伤外科学》 《野战护理学》《军事医学病理学》《军事医学心理学》《军事预防医学》等,百科全书有《中国医学百科全书:军事医学卷》和《中国医学百科全书:军队卫生学》以及与医学相关的各卷。
传统的军事医学知识组织法如叙词表、百科全书等,大多为20世纪90年代出版,内容较为陈旧,且后续无更新版本。随着科技进步和军队战斗力的发展变化,军事医学也在不断地发展演化。新的领域概念不断产生,词义不断引申,军事医学概念需要不断扩充新词及概念间的语义关联,同时要根据领域的最新进展,甄别和去除那些陈旧过时的概念或概念间关系,确保军事医学本体的科学性、全面性和及时性。基于此,我们提出一种基于文献词频统计的综合集成法来获取军事医学的本体概念,其技术路线如图1所示。
图1 军事医学本体概念获取技术路线
军事医学科研机构是军事医学系统发现主体中从事与军事任务需求最密切相关科研项目的主体,研究军事医学科研机构的发文可掌握军事医学核心研究领域的热点和发展趋势[8],因此采用军事医学科研机构发表的文献集作为军事医学文献集。
3.1.1 军事医学样本文献集的搜集
选取大型中文文献数据库,用军事医学相关主题词进行检索,并设定检索范围为数据库中“医学卫生”领域,得出军事医学样本文献集。通过在军事医学专业词表及论著中提取与军事医学密切相关主题词,得到如下检索词,如“军队”、“军事”、“海军”、“战争”、“武器”、“空军”、“防护”、“勤务”、“野战”、“战伤”、“航海”、“航空”等。
3.1.2 军事医学机构检索集的确定
提取军事医学样本文献集的机构名称,按照出现频次排序,得出排名靠前的机构名称,再手工对其进行筛选。在得出的机构集中,由于医院的定位不仅仅服务于军事医学,还要保障广大人民群众的医疗健康,发文范围远大于军事医学的研究范畴,因此军事医学机构集中应去除医院,通过进一步核实得出军事医学机构检索集。
3.1.3 军事医学文献集的建立
在选取的中文文献数据库中,按照机构的检索方式,在专业检索中编辑输入军事医学机构检索集的名称,得出军事医学文献集。
关键词能够表现出文献的主题,便于分割,不需要进行分词,并且经过了初步规范,因此利用关键词提取词汇方便可行。关于概念的获取方法,无论国外还是国内,基于统计的方法都是主流[9]。在军事医学文献集中,提取关键词,统计每个关键词的频次,再通过以下两种选取方式构建军事医学文献词汇集。
3.2.1 选取军事医学领域高频词汇
词频信息为领域词汇的选取提供了重要依据,词频高的词汇是领域的核心词汇,但光凭高频词还不够准确。对于一些典型的通用概念,如“设计”、“实验”、“应用”等,虽然出现频次很高,但不能代表军事医学的领域概念,因此还需要判断词频专业偏向度。词频专业偏向度的含义为一个关键词在专业领域文献中的词频与在学术文献总库中的词频比值,取值范围为0至100%[10]。词频专业偏向度越高,代表该词属于专业领域词汇的可能性越大;同时,频次越高,代表该词在专业领域中使用越多。通过词频专业偏向度和词频绝对值,可以确定军事医学领域的高频词汇。如我们在中国知网CNKI中,利用关键词检索“卫生装备”一词,检索结果的学科分布如图2。从图2可以看出“卫生装备”在“特种医学”和“军事医学与卫生”学科中的词频明显高于其他科学。由于这两个学科均属于“军事医学”范畴,将这两个学科词频相加,得出“卫生装备”的词频专业偏向度为72.86%,确定为军事医学范畴。
图2关键词“卫生装备”在CNKI中按学科词频分布
3.2.2 选取军事医学领域热点词汇
有些关键词的词频绝对值不高,不属于高频词,但是按照年代分析该词的词频时发现,某一年该词突然出现并且频次快速提高,这类词称为领域热点词。如“非典型肺炎”在2003年之前没有该关键词,但由于2003年我国爆发大规模“非典”疫情,使该关键词从2003年起突然出现并达到383次,被认定为领域热点词(图3)。在构建军事医学文献词汇集时,应把这部分词汇也考虑在内,使军事医学领域词汇更加全面。
图3关键词“非典型肺炎”在CNKI中按年代词频分布
传统的叙词表、分类法、词典、百科全书、专业论著等为领域概念获取提供了丰富的术语库,应最大程度加以继承。对这些传统知识组织法进行数字化,将其加工成TXT、XML等格式,便于对词表进行分析和利用。叙词表中还包含范畴表,为专业词汇定义了范畴分类,数字化的过程中应保留对应关系,便于获取领域概念及概念间关系。
将通过关键词词频统计得出的军事医学文献词汇集与原有军事医学专业词汇库进行匹配,判断文献词汇集中的词汇是否为新增词。若军事医学专业词汇库中没有该词,则判断为新增词,否则舍弃。对于新增词,还应进一步判断该词所属的范畴分类,利用该词在数据库中不同学科分组出现的词频,词频最高的学科分组为该词的范畴分类。
利用范畴表可以从更新后的军事医学专业词汇库提取本体概念。另外,对军事医学专业词汇进行同义词合并,利用合并后的词频排序,也可以为本体概念的提取提供参考。
本文通过对军事医学传统知识组织方式进行分析,提出了基于文献关键词词频统计的综合集成法获取军事医学本体概念,既继承了传统词库的权威性和系统性,又能够从文献中提取高频词和热点词对传统词库加以补充,使传统词汇库不断更新和更加完善。
与传统的基于知识组织法获取军事医学本体概念的方法相比,本文提出的基于文献关键词词频统计的综合集成法具有以下优点:一是传统知识组织法大多较为陈旧过时,无法紧跟军事医学学科的发展演化,基于文献的概念获取方法更具及时性和客观性;二是传统知识组织法能够体现完整的学科结构,基于文献的概念获取方法更能体现不同时期军事医学的发展状态,可以用来甄别和去除传统知识法中陈旧过时的概念;三是基于文献关键词词频统计的综合集成法能够提取出军事医学领域特有的概念集。传统知识组织法涵盖了军事医学相关的所有概念,但不利于对军事医学特有概念的提取。
军事医学是由自然科学、社会科学和人文科学交叉生成的一门特殊学科,学科领域范围不明确、边界不清晰,概念的提取也比较复杂。军事医学在近几十年的发展中积累了大量文献数据,目前我们已经完成了军事医学文献集的建立,接下来会通过大量实验数据验证本文方法的适用性,并不断修正技术流程,使军事医学本体概念的获取方法更加科学可行。