《中图法》在图书馆资源语义化中的应用

2017-03-22 04:00:04,,,,,
中华医学图书情报杂志 2017年7期
关键词:中图法词表疱疹

, , , ,,

所谓语义信息,就是将文献变为计算机能理解的信息,即语义标签,用语义标签表述文献内容,是图书馆资源组织发展趋势。在语义环境下,知识服务转变为对文献资源的深度挖掘,提供文献的语义信息。由于传统的资源组织方法在图书馆资源组织中的长期应用,形成了规范的分类体系和词组,其高度结构化、规范化的内容是资源组织长期积累的成果。如何扬长避短、利用这些成果是我们必须考虑的问题。

1 中图法在语义化中应用的优缺点

分类法是按照知识的门类、逻辑次序,层层划分、逐级展开的列举式线性结构组织信息[1],是传统纸质文献的组织方式,其体系等级结构可以看作逻辑结构,从而帮助计算机理解概念。在网络时代仍被应用于网站建设等方面,雅虎就是因其分类的特点而被视为分类网站发展的模板。

《中图法》是一部既可以组织藏书排架,又可以分类检索的列举式等级式体系组配分类法。《中图法》是使用最广泛的中国图书分类法,主要供大型综合性图书馆及情报机构类分文献、编制分类检索工具、组织文献分类排架使用,同时也可供其他不同规模和类型的图书情报机构根据需要调整使用。其中的每个类不仅有类名,还有中图法设定的类号,按照一定的规则,每个类目有其特定的中图法分类号。由于《中图法》的类号被广泛应用,通用性较强,同时从其排版形式和类号的结构都可以看出,类与类之间的父子关系,很好地揭示了类目之间的关系。其不足之处是只反映了类与类之间的父子关系,关系揭示深度不够。由于是专业人员编制,不容易被大众接受,需要专业人员的转换,增加了利用难度。《中图法》的修订是一项浩大的工程,涉及的学科范围广泛,版本之间的修订年度一般时间很长,不能及时反映学科的发展。

2 资源语义化的理论基础

资源语义化是文献服务的终极目标,但是以现有的技术水平还不能实现。刘耀等根据共轭控制原理(即如果对事物甲的控制不能实现,则可以通过控制与其相似的事物乙,进而控制事物甲),提出“内容与形式交互的图书馆资源组织语义化”理论,即把资源语义化分为内容语义化和组织语义化两个层次。内容语义化即我们的终极目标,是对文献内容的语义化理解;组织语义化是利用自然语言处理技术对资源进行处理,从而实现形式上的语义化。形式上的语义化和内容上的语义化交互促进,进而最终实现内容语义化[2]。基于这种理论,以皮肤病为例展开研究,在本体自动构建平台和语料加工平台下,尝试进行皮肤病学本体的自动构建,语料的处理及相关文献的语义标注。

3 《中图法》在语义化中的应用

语义化涉及的两个关键问题是语义元数据的生成和语义标注。本文主要论述了《中图法》在语义化的这两个环节中的应用。

语义元数据是依赖于本体知识创建的,是利用本体中的实体概念,对领域知识文档进行标注后形成的标注资源的集合,其本质是对语料经过语义标注后形成的领域实体数据。当前语义元数据的构建和语义标注技术发展迅速,涌现了很多工具和方法。语义元数据提供数据的语义信息,其生成技术与本体的构建方法基本一致。本体是描述概念的模型,其描述的范围主要集中在语义和知识表现层面,是领域知识的通用表述方式,能够在不同系统、不同层面进行共享并且可以进行推理和复用。

3.1 《中图法》在语义元数据构建中的应用

领域本体构建的关键是概念的获取及概念之间关系的获取。如何将领域知识及其之间的关系转变为本体能描述的关系是关键技术。关于对领域知识及其之间关系的描述,我们选取了该领域的结构化词表。该领域的结构化词表是专业人士对该领域知识的提炼总结,并将其关系用词表的形式表现出来,如中国图书分类法和Mesh词表都是结构化词表的代表。

目前,分类法的体系等级结构可以看作逻辑结构,从而帮助计算机对概念的理解。本体概念自动获取的方法主要是将叙词表和专业词典中的概念直接转换填充到本体中,其中基于词表的转换是本体概念获取的研究重点,词表中又以叙词表、主题词表的研究为重点中的热点。他们通常能够揭示文章的显性、重要信息,但无法揭示隐形信息。为了解决全面揭示蕴含在文献中的知识信息的问题,在利用传统资源组织方法构建语义元数据的同时,引入了标签本体。

本文所应用的本体辅助构建平台就是基于结构化的词表,并且支持3种类型的结构化词表:按代码分层、由Tab键分层、按上下位关系分层的词表[3]。本文就是基于这3种类型的词表(图1),将其关系转变为本体里类间的关系,并获取概念间的逻辑关系,即父类与子类之间的关系[4]。

实例讨论如下。如图2所示,根目录下面是大类,大类下面是子类,构成树状结构图,从而构成了本体的类。该过程基本实现类的获取,类间关系的获取的自动化。评价方式采用了常用的3个评测指标:准确率(P)、召回率(R)、综合指标F值(F)。

其中,准确率(P)的计算方式如下:

召回率(R)的计算方式如下:

F值的计算方式如下:

通过对该实验进行统计,其中T为导入结果中正确的个数,N为导入后的数据总和,M为要导入的数据总和。

通过计算得出:P=1,R=0.998,F=0.999

通过结果可以看出,该导入方法表现出很高的准确率、召回率,综合指标表现优秀。运用该方法导入词表,实现语义概念的生成完全可行。

图1 词表的导入

图2 导入后生成的树状结构图

3.2 《中图法》在专业语义词典建设中的应用

领域专业词典是区别于一般的关于该学科领域的词典,主要用于领域文献的切分标注。由于用通用词典进行领域文献的切分标注,其效果不如专业词典。如通用词典不能反映词条间的关系,只是按照一定规则将词条列举出来;专业的语义词典不仅是专业术语的罗列,更能反应词条间的逻辑关系。基于Web的多领域语料标注加工系统(MDCA)的一个重要功能是专业语义词典的生成、编辑[5]。本文的皮肤病学语料加工部分的实验就是在此基础上进行的。

(MDCA)系统支持的词典生成工具是专业语义词典生成工具flat2tree.jar,用户只需按照系统要求上传所需的文件格式,系统就可自动生成专业语义词典。本实验采用的是输入系统要求的专业词典格式,上传格式要求为:每行一对术语的上下位词语,前面是子类,后面是其所属的父类,两个词语中间以空格分开如下所示:

皮肤病 疾病

皮炎 皮肤病

接触性皮炎 皮炎

特应性皮炎 皮炎

自身敏感性皮炎 皮炎

郁积性皮炎 皮炎

湿疹 皮肤病

婴儿湿疹 皮肤病

汗疱疹 皮肤病

手癣和脚癣 皮肤病

将该格式保存为UTF-8格式,然后上传至系统界面(图3),点击“开始生成”,系统即自动生成专业语义词典。

图3 词典的生成

生成的专业语义词典将显示在系统界面上,输出的词典格式为以Tab键分割的语义词典上下位关系,同时在每个条目后面以汉语拼音的首字母缩写作为标注。生成的专业语义词典格式如下:

疾病,jb

皮肤病,pfb

皮炎,py

接触性皮炎,jcxpy

特应性皮炎,tyxpy

自身敏感性皮炎,zsmgxpy

郁积性皮炎,yjxpy

湿疹,sz

婴儿湿疹,yesz

汗疱疹,hpz

手癣和脚癣,sxhjx

词典生成的同时系统将激活与专业语义词典相关的功能,而词典的生成功能将不能使用。此时与专业语义词典相关的功能为:查看语义关系树、保存到数据库、导出专业语义词典。

语义词典生成后可用来对语料进行标注。生语料如下:

急性湿疹表现为原发性和多形性皮疹。常在红斑基础上有针头到粟粒大小的丘疹、丘疱疹,严重时有小水疱,常融合成片,境界不清楚。在损害周边,丘疱疹逐渐稀疏。皮疹分布对称,多见于面、耳、手、足、前臂、小腿外露部位,严重者可弥漫全身,自觉瘙痒较重。常因瘙痒形成点状糜烂面,有明显浆性渗出。如继发感染,则形成脓疱、脓液、脓痂、淋巴结肿大,甚至有发热等全身症状,如合并单纯疱疹病毒感染,则可形成严重的疱疹性湿疹[6]。

标注后的语料如下:

急性/n 湿疹/n 表现/v 为/p 原发性/n 和/c 多形性/n 皮疹/n 。/x 常/d 在/p 红斑[疾病C,/n_jbc.皮肤和结缔组织疾病,/n_pfhjdzzjb.皮肤疾病,/n_pfjb.红斑./n_hb3] 基础/n 上有/v 针头/n 到/v 粟粒/nr 大小/b 的/uj 丘疹/n 、/x 丘/nr 疱疹/n ,/x 严重/a 时/ng 有/v 小/a 水疱/n ,/x 常/d 融合/vn 成片/n ,/x 境界/n 不/d 清楚/a 。/x 在/p 损害/v 周边/f ,/x 丘/nr 疱疹/n 逐渐/d 稀疏/a 。/x 皮疹/n 分布/v 对称/v ,/x 多见于/d 面/n 、/x 耳[耳./n_e2] 、/x 手[解剖A,/n_jpa.身体部位,/n_stbw.四肢,/n_sz.臂,/n_b1.手./n_s] 、/x 足[解剖A,/n_jpa.身体部位,/n_stbw.四肢,/n_sz.腿,/n_t1.足./n_z2] 、/x 前臂[解剖A,/n_jpa.身体部位,/n_stbw.四肢,/n_sz.臂,/n_b1.前臂./n_qb] 、/x 小腿/n 外露/v 部位/n ,/x 严重者/nr 可/v 弥漫/v 全身/n ,/x 自觉/d 瘙痒/a 较重/a 。/x 常因/n 瘙痒/a 形成/v 点状/n 糜烂面/nr ,/x 有/v 明显/a 浆性/n 渗出/v 。/x 如/v 继发/v 感染[疾病C,/n_jbc.细菌感染和真菌病,/n_xjgrhzjb.感染./n_gr] ,/x 则/d 形成/v 脓疱/n 、/x 脓液/n 、/x 脓/n 痂/n 、/x 淋巴结[淋巴组织,/n_lbzz.淋巴结./n_lbj] 肿大/v ,/x 甚至/d 有/v发热[疾病C,/n_jbc.体征和症状病理状态,/n_tzhzzblzt.体征和症状,/n_tzhzz.体温变化,/n_twbh.发热./n_fr]等/u 全身/n 症状/n ,/x 如/v 合并/v 单纯/a 疱疹病毒/n 感染[疾病C,/n_jbc.细菌感染和真菌病,/n_xjgrhzjb.感染./n_gr] ,/x 可/v 形成/v 严重/a 的/uj 疱疹/n 性[生物科学,/n_swkx.生殖和泌尿生理学,/n_szhmnslx.生殖,/n_sz11.性./n_x10] 湿疹/n。/x

通过对比可以发现,标注后的语料不仅包含专业词组,还揭示了该专业词典的上下位逻辑关系等,更有助于理解语义。

4 结论

本文参照《中图法》和《MeSH》词表,对传统词表进行重构,在语义元数据辅助平台下导入专业语义词典,设置本体类的属性,成功构建了皮肤病学领域本体并生成树状语义结构,并且构建了专业的语义词典用以对文献进行语义标注。但是构建过程中发现,《中图法》电子化、网络化的程度不够,在使用过程中存在困难。

随着自动分类标引以及自动主题标引的研究与发展,分类主题一体化越发显得重要,情报检索语言将由单一的检索语言转变为分类-主题-自然语言一体化以及国内外分类法兼容化[7]。

猜你喜欢
中图法词表疱疹
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
英语世界(2021年13期)2021-01-12 05:47:51
疱疹性咽峡炎来袭,帮宝宝渡过难关
启蒙(3-7岁)(2019年5期)2019-06-27 07:25:04
汗疱疹的中医治疗
基层中医药(2018年8期)2018-11-10 05:32:04
中医治疱疹性咽峡炎
基层中医药(2018年3期)2018-05-31 08:52:12
叙词表与其他词表的互操作标准
改良Trizol-SiO2法在咽拭子及疱疹液EV71-RNA提取中的应用
知识图谱视角下《中国图书馆分类法》研究演进与思考
国外叙词表的应用与发展趋势探讨*
图书馆建设(2012年3期)2012-10-23 05:16:30
《中图法》与《中分表》修订信息(连载3)
常用联绵词表
对联(2011年20期)2011-09-19 06:24:36