基于知识元的中医古籍文献研究述评

2022-02-10 14:53王凤兰
南京中医药大学学报 2022年12期
关键词:古籍整理标引古籍

王凤兰

(中国中医科学院中国医史文献研究所,北京 100700)

相对于中医古籍所蕴含的极大价值而言,目前中医教育、科研、临床存在对中医古籍知识利用严重不足的现象,这与中医文献的研究方法固守传统,不能有所突破密切相关。事实上,领域内一些专家20世纪90年代起便对中医文献的研究方法提出前瞻性的看法,认为中医文献研究要探索和建立新的技术与方法,如采用实证的方法,使中医文献研究的水平进一步提高[1-2]。还有一些学者明确指出,中医文献研究要借鉴与利用信息技术,可为文献研究的开展提供广阔的发展空间[1,3-4]。更有学者基于中医数字化的研究方法认为,不仅要利用好信息技术,还要在文献研究中引入循证医学的思想,对中医古籍知识的证据级别进行评估[5]。

基于知识元的中医古籍文献研究方法是传统古籍整理研究结合信息技术所产生的新方法与新技术。文本主要基于知识元的知识表示方法取得的成就、存在的问题和未来可能的发展方向进行论述。

1 中医古籍的知识元研究方法

1.1 基于知识元的研究方法

基于知识元的研究方法由中医知识体、知识元、语义三部分组成。

1.1.1 中医知识体 知识体(Body knowledge, BK)是知识系统中可以独立表达一个特定主题的不可再分解的知识单元,是位于知识元上一层次的知识,由两个及以上对应同一主题的知识元聚合而成,通过体概念来描述。知识体对象表现为从自然文本中抽取出的包含有两个及以上对应同一主题知识元对象的一段连续的文字。在中医古籍的数字化建设中,知识体主要是指知识体系,如病证知识体、本草知识体、医案知识体等。由于这些知识的描述与表达是在特定语言背景下的,因此,其内容十分丰富,被学者们称之为“海量数据”[6]。同时,面向古籍的数字化需求,知识体亦可以应用于古籍的书体结构表达上,即一种古籍的卷、篇、章结构。在具体实施中,一种古籍的卷可以被视为是一个知识体,篇及章节等亦如此。因此,中医古籍的知识体既可以指代内容,亦可以指代结构。

1.1.2 中医知识元 知识元(Element knowledge,EK)是知识系统中可以表达一个完整概念的不可再分解的最小知识单元。在形式上它是由多个词语、词组或短语构成的集合,在内容上它表达一项相对完整的知识。知识元对象表现为从自然文本中抽取出的由词语、词组或短句构成的一段连续的文字。中医古籍的知识元十分丰富,有学者统计,中医古籍共包含217种不同属性的知识元[6]。知识元一般包含于一个特定的知识体内,如病证知识体所包含的知识元有19个之多,医案知识体所包含的知识元24个,本草知识体所包含的知识元32个[6]。知识元力求能够通过多层次、多角度反映知识体内容。有时候会存在不同知识体包含同样名称的知识元现象。如“宜忌”知识元,既是病证知识体内的知识元,亦是本草知识体的知识元,知识元名称虽然相同,但由于其所在的知识体不同,其含义亦不同。因此,对中医古籍知识元的研究是进一步深化知识元理论,并对知识规律演变研究的一个重要途径。对知识构成组分问题的研究体现了人类对知识认识的深化,是人类对知识认识的必然趋势。因此,对知识元及其运动规律的研究具有重要的理论价值。[7]

1.1.3 中医语义 语义是构成知识元的基本要素,是知识元中完备表达单一概念的词组或短语,在知识元中具有不可分割性。知识系统中的语义成分按照共有属性可划分为抽象的类,称之为“语义类型”,即通常意义的概念。中医古籍的语义随着知识类别的不同,表述方式以及结构存在差异。

基于中医古籍知识元这种深入文献内部的知识组织方法,通过对中医古籍文献中知识元的抽取与标引,构建起以知识体为单元的知识组织体系;通过对语义成分间关系的标引,关联起中医古籍的知识语义网络,形成具有全新概念的中医知识表示体系,将古籍知识由自然记载形式过渡到适合计算机处理的表示形式,使中医古籍知识表示突破了零的界限[6]。

1.2 知识元方法的理论基础

2006年,史睿[8]指出,古籍数字化属于古籍整理和学术研究的范畴,明确了古籍数字化的实质。基于中医古籍知识元的研究方法受古代目录学、校勘学等传统中医古籍整理的理论和方法启示,与现代信息技术元数据理论相结合,形成的一套具有全新概念的中医古籍整理方法,该方法隶属于传统中医古籍整理的方法与范畴,是传统中医古籍整理方法的延续与发展[6]。

中医古籍内涵十分丰富,为了将复杂的中医古籍知识呈现,实现传统文献学研究的“辨章学术,考镜源流”,对中医古籍的知识分类必须先行。有学者将中医古籍知识分为9大类:生命知识、养生知识、疾病知识、诊断知识、疗法知识、针灸知识、方剂知识、药物知识、相关知识等[9]。对中医知识的分类,是实现知识管理的重要基础与条件。

借鉴“章句之学”理念,并利用“编制卡片”,对知识进行管理,发现中医古籍知识表示的是一个逻辑思维现象,即一个较大范围主题的知识往往由几个指向同一主题的较小知识单元构成,由此,构建了中医知识体(中医知识分类)、知识元(一个独立的可表达完整中医知识并不可再分的单元)、语义(词与词组)等具有全新内涵的概念。

故基于知识元理论的中医古籍数字化,不是无本之木、无水之源,知识元理论与传统古籍整理的章句之学和分类思想一脉相承,是对中医传统古籍整理的延续与发展。

2 基于知识元的中医古籍研究现状

2004年柳长华发表了“基于知识元的中医古籍计算机知识表示方法”[9]。此后,基于知识元的中医古籍数字化陆续从多角度展开,主要有知识元理论、古籍叙词表、知识挖掘、古籍知识循证等研究方向。丁侃[10-13]基于知识元理论,研究了中医古籍元数据,并进一步探讨了基于知识元的中医古籍方剂知识表示,同时对国内知识元相关研究现状进行分析,在中医学术传承脉络构建方面提出了设想。徐春波[14]主要致力于中医古籍的元数据、知识单元的组织及叙词表的构建等研究。杨继红[15]探讨了基于本体的中医古籍叙词表构建方法。顾漫[16]对中医古籍基于知识元的叙词表构建进行了传统古籍整理的溯源研究,许雯[17]在中医古籍叙词表体系构建上提出采用“中医知识分面分类的思想和等级列举式分类法,进行多元划分、多重列类”,古求知[18]以温病古籍为研究对象,讨论了温病古籍的知识特点和知识发现方法,并对病证、诊法、方剂与药物知识等相关性进行了方法学探讨。王凤兰[5,19]基于回顾性分析,探索了对古代临床医家进行评价的方法,提出“三位一体”对中医古籍知识进行循证研究,同时在知识表示与标引方面进行了学术探讨[20];陶晓华[21-22]基于“知识元”理论的《伤寒论》标引实践,构建了基于知识元的“病脉证并治”标引模板。

目前学界在中医古籍的元数据构成、叙词表构建、知识发现、循证研究均有涉猎,并基于此构建了系列古籍知识库检索系统及决策支持系统等[23],形成了系列古籍数字化规范和标引手册,具备了规模化开展中医古籍数字化建设的条件与基础。

3 目前中医知识元研究存在的问题

3.1 中医古籍的语义类型及语义关系研究尚处于初级阶段

语义类型是概念所属的语义形态,语义关系则表达概念之间的关系。语义类型和语义关系共同构成网状的语义结构,在这种网状的结构中,语义类型相当于语义网络的节点,而节点与节点之间的关系则是语义关系[24]。

严季澜将“语义类型”与“语义关系”放在知识元的框架下进行释义,谓“知识系统是由知识元构成的,知识元是由语义成分构成的。知识系统中的语义成分可以按照共有属性划分为抽象的类,即‘语义类型’”,“单独的语义成分往往不能表示完整的知识,语义成分的相互关联是知识表达的关键。语义成分之间关联的含义,成为语义关系”[25]。

学者们已经从中医的思维习惯及语言表述特征,认识到中医古籍所承载的知识与现代医学不同。朱毓梅认为:“中医思维的习惯是‘取类比象’,个体化诊疗是中医临床的特色描述方式。”[26]崔家鹏认为:“将中医以象思维为特点的知识表述模式转换为用语义关系这类逻辑关系的知识表述形式,并将中医知识完整、精准地表述,中医药学语言系统(TCMLS)的58种语义关系是不足以实现的。”[27]崔家鹏还提出,在研究中要充分认识到,语义概念的提取是基于古籍这一语境:“为保证语义关系构建的准确性,采用人工知识抽取方法。……按语境逐句分析语义关系素材库中资料的语义,逐一确定领域概念的语义类型、每两个领域概念间的语义关系”[27]。说明构建中医古籍的语义类型及语义关系,不能背离从古籍中客观收词的原则,并需基于一定语境进行深度分析,所构建的语义关系与语义类型当可信。

朱毓梅亦认为:“由于古籍年代和地域的差距过大,一词多义、多词同义现象非常普遍。”[26]因此,基于中医古籍的语义类型及语义关系的构建必更加复杂。目前,学界基于某些病证构建其知识本体,研究了几种病证语义类型与语义关系,如朱玲[28]构建了《医学纲目》语义关系;崔家鹏[27]基于部分古籍结合术语词典等工具构建脾脏理论语义关系;许雯[29]利用TCMLS 所制定的127种语义类型、58种语义关系示范性地构建了语义网络。

基于上述研究,中医古籍的语义类型及语义关系研究尚处于初级阶段。笔者认为可以从古籍的类别入手,进行深入研究,如可从中医内科古籍或者方剂古籍开始,研究其语义类型及语义关系;亦可以从中医的知识分类入手,如生命知识或病证知识入手,构建一类古籍文献或者一类知识的语义类型与语义关系。

3.2 对中医古籍知识元的概念认识存在分歧

黄俊伟[30]研究认为,目前学界对知识元的概念尚未统一,分歧主要在于对知识元粒度的认知上。多数专家认为知识元是构成知识的最小单位,是知识系统的最小元素,是在知识管理中可以对知识进行独立、自由、有效地识别、处理与组合的基本知识单位[6]。少数学者认为知识元是基本知识单位,能够再划分,为此产生了关于知识元分类的诸多讨论[31]。

黄俊伟分析了两种不同概念的知识元对知识组织与挖掘带来的利弊:“知识元相对独立的概念不能满足中医古籍文献知识元研究的需求。”[30]而陶晓华所研发的“病脉证并治”知识元抽取主要是以书籍自身的物理结构,即标题、章、节、段、句、词等为依据,再以文本的逻辑结构为依据进行语义关联[32]。黄俊伟评价这种方法最终是以知识元或知识体进行语义关联,而缺乏在“元概念”层次的内在关系研究。其优点是在一定程度上保存了文本的整体知识结构,但容易失去文本中的隐性逻辑关系。

丁侃[8]以中医古籍方剂知识元为研究核心,通过对古籍中方剂知识元的抽取与标引,试图构建以知识元为单元的知识组织体系,通过对语义关系的标引,关联起中医古籍方剂的知识语义网络,从而构建起以知识元为核心的知识表示体系,并尝试采用形式化的手段进行表达。方剂知识结构是各类知识体中逻辑关系较为清晰的一种。尽管如此,该研究只对方剂构成的部分知识元进行了基于语义关系的标引与形式化表达研究,缺乏系统性与完整性。

陶晓华[32]在基于知识元理论的“病脉证并治”标引模板下,以“辨病-平脉-析证-定治”的四步诊疗决策模式为思维导线,对《伤寒论》进行了基于知识元的深度标引,示范性地挖掘了其蕴含的学术思想及思维价值。张泠杉[33]以《王旭高医案》为对象,在对古籍医案基于知识元的深度标引基础上,利用MS SQLServer数据库将标引数据读取为逻辑数据进行初步分析;并以基于neo4j数据库构建的中医古籍知识图谱技术呈现出显性知识,同时探析其深层的逻辑推理关系,以探求其隐性知识。

由此,笔者认为通过对古籍文献基于知识元的深度标引及利用知识图谱技术,实现对医家学术思想及隐性知识的挖掘,在理论上是可行的,但在具体实现上仍存在较大难度,尚属于初期探索阶段。如在理论研究上,中医古籍中所包含的知识元分类除6类分法外,是否还有其他更加适合中医古籍知识组织的分类?在技术方面,如何解决既能保存文本的整体知识结构,又不失去文本中对隐性逻辑关系的呈现?因而,解决这些学术问题,是深化与持续推进中医古籍知识元研究的关键,中医古籍的知识元研究任重而道远。

4 思考与展望

2001年,国家中医药管理局召开的“全国中医药工作会议”指出:“中医药学术继承是中医药科研的重要任务之一,必须摆在突出的位置。要认真抓好中医药文献整理工作,去粗取精,去伪存真,科学提炼历代中医药学术发展精华,通过归纳升华为理论,丰富中医药理论和临床诊疗技术”[34]。中医古籍与文史古籍所不同的是实用价值,这个实用性是实实在在的,与临证切合,符合临证需求。“去伪存真,去粗取精”是中医临床古籍文献整理的重要方法,体现了临床文献须切合临床需求,并对临床医学具有指导和参考价值。

中医古籍整理历史悠久,早在《汉书·艺文志》便将中医古籍归属于六略中的方剂略,分为医经、经方、房中与神仙4类。在古籍整理中形成有关中医古籍的目录学、版本学、校勘学等理论与实践兼备的文献学科。20世纪90年代末,信息技术在中医药领域的运用,加快了传统古籍整理的步伐,并衍化出相对系统的被赋予了全新概念的知识体、知识元、语义体系,这是信息化技术对传统文献研究的补充与创新。

2019年,有学者提出对中医古籍知识循证的设想,综合参考人脑获取知识的思维模式,提出综合医家、古籍、知识三个知识体所构建的数据模型协同对知识元数据进行证据级别的计算与筛序,实现传统中医古籍整理的“去伪存真,去粗取精”[5]。对中医古籍相似知识的循证研究,可以透过文献表面,深入到古籍内部,对知识的有效性进行评价。循证评价研究既是对古籍整理研究的继承,又是对古籍整理的创新,是对文献学研究的进一步延伸与发展。

根据《中医图书联合目录》,目前留存下来的中医古籍有万余种,作为个体的人面向海量中医古籍进行知识获取,难免存在获取不全面、时间成本高等缺陷,在信息化技术飞速发展的今天,已然不具有优势。从学术研究的角度而言,如何利用信息技术,对中医古籍文献中所记载疾病的发生、发展、源流、证候、诊断、治法、方药等诸多内容进行梳理与分析,探求古代医家对疾病发生、发展、转归规律的认知,是对传统文献学研究方法的补充与发展。

基于知识元的中医古籍研究经过近20余年的数字化实践,首先证明这一技术符合中医古籍知识构成逻辑,确能深入到文献内容,实施对古籍中知识的表示,并能够实现对其重新组织与管理,是发现中医古籍新知识的有效技术手段之一;其次,通过对中医古籍知识基于知识元的抽取与标引,将中医古籍的一个完整知识予以结构化表示,为相似知识的循证奠定了基础,使中医古籍知识的循证成为可能。目前,尽管这种方法仍然存在各种不足与问题,但在当今信息化高度发展的背景下,无疑是一种重要的古籍文献研究方法,期待学界通力合作,加强对其研究的深度与广泛,进一步完善这一古籍整理的新方法与新技术。

猜你喜欢
古籍整理标引古籍
中医古籍医案知识元标引方法的思考及对策
中医古籍“疒”部俗字考辨举隅
论“明清实录藏族史料类编丛书”古籍整理工作
关于版本学的问答——《古籍善本》修订重版说明
档案主题标引与分类标引的比较分析
关于古籍保护人才培养的若干思考
首届宋云彬古籍整理奖颁奖典礼在京举行
我是古籍修复师
《古籍整理出版情况简报》与中华人民共和国的古籍整理出版事业
关于关键词标引的要求