李丹,闫朝升,由佳鑫
(黑龙江中医药大学医学信息工程学院,黑龙江 哈尔滨 150040)
中医医案是历代医家临床诊疗经验及其学术思想的载体,是中医传承和发展的宝贵财富[1-2]。章太炎曾言:“中医之成绩,医案最著。欲求前人之经验心得,医案最有线索可寻。循此钻研,事半功倍。”通过古代中医医案的整理和研究,构建系统的、易用的、高质量的医案信息资源,并以此为基础,发现隐藏的、有价值的“病-证/症-治-效”关系,凝炼证治规律,提炼医家治病特色、临证经验和学术思想,对中医理论发展和诊疗实践具有重要意义。其中,医案整理是医案研究的前提基础,是医案研究质量和效率的根本保障。经历数千年的发展和积累,中医医案浩如烟海,且记录形式多样,书写风格各异,记载内容丰富,文献载体分散[3]。中医医案整理存在着巨大挑战。数据库技术提供了高效、便捷的数据组织、存储、共享的方法,现已成为中医医案整理的重要支撑技术。本文将对数据库技术在古代中医医案整理中的应用研究进行综述,以期为古代中医医案的整理及其再利用研究提供有益的参考和借鉴。
中医医案,又称诊籍、脉案、方案、病案、验案、诊籍等,是医家综合运用理法方药临证诊治过程的文字性记录[4]。中医医案发展源远流长。现存最早的较完整医案是西汉《史记·扁鹊仓公列传》所载太仓公淳于意的二十五则“诊籍”。经过两汉成形和晋唐酝酿的持续发展,宋金元时期的载案数量明显多见,医案专著开始出现[5-6]。其中,宋代形成了现存最早的医案专著《伤寒九十论》[7]。作为医案发展的日臻成熟与鼎盛时期,明清两代涌现出大量的、形式种类多样的医案,出现了医案类书,并开始研究医案书写格式和规范[8]。其中,明代出现了第一部医案类书《名医类案》,清代出现了现存篇幅最大的医案类书《续名医类案》。
中医医案记述着症状、病因、四诊八纲结果、病机、转归、治法、治则、注意事项等概要内容以及处方的药物名称、剂量、炮制方法、服用方法等治疗措施或使用穴位、针灸操作方法、有关处理方法等内容,或附有医者的主观观点[9-10]。历代医案反映了古代医家的辨证、立法、遣方、用药等临床经验及其思维过程。清末医家周学海曾言:“宋后医书,唯案好看,不似注释古医书之多穿凿也,每家医案中,必各有一生最得力处,细心遍读,是能萃众家之所长矣。”这反映出中医医案的再利用价值,彰显出中医医案整理和研究的突出意义。中医医案整理有助于提升医案资料保存、检索与应用研究的质量和效率,为中医医案的深度挖掘提供信息资源保障,促进中医传承和创新发展[11]。传统的医案整理方法涉及以病证、药、方等专题类案(如《小儿药证直诀》《本草衍义》《普济本事方》《秦伯未膏方集》)、个人专著(如《石山医案》《伤寒九十论》《临证指南医案》)、断代和地区合编(如《清代名医医案菁华》《龙砂八家医案》)、流派或专科类编(如《伤寒论方医案选编》《谦益斋外科陕案》)、评辑(如《名医类案》《古今医案按》《王氏医案绎注》)等[12]。上述整理积累了大量的、弥足珍贵的文字性医案资料。数据库构建是中医药信息数字化处理实现途径[13]。随着现代信息技术的飞速发展,数据库技术现已广泛应用于古代中医医案的整理工作中,形成了大量的医案信息资源,提升了古代中医医案的数字化整理水平,保证了医案数据整理工作的质量和效率,并以此为基础,利用统计分析、数据挖掘、机器学习、人工智能、大数据等技术,开展基于古代中医医案的中医治病特色、临证经验和学术思想梳理挖掘和归纳提炼,增强了古代中医医案数据再利用的深度,有效地促进了中医传承和发展。
数据采集是古代中医医案数据库构建的核心任务。采集平台构建和采集方法设计是古代中医医案数据采集系统性和高效性的根本保障。
根据共享能力差异,古代中医医案数据采集平台主要分为共享服务型和研究专题型。在共享服务型古代中医医案数据采集平台方面,北京中大安信科技发展有限公司联合北京盘拓咨询有限公司,利用Oracle 8i for UNIX,构建了9个数据库,包含了中医医案数据库[14];于琦等[15]利用本体知识表示方法和语义网技术,通过构建医案语义描述和术语词典,识别和采集医案信息,形成(半)结构化的医案存储与管理利用,构建了中医医案知识服务与共享系统;中国中医科学院中医药信息研究所中医药大健康智能研发中心研发了古今医案云平台,建有古代医案库,能够支持医案数据录入、检索和分析[16]。研究专题型采集平台主要用于满足基于古代医案的特定研究工作需要,如诊疗规律研究[17-21]、医案查询统计分析[22]等。
在采集方法方面,李丹等[23]在分析现有的古代治疗信息数据库设计缺陷基础上,结合数据库系统设计特点,从数据库和应用系统相融合角度,提出了一种古代中医治疗数据采集方法,设计了数据采集流程,保证了古代中医医案数据采集工作的系统化和规范化。闫朝升等[24]提出了中医治疗信息数据库系统设计流程以及以方剂数据库为中介的系统后台数据库架构,设计了方剂数据库、疾病数据库和中药数据库,建立了3个数据库之间的关联关系,为古代中医医案“病/证/症-方-药”数据采集提供了有效的方法和途径。
作为数据库的重要组成部分,数据模型是数据组织方式的一种表达形式,用于抽象和呈现医案数据特征。目前,在古代中医医案数据库设计中,关系模型是最为常用的结构化数据模型,用于构建古代中医医案关系型数据库。该模型采用二维表形式,存储医案所含实体(如医家、文献、证候、症状、方剂、中药等)及其属性(如医家的姓名、所处朝代等)、实体之间联系(如方剂和中药两个实体之间的“使用”联系)等信息。近年来,随着数据分析和知识组织的需求不断强烈,多维模型和图模型被应用于古代中医医案数据库研究,分别用于构建中央数据库和知识库。下面主要介绍古代中医医案中央数据库和知识库研究进展。
中央数据库是采用多维数据模型,满足分析型数据需求并支持医案数据分析挖掘的一种数据存储环境。其中,多维数据模型是以维度(又称为属性)、维度层次(又称为概念分层)和度量(又称为观测指标)为核心要素,用于支持综合级数据存储和使用的一种数据组织方式[25]。根据用户等级不同,古代中医医案中央数据库分为数据仓库和数据集市两类,分别用于满足全局级用户(如国家/省级的科研机构、管理部门等)、部门级或个体用户(如临床科室、科研人员等)。杜佳丽[26]在确定方剂的角色及其性、味、归经、七情等分布主题基础上,设计药、症、证、治等维度和频次度量,建立事实表和维度表之间的依赖关系,构建了慢性肾病中医医案方剂数据仓库,并应用于医案方剂配伍规律研究。刘小生等[27]通过分解和规范历代哮喘中医文献医案的辨证、用药、组方等信息,构建了哮喘古文献医案数据仓库,并应用于哮喘中医证治规律研究。李丹等[28]针对中药分析型数据需求,利用星形模型,设计中药的基本维度及其概念分层,构建了中药信息数据集市,为古代中医医案数据库向中央数据库的转换提供了中药信息多维数据模型。
在知识库方面,本体知识库是古代中医医案知识库的重要类型。本体知识库不仅能够利用概念来表示知识,而且可以揭示知识之间内在的关系[29]。叶超[30]通过剖析医案所含知识概念以及概念之间关系,利用本体构建工具—Protégé和本体描述语言—OWL(Ontology Web Language),构建医案本体的概念树,形成中医喘证领域本体类关系模型,建立中医喘证的知识库。方芳等[31]在收集经典中医医案和获取糖尿病领域知识基础上,采用本体分析方法,构建糖尿病医案所含概念及其分类体系,并利用Protégé,创建了糖尿病医案的本体知识库。另外,随着2012 年Google发布知识图谱项目,知识图谱得到广泛关注与研究应用。其中,知识图谱(knowledge graph,KG)是以符号形式描述客观世界中实体(概念)及其关联关系,实现结构化语义知识存储的一种技术方法[32]。知识库用于建构知识图谱的后台知识存储环境。针对知识图谱的后台知识库,常见的数据模型包括资源描述框架(resource description framework,RDF)图和属性图,分别对应着三元组库和图数据库[33]。其中,三元组的基本形式主要包括:(实体-关系-实体)和(实体-属性-属性值)。王菁薇等[34]利用知识图谱技术,借助图数据库—Neo4j,通过实体和关系抽取、数据预处理和知识导入等过程,实现了疾病、证候、症状、处方、药物等实体及其关系的图结构存储,形成了《伤寒论》所载医案的语义知识网络,解决了医案知识结构化表示问题。阮彤等[35]利用文本抽取、多策略学习、关系数据向RDF数据转换、数据融合等技术方法,提出了中医药知识图谱的自动构建方法,构建了医案知识图谱。于彤等[36]探索了中医药领域的知识图谱构建方法,研发了中医临床知识图谱,包含了古代医家或疾病的医案知识库。郭文龙[37]以方剂为对象,在构建方剂本体概念模型基础上,利用D2RQ(database to RDF query)工具,将关系型数据库的数据换成RDF格式的数据,并使用Noe4j存储RDF数据,构建了《伤寒论》《黄帝内经》《惠民药方》《普济方》等所载经典方剂的知识图谱。
数据基础研究主要用于解决古代中医医案数据库的数据质量问题,例如,结构化语义标注、数据缺失填充、数据规范化处理等研究。
古代中医医案具有突出的叙述性,其结构化语义表示和转换及其数据缺失处理是医案数据库科学性和完整性的基本保证。针对古代中医医案数据库构建的结构化语义表示和转换问题,文天才等[38]借鉴文献标引思想,利用XML的结构性和扩展性,进行病案信息的完全结构化和知识表达层次化处理,实现了中医医案结构化标引系统;于莉娟[39]利用框架语言—MEDL(meta-event definition language),实现中医医案的半结构化表示,并通过词法、语法、语义等分析、编译,生成结构化医案,并导入中医医案数据库。针对古代中医医案数据库构建的数据缺失问题,王瑞祥等[40]利用粗集理论的不完备数据填充方法,探索了基于间接处理和基于主症相似关系的中医医案数据库缺失数据填充方法,提高医案数据库的完备性;胡雪琴等[41]为解决词性标注所易出现的语义缺失问题,提出了基于语义标注的医案信息抽取途径,基本过程为:首先,在设计不同粒度级的语义标注基础上,构建中医医案语义标注概念层(涉及词、基本短语、复合短语、语句模式和温病分类等5层),并用于标注生语料库,生成熟语料库,提取中医医案的特征信息,保障中医医案数据库的基础数据质量。
古代中医医案的数据规范化处理是其数据库数据质量的根本保障,主要涉及症状规范化、证候要素提取、病证源流考等方面。针对症状规范化处理问题,武嘉兴[42]利用诊释学的原理和方法,对历代医案数据库中的症状信息进行表达,获得症状标记词,并生成规范的中医症状单元;刘保延等[43]利用已经构建的中医历代医案数据库[22],从中医症状的概念、命名、定义、临床特征、轻重变化的判定等方面,开展了医案症状规范化研究。针对古代中医医案所含方剂与其适用证候的关联问题,许晗等[44]通过采集《名医类案》中涉及补中益气汤的医案,采用频数分析法、黄金分割法获取补中益气汤证的证候分布特点,发现“病-证-候”关系以及证候的病位和病因,有助于“方-证”视角下古代中医医案数据库的数据规范化处理;李卫红等[45]以崩漏证候规范化研究为目标,采集并处理崩漏的历代医案,发现崩漏中医证候类型、病位、病性等证候要素的频数分布,提取证候要素的应证组合规律。针对病证源流考问题,姜德友等开展了多种中医病证的源流考研究,主要涉及病名沿革追溯以及古代不同时期对病因、病机及治法认识的整理等内容(如脱肛源流考[46])。
当代医家章次公曾言:“医案为古人积验所在,近人经验之总结亦汇集于医案。”面对知识经济时代,古代中医医案数字化信息资源是历代医家的治病特色、临床经验及学术思想研究的重要支撑。如何科学、系统地整理古代中医医案,构建高质量的、高可用的医案信息资源,保证中医医案研究的有效性和可靠性,是中医传承、发展和创新的所亟需解决的关键问题。目前,数据库技术在古代中医医案整理领域的应用已十分广泛,成为了医案信息资源建设所不可或缺的支撑技术。古代中医医案的数据库建设质量是其深度研究的核心影响因素。
针对古代中医医案数据库构建,数据结构化处理是其首要任务,渗透在数据采集平台构建、数据采集方法设计、数据模型建构、数据基础处理等过程中。但是,过度的结构化处理破坏了医案信息的完整性和医家思维的整体性[4]。基于知识图谱的医案知识库能够实现中医医案的网状知识体系构建,为医案数据的过度结构化处理所带来的问题提供了一种有效的解决途径,对于提升古代中医医案的整理与再利用能力具有十分重要的意义。在未来研究工作中,以古代中医医案知识图谱构建为目标,系统、科学、高效地探求网状语义知识库在古代中医医案整理与研究中的应用途径和方法,有益于提升古代中医医案资源的数字化、网络化和智能化及其利用效率的最大化,进一步彰显数据库技术对中医传承发展的重要支撑作用。