中医药“知识密集型”数据研究思路

2015-01-30 15:22于彤李敬华杨硕于琦
中国中医药图书情报杂志 2015年4期
关键词:密集型语义中医药

于彤,李敬华,杨硕,于琦

中国中医科学院中医药信息研究所,北京 100700

中医药“知识密集型”数据研究思路

于彤,李敬华,杨硕*,于琦

中国中医科学院中医药信息研究所,北京 100700

中医药数据主要来源于中医药工作者在长期的医疗实践和科学研究过程中所产生的知识和经验的系统总结,其中蕴含着丰富的中医药知识,因此被称为“知识密集型”数据。本文分析中医药“知识密集型”数据的内涵和特点,讨论中医药“知识密集型”数据处理方法学研究的思路。

中医药;“知识密集型”数据;大数据

中医药科学数据建设是中医药信息化事业中的一项核心工作[1]。中医药行业的数据库建设起源于20世纪80年代,经过30余年的努力,现已建成了覆盖中医疾病、中药、方剂、中药化学成分、古籍、医案、针灸等主要学科门类的中医药科学数据库群。这些数据资源中蕴含着丰富的中医药知识遗产以及相关科学知识,面向知识百科、知识检索、知识地图等知识服务系统提供数据支持,为中医药知识传承、临床实践和科学研究做出了重要贡献。

近年来,随着各领域数据的大量积累,以及数据处理分析技术的发展和创新,人类已经进入了“大数据”时代。大数据不仅是信息技术的变革,也是生活、工作与思维的变革[2]。“大数据”时代的来临,为进一步推进中医药科学数据建设,提升中医药数据的质量和利用价值,发展基于数据的中医药科学研究,提供了重要的机遇[3]。为此,有必要进一步思考中医药数据的本质,利用“大数据”的最新理念和技术来革新中医药数据分析处理方法。

1 中医药“知识密集型”数据的内涵

中医药科学数据主要包括中医经典、医案、科技文献、临床指南、文献型数据库以及结构性数据库等,它们都是中医药知识的载体。中医药科学数据明显不同于交易记录、网站访问记录、聊天记录、卫星图像等数据。相比之下,中医药科学数据的数据量不是很大,但数据中蕴含的知识量却很大,数据的“知识密集度”很高[4]。因此,中医药科学数据可被称为“知识密集型”数据[3]。

1.1 中医药“知识密集型”数据的来源分析

中医药数据的“知识密集型”特征由中医药数据的来源和获取方式决定。在很多领域,大量的数据产生于人类所发明的观测工具(如天文望远镜、显微镜、传感器等)和信息系统(如电子商务、社交网站等)。在“大数据”时代,随着数据传输和数据存储能力不断增强,以及数据分析效率不断提高,人们有能力将各种数据实时、动态地整合在一起以供人类进行数据分析和知识发现,显著增强人类对世界的理解能力。

中医药数据主要是知识表达的产物,并非观测得来的数据。中医药数据主要来源于中医药工作者在长期的医疗实践和科学研究过程中所产生的知识和经验的系统总结。中医药数据也反映中医及其所发明的工具对世界进行观测的结果,如中医对四诊的描述、舌象、脉象以及舌诊仪和脉诊仪观测的数据。但这些观测结果一般都经过中医的认识、理解和解释后,才形成了中医领域常见的数据(如中医经典、医案等)。这种数据体现的是经过人类理性加工、处理之后的客观信息,是客观信息与中医的经验性知识叠加起来之后形成的。中医药数据因其根源于中医观察和实践而仍保有其客观性,但主要是人类认知和思维的产物。

1.2 中医药文献资源属于“知识密集型”数据

中医药“知识密集型”数据的典型案例是浩如烟海的中医药文献资源,包括数字化文献、纸质文献以及其他载体上的文献。中医药文献是历代医家在临床诊治中的心得体会,是科研学者对实验结果和科学探索成果的系统总结,是中医智慧的集中体现。出于文献管理、文献检索和快速阅览等目的,已出现了对文献的元数据、摘要和主题内容进行系统管理的文献性数据库,它们可被视为文献资源的衍生产品,同样也属于“知识密集型”数据。

1.3 中医药结构型数据库主要属于“知识密集型”数据

中医药领域的另一类重要的数据资源是“结构型数据库”。中医药工作者将各种文献中关于中药、方剂、中药化学成分等各方面的知识分别搜集起来,进行系统整理,构建了中药库、方剂库、中药化学库、中医病案库等数据库。针对中医药数据库的调研表明,这些数据库的主体内容并非观测得来的数据,而是知识表达的产物。例如,中医病案库是对中医专家的经验性知识的总结;中药库、方剂库、中药化学库等也都是各领域知识的系统性记载。当然,中医药数据中也包括一些“非知识型”数据,如诊断仪器产生的数据,信息系统的技术性元数据等,但其主体部分仍是“知识密集型”数据。

1.4 中医药“知识密集型”数据的特点

中医药“知识密集型”数据具有4个特点。⑴数据多为定性,缺少量化表达,不利于现有计算机程序直接处理;⑵非结构化数据较多,结构化难度较大,给数据分析造成困难;⑶数据内容体现人文科学与自然科学的结合,不利于逻辑推理与一般数据分析工具的应用;⑷数据具有的高维小样本及个性化特征,需要进行特殊处理。为处理中医药“知识密集型”数据,不能照搬一般的“大数据”方法,需要建立适合中医药领域特点的方法学体系。

2 中医药“知识密集型”数据的研究思路

2.1 使用语义网技术处理“知识密集型”数据

在中医药信息学的研究中,需要提出适合“知识密集型”数据的处理方法。中医药数据的知识量很大,主要体现在概念之间存在着丰富的语义关系。这些语义关系一起构成了一个复杂的语义网络。若能利用语义网技术实现“知识密集型”数据资源的合理组织,则可在中医药数据资源利用中取得突破。

Tim Berners-Lee等[5]于 2001年提出了语义网(Semantic Web)的理念,认为它将是一部人类与机器都能理解的“数据百科全书”,能显著提升机器对Web数据的处理能力。语义网技术发端于知识表示和推理领域的研究成果,能解决数据集成与互联问题。它为处理中医药“知识密集型”数据并从中发现新颖知识,提供了理想的技术手段[4]。在 21世纪,语义网技术已经取得了长足的发展,从一个构想演变为一套相对完整的技术体系,如 Web本体语言(web ontology language, OWL)等核心技术,语义网上的数据也在不断增长[6]。越来越多的大数据应用引入语义技术,通过语义链接,给大数据系统带来开放性和互操作性,并能提供基于“知识”的分析[7]。

“大数据”的一个核心理念是,当我们把一系列相关的数据集联系起来进行分析,可能出现一些我们一开始预想不到的发现。在大规模数据的基础上可以发现的知识,是在小规模数据基础上无法发现的。将数据集成起来所产生的知识及其价值是预先无法预测的。在“大数据”时代,我们需要考虑如何将中医药及相关领域的知识密集型数据资源整合起来,以辅助中医药工作者开展知识发现活动。

所以有必要在中医药领域本体的基础上,建立一套基于语义网的中医药“知识密集型”数据处理方法学[4]。其中包括:⑴建立中医药本体体系,为处理“知识密集型”数据奠定基础;⑵基于本体建立中医药学语言系统,为数据处理提供必要的术语资源;⑶建立基于人机结合的中医药数据采集技术及知识获取方法体系;⑷基于语义网技术,从数据中挖掘概念之间显性或隐性的语义关系。通过这套方法学,能汇集中医药及相关学科的数据资源,挖掘数据中蕴含的潜在规律及知识点,发挥多学科研究成果对中医药发展的支撑作用。

2.2 面向“知识密集型”数据的知识发现

在中医药领域,知识发现是一个从“知识”到“知识”的知识精炼过程。在海量数据中蕴含着知识,而知识发现过程则将知识(模式和规则)从数据中提取出来。从知识发现的角度分析,我们以“知识量”为分子,以“数据量”为分母,就可以得到数据的“知识密集度”。数据的“知识密集度”反映了数据在知识发现方面的价值。

传统上,知识发现一般针对通过数据采集工具自动产生的数据。这些数据之中的“知识密集度”一般比较低。例如,我们去超市消费所产生的单据,每张单据本身并不蕴含有价值的知识,但将数以亿计的单据记录结合起来进行分析,则可得到有关人类购买行为的模式和规律。虽然挖出的知识很有价值,但因数据总量很大,所以数据的“知识密集度”仍然较低。

对于“知识密集型”数据而言,数据集之间的集成体现出了各种知识甚至知识体系之间的关联与融合。在医学领域,将不同来源的知识资源关联起来进行分析已有很长的历史。Swanson[8]于1986年发现有的文献记载了部分雷诺氏病患者血液中有些异常(如血液黏度偏高),又有一些文献记载了食用鱼油能纠正这些异常(降低血液黏度),因而提出“食用鱼油会对雷诺氏病患者有益”的科学假设。这类案例表明,将不同专家以及不同领域的知识体系相互融合起来,可能导致新的知识发现。

2.3 从知识融合到知识创新

在中医药领域,知识融合已成为知识创新的一个来源,特别是将中医与其他科学知识关联起来进行分析,已经产生了一些重要的知识发现。例如,20世纪 70年代,屠呦呦[9]从中医经典《肘后备急方》中获得启发,发现了抗疟的新药青蒿素。将中医药“知识密集型”数据整合起来所构成群体性知识系统,体现了中医药工作者的群体性智慧,可能蕴含着大量具有启发性的知识。

语义网可将数据资源的整合推向极致,也就是实现各种中医药数据资源的集成,并与其他学科的数据关联起来,构建一个全球性的中医药数据空间。该空间含有丰富的中医药知识,是实现知识整合的基础,能支持全球的中医药工作者进行知识发现研究。一方面,从中医药数据中发现的知识是新颖的,知识发现的结果也是不可预测的;另一方面,中医药知识获取和数据集成都是非常困难的工作,需要耗费很大的人力成本。因此,开展中医药数据集成和挖掘工作,也需要考虑成本和收益如何平衡的问题。

3 小结

中医药工作者从20世纪80年代开始采用数据库技术对中医药知识进行系统梳理和保存,成功研制了大量的科学数据库。但多年来该领域一直沿用传统的关系型数据库技术,数据处理水平并没有明显提高。

在“大数据”时代,人类所发明的各种工具在实时地搜集和整合各种数据以供人类分析,显著增强了人类对世界的感知和理解能力。“大数据”时代的来临,为中医药数据建设事业的发展提供了重大的发展机遇[3]。为此,有必要重新思考中医药数据的本质,革新中医药数据处理方法。中医药数据的核心内容是对中医药知识的系统表达。中医药数据的生成模式与获取手段,决定其无法成为传统意义上的“大数据”,而必然是“知识密集型”数据。“大数据”时代的中医药信息处理方法和技术体系,应侧重于解决中医药知识表示、融合、推理等一系列与“知识”相关的问题,语义网技术可在其中发挥重要作用。

[1] 崔蒙,尹爱宁,范为宇,等.中医药科学数据建设研究进展[J].中国中医药信息杂志,2006,13(11):104-105.

[2] 维克托•迈尔•舍恩伯格.大数据时代——生活、工作与思维的大变革[M].盛扬燕,译.浙江:浙江人民出版社,2012.

[3] 崔蒙,李海燕,雷蕾,等.“大数据”时代与中医药“知识密集型”数据[J].中国中医药图书情报杂志,2013,37(3):1-3.

[4] 于彤,李敬华,张竹绿,等.基于语义网的中医药数据处理方法研究思路[J].中国医学创新,2014,11(30):133-135.

[5] Berners-Lee T, Hendler J, Lassila O. The semantic web[J]. Scientific American,2001,284(5):28-37.

[6] Domingue J, Fensel D, Hendler J. Handbook of Semantic Web Technologies[M]. Berlin: Springer,2011.

[7] 刘炜,夏翠娟,张春景.大数据与关联数据:正在到来的数据技术革命[J].现代图书情报技术,2013(4):2-9.

[8] Swanson D R. Fish oil, Raynaud’s syndrome, and undiscovered public knowledge[J]. Perspect Biol Med,1986,30(1):7-18.

[9] Tu Y. The discovery of artemisinin (qinghaosu) and gifts from Chinese medicine[J]. Nature medicine,2011,17(10):1217-1220.

Research Thoughts of “Knowledge-Intensive” Data of Traditional Chinese Medicine

YU Tong, LI Jing-hua, YANG Shuo*, YU Qi
(Information Institute of Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China)

Traditional Chinese Medicine (TCM) data are mainly the systematic summarization of knowledge and experience that TCM practitioners have created in their long-term medical practices and scientific researches. TCM data contain massive TCM knowledge, and are essentially called “knowledge intensive” data. This article analyzed the essence and characteristics of TCM “knowledge-intensive” data, and discussed the research thoughts of processing methodology of TCM “knowledge-intensive” data.

traditional Chinese medicine; “knowledge-intensive” data; big data

10.3969/j.issn.2095-5707.2015.04.001

北京市中医药科技发展资金(JJ2014-61);中国中医科学院基本科研业务费自主选题(ZZ070309,ZZ070804)

于彤,助理研究员,研究方向为中医药信息学。

E-mail: yutongoracle@hotmail.com

*通讯作者:杨硕,副研究员,研究方向为中医药信息学、中医药知识管理。E-mail: y1y6y3@139.com

2015-01-06;编辑:魏民)

猜你喜欢
密集型语义中医药
庆祝《中华人民共和国中医药法》实施五周年
真实场景水下语义分割方法及数据集
《中医药传承创新发展这十年》
中医药在恶性肿瘤防治中的应用
湖北省专利密集型产业研究
密集型呼吸灯灯串设计与实现
语言与语义
欧盟知识产权密集型产业的经济贡献及对我国的启示
中美专利密集型产业研究结果及分析
批评话语分析中态度意向的邻近化语义构建