基于语义网的中医药数据处理方法研究思路

2014-11-10 01:57于彤李敬华张竹绿于琦刘静杨硕贾李蓉朱玲董燕
中国医学创新 2014年30期
关键词:数据处理中医药大数据

于彤 李敬华 张竹绿 于琦 刘静 杨硕 贾李蓉 朱玲 董燕

【摘要】 “大数据”时代的来临,为中医药工作者重新思考中医药数据的本质,革新中医药数据处理方法,提供了宝贵的契机。中医药数据的核心是“知识密集性”数据。“大数据”时代的中医药数据处理方法,应侧重于解决知识建模、知识融合、知识服务等一系列与“知识”相关的问题。语义网技术发端于知识表示和推理领域的研究成果,又能解决数据集成与互联问题。它为构建中医药“大数据”并从中发现新颖知识,提供了理想的技术手段。

【关键词】 大数据; 中医药; 语义网; 数据处理

中医药科学数据库的建设和利用,是中医药信息处理过程中的核心环节。经过30多年的努力,中医药工作者已建成了大量的中医药科学数据库,内容涉及中医、中药、古籍、方剂、针灸等诸多领域[1]。这些数据资源中蕴含着丰富的中医药知识遗产,为知识百科、知识检索、知识地图等知识服务提供数据支持,为中医药知识传承、临床实践和科学研究做出了重要贡献[2]。然而,中医团体近十年来仍在沿用传统的数据处理技术,数据处理水平没有明显提高。该领域仍存在着数据库模式不合理、数据质量缺陷、数据管理手段相对落后等诸多问题。特别是数据资源无法在组织、地区及国际间的充分共享,形成所谓的“数据孤岛”现象,这已成为困扰中医药工作者多年的老大难问题。数据资源建设仍滞后于临床、科研发展的需要,制约中医药信息化事业的整体发展。

“大数据”时代的来临,为中医药工作者重新思考中医药数据的本质,革新中医药数据处理方法,提供了宝贵的契机。“大数据”的理念在于将各种相关的数据集关联起来,构成大型、全面的数据集合,从中发现新颖的知识。为建立一套既符合“大数据”理念,又适合中医药领域特点的信息处理方法,首先要从本质上理解中医药数据的结构和内容。中医典籍汗牛充栋。但与天文、地理、生物等以“大数据(Big Data)”为特征的学科相比,中医药领域产生的数据量仍然是“小巫见大巫”。中医药数据的数据量不是很大,但数据本身所包含的知识量很大,因此常被称为“知识密集型”的数据资源[3]。中医药领域的数据不是单纯的观测数据,而是观测与体验相互融合的数据。中医药数据的生成模式与获取手段,决定其无法成为传统意义上的“大数据”,而必然是“知识密集型”数据。

为处理中医药知识密集型数据,需要建立适合中医药领域特点的方法学体系。所谓中医药数据的“知识量很大”,主要体现在其中蕴含着丰富的语义关系。若将这些语义关系抽取并融合起来,则构成了复杂语义网络,其节点数量相对而言不是很大,但具有复杂的结构。语义网络结构的复杂性,反映了数据中的知识含量。若能通过基于本体的方法来处理中医药数据,深度挖掘其中蕴含的语义关系,并基于语义网(Semantic Web)实现“知识密集型”数据资源的合理组织,则可在中医药数据资源利用中取得突破[4-5]。

1 语义网在中医药数据处理中的应用

语义网(Semantic Web)是万维网联盟(World Wide Web Consortium,简称W3C)提出并倡导使用的一项创新的万维网(Web)技术,其核心思想是在万维网上构建一个全球性的数据网络,用以实现更为智能的应用[5]。近年来,语义网技术在欧、美等地取得迅速发展,得到IBM、Oracle等著名IT企业的鼎力支持,在生命科学、医疗保健和新药研发等领域取得广泛应用。

中医药工作者已经认识到语义网的价值,并开展了将语义网应用于中医药领域的若干尝试,构建了中医药本体平台、中医药语义查询平台和中医药语义搜索平台等系统,在文化传承和医疗保健等方面产生了社会效益,取得了良好的示范性效果,并积累了宝贵的经验[5]。现有工作表明语义网能够为中医药领域问题提供适宜的解决方案,但尚未充分发挥语义网的全部潜能。这就需要建立一套基于语义网的数据处理方法学,消除语义网技术和中医药领域实际应用之间的隔阂,从而实现中医药数据的充分共享和深度利用。

这套方法学的处理对象是中医药数据,但其最终目的则是对数据中蕴含的知识进行合理组织、系统保护和深度挖掘。中医药科学数据是中医药知识的密集型载体,中医药数据处理在本质上是对中医药知识的创造、维护、共享、融合和利用的持续过程,其中涉及知识建模、知识融合、知识服务等一系列与“知识”相关的方法。下面分别进行阐述。

1.1 基于本体的中医药知识建模方法 中医药知识体系与中华传统文化息息相关,具有鲜明的思想和语言特色,这决定了中医药知识建模的独特性。历代中医普遍采用“取向比类”等形象思维方法,导致中医药知识难以精确描述和定量刻画。中医药领域知识的复杂性、模糊性和争议性,向现有的知识表达与推理技术提出了严峻的挑战。作为语义网的基石,本体是针对某个领域的概念体系的精确规范,用以明确概念的定义以及概念之间的语义关系[4]。可以基于国际最新的本体表达框架,提出符合中医药特色的知识建模方法,对中医药的思维模式和知识体系进行分析与建模,研发面向中医药领域的示范性本体、知识库以及相应的推理方法,从而系统梳理中医药知识体系,保护中医药知识遗产。

1.2 基于语义网的中医药数据集成与知识融合方法 中医药领域的数据整合工作长期停滞不前,形成了所谓的“数据孤岛”现象,造成中医药知识无法在组织和实践者之间充分共享。语义网的核心优势在于将数据结构和存储方式各异的数据转换为统一格式并重新发表,从而实现数据资源整合,构建全球数据网络。在语义网的框架下,不仅能够实现中医疾病、中药、针灸、医案等中医药各门类数据资源的集成,而且能够进一步建立中西医之间的知识关联。可通过语义关系表达中医药和西医之间的结合点,从而实现这两个领域的知识资源的关联和融合,支持各种面向结合医学的知识共享、决策支持和知识发现应用。这套方法能使中医药知识接入全球互联的知识网络之中,在中西医结合医学中发挥更大的作用和影响力。

1.3 基于语义网的中医药知识服务方法 语义网不仅支持数据集成,而且为基于数据的知识服务提供了新方法。例如,“语义搜索”基于领域知识库实现智能的搜索功能,向用户提供准确的信息搜索结果;“语义查询”向用户提供简易、友好的查询构造界面,引导用户以交互的方式进行知识问答;“语义维基”向用户提供百科全书式的知识服务,支持知识资源的有序组织、有效管理和协作式加工。基于中医药数据的语义网应用系统能够面向临床决策、新药研发和电子教学提供知识服务,解决中医药知识共享与传播的问题,为中医药知识服务模式创新提供了有力的技术支持。

2 小结

近年来,中医药科学数据建设事业取得长足发展,积累了为数众多的数据资源。如何管理如此庞大的数据资源,如何解决“数据孤岛”问题实现数据整合,如何从海里数据中挖掘新颖的知识,如何实现基于数据的知识服务以满足中医专家和百姓的需求,都是中医药科学数据建设事业中需要考虑并解决的问题。“大数据”时代的来临,有望带来中医药数据处理方法的大变革,从根本上解决上述问题,推动中医药信息化事业的整体发展。需要针对中医药“知识密集性”数据的特点,建立一套基于语义网的数据处理方法学。其中包括:(1)采用基于本体的知识建模方法,构建中医药领域本体和知识库,系统梳理中医药知识体系;(2)采用语义集成方法实现大量中医药数据库的有效整合,解决中医药“数据孤岛”问题;(3)采用语义搜索、语义查询、语义维基等方法提供知识服务,解决中医药知识传播问题。通过这套方法学,将能汇集中医药及相关学科的数据资源,挖掘数据中蕴含的潜在规律及知识点,发挥多学科研究成果对中医药发展的支撑作用。

参考文献

[1]崔蒙,尹爱宁,范为宇,等.中医药科学数据建设研究进展[J].中国中医药信息杂志,2006,13(11):104-105.

[2]高博,崔蒙,杨硕,等.基于数据的中医药知识服务研究[J].图书情报工作,2012,56(9):5-9.

[3]崔蒙,李海燕,雷蕾,等.“大数据”时代与中医药“知识密集型”数据[J].中国中医药图书情报杂志,2013,37(3):1-3.

[4]于彤,崔蒙,李敬华,等.中医药本体工程研究现状[J].中国中医药信息杂志,2013,20(7):110-112.

[5]于彤,崔蒙,李敬华.语义Web在中医药领域的应用研究综述[J].世界中医药,2013,8(1):107-109.

(收稿日期:2014-03-04) (本文编辑:蔡元元)endprint

猜你喜欢
数据处理中医药大数据
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
中医药在恶性肿瘤防治中的应用
中医药在治疗恶性肿瘤骨转移中的应用
从《中医药法》看直销
中医药立法:不是“管”而是“促”
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
基于POS AV610与PPP的车辆导航数据处理