大数据背景下基于对象特性的中医药数据管理研究

2016-12-03 11:07丁长松瞿昊宇吴世雯

中国中医药信息杂志 2016年9期

关键词：古籍中医药数据库

丁长松，瞿昊宇，吴世雯

湖南中医药大学管理与信息工程学院，湖南长沙 410208

大数据背景下基于对象特性的中医药数据管理研究

丁长松，瞿昊宇，吴世雯

湖南中医药大学管理与信息工程学院，湖南长沙 410208

针对传统数据管理模式难以有效管理中医药信息的问题，本文从中医药信息资源本质特性角度分析并归纳其原因在于中医药信息资源具有大数据的4V特征，提出了基于大数据技术管理中医药信息资源的策略，并对其可行性进行了阐述。

中医药信息；大数据；数据管理

中医药信息作为中医药技术的主要载体，对其进行高效管理与利用，对促进中医药事业的发展起着关键作用。然而，中医药技术和信息技术发展不同步、传统中医学长期缺乏规范、缺少统一的术语定义标准，以及海量中医药数据且与日俱增，使传统的数据管理模式难以对其进行有效管理与利用。因此，分析中医药信息本质特征并提出相应的管理策略，已成为有效利用中医药信息资源亟需解决的核心问题。为此，笔者结合中医药信息特征，对传统的中医药信息技术手段、成果及局限性进行分析和总结，提出大数据背景下的中医药数据管理解决方案，并从中医药信息的个性特征角度分析论证借助大数据技术对其进行有效管理的可行性。

1 中医药信息特征分析

中医药是中华民族发展历程中对人自身和自然认识了解过程的成果，具有明显的自然属性和社会属性。其中，自然属性体现在中药与中医知识的客观存在特性，社会属性源于人类活动对中医药自然属性的影响，如药物加工、药种的人工干预、信息的再生产等方面。中医药信息是认识论层次的信息，具有明显的主客观融合特征，相对重视系统时间上的延续变化状态，是开放环境下获取的包含本质的现象信息［1］。从数据管理角度而言，中医药信息具有以下特性。

1.1描述对象属性模糊、抽象

中医学理论体系受阴阳五行学说的影响以整体观念为主导，基于系统和经验而缺少客观量化依据，判别标准模糊，导致属性描述模糊和抽象。一般对药物的描述多采用诸如“温”“辛”等词，对其用法多采用“常”“宜于”等抽象词，如对细辛的描述为“本品辛温发散……长于解表散寒……宜于外感风寒，头身疼痛较甚者，常与羌活、防风、白芷等祛风止痛药同用……”。又如脉象信息作为中医获取四诊信息的手段之一，其收集仅靠医生指腹的感觉，对其描述采用形象化的词语，如滑脉“替替然如珠之应指”、浮脉“举之有余，按之不足”。

1.2采集对象属性不完备，古籍校本不一

中医古籍文献著作者在对中医药的属性描述过程中多带有主观因素，且受限于其时代的认知水平，导致采集的对象属性存在片面性和局限性。同时，由于古医籍文献数字化工作量巨大，导致现有的中药数据库大多仅提供题录式或文摘式数据而全文数据库少，使用户难以获取全面详细的信息。

中医药古籍中一些比较重要的医籍，由于多次再版，导致同一古籍存在多种校本，而且在古籍传承过程中采用的金石、简牍、帛书、抄本和印本等载体易导致出错，使现存的中医药文献中对象属性不完备甚至存在错误。

1.3名词术语不规范，对象属性描述多样

中医药名词术语不规范，一词多义、同义多词的现象十分普遍。如针灸学中任脉“关元”穴有多种别名，气功学中称“丹田”，《素文•气穴论篇》称“下纪”，《灵枢•寒热病》称“三结交”，《针灸甲乙经》称“次门”，《针灸资生经》称“大中极”。又如中药“金银花”，《植物名实图考》称“鹭鸶花”或“忍冬花”，在处方中有二宝花、二花、金花、银花等别名，按产地区别又有苏花（江苏）、济银花（山东费县）、密银花（河南密县）、杜银花（甘肃）等名称。另外，中医方剂学也存在着不规范的中药炮制名，以及剂量单位不统一、同方异名等问题，如粗略统计发现《中华名医方剂大全》9031首方剂异名达1004个［2］。

对象属性描述多样主要是由于中医药自身复杂多样特征所决定。如对药材的描述中，产地多采用文字描述，用量采用数字描述，而形状特征则采用图文结合进行描述。

1.4中医药文献或数据库之间关系复杂

以中医药数据为内容构建的数据库之间关系复杂。同一药物常出现在不同数据库中，方剂中的药与药典中的药之间关系、不同医师对相同病症用药之间的内在关系、同一医师对不同病症开具的处方之间的用药关系等，由于传统的中医药数据信息未共享，各自为“信息孤岛”，导致在分析对象间关系，尤其是当分析的数据海量时，采用传统关系数据库难以实现。

1.5数据海量且增长快速

中医药在其发展过程中产生了海量数据，如中国中医科学院中医药数据中心数据存储容量目前已达PB级［3］。随着现代信息技术在中医药领域中的广泛应用，使中医药信息快速增长，尤其在临床诊断、治疗、检测方面产生的临床数据，以及在现代实验研究方面产生的相关数据方面更为突出，如中药现代研究文献数据库，其数量约占现有中医药文献数据库总量的3/4［4］。

2 中医药信息管理现状与困惑

目前，中医药信息管理主要集中在基础数据库、数字化图书馆建设、相关标准（规范）整理、文献信息检索和电子政务系统建设等方面，尤其在数字化方面取得了显著成果。如“国家中医古籍整理与数字化研究中心”累计已完成1690种中医古籍的图像扫描，实现了部分古籍资源图文对照和全文检索功能，建设了800种中医古籍的影像数据库和全文数据，并形成了解决中医古籍数据化问题的“基于知识元的中医古籍计算机知识表示方法”，制定了《中医古籍数字化文本校勘整理规范》等系列指导古籍数字化建设的技术标准及系列古籍知识标引手册等［5］，为中医古籍大规模数字化、数据化建设，以及面向临床的知识服务提供了技术保障，解决了中医古籍数字化及数据化的技术难题。

在数据库建设方面，中国中医科学院中医药信息研究所自1984年开始进行中医药学大型数据库的建设，目前数据库总数40余个、数据总量约110万条，包括中医药期刊文献数据库、各类中药数据库、民族医药数据库等相关数据库，并在建设数据库的过程中制定了中医药元数据标准、中医药一体化语言系统等相关标准。以中国中医科学院为中心建立的中医科技文献共建平台，创建了中医、中药、针灸、古籍文献类数据库100余个，同时为了充分利用这些科学数据资源还建立了数据挖掘方法的整合平台与高性能运算的技术平台［5］。

在综合系统和平台建设方面，国家启动了旨在集成现有中医药科技数据库群的“中国中医药科学数据网格服务应用”项目，该项目已经构建了面向中医领域的应用网格框架，并在开发面向中医药领域的特定网格应用软件［6］。科技部启动了“医药卫生科学数据共享网”项目，该项目旨在建立一个物理上分布、逻辑上高度统一的医药卫生科学数据管理与共享服务系统，以提供数据共享和信息服务［7］。中国中医科学院中医药信息研究所针对单一实体机构受到自身发展规模、人员及设施等方面的限制，牵头提出了“中医药信息数字化虚拟研究院”［8］的理念。

借助现代信息技术对中医信息资源的综合利用、挖掘也进行了一些尝试。如湖南中医药大学从20世纪70年代的“中医辨证论治电脑系统”到21世纪初的“WF-Ⅲ中医（辅助）诊疗系统”，系统内编制有病症1000种，标准证候模式1800个，演绎证候模式5000余个，疾病病种 460种，辨证要素54项，常见证200个，常用方剂670首（验方在外），常用中药720种（含中成药），能为中医内、妇、儿科全病域诊疗［9］。中国中医科学院从2001年开始着手建立中医临床科研信息共享的技术体系，用以解决将临床实际诊疗信息实时数据化及对复杂海量临床数据的分析利用的问题，目前已建立了多个应用系统，其中中医临床数据仓库中已经存储超过 10余万份的数据化病历［5］。

当然，中医药信息化建设相对于现代医学或其他科学起步较晚，信息化水平远落后于用户对其实际使用的需求。如现存的中药数据库中大部分数据库仅提供题录式或文摘式数据，难以满足用户希望获得全面且详细内容的实际需求。另一方面，已有的中医药信息化建设主要集中在中医药信息数据资源的收集、整理，综合利用或从数据服务的性能及质量方面考虑较少。因此，随着所采集数据量的增加和用户对其服务质量要求的提高，现有的中医药信息化水平将更加难以满足用户对其使用的客观需求。

支持海量中医药数据的管理系统应具有高可扩展性以满足数据量的快速增长、高性能以满足对数据的高性能查询、良好的容错性以及有效解决对象多样性问题的措施，但目前中医药数据管理主要采用的关系型数据模型无法解决这些问题，主要体现在以下几方面。

第一，关系型数据库内存中的数据结构与关系模型之间存在“阻抗失谐”，需将不同数据之间的关系进行转换，虽然采用“模式匹配”能解决“阻抗失谐”，但降低了系统查询性能，因而无法解决中医药信息中对象属性项的不确定性问题。

第二，关系型数据库虽然采用分割、非规范化、分布式缓存等技术能增强其存储和管理能力，但无法解决诸如中医药数据规模巨大、数据类型多样的问题，而且一些半结构化数据强行使用关系模型建模后在系统性能和扩展能力上没有好的表现。

第三，在提高对数据的存储与并行处理能力、保障强一致性及容错性方面，关系型数据库虽然发展了并行处理系统、采用NRW策略、两阶段提交协议、分布式锁等诸多技术，但根据 CAP理论［10-11］，一致性、可用性、分区耐受性在分布式系统中三者不可兼得，因而并行数据库无法获得良好的扩展性，这导致了扩展性受限的关系型数据库无法对中医药大数据进行深度分析［12］。

第四，中医药数据海量且增加快速，需要与之相匹配的具有良好横向扩展能力的数据库，但传统关系型数据库对性能的扩展倾向于纵向扩展，该方式对性能的增加速度远低于需处理数据的增长速度，且性能提升有限；传统关系型数据库处理多个数据源协同查询操作时其效率低，而中医药信息中各数据对象间存在的关系尤为复杂，使关系模型数据库在面向海量、多数据源进行读写或查询操作时难以满足用户对性能的要求。

总之，传统的关系型数据库难以有效管理中医药数据，是由于中医药数据自身的固有特性和传统的关系型数据库本身局限所致。因而要从本质上解决中医药数据的管理问题，需打破传统的数据管理模式，借助现代信息的发展成果尤其是数据管理方面的新技术，从中医药信息本身的特征出发，对其进行高效管理和利用。

3 中医药信息管理新趋势

3.1大数据技术

大数据最典型的特征为“数据量大（volume）”、“数据增长高速（velocity）”“数据类型多样（variety）”和“数据价值密度低（value）”，即4V特征，该特征使用常规软件工具难以对其进行获取、管理和分析。

作为一种新的计算模式，云计算源于并行计算、分布式计算和网格计算，主要依靠分布式处理、云存储、分布式数据库及虚拟化技术，实现“基础设施及服务”“平台及服务”和“软件及服务”功能。大数据存储、管理及数据分析往往借助云计算技术，最为典型的应用为云计算体系结构底层文件系统用于管理大数据文件及运用分布计算框架如 MapReduce、Spark进行数据处理和分析。MapReduce作为Google提出的分布式计算框架，提供了一种简单的编程模型，让用户通过设定Map功能，将一组Key/value对转换为一组中间Key/value对。Reduce功能将具有相同中间Key值的中间Value值进行整合，从而得到计算结果。MapReduce中的一个作业就是一组Map和Reduce函数，它们被提交给调度系统，然后被调度到可用的机器上去。为克服 MapReduce的机器学习算法性能低下、不能很好地利用内存资源、编程复杂度较高等不足，Matei Zaharia主导开发了新型计算框架Spark。不同于MapReduce，Spark的Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此，Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce算法。

目前诸多大型 IT企业为解决自身所从事领域的数据管理，开展了相关研究并提出一些可行的解决方案或服务，其中典型的成功实例有：为解决海量数据环境中面向全球用户提供实时的搜索引擎服务，Google提出了文件系统 GFS、分布式计算编程模型MapReduce框架、分布式锁 Chubby、分布式存储系统 Megastore、分布式结构化数据表Bigtable及分布式监控系统Dapper等技术。Apache开源组织提出了一个开源的分布式计算框架 Hadoop，其核心技术HDFS、MapReduce和HBase分别对应Google的GFS、MapReduce、Bigtable的开源实现。Amazon提出了Dynamo平台基础存储架构以及弹性计算云EC2、简单存储服务S3、简单数据库服务Simple DB、简单队列服务SQS、弹性MapReduce服务等系列服务，其中Dynamo作为Amazon的电子商务平台基础完全分布式、去中心化，已被Twitter和Facebook作为存储架构。另外，微软推出了AZURE，IBM推出了蓝云服务。

上述大数据较普遍采用了以下技术：①对数据库不事先定义结构（schemaless）以解决“阻抗失谐”问题，即先有数据再确定模式，不需事先修改结构定义从而可以自由添加字段；②采用弱一致性模型或最终一致性模型以适应集群处理大数据；③通过并行计算模型实现在可伸缩的大规模集群上执行并行操作，以从系统层面解决扩展性及容错性问题。

3.2基于大数据技术的中医药信息管理措施

中医药数据难以管理和利用，可以归结为对象属性复杂、数据海量及对象间关系复杂，这些问题本质上属于大数据的4V特征，目前业界已有成熟且实践中得到广泛验证的解决方案，因而可以借鉴大数据技术解决中医药信息的管理问题。

3.2.1对象属性多样中医药数据中操作对象的属性描述多样，即其数据类型存在着不确定性，传统关系型数据库需事先预定数据结构，导致无法存储类型不统一的数据，而大数据技术通常采用“无模式”数据库，可解决大数据特征的“数据类型多样（variety）”问题。如Dynamo存储架构对数据以位（bit）的形式存储、不解析数据的具体内容，对数据结构不进行识别，从而可以处理不同的数据类型。

中医药信息存在大量非结构化、半结构化的数据，如古医籍、药典、处方等，目前已有许多成熟的数据库可以存储非结构化、半结构化的数据，最为典型的为键值数据库 Riak、文档数据库、列族数据库HBase。这些数据库通过聚合构建，每个聚合都有一个键或ID以获取数据。其中，键值数据库可以根据键值查出整个聚合，而文档数据库的聚合是透明的，因而文档数据库可用聚合中的字段查询。列族数据库与传统数据库以行为单元存储来满足需要经常写入操作的场景最大不同之处在于，其将所有行的某一组列作为基本数据单元进行存储以适应经常需要一次读取若干行中多列的情况。这些数据存储模型能较好地解决中医药信息中复杂的数据存储对象，如处方可以用患者的ID作为键值采用键值数据库进行存储，便于查询以该ID存储的聚合内容；而药典中对药的描述组织结构大体相同，因而可采用文档数据，便于通过其中的字段进行查询以提高查询效率。

3.2.2数据海量、增长迅速中医药数据中操作对象的属性模糊、不完备、古籍校本混乱，为获取全面、准确的信息，需综合多个数据源进行综合分析，即从大量数据价值相对低的中医药信息中进行抽取。该问题可归结为“数据量大（volume）”和“数据价值密度低（value）”的大数据特征。

解决中医药数据的海量性需具有可扩展性的分布式文件系统，而且文件的规模不同，则需采取的策略不同。在处理大文件方面，Google的分布式文件系统 GFS可构建在大量廉价服务器之上，主要适用于读操作远大于写操作的应用场景且具有可扩展性，如中医药文献古籍存储后主要进行读操作一般不需进行再写，因而可采用 GFS文件系统。在存储海量小文件如图片存储场景时，Haystack文件系统通过多个逻辑文件共享同一个物理文件、增加缓存层、加载部分元数据到内存等方式，解决 GFS在解决海量小文件由于频繁读取元数据导致效率低的问题。

3.2.3各数据对象间复杂关系中医药文献记载或中医药数据库中存储的对象之间复杂关系实际上是客观存在的联系，图作为表示事物之间联系的有效手段，可以表示这种复杂关系。需要记载或存储的对象即实体，对象间关系即为边，实体和边都有各自的属性。关系型数据库中存储的图结构通常采用单一关系类型，如在增加一条关系往往需修改多个模式并转移大批数据，因而不适用于中医药数据分析的场景。图数据库与关系型数据库存储图结构不同之处在于实体间的关系在创建时被持久化，因而对其进行遍历的效率高。在大数据图处理方面，Google提出了主要用于图计算的Pregel模型，其核心思想源于BSP计算模型；微软提出了Dryad数据处理模型，主要用来构建支持有向无环图类型数据的并行程序。Pregel模型和Dryad模型相结合，能较好地分析中医药信息中对象间存在的相互关系。

4 结语

如何有效管理和利用中医药信息资源是充分利用中医药技术服务社会的核心问题。本文在分析中医药信息资源的发展历程和其本质特征的基础上，阐述了中医药信息资源具有大数据4V特征，从理论上分析了大数据技术解决中医药信息资源管理的可行性。今后研究将主要集中在具体存储对象的存储模型选取及其实现方面，以期最终实现一个有效管理中医药信息资源的综合云平台。

［1］于琦，崔蒙.中医药信息的特征研究［J］.中国中医基础医学杂志，2012，18（10）：1137-1139.

［2］丁志平，王家辉，乔延江.中药信息学研究浅释［J］.中国中医药信息杂志，2003，10（4）：92-94.

［3］罗朝淑.我首个国家级中医药数据中心成立［N］.科技日报，2015-01-08（10）.

［4］李湘君.中医药信息资源现状分析［J］.卫生软科学，2007，21（3）：227-228.

［5］刘保延.大数据绘制当代中医航海图［N］.中国中医药报，2013-06-05（3）.

［6］尹爱宁，崔蒙，范为宇，等.中医药虚拟研究院［J］.国际中医中药杂志，2006，28（3）：141-143.

［7］赵红，尹岭，王建国，等.国家医药卫生领域科学数据共享网建设目的与现状［J］.中国中医药现代远程教育，2008，6（6）：570-572.

［8］崔蒙，谢琪，尹爱宁，等.中医药信息数字化虚拟研究院建设模式研究［J］.上海中医药大学学报，2008，23（3）：5-8.

［9］朱文锋.WF文锋-Ⅲ中医（辅助）诊疗系统［J］.医学研究杂志，2007，36（9）：62.

［10］ERIC A BREWER. Towards robust distributed systems［EB/OL］. （2000-07-19）［2016-04-19］.http://people.eecs.berkeley.edu/～bre wer/cs262b-2004/PODC-keynote.pdf.

［11］LYNCH N， GILBERT S. Brewer's conjecture and the feasibility of consistent， available， partition-tolerant Web services［J］. ACM SIGACT News，2002，33（2）：51-59.

［12］覃雄派，王会举，杜小勇，等.大数据分析——RDBMS与MapReduce的竞争与共生［J］.软件学报，2012，23（1）：32-45.

（修回日期：2016-05-26；编辑：梅智胜）

TCM Data Management Based on Object Characteristics under the Background of Big Data

DING Chang-song， QU Hao-yu， WU Shi-wen （School of Management and Information Engineering， Hunan University of Chinese Medicine， Changsha 410208， China）

Targeting the problem that it is difficult for traditional data management mode to effectively manage TCM information， this article analyzed from the aspect of object characteristics of TCM information resources and summarized that the reason lies in the TCM information resources with big data 4V features， proposed strategies for TCM information resource management based on big data technology， and expounded the feasibility.

TCM information； big data； data management

10.3969/j.issn.1005-5304.2016.09.003

R2-05

1005-5304（2016）09-0010-05

国家自然科学基金（81573985）；湖南省科技厅项目（2011RS4025、2013GK3143）；湖南省教育厅优秀青年

基金（13B079）

2016-04-21）