张柯欣 石岩 杨宇峰
摘 要:本文介绍了糖尿病中医病证大数据平台的建设内容,探讨了专病大数据应用的关键技术,提出了基于深度学习的本体关联医学文献分析理论。介绍了古代文献自动分析系统、现代文献自动分析系统、临床病例采集及分析系统、中医药数据自动关联分析等系统的设计,总结了糖尿病中医病证大数据平台的设计思路。
关键词:糖尿病;中医病证;大数据平台
中图分类号:TP311.13;TP39 文献标识码:A DOI:10.3969/j.issn.1006-1959.2018.13.008
文章编号:1006-1959(2018)13-0029-03
Abstract:This paper introduces the construction of big data platform of TCM disease syndrome of diabetes mellitus,discusses the key technology of the application of special disease big data,and puts forward the theory of ontology-related medical literature analysis based on in-depth learning.This paper introduces the design of the ancient document automatic analysis system,the modern document automatic analysis system,the clinical case collection and analysis system,the Chinese medicine data automatic association analysis and so on,and summarizes the design idea of the big data platform of diabetes mellitus TCM disease syndrome.
Key words:Diabetes;TCM disease syndrome;Big data platform
我國糖尿病的患病率正呈快速上升的趋势,成为继心脑血管疾病、肿瘤之后另一个严重危害人民健康的重要慢性非传染性疾病[1]。糖尿病是一种由多源性病因引起的疾病,受遗传因素、社会因素、生活方式及环境因素等相互作用的影响[2]。国际糖尿病联盟(IDF)数据显示,2014年全世界有3.87亿糖尿病患者。预计到2035年,糖尿病患病人数将增长55%,达到6亿。因糖尿病死亡人数和医疗费用支出日益增加,糖尿病疾病负担日趋严重[3]。
基于大数据的研究方法建立基于生活方式干预,降糖、降压、调脂等治疗的中西医结合全程干预糖尿病病证结合临床治疗方案,可以期望改善患者生存状态,提高生存质量,安全性好而经济,具有广阔的推广空间。临床专病的防治研究一般从医学文献的检索开始,研究者通过阅读国内外的相关医学文献了解相关领域的最新发展,指导自己开展临床科研和医疗活动。但是在信息急速增长的今天,医学文献的数量极为惊人。仅以糖尿病为例,在中国知网平台上就能查询到几十万篇相关医学文献。不言而喻,这样数量级的文献已经远远超过人类阅读学习的极限,从而导致研究者已经无法获取全部相关医学文献,而只能筛选一些感兴趣的文章下载阅读。尽管现在发展出了很多的搜索技巧和技术,但仍然无法避免一些有意义的论文被遗漏,从而造成知识过多而无法获取和理解的问题。建立专病大数据的根本目的其实是利用现代信息技术帮助人类研究者从海量数据中获取其真正需要的信息,从而增益其知识体系并对临床医疗带来帮助。
目前的专病数据库一般在临床是指带有HIS接口的电子病历,在学校或者研究机构是指专病学科文献库,在中医院校或者机构中还往往建设有中医古代文献库。以上这些库都存储着有用的信息,但是对普通研究者而言存在难以获取和利用的问题。国内外对于医学文献数据大部分是采用人工标注的方法进行分析,有研究价值,但是人工操作效率较低而且难以评价效果,对多种融合数据也比较难处理。本文认为解决这一问题需要开发中文文本自动分析标注技术、医学文献语义分析技术、中医医理分析技术、异构数据融合分析技术,并在这些技术的基础上对大数据平台的文献及病例数据进行融合分析。具体来说需要提出新的医学文献分析理论,形成新的中医病证大数据平台,开发新的数据融合算法。
1基于深度学习的本体关联医学文献分析理论
1.1新理论的目标 本文认为传统的医学文献分析依赖于专家或经典著作的知识体系构建,建立知识本体后进行人工标注和统计分析,虽然有很好的研究价值,但是当前在研究进度和准确性上都不能很令人满意。当前待分析的古代中医文献以百万字数起算,现代专病文献动辄几十万篇,这样的数据量已经远远超过人工能处理的范畴,因此我们认为要在建立中医和现代医药知识本体库的基础上,建立一种自适应的医学本体关联的数学模型,基于深度学习的思想设计标注和分析的算法,根据研究需要自动给出医学文献分析数据和可视化分析结果。
1.2新理论的建立 知识本体的建立可以依据现有本体建构的方法进行设计,其核心问题是本体基础信息的来源和自适应产生新本体的规则产生过程的设计。我们处理的对象是文本形式的医学文献,新理论认为系统中的一篇文献可以通过观察者与具有一定知识结构的本体系统的互动而产生有意义的结果并推送给观察者。这种互动是本体系统自适应算法基于深度学习的方法不断提高效率和准确度的,最终达到代替人类观察者快速从海量数据中获取信息的目的。这一理论引入异构知识的关联耦合权重因子的概念和建立数值变化模型,指导大数据研究的融合方法研究。因为尽管各知识本体有很大的差异,但是临床各种本体概念仍有很大的关联性,研究中将海量的数据根据前期研究的关联模型自动建立关联线索和关联框架。
2糖尿病中医病证大数据平台的建设实践
笔者团队按照前面提出的基于深度学习的本体关联医学文献分析理论建立了糖尿病中医病证大数据平台。首先依据《中华人民共和国国家标准·中医临床诊疗》、《中医大辞典》、《中医辞海》、《中医症状鉴别诊断学》、全国高等中医药院校规划教材《中药学》、《中医诊断学》、《中药大辞典》及《中华人民共和国药典》等238个公开标准或出版物建立基本本体知识库。其次对几百本古代中医文献进行了校对并建立了古代文献文本库。又对糖尿病相关的几十万篇现代文献建立了题录库及部分全文库。还收录了临床团队多年的糖尿病病例数据。以上海量数据共同纳入团队开发的支持异构的糖尿病及代谢综合征中医病证大数据平台,作为下一步研究的前期数据基础。平台数据严格遵循真实和准确的原则,所有入平台出版数据反复核对,临床数据保证真实可靠,为数据分析奠定基础。在此基础上开发了古代文献自动分析、现代文献自动分析、临床病例采集及分析、中医药数据自动关联分析等系统,为糖尿病研究人员提供了极好的研究平台。
2.1古代文献自动分析 中医药古代文献蕴含着丰富的中医医理思想和诊疗经验,是中医病证大数据平台非常有价值的数据来源。传统的标引分析主要基于人工标注,不能适应大数据平台的海量文献自动处理要求。笔者开发了一个辅助研究平台,在建立基本知识元库的基础上,对古代文献进行文字分析,并实现了自动处理功能[4]。将辅助平台功能集成到大数据平台,就可以对不断获得的中医古代文献文本进行分析,获取其文献全文的概念的注释,而且对概念的分类、时代有全面直观的了解。此系统计算功能比较强,一般的文献数据量都在几十万条到几百万条,分析后研究者可以清晰的了解文献的全貌,也可以针对其研究专题获取详细的信息。
2.2现代文献自动分析 现代文献的数量级远远大于古代文献,针对某个专病其文献量就可以轻易达到几十万篇的数量级,题录分析已经很难,全文分析更是困难重重。笔者设计了现代文献分析系统,从题录入手,数据来源基于各大文献数据库的自动导出题录,通过数据处理,自动导入到系统数据库中,再以人性化的设计展现在研究者面前。其设计重点在于让研究者快速从海量文献中搜索到自己研究的关键文献,因此主要关键词和文摘的搜索与排序都很重要。除此之外,系统设计了研究统计的新知识元和原文查看功能,帮助研究者深入研究论文的学术内容。目前此系统是半自动处理,能够帮助研究者从几十万篇文献中快速锁定关注论文,后续计划加入文本自动分析算法,帮助研究者自动给出论文的学术分析内容,使研究的效率大大提高,真正使医学文献研究进入“多多益善”的境界。
2.3临床病例采集及分析 医学大数据平台必须与医学临床数据紧密关联,使古代文献、现代文献和当前临床数据产生良性互动,因此临床病例系统的设计十分重要。当前针对中医和西医医院都有电子病历的标准,也有HIS系统的设计规范,但是在临床应用中都存在标准比较宽泛而不能准确概括具体专病诊疗的问题。目前能实际能起到临床应用效果的基本都是各科室医生自主增添修改的自定义模块,但是在分析这部分空白点很多。笔者针对临床病例采集设计了相应的病历系统,针对专病比较人性化的解决了病历录入的问题,不过局限性也很明显,就是随着医生或者科室的不同,必须进行大量的修改。笔者当前依托大数据平台开始设计二代的病历系统,可以依靠平台极为丰富的知识元系统,自动分析医生和患者的日常病历数据并加以合理推算,自适应的给出医生知识模块调整方案建议。这样能较好的解决临床数据与文献知识脱节以及病历模块修改耗费人工过多而效率过低的问题,真正使医生的临床数据与最新医学进展同步互动。
2.4中医药数据自动关联分析 医学数据的统计分析和数据挖掘一般是通过购买和使用商业软件来完成的,SAS、SPSS和MATLAB等商业软件数据分析功能强大,是研究者的好帮手。但是这些商业软件也存在价格昂贵、学习困难、使用繁琐、自主性差等问题,抬高了医学数据分析的门槛,导致一些研究者望而生畏。笔者针对医学数据挖掘的主要内容关联规则分析和聚类分析设计了自己的算法和软件,应用在大数据平台的中药分析中。这些软件可以很好的给出中医治疗专病的药物分析,分析层次与参数同于或优于一般商业软件,而且与研究数据的集成度较高,使用起来比较简捷。目前已经将关联规则分析算法处理集成到大数据平台中,可以方便的给出专病药方的分析结果,对中医文献中专病的治疗方法给出准确的中药方分析。后期可以对文献中中医西医各种治疗方法给出关聯性分析的结果。
3结论
以上内容是笔者在设计糖尿病中医病证大数据平台中的一些探索和实践内容。结合古代中医文献分析中医医理,结合现代医学文献分析诊疗技术,结合临床病例分析临床路径,再将以上内容通过统一的知识库进行关联数据分析是目前的整体思路。在此过程中将研究一系列的理论、方法和算法,并开发出相应的自动分析技术和软件。由于此领域的研究刚刚开展,理论和方法还十分不完善,因此难免走一些弯路,在此也希望医学同道给予批评指正,并能共同推进这一领域的研究。
参考文献:
[1]中华医学会糖尿病学分会.中国2型糖尿病防治指南(2013年版)[J].中国糖尿病杂志,2014,22(08):2-42.
[2]Pasala SK,Rao AA,Sridhar GR.Built environment and diabetes[J].International Journal of Diabetes in Developing Countries,2010,30(2):63-68.
[3]汪会琴,胡如英,武海滨,等.2型糖尿病报告发病率研究进展[J].预防医学,2016,28(1):37-39.
[4]张柯欣,石岩,杨宇峰.中医文献知识智能解析及教学平台的研究[J].科技展望,2017(19):180-182.
收稿日期:2018-6-7;修回日期:2018-6-15
编辑/杨倩