刘波 刘伟 唐波 孟涛 姚金波 胡为
摘要:中医药数据具有数据量大和结构复杂等特点,运用传统的统计学方法不能很好地对中医辨证论治数据进行分析和深度挖掘,因此开发一套支持在线访问、功能齐全、简单易用的智能中医药数据分析系统意义重大。该文设计并实现了一套智能中医药数据分析系统ITCMDAS,实现了处方数据频次分析、处方数据关联分析、处方数据聚类分析、文本情感分析和中医舌象识别等功能,有助于研究人员更好地研究与分析相关中医药数据。
关键词:数据挖掘;关联分析;关联规则;复杂系统熵聚类;配伍规律
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2022)07-0051-03
1 概述
中医药作为中华民族不可或缺的文化遗产和文明宝库,积累了众多宝贵的治疗经验和理论知识。随着信息技术的日新月异和现代医学的不断发展,中医不再局限于传统的望闻问切,人们逐渐开始运用现代技术对中医进行研究。同时由于中医临床辨证论治思维具有非线性特征,传统的统计分析方法不能很好地分析中医药数据。因此,人们开始将计算机技术应用于中医药领域。在近几年国内研究人员的探索中,数据挖掘技术已广泛应用于名老中医的临床经验、用药规律和组方规律的研究 [1-4]。2020年初新型冠状病毒肺炎暴发以来,也陆续有一些研究团队将数据挖掘技术应用于新型冠状病毒肺炎的中医药研究[5]。杨灿等建立中药复方治疗新冠肺炎的方剂数据库,并运用频数分析、频次分析、聚类分析、关联规则分析等方法对所整理出的中药复方进行数据挖掘分析[6]。张佳等统计分析全国各地区卫生管理部分发布的新冠肺炎中医诊疗方案中恢复期组方用药规律,总结新冠肺炎恢复期用药特点及治疗思路,利用数据分析软件进行处理,总结常见证型频次、中药频次、高频用药及组合,提取关联规则[7]。
目前,市场上有许多通用的数据分析工具,但专门针对中医药数据设计并开发的数据分析软件较少。已有的几款软件采用的是桌面客户端软件的形式,需要用户下载相关应用软件,基于Web的在线中医药数据挖掘工具非常少。因此,设计并研发一套Web版智能中医药数据分析系统意义重大,能更好地分析中医药数据,方便用户使用,以便更好地服务于中医药研究与发展。
2 智能中医药数据分析系统的分析与设计
当前一些已研发的数据挖掘工具大多为面向全领域的数据分析工具,只有少许针对中医药数据设计并研发的专用软件,但是基本上都采用桌面客户端模式,用户需要下载较庞大的应用软件才能进一步操作。本文所开发的系统利用Web技术来实现在线智能中医药数据分析,系统具有全面性、可视化和易用性等特点。使用人员能够快速上手,并支持用户对数据的批量导入和导出,同时借助网络图和数据表格实现了用户的在线可视化查看,能够更好地助力于中医药数据分析与探索。
智能中医药数据分析系统(Intelligent Traditional Chinese Medicine Data Analysis System, ITCMDAS)使用人群分为两类,分别为普通用户和系统管理员。普通用户可以批量地导入中医药处方数据文件,能够对处方药物进行频次分析、关联分析和聚类分析和文本情感分析,同时用户也能进行中医舌象数据分析,通过上传舌体图片,系统将分析体质体征并给出药物调养建议。系统管理员则可对用户信息、中药材信息等数据进行管理和维护。
系统核心功能模块结构如图1所示。
ITCMDAS系统的主要功能如下:
1) 处方数据频次分析:将处方中單味药/药对/三元组统计出现频次,并从大到小排序,结果以ECharts图表显示,并支持以Excel文件格式导出数据。
2) 处方数据关联分析:通过数据挖掘中的Apriori关联规则算法计算出处方药物的多项关联规则,用户可以设置最小支持度阈值和最小置信度阈值,结果以表格形式显示。排序结果支持Excel文件导出,同时可生成以ECharts图表显示最小支持度阈值和最小置信度阈值分别为指定数值的药物强关联网络图。
3) 处方数据聚类分析:分为两大子功能模块,分别为处方组方规律分析和核心药物组合提取。处方组方规律分析:利用数据挖掘中的复杂系统熵聚类算法[8-9],计算处方中各个药物的熵以及药物之间两两形成的药对的联合熵和关联度系数,用户通过设置关联度系数,从而生成排序后的关联度系数药物排名表,支持以Excel文件导出。核心药物组合提取:利用复杂系统熵聚类算法,计算得到药对之间的关联度系数后,将相互关联度排名前十的药物进行聚类,排序结果以表格形式显示,同样支持以Excel文件导出。
4) 文本情感分析:用户按照示例在文本框中输入任意一段文字,利用贝叶斯概率统计算法,采用知网正负面情感语料进行模型训练,通过训练得出的模型,判断该文本的情感极性是正面还是负面。
5) 中医舌象数据分析:用户上传舌体图片,系统通过深度学习训练所得的模型,分析体质体征并给出相应药物调养建议。
在系统需求分析报告和功能模块结构设计方案基础上,设计系统的界面原型。同时本系统采用MySQL关系型数据库,在满足第3范式前提下进行数据库设计。ITCMDAS的核心数据库表包括用户基本信息表和中药材功效性状信息表等。
3 智能中医药数据分析系统的实现与应用
ITCMDAS采用B/S(Browser/Server)架构,系统基于较为成熟的技术框架体系来实现。服务器端采用Java语言开发,使用SpringBoot免配置框架体系,系统整体采用MVC(Model-View-Controller)架构。同时系统服务器使用Apache Tomcat,数据库采用MySQL。前端界面呈现选择LayUI、jQuery等框架,并大量使用JSON用于数据传输。系统的技术体系结构如图2所示。
ITCMDAS的部分核心功能介绍如下:
1) 处方数据关联分析
用户导入标准Excel处方文件以及输入置信度阈值和支持度阈值,系统生成符合阈值的关联药对,网页将显示强关联表格和ECharts网络图。该功能基于数据挖掘Apriori关联规则算法实现,置信度和支持度需要满足用户期望的阈值范围才算是有效的规则。实际过程中往往会面临大量的数据,如果只是简单地搜索,会出现很多的规则,而且相当大的一部分是无效的规则,效率很低。Apriori算法通过找出所有满足预定条件的频繁项集,然后再依据频繁项集产生关联规则,进而提升效率。算法逐层搜索迭代,不断生成候选项集,剪枝掉低于支持度的候选集来生成频繁项集,直到不能找到K项频繁集合,最后生成满足条件的强关联药对和药组。处方数据关联分析页面截图如图3所示。
2) 处方数据聚类分析
很多名老中医和国医大师的处方数据中蕴含丰富的临床诊疗知识,包括用药规律、组方规律和核心药物组合等,处方数据聚类分析是本系统的核心功能之一。用户可以导入处方数据,设置最小关联度阈值,系统将生成按照关联度系数从大到小排序后的药物表格以及得到处方中核心药物组合表,该功能借助于复杂系统熵聚类算法来实现。复杂系统熵聚类(Complex System Entropy Clustering)是一种无监督模式挖掘算法,它可以自组织地从海量数据中获取信息量最大的组合,特别适合高度离散性类型的数据,在中医药数据中使用复杂系统熵聚类算法挖掘出在方剂配伍中包含的核心组合。
该功能包括处方组方规律分析和核心药物组合提取两大子功能。在处方组方规律分析中,算法首先计算出各药物的熵,进而计算各药对之间的联合熵和关联度系数,比较用户设置的最小关联度阈值,筛选出满足条件的药对。处方组方规律分析子功能的页面截图如图4所示。在核心药物组合提取中,算法计算得出每味药所对应的关联药物在相同键值关联度系数中排名前十的药物组合,再对这些药物进行聚类得到新的药物处方组合,即核心药物组合。核心药物组合提取子功能的页面截图如图5所示。
4 结束语
由于中医药数据具有数据量大和结构复杂等特点,运用传统的统计学方法不能很好地对中医辨证论治数據进行分析。同时已有的相关软件大部分采用的是桌面客户端模式,需下载后才能使用,升级和维护都较为麻烦。
本文设计并实现了一款基于Web的智能中医药数据分析系统ITCMDAS,系统具有全面性、可视化和易用性等特点。系统功能较为完善,实现了处方数据频次分析、处方数据关联分析、处方数据聚类分析、文本情感分析和中医舌象识别等功能。面向的用户既包括中医药研究人员又包括普通用户。用户可以在线查看可视化网络图和表格,还可以离线下载保存分析处理后的数据。在后续研究中,将进一步优化系统界面和操作流程,同时对中医药自然语言处理和中医舌象识别与处理开展更加深入的研究,扩充系统的功能,更好地为中医药研究和应用服务。
参考文献:
[1] 刘凡,李新龙,李凌香,等.数据挖掘软件在名老中医经验传承中的应用进展[J].环球中医药,2019,12(10):1606-1610.
[2] 王康,尹玉洁,李雅文,等.数据挖掘方法在中医医案研究中的应用[J].世界中医药,2021,16(11):1659-1664.
[3] 陈志奎,宋鑫,高静,等.基于数据挖掘的中医诊疗研究进展[J].中华中医药学刊,2020,38(12):1-9.
[4] 仲芳,杨巍,赵翀,等.数据挖掘技术在中医医案的应用研究[J].中国中医药信息杂志,2020,27(2):141-144.
[5] 侯艺,付亚辉,于若愚,等.基于数据挖掘新型冠状病毒肺炎治疗期中药用药规律[J].世界科学技术-中医药现代化,2021,23(5):1667-1675.
[6] 杨灿,吕晓东,庞立健,等.中药复方治疗新型冠状病毒肺炎用药规律分析[J].海南医学院学报,2020,26(13):961-966.
[7] 张佳,李晓东.基于数据挖掘的各地区新冠肺炎恢复期中医药组方用药规律研究[J].湖北中医药大学学报,2020,22(6):117-121.
[8] 西广成.复杂系统方法学与中医证候建模[M].北京:科学出版社,2010.
[9] 赵亚丽.一类复杂系统的熵方法研究[D].北京:中国科学院自动化研究所,2005.
【通联编辑:代影】
收稿日期:2021-12-26
基金项目:国家级大学生创新创业训练计划项目(S202010541052);湖南中医药大学计算机科学与技术学科开放基金项目(2018JK05);湖南中医药大学人才引进基金项目
作者简介:刘波(2001—),男,本科生,主要研究方向为中医药信息学;刘伟(1982—),男,通信作者,副教授,博士,主要研究方向为知识工程和中医药信息学。