中医经络数据的缺失值填补及可视化

2015-11-26 01:08陈家昌
计算机与现代化 2015年3期
关键词:线图经络可视化

陈家昌

(同济大学电子与信息工程学院,上海 201804)

0 引言

经络学说是中医理论的核心,是以经络理论为基础来构建中医的核心架构[1]。当前,经络数据的采集主要是利用电导法测量[2],经络电阻抗检测技术[3]是一门利用经络系统中经穴区域皮肤组织的电特性及其变化规律来提取与人体生理、病理状况相关的生物医学信息检测技术,其基本检测方式是利用体外系统向检测对象施加安全的电激励(如电流、电压、电磁等),然后在体外检测出相应变化,获取其相关的电阻抗信息。目前,经络阻抗检测技术的检测方法主要包括输入激励电压测电流、输入激励电流测电压和谐振称合方法等,其中输入电流测电压方法较为常用。虽然经络的电导法测量取得了广泛的运用,但是仍然存在一些问题。一方面,经络电信号是一种非线性非平稳的频谱时变的微弱信号,且其背景噪声很强,这使得经络电信号的有效、准确检测和采集非常困难;另一方面,缺乏有针对性和更为有效的信号处理与分析方法,导致测量结果存在一定的缺失。目前,很少有人针对经络数据进行补缺[4],常见的是把缺失的数据样本删除,对删除后的数据进行分析,但是这样会导致一些信息的丢失。事实上由于每种填补算法侧重点不同,针对的数据结构不同,如果处理方法选取不恰当,即便是数据的缺失比率在一个可处理的范围内,也会造成分析结果偏倚或者不能充分利用数据信息。Olga Troyanskaya 在2001 年提出了带权重的k 近邻补缺法(WKNN)[5];Shigeyuki Oba 在2003 年提出了贝叶斯主成分分析法(BPCA)[6];Hyunsoo Kim 在2005 年提出了局部最小二乘补缺算法(LLS)[7]。

医学数据的可视化[8-9]是将采集的医学数据利用直观的图形进行展示,在辅助医生诊断、手术导航和引导治疗等方面具有重要的作用。中医经络是中国古代人们通过肉眼观察所总结出来的对人体解剖、生理、病理规律的认识,具有一定的抽象性,并且经络循行路线及其所反映的规律也是一种立体性很强的知识结构。传统的文字信息只能提供一种表层的概念印象,不足以形象地描述中医经络知识的精髓。所以,无论是现在还是未来,中医可视化都是中医发展的必经之路。中医经络可视化展示系统把传统中医经络知识与现代计算机图形学知识相结合,可以更加直观地展示和发掘中医经络知识和信息。

本文利用Bayesian Principal Component Analysis(BPCA)[6]、Local Least Squares(LLS)[7]、Weighted K Nearest Neighbor (WKNN)[5]、Iterated Local Least Squares(ItrLLS)[10]4 种方法进行补缺并进行对照比较,尝试找出最有效的补缺方法,弥补测量缺失带来的损失;然后,利用趋势图和箱线图对经络数据进行展示。通过这些可视化技术对经络数据进行了直观的展示而且有效地发掘经络数据的规律和特点。

1 数据集

1.1 数据的采集

从2012 年9 月18 日到2014 年7 月3 日,每5、6天对受试者进行电导法经络测量得出“经络值”,共采集了65 次。但由于各种原因,难免会产生病例脱落、时点缺失情况,空白没有输入数据的即是缺失值。其中,采集的穴位共有72 个,包括手拇指中左,合谷旁左,足拇指中左,太白上左;手拇指中右,合谷旁右,足拇指中右,太白上右(是假穴位,用于对照使用,其余穴位均为真穴位)。

1.2 数据的预处理

由于原始数据有些缺失比例较大,不可恢复,所以,选择缺失较小的10 位测试者的经络数据作为最终处理的数据。这10 位测试者中,男女各占一半,年龄范围在26~32 岁之间。

2 缺失数据的可视化分析框架

2.1 框架整体介绍

在经络数据的采集过程中,可能会产生脱落或错位,导致测量结果缺失,为了弥补缺失带来的损失,本文提出一种缺失数据的可视化框架。如图1 所示。

在数据采集过程,利用电导测量法对志愿者进行经络采集并将数据储存到数据库中。在数据补缺阶段,分别用BPCA、LLS、WKNN、ItrLLS 这4 种算法进行补缺,根据补缺衡量指标评判补缺效果的好坏,选择补缺效果最好的构成新数据集。最后,在可视化阶段,分别用折线图进行时间序列分析和箱线图进行差异性分析。

图1 经络数据分析框架图

2.2 补缺算法

2.2.1 WKNN

基于KNN 的补缺算法主要思想是通过选取基因数据中相似的基因数据来对缺失数据进行补缺。例如,基因A 在某个特征a 上有缺失,利用KNN 算法[11],可以找出K 个在特征a 上没有缺失的基因,而且这K 个基因在除特征a 外的其他特征上是最相似的,一般利用欧氏距离的大小表示相似度。最后,对选出的K 个基因在特征a 上进行加权平均得出的值是基因A 的特征a 上的补缺值。在加权平均的过程中,权重的大小取决于与基因A 的相似度。也就是,与基因A 相识度越高权重越大。

2.2.2 BPCA

BPCA 补缺算法[6]是由3 个基本过程组成:1)主成分回归[12];2)贝叶斯估计[13];3)最大期望(EM)迭代算法[14]。

2.2.3 LLS

同最近邻法类似,其思想是选取跟目标基因表达值相似的K 个邻近基因,根据选用的相似性度量,这些基因与目标基因最为相似,且不含缺失的表达值,即为完整基因。本文中相似性度量选用Pearson 相关系数。与最近邻法不同的是,最近邻法的权重系数仅仅是用欧氏距离的比值,是特定的值,插补精度不高,而局部最小二乘法是求得相似基因子集与目标基因的最小二乘解,优化了权重系数的选取[15]。

2.3 可视化方法

根据经络数据的时序性特点,本文主要利用折线图[16]来观察经络值在不同时间段的变化规律,以及利用箱线图[17]来观察显示经络值在季节、性别、六气等方面的变化差异。

3 经络数据补缺实验

原始数据集中共有4680 个样本,经过初步预处理,形成一个4680 ×10 的数据集。对其进行缺失比例统计,如图2 所示。

图2 各个测试者的缺失比例

数据集的总体缺失比例是:24.3%。采用上一节提到的4 种算法进行补缺,为了比较4 种方法的优劣,进行如下仿真缺失比较实验:首先从4680 ×10 数据集中选择数据相对比较完整的32 次,形成一个2304 ×10 的数据集。把每个穴位的数据分别提取出来,得到72 个(穴位)32 ×10 的数据,这72 个数据集中含有的少量缺失数据使用缺失值所在行的平均值替代,构成72 个完整的数据集,使用这72 个完整的穴位数据集进行仿真缺失实验。为了仿真原数据集的缺失机制,随机删除某些人在某天的所有穴位信息,共仿真10 次,平均缺失比例为18.3%。评价指标使用的是标准均方根误差(Normalised Root Mean Square Error,NRMSE),NRMSE 是数据填补算法中常用的比较指标[18],值越小代表填补值越接近真实值,其求法如公式(1)所示:

其中,N 是缺失值总个数,yj是真实值,是填补值,σy是N 个真实值的标准差。实验结果如图3 所示。

图3 补缺实验结果

从图3 可以看出,WKNN 的标准均方根误差(NRMSE)最小,说明用WKNN 补缺算法进行数据补缺的效果最好,所以把WKNN 补缺后的数据进行后面的数据可视化分析。

4 经络数据的可视化

4.1 基于折线图的经络趋势分析

利用折线图,观察穴位在不同季节的变化趋势。如图4 所示。

图4 所有穴位经络值季节变化趋势

很明显,在季节上,穴位的变化趋势大致有4 种,大多数穴位的经络值变化趋势是一致的,呈“降升升降”的变化趋势,也就是说,大多数穴位经络值是夏秋季开始升高,冬春季开始下降。另外,还有4 组特别高,它们分别对应:大敦右、太白右、申脉左、足窍阴左。

4.2 基于箱线图的经络差异性分析

图5 各个季节的箱线图

为了观察经络值在不同季节的差异性,使用箱线图展示穴位的经络值,如图5 所示,展示丘墟右在各个季节所有人经络值的中位数、上下四分位数、最大最小值以及离群点,在秋季的分散度为最大,春季分散度最小;同样,秋季的经络值相对较高,春季的经络值相对较低。除了在不同季节上,还展示了不同性别的差异性,如图6 所示,从图中可以看出,男性经络值的分散度要大于女性,而且男性的经络值平均要大于女性。

图6 丘墟右的不同性别箱线图

5 结束语

本文提出一种经络研究框架,很好地解决了经络值缺失的问题,并且结合数据可视化的方法,对传统中医经络数据进行了展示,有效地发掘出经络穴位的变化趋势和一些规律。未来将进一步利用更复杂和有效的可视化方法来展示经络数据,全方位地去观察和发掘经络数据中的规律。

[1]吴建国.中医经络学的运用与发展思路探讨[J].中华中西医杂志,2006,7(2):35-35.

[2]黄鹂,原嘉民,蔡坚雄,等.健康人群电导法经络测量值特点研究[J].广东医学,2012,33(16):2497-2500.

[3]王亚盛,许萍.人体经络动态电阻检测电路的设计[J].传感器技术,2004,23(10):45-47.

[4]Sánchez-Araujo M,Luckert-Barela A J,Sánchez N,et al.On dermatomes,meridians and points:Results of a quasiexperimental study[J].Acupuncture in Medicine,2014,32(1):62-69.

[5]Troyanskaya O,Cantor M,Sherlock G,et al.Missing value estimation methods for DNA microarrays[J].Bioinformatics,2001,17(6):520-525.

[6]Oba S,Sato M,Takemasa I,et al.A Bayesian missing value estimation method for gene expression profile data[J].Bioinformatics,2003,19(16):2088-2096.

[7]Kim H,Golub G H,Park H,et al.Missing value estimation for DNA microarray gene expression data:Local least squares imputation[J].Bioinformatics,2005,21(2):187-198.

[8]Müller H,Reihs R,Zatloukal K.Analysis of biomedical data with multilevel glyphs[J].Bioinformatics,2014,15(S6):S5.

[9]张浩,郭灿.数据可视化技术应用趋势与分类研究[J].软件导刊,2012,11(5):169-172.

[10]Cai Zhipeng,HeydariI M,Lin Guohui.Iterated local least squares microarray missing value imputation[J].Journal of Bioinformatics and Computational Biology,2006,4(5):935-957.

[11]Zhang Jianping,Mani I.kNN approach to unbalanced data distributions:A case study involving information extraction[C]// Proceedings of Workshop on Learning from Imbalanced Datasets II.2003.

[12]陈峰.主成分回归分析[J].中国卫生统计,1991,8(1):20-22.

[13]宫秀军.贝叶斯学习理论及其应用研究[D].北京:中国科学院,2002.

[14]Chrétien S,Hero A O.On EM algorithms and their proximal generalizations[J].ESAIM:Probability and Statistics,2008,12:308-326.

[15]张莹,王耀南.基于局部加权偏最小二乘法的冷凝器污垢预测[J].仪器仪表学报,2010,31(2):299-304.

[16]吴建华,刘庆,赵妍,等.肝功能主要检验指标以动态折线图示在肝病诊疗中的应用探讨[J].中西医结合肝病杂志,2007,17(4):234-235.

[17]杨建南,杨滢,王勇.用箱线图分析评价临床科室出院病案完成时效[C]// 中国医院协会病案管理专业委员会第十七届学术会议论文集.2008.

[18]Brás L P,Menezes J C.Dealing with gene expression missing data[J].IEE Proceedings-Systems Biology,2006,153(3):105-119.

猜你喜欢
线图经络可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
预测瘢痕子宫阴道试产失败的风险列线图模型建立
关于经络是一种细胞外基质通道的假说
基于CGAL和OpenGL的海底地形三维可视化
基于箱线图的出厂水和管网水水质分析
“融评”:党媒评论的可视化创新
4个表现自测经络是否畅通
东山头遗址采集石器线图
经络考证