成谢锋, 蔡华民
(南京邮电大学电子科学与工程学院,江苏 南京 210003)
二维心音图特征提取与识别方法的研究
成谢锋, 蔡华民
(南京邮电大学电子科学与工程学院,江苏 南京 210003)
针对心音的特征提取问题,将一维心音信号转换成二维心音图,采用图像处理技术提取心音的图像特征。本文首先对一维心音信号进行小波降噪和幅值归一化,将处理后的心音信号转换成具有统一性和可比性的二维心音图,并进行预处理;然后结合心音生理意义和二维心音图的图像特征,对能表征二维心音图生理信息的图像特征进行分析研究,重点研究二维心音图纵横坐标比和拐点序列码特征;最后,基于纵横坐标比、拐点序列码、小波分解系数 3个特征,探讨利用欧氏距离和支持向量机(SVM)两种识别方法进行二维心音图分类和身份识别的可行性。实验结果表明,3种特征都可以实现二维心音图的分类识别,其中拐点序列码识别率最高;这种基于图像处理的二维心音图分类和身份识别方法具有明显的可行性和实用性,拥有广阔的应用前景。
二维心音图;图像处理 ;特征提取;识别
心音信号是人体最重要的生理信号之一,应用于听诊辅助治疗已经有了相当悠久的历史。心音信号含有心脏各个部分如心房、心室、大血管及各个瓣膜功能状态的大量生理信息,是具备普遍性、独特性和可采集性的生物特征。它又是来自于人体内部的信号,不容易被模仿或复制[1]。
目前对一维心音特征提取常见的方法包括以小波变换法为代表的时频分析方法[1]和以FFT方法为代表的功率谱分析方法等[2],以及利用MP 的稀疏分解、最大熵谱方法分解提取出心音信号的特征,并且采用矢量量化(VQ)、高斯混合模型(Gaussian Mixture Model,GMM)和欧式距离等作为匹配算法完成心音身份识别,为了提高识别率,还采用了数据融合等技术手段。由于图像分类识别技术已经比较成熟,识别率可达到实际应用的水平,比如指纹安全认证,X线计算机断层摄影(CT)等[3-4],因此,如果用图像处理技术对二维心音图进行处理和识别,这是从图像领域对心音进行处理的一种新探索。
本文首先运用一维信号处理方法对心音信号进行小波降噪和幅值归一化,将处理后的心音转换成具有统一性和可比性的标准二维心音图,并对二维心音图进行灰度化、背景归一化、二值化、细化等预处理。然后结合心音的生理特点,研究二维心音图纵横坐标比和拐点序列码特征提取方法。最后,基于纵横坐标比、拐点序列码、小波分解系数3个特征,分别探讨了利用欧式距离和支持向量机(Support Vector Machine,SVM)两种识别方法进行二维心音图分类和身份识别的可行性,并做了大量实验分析。根据实验结果数据显示,3种特征都可以实现二维心音图的分类,其中拐点序列码识别率最高。身份识别中同样是拐点序列码识别率最高,说明拐点序列码更能表征二维心音图的本质特征。本文研究成果表明,基于图像处理的二维心音图分类和身份识别具有明显的可行性和安全性,拥有一定的推广应用前景。
二维心音图是由一维心音信号转换成二维图像得到的,是声音信号图形化的结果,如图1所示。在采集心音时会因为采样率和采集环境、采集设备等条件的不同导致采集到的心音信号不具有统一性和可比性,所以必须统一采样率、采集环境和采集设备。“一种双听诊头的心声检测装置”(已获中国发明专利, 授权日期 2009年10月21日,专利号:ZL2007 1 10015090.1),采样率统一在22050,采样环境无法具体统一,只能尽量避免不必要的外界噪声干扰[5-6]。在将一维心音信号转换成二维心音图之前必须对心音信号进行降噪和幅值归一化:前者是为了让二维心音图的波形更加光滑,减少图像处理时的难度;后者将心音幅值统一在[-1, 1]之间,使二维心音图在幅值上具有统一性和可比性。
图1 二维心音图
心音主要分为第一心音和第二心音,二维心音图可以分为第一心音二维心音图、第二心音二维心音图、第一心音第二心音组合二维心音图3种。第一心音的时长通常在0.1s到0.12s之间,第一心音二维心音图取时长0.1s,如图1中左半部分为第一心音二维心音图;第二心音时长通常在0.08s到0.1s之间,第二心音二维心音图取时长0.08s,如图1右半部分为第二心音二维心音图;组合二维心音图取第一心音和第二心音时长的总和,也就是0.18s,它剪除了第一心音和第二心音之间的时间间隔,如图1整体为组合二维心音图。二维心音图的宽度统一为1090,高度统一为400,这样得到的是400×1090的二维心音图。
二维心音图的预处理包括灰度化、背景归一化、二值化和细化。
二维心音图是由心音声音信号转换得来,它的颜色信息无法达到本文研究要求,所以首先进行灰度化。
因为在转化成二维心音图时采用软件的问题,导致生成的二维心音图背景有网格噪声,为了突出二维心音图的波形信息,必须去除网格噪声(图2),或者背景归一化。二维心音图的灰度直方图呈现双峰型,可以通过全局阈值法统一背景灰度值,基本思想就是将二维心音图像素灰度平均值作为阈值,对整个图像扫描实现背景归一化(图3)。然后,用全局阈值法实现图像二值化(图4)。
图2 灰度二维心音图
图3 背景归一化二维心音图
图4 二值化二维心音图
最后,本文采用基于数学形态学的细化方法,对二维心音图进行细化,目的是减少波形宽度中的无用冗余信息,突出波形走向和形状(图5)。
图5 细化二维心音图
特征提取是为了实现心音的分类和身份识别,有效特征的提取可以实现高识别率的心音分类和身份识别。本文提出了纵横坐标比和拐点序列码两种二维心音图特征,可以反映心音的生理意义。其中前者的提出依据是根据一维心音中心音幅值时间比判断心音是否正常;后者的依据是一维心音可以由双峰子波、三峰子波、四峰子波组成。心音的双峰子波、三峰子波、四峰子波如图6所示。
图6 心音的双峰子波、三峰子波、四峰子波
3.1 纵横坐标比
第一心音(S1)发生在心脏收缩期,标志着心室收缩期的开始。本文经过分析不同测试者的心音信号幅值发现,不同人的S1幅值大小存在很大差异,同一人在不同时段的S1幅值也会有所区别。外界影响心音幅值大小的因素有很多,本文将这些影响因素主要分为两类:第一类是采集装置因素,主要有外界环境噪声、采集装置传感器放置位置、采集装置的移位、采集装置与接触物的摩擦声、对传感器所施压力的轻重等;第二类是受试者自身的因素,主要有受试者的性别、年龄、情绪的变化、胸腔壁的厚薄等[7-8]。在众多外界因素的影响下,从心音信号的记录到心音信号的分析都是一项非常复杂和困难的工作。通常的解决办法是在采集时就排除这些外界因素的影响[9-11],这样后续心音信号的分析就不需要考虑这些外界因素的影响。要排除这些外界因素必须对受检者进行短期培训,培训的结果是统一测量和评估的标准。最后选择相对安静理想的环境,受检者在心音采集时尽力配合,这样可以得到比较理想的心音。本文只考虑运动和呼吸对心音幅值的影响,其他暂不做考虑,体现在二维心音图也会有所区别。
S1的幅值大小标志着心脏收缩能力是否正常,S2的幅值大小标志着心脏舒张能力是否正常。正常心音幅值时间比应该在一个固定范围内,那么心音幅值时间比可以作为正常心音和病态心音的一个简单分类依据。前文已经对心音信号做过幅值归一化处理,使其具有统一可比性。第一心音时长在 0.1s到0.12s左右,本文取 S1固定时长0.1s,将心音幅值和时间的比值作为心脏收缩能力的度量。
从图像处理角度来看,心音信号的幅值体现在二维心音图上就是最高点坐标 ymax和最低点ymin坐标之间的纵向距离,时间体现在二维心音图上就是图像横向距离 Width,定义纵横坐标比Ratio为:
对二维心音图进行横向扫描,从纵向最高点开始横向扫描,将第一个扫描到的灰度值为0的像素作为二维心音图的幅值最高点;同样地,从纵向最低点开始横向扫描,将扫描到的第一个灰度值为0的像素作为二维心音图的幅值最低点。如图7所示,最高点坐标是(xmax, ymax)=(217,40),最低点坐标是(xmin, ymin)=(305, 375)。Width都是1090,那么纵横坐标比就是 0.30734,这是受测试者的正常第一心音纵横坐标比。
图7 第一心音的二维心音图纵横坐标比示意图
从图7可以看出最高点和最低点并不一定是相邻的两个点,考虑到二维心音图的时间很短暂,将其作为幅值大小是接近真实情况的。表1给出了5位不同测试者(3位男性,2位女性)在不同时刻第一心音二维心音图纵横坐标比,这5位测试者所得心音全部为正常心音。
表1 5位测试者在不同时刻第一心音二维心音图纵横坐标比
从表中可以看出:①这五位测试者纵横坐标比总均值为 0.286534。其中最大纵横坐标比是0.31927,最小纵横坐标比为:0.22385。可见,正常第一心音纵横坐标比在一个比较固定的范围内变化;②同一人的心音纵横坐标比变化范围较小,通常小于 0.02;③不同人的心音纵横坐标比存在一定的差异,这种差异的变化范围相对较大。
心脏杂音一般是比较尖锐的,幅值相对来说会比较大,体现在二维心音图上也就是纵横坐标比值较大。但是引起心脏疾病的病因过于繁杂,要完全区分较困难,所以纵横坐标比只能作为正常心音和有杂音心音之间的一个简单分类依据。
3.2 拐点序列码
链码是用曲线起始点的坐标和边界点方向代码来描述曲线或边界的方法,常被用来在图像处理、计算机图形学、模式识别等领域中表示曲线和区域边界[11]。它是一种边界的编码表示法,用边界方向作为编码依据,为简化边界的描述,一般描述的是边界点集。
受到链码概念启发,本文提出适合二维心音图细节的特征参数——拐点序列码,即统计二维心音图的拐点数,并生成拐点序列。本文先取第一心音二维心音图作为研究对象,我们规定以第一心音第一个上升过零点作为起始点,到下一个上升过零点为终点,将这一段距离称为一个拐点周期。一幅二维心音图中包涵多个拐点周期,一个拐点周期内有多个拐点,统计每个拐点周期内的拐点数,组合起来就构成拐点序列码。
图8 拐点序列码周期
拐点序列码确定步骤如下:首先确定中心线位置,即图中水平横线,第一列像素第一个0点就是红色横线的起点;其次,找出所有拐点周期,并标记每个周期。如图8上竖线,每两条相邻蓝竖线标出了一个拐点周期,下方数字标识这是第几个拐点周期。图8中共有15个拐点周期,但真实有效的拐点周期是 14个,最后一个拐点周期并没能到达下一个上升过零点,通常最后一个拐点周期不做有效周期的考虑。
正确找出了所有拐点周期后就可以分别对每个拐点周期计算它的拐点个数,按照拐点周期的顺序组合成拐点序列码。统计拐点序列码的基本思想是:在一个拐点周期内,根据二维心音图波形上的像素点与像素点之间的坐标关系确定这两个像素点所连成的直线的斜率,根据斜率的正负变化来确定是否存在拐点。扫描图像的顺序是从上到下,从左到右的,像素点与像素点之间斜率Slope的计算公式如下:
Slope只有3种数值情况,本文不考虑具体斜率值,只考虑斜率是大于0、小于0和等于0这三种情况。如果像素间的斜率Slope由正数逐渐变成负数,记为一个上拐点;相反,如果出现像素间斜率由负数逐渐变成正数,记为一个下拐点。这中间也会出现斜率为 0的情况,处理方法是忽略斜率为 0的情况,记住前一个不为 0斜率的正负,直到像素间斜率出现非0的变化。统计出每个拐点周期内的拐点数,最后组合成拐点序列码。
拐点序列码算法实现的具体步骤如下:①去除水平方向连续像素;②去除垂直方向连续像素;③确定起始点和拐点周期;④根据拐点周期对图像进行扫描,根据斜率计算方法找出上拐点和下拐点;⑤组合每个周期内拐点个数成为拐点序列码。
图9是同一段心音内的第一心音(图9(a))和第二心音(图9(b)),分析三图可以发现组合二维心音图(图9(c))的拐点序列码就是由第一心音拐点序列码和第二心音拐点序列码组合起来的,除了中间连接处会有所区别。
图9 二维心音图拐点序列码
本文分类识别方法有两种:欧氏距离法和LIBSVM。
欧式距离在二维平面上简单地说就是两点之间的最短距离,在n维空间里欧式距离数学表达式为
本文欧氏距离识别法的思想就是根据n维欧氏距离得出来的。在识别时提取得到n维的识别特征向量,将它与训练时提取得到的n维训练特征向量进行欧氏距离计算,取欧氏距离最小的作为该识别样本最相似的结果。欧氏距离识别方法最大的优点是概念简单,实现容易,且识别率高[1,7]。
LIBSVM 方法利用有限的样本信息在模型的复杂性和学习能力之间寻找最优效果,即对特定训练样本的学习精度和无错误地识别任意样本的能力之间寻求最佳折衷,以期获得最好的推广能力。该方法在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[12-13]。在本文中,LIBSVM方法寻找最优化问题变为如下训练向量的线性组合:
只有很少的αi会大于0,相应的 Xi就是支持向量。
本文实验组对象为10名测试者(6名正常,4名患者),每一名测试者取5个不同时间段的组合二维心音图作为训练识别数据。其中,纵横坐标比是坐落在[0.20000 0.33000]范围内的是正常心音,在这个范围之外的是病态心音。也就是说用不到本文所说的训练识别方法,在提取到纵横坐标比后只需与这个范围进行比较即可知道结果。取30个测试样本得到的识别率为76.7%,识别率不高,主要原因是影响心音幅值大小的因素太多。
用欧式距离和 LIBSVM分别对样本进行训练识别结果如表2所列。
表2 实验组心音分类识别率(%)
用于身份识别的10名正常测试者(正常组),每名测试者取 10个不同时间段组合二维心音图作为训练识别数据。用欧式距离和LIBSVM分别对样本进行训练识别结果表3所列。
表3 正常组心音身份识别率(%)
与课题组从一维信号对心音进行分类和身份识别的效果相比,本文的识别率相对较高。比如基于 BP神经网络的心音身份识别率达到90.06%[14],本文基于拐点序列码的识别率达到了94.03%,较之一维心音提高不少,而且速度快3倍以上。
心音信号是人体重要的生理信号之一。鉴于人类更善于通过眼睛来接受外界的事物,本文将心音信号图形化成二维心音图,它具有直观、易保存、易分析的特点。
本文通过自制的心音采集装置采集心音信号,组成小型心音数据库并用于本文的研究。相较于一维心音的处理,基于图像处理的二维心音图特征提取和识别不仅在速度上有所提升,而且识别率也得到较大提高。本方法的提出为心音身份识别技术提供了一种新的方案。
[1] 成谢锋, 马 勇, 刘 陈, 张学军, 郭宇锋. 心音身份识别技术的研究[J]. 中国科学: 信息科学, 2012, 42(2): 235-249.
[2] Cheng Xiefeng, Tao Yewei, Huang Zhengjiang. Heart Sound recognition-a prospective candidate for biometric identification [J]. Advanced Materials Research, 2011, 255(6): 433-436.
[3] 王建卫, 吴 宁, 罗德红. 螺旋CT及其图像处理技术对喉部肿瘤侵犯的诊断价值[J].中华放射学杂志, 2001, 35(12): 949-952.
[4] 计 算 机 断 层 摄 影 (CT)[EB/OL]. http://baike. baidu.com/view/381367.htm, 2013.
[5] Cheng Xiefeng, Ma Yong, Liu Chen, Zhang Xuejun, Guo Yufeng. Research on heart sound identification technology [J]. Science China Information Scienres, 2012, 55(2): 281-292.
[6] 李天生. 心音采集与分析方法研究[D]. 江门: 五邑大学, 2009.
[7] 成谢锋, 马 勇, 张少白, 张 瑛, 郭宇锋. 基于数据融合的三段式心音身份识别技术[J]. 仪器仪表学报, 2010, 31(8): 1712-1720.
[8] 于云之, 聂邦畿. 心音的临床意义及研究现状[J].现代医学仪器与应用, 1997, 9(3): 9-12.
[9] Wu Wenzhu, Guo Xingming, Xiao Shouzhong. Research on first heart sound and second heart sound amplitude variability and reversal phenomenon-a new finding in athletic heart study [J]. Journal of Medical and Biological Engineering, 2009, 29(4): 202-205.
[10] 毛安定, 管一弘, 段 锐, 王艳华, 吕 梁, 季云海. 基于 Daubechies小波的图像边缘检测技术[J].图学学报, 2012, 33(1): 63-67.
[11] 刘勇奎, 魏 巍, 郭 禾. 压缩链码的研究[J]. 计算机学报, 2007, 30(2): 281-286.
[12] 曹 翼. 基于支持向量机理论的车辆监控技术研究与应用[D]. 上海: 上海交通大学, 2010.
[13] 百度百科. 支持向量机(SVM)LIBSVM[EB/OL]. http://baike.baidu.com/view/598089.htm, 2013.
[14] 马永华. 改进BP神经网络在心音身份识别中的应用研究[D]. 南京: 南京邮电大学, 2011.
Research on Methods of Feature Extraction and Recognition of Two-Dimensional Phonocardiogram
Cheng Xiefeng, Cai Huamin
(College of Electronic Science and Engineering, Nanjing University of Posts and Telecommunications, Nanjing Jiangsu 210003, China)
The one-dimensional heart sound signal is converted into a two-dimensional phonocardiogram, then image feature of heart sounds based on image processing technology in a two-dimensional phonocardiogram is extracted. Firstly the wavelet noise reduction and amplitude normalization of one-dimensional heart sound by one-dimensional signal processing method are realized, and then heart sounds after the treatment are converted into two-dimensional phonocardiogram with uniformity and comparability, and pretreatment. And the image characteristics of two-dimensional phonocardiogram are analyzed, which is characterization of heart sounds’ physiological information combining with heart sounds’ physiological significance and two-dimensional phonocardiogram’s image features, and the focus is on vertical and horizontal ratio of coordinate and sequence code of inflection point. At last, the feasibility of classification and identification is explored of 2D-PCG using Euclidean distance and Support Vector Machine (SVM) based on vertical and horizontal ratio of coordinate, sequence code of inflection point and wavelet coefficients. Experimental results show that the three features can achieve the classification and recognition of the two-dimensional phonocardiogram, and inflection point sequence code gets the highest recognition rate. The method of 2D-PCG classification and identification based on a two- image processing has the feasibility and practical applicability, and has broad application prospects.
two-dimensional phonocardiogram; image processing; feature extraction; recognition
TP 751
A
2095-302X (2014)02-0268-06
2013-07-15;定稿日期:2013-09-13
国家自然基金资助项目(61271334;61373065)
成谢锋(1956-),男,四川资阳人,教授。主要研究方向为智能信息处理、心音识别、智能仪器等。E-mail:jnucxf@163.com