李晓艳 张玉冰
摘要:20世纪90年代,人类基因组计划的启动,有力推动了DNA测序工作的发展。寻找某些特征片段(功能片段)在序列中的分布规律,对遗传学、生物信息学等都有重要的应用意义。在教学、研究中发现,应用数学分析软件MATLAB的字符串处理功能,可以容易地达到功能片段分析的目的,本系统通过分析DNA序列链之间的关联程度,构造出特征矩阵,根据模糊C均值算法较准确的对DNA序列的集合进行了分类,同时利用matlab的图像显示功能将聚类的最终结果清楚明了的显示在图像中,使用户能清楚的看到聚类效果。本系统主要研究了DNA链碱基序列分析、多个DNA链特征矩阵提取、模糊C均值聚类算法分类DNA等三大部分。首先该系统对DNA序列的总长度和功能序列的长度进行了测量,利用一维数组确定功能片段在DNA序列中的位置特征,从而完成了对DNA碱基序列的分析;其次该系统对用户给出的数个DNA链进行序列之间的特征分析,统计出每个序列的(A,T,C,G)碱基密度,得到一个特征矩阵,有效的为模糊聚类分析方法提供数据来源。最终该系统应用模糊C均值聚类算法,利用特征矩阵的数值,将数个DNA序列聚类并分为两类。
关键词:模糊C均值;特征片段;系统开发
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)22-5220-03
1 概述
自从1953年Watson和Crick提出DNA双螺旋结构模型以来,探索DNA一级结构的工作就广泛开展。根据模糊C均值算法可以较准确的对DNA序列的集合进行分类。
模糊C均值聚类算法分类DNA指的是根据模糊聚类的方法,利用特征矩阵的数值,将数个DNA序列分为两类,系统可以显示出分类后的DNA序列所对应的序列号,以及聚类后的分布图像。
本系统主要研究了DNA链碱基序列分析、多个DNA链特征矩阵提取、模糊C均值聚类算法分类DNA等三大部分。
2 运行软件和运行环境
2.1 运行软件
本系统使用matlab7.0或以上版本作为运行库,它所具有的非常低的硬件要求和多平台支持,确保DNA序列分析系统系统各预定功能的实现。
2.2 运行环境
在PII400/64M以上的各种PC机上运行,可运行于Windows98,Windows2000,Windows XP,Windows 7等操作系统,能打印A3纸张和A4纸张的打印机。
3 系统分析设计
3.1 功能需求分析
根据DNA序列分析的具体情况,软件需具备以下四大功能:
1) DNA链碱基序列分析
DNA链碱基序列分析指的是对于给定的某个DNA链,对某个功能片段出现的特征做简单的分析。首先测量出DNA序列的总长度和功能序列的长度,然后利用一维数组确定功能片段在DNA序列中的位置特征,系统可以提供出现的次数以及每一个功能序列出现时前后的碱基,并利用图像更加直观的表达。
2) 多个DNA链特征矩阵提取
多个DNA链特征矩阵提取指的是对于给出的数个DNA链,找到序列之间的特征,统计出每个序列的(A,T,C,G)碱基密度,得到一个特征矩阵,为模糊聚类分析方法提供数据来源。
3) 模糊C均值聚类算法
模糊C均值聚类算法分类DNA指的是根据模糊聚类的方法,利用特征矩阵的数值,将数个DNA序列分为两类,系统可以显示出分类后的DNA序列所对应的序列号,以及聚类后的分布图像。
本系统应用数学分析软件MATLAB的字符串处理功能,容易地达到功能片段分析的目的,同时通过分析DNA序列链之间的关联程度,构造出特征矩阵,根据模糊C均值算法较准确的对DNA序列的集合进行了分类,主要研究了DNA链碱基序列分析、多个DNA链特征矩阵提取、模糊C均值聚类算法分类DNA等三大部分。
系统同时也提供了图像属性分析功能,图像表示是应用在DNA序列分析方面的强有力的可视化工具,它能够揭示蕴藏在DNA序列中的结构和功能的生物信息。本系统提供有DNA链碱基序列位置分布图像分析和DNA序列组模糊聚类图像分析两大部分,快捷有效地提取出需要的数据结果。
3.2 作业流程分析
现有的作业流程从导入数据到打印结果共有5个步骤,基本上每一步都要手动干预,最终将数据保存到移动设备中。
3.3 系统框架结构设计
本系统提供良好的用户界面,实现简洁的操作流程,快捷有效地为生物基因工作者提供基因数据筛选的便利,改善和提高工作效率。系统结构如图1所示:
系统界面采用传统的菜单栏方式,从界面选项菜单可以看出主要有四大部分,“新建”、“打开”、“打印”、“帮助”,可以帮助用户快速打开新建页面、保存、打印以及查看有关软件资料等功能。界面正中间采用单调简约的黑白背景设置,直观大方,给用户良好的使用视觉环境。
4 关键技术的实现
4.1 聚类分析
模糊C均值聚类算法分类DNA指的是根据模糊聚类的方法,利用特征矩阵的数值,将数个DNA序列分为两类,系统可以显示出分类后的DNA序列所对应的序列号,以及聚类后的分布图像。下面是DNA聚类分析的核心代码:
4.2 图像显示
本系统利用matlab软件很好地实现了数据筛选结果可观化,利用不同类型的图像表示结果的不同变化特点。
5 系统设计的主要创新点
5.1海量数据操控
数据对比是相对于图表而言。在图表中,有时不能突出显示系统菜单选项的数据栏是主要针对数据进行的操作,添加数据指的是对于源数据的导入一般是直接导入,不需要手动输入的。所以如果遇到有遗漏某个数据的时候,可以进行直接添加,再次运行筛选。数据分析主要是给出筛选结果的理由,就是根据什么来筛选代表DNA,这个时候就需要把筛选过程中主要的数值根据显示出来,比如说分类结果,所以这个功能可以帮助用户找到他想要看到的聚类之后的DNA。
6 结束语
针对基因数据庞大,处理繁琐,筛选过程复杂等特点,系统应用模糊C均值聚类思想,利用简单直观的界面,帮助用户实现海量基因数据筛选的操作。利用matlab软件特有的图像编辑功能,将筛选的数据属性形象直观地表达出来。经过多次尝试,系统处理基因数据方便快捷,结果直观可靠,达到了预期的效果,今后将根据用户的反馈继续完善。
参考文献:
[1] 孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1):48-61.
[2] 刘靖明,韩丽川,侯立文.一种新的聚类算法——粒子群聚类算法[J].计算机工程与应用,2005(20).
[3] 朱颢东,李红婵.基于互信息和粗糙集理论的特征选择[J].计算机工程,2011(15).
[4] 张丽新,王家廞,赵雁南,杨泽红.基于Relief的组合式特征选择[J].复旦学报(自然科学版),2004(5).
[5] 滕达.浅谈主成分分析与因子分析方法的联系与区别[J].中国新技术新产品,2011(22).