KNN法在含纤连蛋白域蛋白质亚细胞定位中的应用

2011-04-13 17:57李立奇王开发
山东医药 2011年2期
关键词:训练样本成骨细胞准确率

李立奇,张 瑗,周 跃*,王开发

(1第三军医大学新桥医院,重庆 400037;2第三军医大学计算机教研室)

K最近邻(KNN)法是一种基于统计的模式识别非参数算法。该算法学习过程简单、分类准确率高,被广泛应用于回归[1]、分类[2]和模式识别[3]等领域中。在生物医学领域中,如蛋白质亚细胞定位[4]、肿瘤预后预测[5]等方面也有相关应用的报道。2010年 9~10月,我们将 KNN法用于预测含FN域蛋白质的亚细胞位置,为成骨细胞黏附、分化发生机制的研究奠定基础。

1 材料与方法

1.1 材料 本文从UniProt数据库中随机抽取人类含 FN[6,7]域蛋白质 80个,包括细胞外蛋白质 40个、细胞内蛋白 40个。为保证预测的有效性和可信性,抽取的每个蛋白质的氨基酸数量不少于 100,且排除了定位无实验依据的蛋白质。分别计算每个蛋白质中的20种氨基酸含量,将其作为KNN算法的输入向量。

1.2 方法

1.2.1 含 FN域蛋白质亚细胞定位方法 采用KNN法。将本文样本集中 80个研究对象依据选择的检验方法分成训练样本集和测试样本集两部分。计算每个蛋白质的 20种氨基酸组成,并作为该蛋白质的输入向量。在程序中分别输入训练集和测试集中每个蛋白质对应的 20维输入向量及其所属亚细胞类别。用KNN二分类方法对测试集中每个蛋白质的所属亚细胞类别进行判定,输出判定结果。

1.2.2 含 FN域蛋白质亚细胞定位验证方法Jackknife检验法:每次从80个蛋白质中轮流抽取1个蛋白质作为测试样本,其余 79个组成训练样本集,并对该测试样本进行测试。共做80次 KNN算法定位预测。5维交叉验证法:将 80个蛋白质随机分成 5组,每组包含细胞内蛋白质和细胞外蛋白质各 8个。每次从 5组中轮流抽取 1组作为测试样本,其余 4组作为训练样本。共做 5次定位预测。

2 结果

KNN法定位细胞内蛋白 36个,细胞外蛋白 35个。利用jackknife检验法检测蛋白质样本的定位预测准确率为88.75%,其中 36个细胞内蛋白质和35个细胞外蛋白质定位准确;利用 5维交叉验证法获得的预测准确率为 82.5%,其中 34个细胞内蛋白质和 32个细胞外蛋白质定位准确。

3 讨论

蛋白质亚细胞定位对蛋白质的功能研究非常重要,目前可通过实验方法和预测算法来对蛋白质进行亚细胞定位。实验方法主要有超速离心分离法、电子显微法和荧光显微法,但这些方法既费时费钱又不易大规模推广到,而预测算法能够弥补这些缺陷。

目前,已经有多种算法被应用于蛋白质亚细胞定位的预测研究,如支持向量机(SVM)、神经网络、KNN等。但神经网络只在样本趋向于无穷大时,其性能才有理论的保证。SVM是一个新的预测算法,其学习收敛速度要快于神经网络[8],但其在提高运算效率的同时,也牺牲了一部分适应性和精确度。KNN法的基本思想是根据距离函数[2]计算测试样本点和训练样本集中每个样本点的距离,选择与测试样本点距离最小的 K个训练样本点作为测试样本点的K个最近邻点,最后根据这K个样本点所属类别判断样本点的所属类别。故KNN法的优点是学习过程中只简单地存储已知的训练样本集,当遇到测试样本时,只用 K个最相似的训练样本的类别就可判断该测试样本的类别。KNN法已被广泛应用于各个领域,但KNN运用于含FN域蛋白质亚细胞定位的研究尚未有相关报道。

骨发生过程中,FN是骨细胞外基质微环境中含量最高且与成骨细胞的结合能力最强的一种蛋白质。FN通过与成骨细胞表面整合素的特异性结合,不仅提高了细胞的黏附、伸展性能[9],而且可活化桩蛋白、黏着斑激酶等信号分子,激活JUK、MAPK等信号通路,从而调节细胞生长和分化。因此,FN在骨发生过程中起到了促进成骨细胞黏附、伸展、生长、分化等重要作用。FN的这些生物学性能,使其被广泛用于各种骨支架材料的表面修饰中[10]。而许多含FN域蛋白质对各自相应的细胞也起到了促进迁移、黏附、细胞变形、生长、分化等作用中的一种或多种。目前,随着越来越多新的含 FN域蛋白质被发现,它们的亚细胞位置和功能亟待解决。故寻求一种预测算法,预测这些蛋白质的亚细胞位置,对于其功能研究意义重大。

本文基于KNN二分类算法,构建了含FN域蛋白质亚细胞定位预测的KNN模型。将40个细胞内蛋白质和 40个细胞外蛋白质的 20种氨基酸组成作为输入向量进行训练和定位预测。结果发现,利用jackknife检验法检测蛋白质样本的定位预测准确率为88.75%,其中 36个细胞内蛋白质和 35个细胞外蛋白质定位准确。利用 5维交叉验证法获得的预测准确率为82.5%,其中34个细胞内蛋白质和 32个细胞外蛋白质定位准确。因此,应用KNN法可较准确地预测含FN域蛋白质的亚细胞位置,有助于探讨新发现的含FN域蛋白质的亚细胞位置及其生物学功能,对研究细胞的黏附、分化等机制和开发新型生物材料有重要意义。

[1]Xiao Y,Griffin MP,Lake DE,et al.Nearest-neighbor and logistic regression analyses of clinical and heart rate characteristics in the early diagnosisof neonatal sepsis[J].Med DecisMaking,2010,30 (2):258-266.

[2]Xiao X,QiuWR.Using adaptive K-nearest neighbor algorithm and cellular automata images to predicting G-Protein-Coupled Receptor c lasses[J].Interdiscip Sci,2010,2(2):180-184.

[3]Bogdanov P,Singh AK.Molecular function prediction using neighborhood features[J].IEEE/ACM Trans Comput Biol Bioinform, 2010,7(2):208-217.

[4]Du P,Cao S,Li Y.SubChlo:predicting protein subchloroplast locations with pseudo-amino acid composition and the evidence-theoretic K-nearest neighbor(ET-KNN)algorithm[J].J Theor Biol, 2009,261(2):330-335.

[5]Jerez JM,Molina I,Garcia-Laencina PJ,et al.Missing data imputation using statistical and machine learningmethods in a real breast cancer problem[J].Artif Intell Med,2010,50(2):105-115.

[6]杨蕾,杨玲竹.瘦素、纤连蛋白、基质金属蛋白酶-9对人绒毛细胞滋养细胞侵袭性的影响[J].山东医药,2009,49(15):1-2.

[7]曹伟.宫颈长度联合胎儿纤连蛋白检测在早产预测中的价值[J].山东医药,2010,50(15):62-63.

[8]Ding CH,Dubchak I.Multi-class protein fold recognition using support vector machines and neural networks[J].Bioinformatics, 2001,17(4):349-358.

[9]ZhangY,Zhou Y,Zhu J,etal.Effectofa novel recombinant protein of fibronectin III7-10/cadherin 11 EC1-2 on osteoblastic adhesion and differentiation[J].Biosci Biotechnol Biochem,2009,73(9): 1999-2006.

[10]Zhang Y,XiangQ,Dong S,et al.Fabrication and characterization of a recombinant fibronectin/cadherin bio-inspired ceramic surface and its influence on adhesion and ossification in vitro[J].Acta Biomater,2010,6(3):776-785.

猜你喜欢
训练样本成骨细胞准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
人工智能
高速公路车牌识别标识站准确率验证法
淫羊藿次苷Ⅱ通过p38MAPK调控成骨细胞护骨素表达的体外研究
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法
土家传统药刺老苞总皂苷对2O2诱导的MC3T3-E1成骨细胞损伤改善