郑朝臣,骆仁军,姜 涛,陈修报,刘洪波,杨 健,
(1.南京农业大学无锡渔业学院,江苏无锡 214081;2.中国水产科学研究院长江中下游渔业生态环境评价与资源养护重点实验室,中国水产科学研究院淡水渔业研究中心,江苏无锡 214081)
中华绒螯蟹(Eriocheirsinensis),又称河蟹、毛蟹、清水蟹、大闸蟹[1]。作为我国主要的名优水产品之一,中华绒螯蟹具有很好的市场价值、经济价值、营养价值及文化价值[2]。由于不同产地间中华绒螯蟹的价格差异很大,市场上出现了假冒产地、以次充好等问题,对知名产地及其品牌产品造成了严重的影响;不仅损害了消费者的正当权益,也破坏了蟹产业的有序发展。目前在我国所有水产品的产地保护工作中中华绒螯蟹最受关注,消费者也最为在意;因此对其产地及其生境鉴别方法开展研究极有必要。目前,相关研究在分子生物学技术、生理生化和形态等方面均有进展[3-5]。其中,形态分析具有取材简单和成本低的特点,已在鱼类[6]、蟹类[7]、贝类[8]和虾类[9]等水产品上有探索报道。目前主要存在两类方法来开展相关分析,一类是传统的形态学框架测量法,另一类是几何形态测量法,包括外形轮廓法[10]和地标法[11]。本研究拟通过框架测量法对采自长江水系、黄河水系以及辽河水系8个不同产地(栖息环境)的中华绒螯蟹进行形态学差异比较,以期把握其产地之间的差异性,进而对这些差异在中华绒螯蟹产地鉴别上的应用潜力进行评价。
中华绒螯蟹样本分别采自8个不同产地:长江水系的滆湖、骆马湖、固城湖、军山湖、梁子湖围网养殖环境(分别简称滆湖、骆马湖、固城湖、军山湖、梁子湖),黄河水系的东营黄河口自然环境(简称东营)以及辽河水系的营口、盘锦等稻蟹共作养殖环境(分别简称营口、盘锦)。各地取20只进行研究,不同水系8个产地中华绒螯蟹的样本基本情况见表1。
参照文献[12-13]的研究方法对中华绒螯蟹进行形态测量。选取以下几类参数:Ⅰ.背甲背面测量点位置(A1-A7,B1-B4,L1-L3,S1-S7);Ⅱ.背甲侧面测量点位置(C1-C4);Ⅲ.腹甲测量点位置(L4,L5);Ⅳ.第四步足测量点位置(F1,F2);Ⅴ.第五步足测量点位置(F3,F4);H:测量点16处的高度;H1:鳃对应位置的宽度。应用电子游标卡尺对每只中华绒螯蟹样本进行形态性状参数测量,测量数据精确到0.01 mm。本研究共测量了160只样本的表型形态数据(图1)。
表1 不同水系8个产地中华绒螯蟹的采样及蟹样规格基本情况Tab.1 Sampling details of E.sinensis from eight geographical origins in different river systems
为了消除个体之间大小对研究结果分析的影响,选取各自的背甲长L3为标准,形态数据分别除以这个标准,矫正为比例性状参数,对得到的该新比值参数(即表型特征值,表2)进行分析。本研究主要通过SPSS20.0软件进行单因素方差分析(one-way ANOVA)、判别分析(linear discrimination analysis,LDA)、主成分分析(principal component analysis,PCA),利用MATLAB9.0进行支持向量机(support vector machine,SVM)分析。
单因素方差分析结果表明4个背甲参数(B2、S1、S2、S3)、1个腹甲参数(L5)、2个第四步足参数(F1、F2)、2个第五步足参数(F3、F4)、H(点16的高度)均存在显著差异(P<0.05),其余性状在不同产地(环境)群体间差异不显著(P>0.05)(表2)。
从32个主成分中选取了2个主成分,累积贡献率为89.4%,第一、二主成分分别为55.2%、34.2%。从得到的2个主成分可以看出这32个特征因子的相关性较高。而从2个主成分的2维散点图中,不同产地蟹样间重复较大,无法进行有效区分(图2)。
图1 中华绒螯蟹框架指标测量示意图[12-13]Fig.1 Morphometric measurement of truss network parameters for the studied E.sinensisⅠ:背甲背面测量点位置 (A1-A7;B1-B4;L1-L3;S1-S7),Ⅱ:背甲侧面测量点位置 (C1-C4),Ⅲ.:腹甲测量点位置 (L4,L5),Ⅳ:第四步足测量点位置 (F1,F2),Ⅴ:第五步足测量点位置 (F3,F4),A1:1-1′,A2:2-2′,A3:3-3′,A4:4-4′,A5:5-5′,A6:6-6′,A7:7-7′;B1:7-8,B2:7-9,B3:7-10,B4:7-11;C1:12-8,C2:12-9,C3:12-10,C4:12-11;L1:13-14,L2:13-15,L3:15-14,L4:14-16,L5:16-13,H:测量点16 处的高度,S1:12-17,S2:12-18,S3:17-3,S4:17-4,S5:17-5,S6:17-6,S7:17-7,F1:19-20,F2:21-22,F3:23-24,F4:测量点23 处的宽度[12-13];H1:17-17’鳃对应位置的宽度.
形态特征产地滆湖固城湖骆马湖军山湖梁子湖盘锦营口东营显著性A10.08±0.0090.079±0.0060.078±0.0080.075±0.0070.072±0.0080.073±0.0090.102±0.1030.083±0.0080.256A20.246±0.0080.236±0.0090.241±0.0120.234±0.010.234±0.0110.233±0.0090.306±0.2560.244±0.010.206A30.64±0.0180.607±0.0170.618±0.0160.603±0.0170.611±0.0140.609±0.0140.72±0.3450.634±0.0150.062A40.905±0.0160.912±0.0320.896±0.0160.855±0.1820.887±0.0180.896±0.0171.015±0.3890.901±0.0170.083A51.045±0.0191.063±0.0241.044±0.0241.045±0.021.037±0.0141.048±0.0141.175±0.4161.052±0.0190.073A61.116±0.0181.112±0.1351.118±0.0191.124±0.0141.125±0.0181.119±0.0141.199±0.3111.131±0.0210.362A70.515±0.0350.497±0.0450.505±0.0350.512±0.040.503±0.0380.504±0.0360.584±0.2440.513±0.0340.097B10.606±0.0240.606±0.0320.618±0.0160.609±0.0250.612±0.0180.618±0.0210.696±0.2610.613±0.0180.052B20.71±0.0290.717±0.0260.72±0.0170.707±0.0220.711±0.0180.723±0.0210.817±0.3090.678±0.1440.038B30.838±0.0260.846±0.0210.842±0.0120.839±0.0160.839±0.0180.853±0.0140.949±0.3370.836±0.0160.053B40.905±0.0220.911±0.020.905±0.0170.904±0.0170.905±0.0140.917±0.0130.98±0.2490.904±0.0180.116L10.554±0.0070.557±0.0080.553±0.0060.542±0.0080.545±0.0070.551±0.0080.609±0.2040.553±0.0060.109L20.521±0.0160.532±0.0110.525±0.0080.534±0.0110.528±0.0090.526±0.0120.654±0.4070.526±0.010.066S10.446±0.0150.459±0.0220.449±0.0090.442±0.0110.448±0.010.45±0.0120.514±0.1870.452±0.0090.024S20.505±0.0220.498±0.0190.49±0.0120.495±0.0160.494±0.0130.495±0.0110.557±0.1940.487±0.0150.047S30.5±0.0140.517±0.020.497±0.0120.484±0.0340.502±0.0120.503±0.010.549±0.1640.498±0.0150.049S40.425±0.0110.439±0.0120.426±0.0130.422±0.0130.425±0.0140.43±0.0130.467±0.1350.425±0.0160.094S50.352±0.0160.363±0.0110.352±0.0160.35±0.0090.348±0.0110.354±0.0130.393±0.1340.356±0.0150.096
续表2
注:P<0.05为达到差异显著水平。
图2 不同水系8个产地中华绒螯蟹形态的主成分分析Fig.2 Principal component analysis on morphometry of E.sinensis from eight geographical origins in different river systems
基于PCA-LDA分析将32个形态特征降维得到的2个主成分建立的线性判别模型,正确率低于20%。而利用32个形态测量特征进行全维LDA分析,所得到的7个线性判别函数区分不同水系8个产地蟹的判别正确率为55%~95%(总体正确率为83.1%)(表3)。但交叉验证后,其正确率则为15%~85%(总体正确率仅为52.5%)。函数1和2得到的LDA散点图显示,各产地蟹虽有一定程度的差异,但仍不能有效区分上述8个产地(图3)。
图3 不同水系8个产地中华绒螯蟹形态的判别分析散点图Fig.3 The discriminate analysis on morphometry of E.sinensis from eight geographical origins in different river systems
利用SVM分析对样本的32维特征建立模型分析,其训练集和测试集的分类效果均不显著,进而通过PCA-SVM对降维得到的2个主成分进行分类的效果更差。由于LDA能增强产地因子的特征向量,使差异性得到更大区分。于是通过LDA-SVM法对32维特征因子通过LDA降维得到7个特征因子进行SVM分析,可显著提高8个产地的训练集和测试集综合正确率(达80%左右)。以上3种模式分别选择20%、25%、30%三种比例样本量作为产地测试集,每次随机选择样本并运行5次,得到的训练集模型平均正确率均高于88%,其中当测试集样本量为20%时,LDA-SVM测试集正确率达到最高的83.1%(表4)。
表3 不同水系8个产地中华绒螯蟹形态的判别分析Tab.3 The discriminate analysis on morphometry of E.sinensis from eight geographical origins in different river systems
表4 不同水系8个产地中华绒螯蟹形态的支持向量机分析Tab.4 The support vector machine analysis on morphometry of E.sinensis from eight geographical origins in different river systems
本研究单因素方差分析中B2,S1,S2,S3,L5,F1-F4,H测量值在不同产地(环境)群体间存在显著性差异(P<0.05),其余形态测量值差异不显著(P>0.05)。不同的水域环境[14]和不同的养殖方式[15]等都可能对中华绒螯蟹的形态等产生一定的影响。当处于不同的养殖环境中,其外部形态会发生变化。通过多元统计分析的方法有可能找出形态学差异来区分不同养殖产地环境下的蟹。郑宽宽等[16]以三疣梭子蟹(♀)为材料,选取头胸甲、步足等部位进行形态比较研究发现,判别分析比主成分分析更能鉴别野生或养殖环境的三疣梭子蟹。当形态发生变化差异时,其体内所含有的脂肪酸、水分等物质也有所不同,可食部分的生化成分含量以及营养物质存在一定的差异[17]。其原因可能是其遗传多样性发生了改变,微卫星分析显示出不同水域之间存在一定的遗传变异,其变异的程度与所处位置的远近存在一定的联系[18]。中华绒螯蟹在我国经济水产品中占有十分重要的地位,其丰富的营养物质以及味美,被大家所接受。通过可食部分呈味特性的测定,显示出稻田养殖蟹的滋味品质优于池塘养殖蟹[19]。本研究中蟹养殖环境主要包括稻田养殖和围网养殖环境,形态学的判别分析发现稻田养殖蟹有被判到野生蟹或是围网蟹中,围网蟹也有被判到稻田蟹中的现象。围网蟹主要摄食天然饵料以及人工投喂料,稻田蟹饵料组成应该与其存在一定的差异。前人在对湖泊养殖和池塘养殖环境的河蟹进行比较发现两者体长、体宽等形态指标存在差异,前者明显比后者大[17]。因此,中华绒螯蟹的产地差异性可能与投喂的方式、饵料的种类、丰度以及水域环境等多重因素有关,需要在下一步的研究中加以把握。
通过形态学方法进行不同产地(环境)的中华绒螯蟹种群的判别分析,当判别正确率低于80%,则认为是无效判别,当判别正确率在80%~90%时,则认为判别结果可以接受,当判别正确率超过90%时,则认为是可以达到良好的判别效果[20]。LDA对32维特征因子的线性判别正确率仍然达到83.1%,说明宜从更高的维度来区分各产地。基于外形轮廓特征来区别渔业资源不同地理种群时,判别分析的运用中更加广泛,其一定程度上可以达到良好的鉴别效果[10]。本研究中对相同/不同水系产地中华绒螯蟹判别结果显示,除了营口外,其他群体都属于有效判别。这进一步表明不同水系中华绒螯蟹种群之间存在差异。而对于处于地理位置相近、属于长江水系的苏州阳澄湖、常州滆湖及长荡湖和江西军山湖产蟹而言,传统的形态框架分析所得的差异尚无法达到建立产地鉴别模型的标准,只能通过环境元素分析的方法来准确区分出其不同的产地[5]。本研究中营口蟹总体的判别正确率最低,与其他产地的蟹种群存在一定程度上的混杂(图2,表3);而相同辽河水系的盘锦个体的判别正确率却可达到良好的效果。两者形态间存在的判别效果不同仍需在今后进一步的分析中找出原因。
支持向量机分析是在统计学习理论基础上发展起来的一种新的机器学习方法。目前,支持向量机已应用于模式分类、回归分析、函数估计等领域[21]。主成分分析和线性判别分析均为数据分析中的降维分析方法,对降维后获的新特征数据可以结合支持向量机法进行差异性分类[22]。在本研究主成分相关的分析中,通过其降维既无法提高线性判别也无法改善支持向量机的分类效果,甚至降低了这两种统计数据模型的判别效果(表4)。而在相关线性判别分析中,仅利用其,虽初始验证的正确率较高(83.1%),但交叉验证正确率偏低(52.5%)。但其与支持向量机分析结合后得到的训练集模型正确率均高于88%。当测试集样本量为20%时,正确率甚至可改善到83.1%。因此笔者建议,为提高蟹形态统计数据模型分类和验证效果,宜先利用线性判别分析进行降维,增强产地的特征向量,使得产地差异性能有较大的区分,然后再通过支持向量机法来进一步分类。这将能达到有效提高不同产地蟹判别正确率的目的。