张小燕,刘志香,廖保生,肖水明,徐 江**,盛 玮
(1.淮北师范大学生命科学学院 淮北 235000;2.中国中医科学院中药研究所 北京 100700)
本草基因组学(herbgenomics)是利用组学技术研究中药基原物种的遗传信息及其调控网络,阐明中药防治人类疾病分子机制的学科,从基因组水平研究中药及其对人体作用的前沿科学[1,2]。人参作为我国传统名贵药材,享有“百草之王”美誉。人参具有48条染色体(2n=4x=48)[3],由于基因组数据的缺乏严重制约了人参基础研究和产业的开展。评价人参基因组的大小及复杂程度,将有助于确定适合人参全基因组测序的研究策略。目前多种方法可用于测定基因组大小,如物理图谱法[4]、流式细胞术[5-7]和高通量测序技术[8,9]。流式细胞术是基因组预估常用的方法[10],可检测单细胞倍性以及细胞核DNA含量[11,12],具有特异性好,灵敏度高,同时进行多参数检测等优点。新一代测序技术的迅速发展使其成为测定基因组大小的重要方法,具有通量高、速度快、单次运行能产生大量数据等优点。
本研究联合流式细胞术和高通量测序技术对人参基因组进行测定和评估,并把这两种技术的测定结果进行相互验证,旨在为人参全基因组测序方案的制定提供依据,为人参本草基因组学[1,2]的研究奠定基础。
人参(Panax ginsengC.A.Mey)(实验基地栽培株系IR826);大豆(Glycine max(L.)Merrill);粳稻(Oryza sativassp.Nipponbare)。
Accuri C6型流式细胞仪(美国BD公司),1-14K低温冷冻离心机(美国Sigma公司);RXZ型智能人工气候箱(宁波江南仪器厂);DK-8D型电热恒温水槽(上海森信实验仪器有限公司);Illumina Hiseq X Ten(美国Illumina公司);Agilent Technologies 2100生物分析仪(美国 Agilent公司);Covaris M220 Focusedultrasonicator(美国Covaris公司)。
吐温-20(Sigma-Aldrich,cat.No.SZBD2190V);碘化丙啶(BD Biosciences Pharmingen,cat.No.550825);RNaseA(TIANGEN,cat.No.K20822);Quick-Load 1kb Extend DNA Ladder(BioLabs,cat.No.0041602)。
水稻、大豆材料培养:选取饱满成熟完整的水稻和大豆种子,用去离子水冲洗种子3-5次,并浸泡过夜,将种子放在浸湿的有孔滤膜上,置于烧杯中室温条件下培养一周。
人参愈伤组织培养:切取人参幼嫩的叶片置于含有植物激素的MS培养基(1 mg·L-12,4-二氯苯氧乙酸,0.1 mg·L-1激动素)上,于12 h黑暗、12 h光照的20±2℃恒温培养中培养。
水稻与大豆均取其幼嫩的叶各两份,每份质量100 mg,人参取其愈伤组织各两份,每份质量200 mg,将其置于冰浴的培养皿中,吸取2 mL Otto I缓冲液(0.1 mol·L-1柠檬酸,0.5%(v/v)吐温-20,pH 2.0-3.0),用锋利刀片迅速将叶片、愈伤组织切碎;用移液器反复吹打使其与缓冲液混合均匀,经40µm尼龙筛网(Corning,cat.No.352340)过滤,滤液置入2 mL的离心管,于4℃离心机中以5000 r·min-1离心3 min去除上清,加入1 mL预冷的Otto I缓冲液,重悬后,2600 r·min-1离心30 s,去上清,加入1 mL预冷的Otto I缓冲液,再次2600 r·min-1离心30 s去上清,加入900 µL的Otto I缓冲液,轻摇混匀,置于冰上待用。上机检测前加入600 µL的Otto II缓冲液(0.4 mol·L-1磷酸二氢钠,pH 8.0-9.0),加等体积的碘化丙啶(propidium iodide,PI)染料,避光染色15 min。
经PI染色的样品,在高速液流下受到激光照射,发射产生荧光信号,其荧光信号的强弱与DNA含量成正比,可用于估测生物基因组大小。本实验选取水稻和大豆为内参,根据公式:样品基因组大小=(样品平均峰值/内参平均峰值)×内参基因组大小,获得待测样品的基因组大小。再根据1 pg=0.978×109bp[13]计算得到待测样品的相对DNA含量。
取人参愈伤组织,采用CTAB法提取人参基因组DNA,Qubit 2.0检测浓度,琼脂糖凝胶电泳检测基因组完整性,检测参数为胶浓度0.8%,电压为120 V,电泳时间为30 min,选用1 kb Extend DNA Ladder作为参照。
对符合质量要求的DNA样品构建shotgun文库,首先基因组DNA片段化成约250-500 bp的片段,在片段两端连接接头序列,筛选去除接头序列自连片段,而后采用琼脂糖凝胶电泳进行片段的长度筛选,氢氧化钠变性产生单链DNA片段,进行桥式PCR扩增。最后用Illumina Hiseq X Ten平台进行双末端PE 150测序,通过Skewer软件(Version 0.2.2)过滤低质量数据后,得到的高质量数据用于后续的基因组大小、杂合度以及GC含量分析。
本实验采用基于K-mer的分析方法估计人参基因组大小和杂合率,所得数据进行17-mer分析。假设从reads中逐碱基取出所有K-mer能够遍历整个基因组,且K-mer频次分布服从泊松分布,即可从所有测序reads中逐碱基取K-mer,统计K-mer频数分布,然后以K-mer及其出现的次数为横坐标,以出现次数的片段总数占总片段的百分比为纵坐标作图,计算获得K-mer深度估计值,用于估计基因组大小。
本研究选用模式生物拟南芥基因组序列进行人参基因组杂合率评估。分别加入杂合率为1%,0.5%和0.1%的模拟数据进行拟合,将所得模拟数据分别进行17-mer分析。通过所测物种真实曲线的主峰和杂合峰与模拟数据线的对比,可判断所测物种杂合率水平与最接近的模拟数据相近。
首先对水稻,大豆和人参进行单独测定,比较分析了待测样品水稻与大豆、大豆与人参、水稻大豆与人参测定的结果,确定了水稻、大豆与人参的基因组测定峰无重叠,保证了选取水稻和大豆作为内参的可靠性,可用于预测基因组大小(图1)。由表1可以看出,通过比较其峰均值,大豆基因组为水稻的2.25倍,由此预估得到大豆的基因组大小为0.89±0.02 Gb,其DNA相对含量为1.82±0.03 pg;人参基因组大小是大豆的3.71倍(表2),因此可得人参基因组大小为3.32±0.02 Gb,其DNA相对含量为6.79±0.05 pg。另外,水稻、大豆和人参峰均值进行比较,大豆基因组大小是水稻的2.40倍,人参是大豆的3.58倍(表3),由此可估测大豆基因组大小为0.95±0.01 Gb,相对DNA含量为1.95±0.02 pg,人参基因组大小为3.42±0.02 Gb,相对DNA含量为6.98±0.05 pg。
图1 水稻、大豆,人参流式细胞仪测定结果
表1 流式细胞仪测定的样品(大豆)和内参(水稻)峰均值
表2 流式细胞仪测定的样品(人参)和内参(大豆)峰均值
表3 流式细胞仪测定的样品(大豆,人参)和内参(水稻)峰均值
3.2.1 测序数据量统计
如表4所示,经高通量测序得到的原始数据为191.41 Gb,按照流式细胞所得人参基因组大小为3.42 Gb计算测序深度为55.97 X。过滤掉低质量数据后,得到的总数据量为183.82 Gb,测序深度为53.75 X。
3.2.2 17-mer分析和基因组大小预测
使用人参基因组过滤后有183.82 Gb的数据用于17-mer分析,Reads形成17-mer频率深度分布图,如图2。横、纵坐标分别表示17-mer出现的次数和出现的频率。图中在49 X深度和100 X深度位置分别有一个峰,其中49 X的位置为主峰,即基因组正常期望深度,100 X位置为重复峰位置。从表5可以看出,K-mer的总数为163927.97,可以通过公式:基因组大小=K-mer的总数/K-mer的期望深度,计算得到的人参基因组大小为3.35 Gb。
3.2.3 杂合率估计
选用拟南芥基因组作为训练序列集,模拟1%,0.5%和0.1%杂合程度情况下17-mer的分布曲线,从而对人参的杂合度进行定性评估。由图3研究结果可知,人参的杂合度与杂合度为0.1%的拟南芥模拟数据最接近,因此,可以认为人参的杂合率处于0.1%左右,其基因组杂合度较低。
流式细胞术是应用较多的基因组预测方法,已被成功的应用于五节芒[7]、毛竹[14]、山樱花[15]等植物的基因组大小研究上,在样品处理上,要求被检测的植物样本必须是完整的单细胞或细胞核悬液,因此,实验操作中取材上优先选取新鲜叶片或幼嫩叶片,置于冰上并充分切碎。高通量测序技术的迅速发展使其成为基因组评估的重要手段,利用K-mer分析的方法对基因组进行预估,其操作较为简单,而且获得除基因组外更多的物种信息,如物种的杂合率、重复序列、GC含量等[16]。然而,流式细胞仪在检测植物样品时由于植物细胞结构及次生代谢产物的影响,会对检测结果造成一定的干扰[17]。高通量测序技术用于预测植物基因组大小,克服了内源性物质对植物基因组大小评估的影响[16,18]。因此对植物基因组大小的预测选取流式细胞术和K-mer分析相结合,以期获得更好的结果。
本研究采用流式细胞术和K-mer分析的方法得到人参基因组大小分别为3.42 Gb和3.35 Gb。基因组杂合度评估显示人参基因组有较低的杂合度,杂合率约为0.1%;但重复序列较高,因此对人参进行全基因组组装,可使用BAC-by-BAC策略以及构建大片段文库,跨越重复区。本研究结果有助于人参全基因组的de novo组装和功能基因注释等本草基因组学的研究。
表4 人参基因组数据量统计
图2 17-mer分布曲线
图3 17-mer杂合率估计图
表5 17-mer分析数据统计
1 陈士林,宋经元.本草基因组学.中国中药杂志,2016,21(41):3881-3889.
2 Chen S L,Song J Y,Sun C,et al.Herbal genomics:examining the biology of traditional medicines.Science,2015,347(6219):S27-S29.
4 Huang Z H,Xu J,Xiao S M,et al.Comparative optical genome analysis of two pangolin species:Manis pentadactyla and Manis javanica.Gigascience,2016,5(1):1-5.
5 王亚之,李秋实,陈士林,等.基于流式细胞分析技术的茯苓基因组大小测定.世界科学技术-中医药现代化,2010,12(3):452-456.
6 李秋实,徐江,朱英杰,等.基于流式细胞技术的灵芝基因组大小估测.菌物学报,2013,32(5):899-906.
7 邓果特,刘清波,蒋建雄,等.五节芒基因组大小测定.植物遗传资源学报,2013,14(2):339-341.
8 Chen S L,Xu J,Liu C,et al.Genome sequence of the model medicinal mushroom Ganoderma lucidum.Nat Commu,2012,3(2):913-921.
9 Xu H B,Song J Y,Luo H M,et al.Analysis of the Genome Sequence of the Medicinal Plant Salvia miltiorrhiza.Mol Plant,2016,9(6):949-952.
10 Dolezel J,Greilhuber J,Suda J.Estimation of nuclear DNA content in plants using flow cytometry.Nat Protoc,2007,2(9):2233-2244.
11 Miyashita T,Araki H,Hoshino Y.Ploidy distribution and DNA content variations of Lonicera caerulea(caprifoliaceae)in Japan.J Plant Res,2011,124(1):1-9.
12 Obidiegwu J,Rodriguez E,Eneobong E.Ploidy levels ofDioscorea alataL.germplasm determined by flow cytometry.Genet Resour Crop Evol,2010,57(3):351-356.
13 Bennett M D,Leitch I J.Genome Size Evolution in Plants.The evolution of the genome,2005:89-162.
14李潞滨,武静宇,胡陶,等.毛竹基因组大小测定.植物学报,2008,25(5):574-578.
15李祯,伊贤贵,顾宇,等.山樱花基因组大小的测定.南京林业大学学报(自然科学版),2014,38(S1):17-19.
16唐其,马小军,莫长明,等.罗汉果全基因组Survey分析.广西植物,2015,35(6):786-791.
17汪艳,肖媛,刘伟,等.流式细胞仪检测高等植物细胞核DNA含量的方法.植物科学学报,2015,33(1):126-131.
18 Zhang T Z,Hu Y,Jiang W K,et al.Sequencing of allotetraploid cotton(Gossypium hirsutumL.acc.TM-1)provides a resource for fiber improvement.Nat Biotechnol,2015,33(5):531-537.