杨启航,王希胤
(华北理工大学,河北 唐山 063210)
禾本科(Gramineae)是单子叶开花植物中一个较大的类群,可以分为620 多个属和1 万多个种,覆盖了地球20%的陆地面积,是高等植物中数量最多的类群之一。禾本科植物具有极高的经济价值和研究价值,是人类主要的食物来源,提供了人类生命活动所需要的大部分热量和蛋白质。
基因家族(Gene family)是来源于同一祖先,由一个基因经过不同重复类型产生的一组基因,在结构和功能上具有相似性[1]。不同的基因家族具有不同的表达调控模式,并可以行使不同的功能。例如WRKY 基因家族是植物前十大蛋白质家族之一,其许多成员参与调控植物的生长发育、形态建成与抗病虫等[2],这些基因为基因家族功能进化提供了原材料。研究重要基因家族的变化规律对禾本科植物育种有重要的意义。
利用生物信息学方法对29 个禾本科物种62 个基因家族成员进行鉴定,并分析了其序列、系统进化、基因家族差异、基因结构,以揭示禾本科物种不同基因家族序列特点和表达特性。将研究结果分析汇总后构建禾本科植物基因家族数据库,为进一步研究禾本科物种基因家族功能提供参考。
在确定GGFDB 中所包含的禾本科物种时,共选择了来源于NCBI 数据库(https://www.ncbi.nlm.nih.gov/)和JGI 数据库(https://phytozome-next.jgi.doe.gov/)中的29个禾本科物种。
从Pfam 数据库(http://pfam.xfam.org/)中获得了这62 个基因家族的隐马尔可夫模型,利用PF 号对应的隐马尔可夫模型文件进行Hmmersearch 搜索,期望值设定为1e-5。
使用共线性比对工具MCScanX 推断不同类型的复制基因,并将加倍事件产生的基因筛选出来[3]。使用Perl 程序统计各个基因家族中因不同重复类型扩增的基因,将统计所得的结果储存在MySql 数据库中。
将收集到的29 个禾本科物种62 个基因家族序列信息以压缩文件的形式储存在数据库中,当接收到用户的下载命令时,将结果以Zip 格式发送到浏览器。
将各物种中基因家族的信息以图表的形式展现在页面中。使用Java Script 中的Echart 插件实现用户和动态图的交互。在接受到用户的查询命令时,GGFDB会自动搜索所需物种的基因家族统计数据,将查询结果储存在PHP 脚本中,最终以交互式图表的形式展现在HTML 页面中。
使用R 程序中的gggens 包,利用基因位置文件,绘制各基因家族的基因结构分析图。GGFDB 使用PHP程序调用R 语言程序包,实现在线绘制基因结构分析图的功能。最终结果以PDF 格式的文件返回到网页端。
数据库调用了MEME 软件中可本地分析的MEME-suite 模块,对29 个禾本科物种中62 个基因家族进行保守基序分析,Motif 参数选择10[4]。用户选择需要分析的物种和基因家族名称,提交到数据库中。在接收到查询命令后,GGFBD 会直接跳转到包含用户所需要保守基序分析中全部结果的HTML 页面。
通过开发的GGFDB 数据库,提供禾本科植物的基因家族信息。该数据库目前已安装在CentOS 操作系统上,有一个3 层的体系结构,即客户端层、中间层和数据库层。用户直接访问的客户端层是使用PHP 和Java Script 开发的。在数据库层中,与GGFDB 相关的数据存储在MySQL 数据库中。中间层接收HTTP 请求,并由Apacheweb 服务器进行处理。
在GGFDB 的主页上,提供了一个包括上述29 个禾本科物种的交互式进化树。主页上的菜单栏界面提供了网站所有功能模块的链接,包括基因家族扩增信息展示模块、基因家族序列下载模块、基因家族图表信息模块、基因结构分析模块和基因保守基序分析模块,具体见图1。
图1 GGFDB 数据库模块结构
基因家族扩增类型模块展示了不同基因家族在禾本科物种进化过程中的变化情况。用户选择禾本科物种并提交,可以获得该物种62 个基因家族的扩增列表。列表总共分为7 列,分别为基因家族ID、非重复基因、其他类型重复基因、染色体附件重复基因、串联重复基因、基因组加倍导致的重复基因和基因家族总基因数。用户可以根据需要搜索基因家族的ID 查询其基因的变化情况,生成的列表支持导出Excel、CSV 和PDF 格式。
基因家族下载界面有29 个禾本科物种中62 个基因家族的序列下载信息。用户选择特定的禾本科物种并提交,即可跳转到物种基因家族信息下载界面。在该界面选择想要下载的基因家族执行下载即可。
图表主页上的图表界面提供了来自所有物种的染色体的交互式视图,包括来自每个物种的染色体的数量和长度,以及每个物种中不同重复类型产生基因数量。主页使用柱状图和折线图显示这些信息,用户可以选择添加或关闭某些物种来控制统计图的生成,这使用户更容易比较其差异。这些交互式图表可以下载,也为每一个物种单独制作了图表界面,以图表的形式展示了基因组中不同类型重复基因的比例、各基因家族中不同类型重复基因的比例、各基因家族的基因数量、各基因家族中不同氨基酸数量。
以二穗短柄草为例,统计了基因组中不同类型重复基因的比例,其中串联重复基因的比例最多(49.41%),其次是全基因组加倍事件(20.25%)。在不同重复类型统计中可以发现,二穗短柄草基因家族扩增以全基因组加倍和串联重复为主。
在基因家族基因数量统计中发现,大部分基因家族的基因个数在10~50 个,也有部分大型基因家族的基因数量比较多,达到了100 多个。在对基因家族氨基酸组成统计中发现,丙氨酸(A)在各个基因家族中最多,与丙氨酸可以增加叶绿素的合成、调节叶片气孔、抵抗病菌入侵有关,具体见图2。
图2 二穗短柄草中基因家族图表结果展示
在基因结构分析模块中,提供了禾本科物种各基因家族中每个基因的基因结构图。用户通过选择某一禾本科物种中的任意基因家族ID,即可获得该基因家族成员的基因结构图。在结构图中可以看到基因家族中各基因所在的染色体位置、外显子、内含子、基因长度、基因方向等信息。
在Motif 分析模块中内嵌了MEME 插件。用户通过选择某一禾本科物种中的任意基因家族ID,即可跳转至MEME 分析结果页面。GGFBD 在服务器上已经将这些基因家族分析结果分类储存,用户可以直接以THML 的形式调用,减少用户等待时间。
以二穗短柄草BES1 基因家族为例,通过保守基序分析检测到了最保守的10 个基序(Motif 1~Motif 10),结果显示,所有被检测的基因都含有Motif 1,只有两个基因没有Motif 2 和Motif 10。Motif 3~Motif 9 是成组出现的,这些Motif 可能是由一次事件产生。
随着高通量测序技术以及生物信息技术的发展,大量不同功能和特性的基因家族被不断挖掘出来。这些基因家族在植物的生长发育过程中起着至关重要的作用。禾本科植物作为人类粮食的主要来源,研究其基因家族的结构与功能对禾本科植物育种可以起到指导作用。在此,通过收集29 个禾本科物种中62 个基因家族并对其结构和功能进行分析,构建了禾本科基因家族数据库(GGFDB,www.ggfdb.com),为这些基因家族之间横向与纵向的比较提供方法。
本数据库为用户提供了友好的工具,可以在物种水平显示其各基因家族扩增的主要原因,为对其进化和功能创新进行深入研究提供了机会。数据库中可以下载各基因家族序列、在线绘制不同物种间染色体信息图谱、在线进行不同物种之间基因重复类型比较、在线绘制同一物种内不同基因家族比较图谱、基因结构图谱和在线进行基因保守结构分析。这些功能为研究人员分析禾本科物种基因家族的功能提供了便利。