晁江涛,孔英珍,王倩,孙玉合,龚达平,吕婧,刘贯山
中国农业科学院烟草研究所,烟草行业烟草基因资源重点实验室,青岛 266101
MapGene2Chrom 基于Perl和SVG语言绘制基因物理图谱
晁江涛,孔英珍,王倩,孙玉合,龚达平,吕婧,刘贯山
中国农业科学院烟草研究所,烟草行业烟草基因资源重点实验室,青岛 266101
遗传图谱表现形式简洁明了,为分析遗传规律、克隆基因提供了便利。Gbrowse、MapViewer等工具虽然能够协助研究人员绘制相似形式的物理图谱,但有很大的局限性:(1)数据需提前布置好;(2)输出结果无法灵活修改。鉴于此,文章基于Perl和SVG语言,开发了一款生物辅助作图软件MapGene2Chrom的本地版与网页版,该软件能够依据输入数据快速绘制相应的物理图谱。该软件输入数据格式简单,输出结果易于修改,图片格式为SVG矢量图,具有很好的移植性,以期为研究人员绘制物理图谱提供便利。
物理图谱;基因分布图;SVG矢量图;作图;生物软件
依据分子标记之间的遗传距离绘制一张简洁、美观、大方的遗传图谱,为研究人员分析某一性状的遗传规律及图位克隆基因提供了便利。目前能够绘制遗传图谱的软件有 4种:MAPMAKER[1],JoinMap[2~4],Mapplotter[5]和MapDraw[6]。前两种软件均具备计算遗传距离和绘制连锁图谱的功能,其中MAPMAKER侧重于Mac OS平台;JoinMap更侧重于Windows平台。后两种软件具备输出遗传图谱的功能,是MAPMAKER在Windows平台图形化功能的补充。
当研究人员绘制一张物理图谱时,虽然可以借助于现有公共数据库,如 NCBI(www.ncbi.nlm.nih. gov)、JGI(www.phytozome.net)、TAIR(www.arabidopsis.org)中的GBrowse[7]、MapViewer(www.ncbi.nlm. nih.gov/mapview)等工具来实现,但这些工具存在较大的局限性:(1)数据需事先布置在这些工具中;(2)输出结果样式无法灵活定制。这大大限制了这些工具在绘制美观物理图谱方面的应用。鉴于此,本文基于Perl(Practical Extraction and Report Language)和SVG(Scalable Vector Graphics)矢量图语言,开发了一款生物辅助软件 MapGene2Chrom的本地版及网页版。输入指定格式的数据,并做简单的参数设置,即可快速绘制一张简洁、美观、大方的基因物理图谱,如果输出效果不够美观,只需修改参数重新运行软件即可。网页版软件访问地址:http://www. tobaccomdb.com/tools/index_mapGene2Chrom.html,源码可从该网页下载,或直接与作者联系索取。
MapGene2Chrom基于Perl和SVG语言,根据染色体上基因的相对物理距离,可快速画出不同染色体上基因的分布矢量图。基因的位置信息通过常用的记事本、写字板或Microsoft Excel办公软件进行简单处理即可作为输入文件;之后,运行软件,用户将得到一张基因分布SVG矢量图,该文件可通过谷歌 chrome、FireFox、IE9+或者其他支持 SVG的浏览器查看。由于用 MapGene2Chrom软件画图时,采用直接输出SVG标记语句,所以用户只要有Perl语言基本环境即可使用。下文将分别介绍本地版与网页版软件的使用方法。
从 JGI(phytozome v9.0)数据库下载二穗短柄草(Brochypodium distachyon, Bdistachyon )的基因注释数据 (ftp://ftp.jgi-psf.org/pub/compgen/phytozome/v9.0/ Bdistachyon/),随机选取基因数据。以 Windows操作系统为例,分别从运行环境、数据准备、运行软件、相关参数等方面介绍其使用方法。
2.1 运行环境
第一步:打开DOS命令窗口。点击桌面左下角的“开始”—>“运行” 输入“cmd”即可打开DOS命令窗口。
第二步:在DOS命令窗口,输入命令“perl-v”,如果能看到Perl软件的版本号,表示电脑可以使用本软件。如果看到反馈信息为:不是内部或外部命令,也不是可运行的程序或批处理文件,则说明电脑需要安装Perl程序,下载页面为:http://www.perl.org/get.html。
2.2 数据准备
绘制染色体上的基因分布图,需要收集基因相关信息:(1)基因名称;(2)基因开始位置;(3)基因结束位置;(4)基因所在染色体名称;(5)基因所在染色体的长度。之后将(1)~(4)信息依次汇总至文本文件input_gene_info.txt中;将(4)、(5)信息汇总至文本input_chrom_info.txt中。
本文通过自编写的 Perl程序 randomSelect-Info.pl(其源码可软件包中找到)分别从每条染色体中选取 60、80、100个基因数据样本,依次存入文本文件 60_bd_origin_gene_info.txt、80_bd_origin_ gene_info.txt、100_bd_origin_gene_info.txt中。
2.3 运行软件
如需了解软件用法,打开DOS窗口输入“perl mapGene2Chrom.pl”即可获得相关信息。其输入参数有:(1)-i 输入文件1:包含基因及染色体的信息;(2)-chrom
将 2.2中准备好的数据输入软件,即可获得结果文件output_60.svg,output_80.svg,output_100.svg中。本文选取不同密度的分布图做对比(图1);同时,也抽查了不同染色体、等量基因的效果(图2)。这些均为矢量图,随意放大或缩小,可直接用于发表文章。
2.4 参数说明
在设计之初,将各个元素的绘图参数逐一放入配置文件 setup.txt中,以便于用户个性化定制显示效果。在配置文件中:(1)注释行以“#”开头,相关说明信息会存入注释行中。(2)含有“=”的行,为参数设置行,等号前的字符为参数名称;等号后的字符为参数值。涉及绘图效果的参数共有30个,这些参数涉及标题的字体、字体大小及颜色;基因名称的字体、字体大小及颜色;染色体边框线宽度、颜色;连接线的宽度、颜色等,详情请参考表1。
MapGene2Chrom网页版与本地版相比,相同点:核心算法与参数设置相同;不同点:网页版操作更为简单、直观,但受网络因素影响较大,数据计算量限制为100 kb(约为400个基因)。绘图参数共30个,详情参考表1,界面如图3所示。
在使用MapGene2Chrom网页版时,只需将指定格式的基因信息和染色体信息粘贴至文本框,点击绘图即可得到输出结果(图4)。由于绘图方式采用的是SVG语言,建议使用谷歌Chrome或FireFox浏览器。
图1 从染色体Chr02上分别随机选取60、80、100个基因绘制不同密度分布图的效果
软件绘制物理图谱的大致流程(图5)为:(1)读取输入文件,分析共有几条染色体、每条染色体上有几个基因;(2)对每条染色体上的基因信息,依据起始位置升序排列;(3)统一单位,以染色体最长的为参考,计算每像素代表的序列长度,进而计算每条染色体的尺寸,并分配其具体位置;(4)依据计算结果绘制染色体名称及染色体边框;(5)绘制基因名称及连接线;(6)在染色体正下方绘制刻度尺,并将所有绘图信息输出至SVG文件,供用户查看。
图2 从二穗短柄草的5条染色体上随机选取80个基因的分布图效果
表1 配置文件参数说明
MapGene2Chrom是基于Perl语言开发的一种生物辅助作图软件,目前有本地版和网页版软件供用户选择使用。本地版软件的优点是数据量不受限制;缺点是操作较为繁琐,用户需具备一定计算机基础。网页版软件的优点是操作界面简单、直观,所有用户均可使用;缺点是数据量受限制(限制为100 kb,约400条基因数据)。软件通过分析不同染色体上的基因相对距离来描绘其分布图,以直观、简洁的方式展示给用户。除此之外,软件的用途还可做以下延伸:(1)绘图功能亦适用于 Scaffold;(2)如果将基因的物理距离变为分子标记的遗传距离,物理图谱就变成了遗传连锁图谱,两者之间的换算需要用户自行完成;(3)相对位置的单位除了碱基对(Base pair, bp)外,也可用遗传距离里摩(Centi-Morgan, cM),此项参数是依据输入数据的单位来定的;(4)本文展示的分布图最多为100个基因,如需显示更多,本地版软件需修改配置文件中的参数 svg_chrom_height 和chrom_init_len;网页版软件,需调整单染色体容器及染色体的高度。
图3 MapGene2Chrom网页版操作界面
图4 绘图采用不同基因线类型值的显示效果
图5 MapGene2Chrom执行流程图
另外,用户需要注意的是:在对同一物种构建遗传图谱时,不同的试验家系和试验群体规模,其遗传图谱并不完全一致;再加上基因组中重组热点的存在,会导致遗传图谱与物理图谱并非严格的一一对应关系。所以,软件不会直接将物理距离与遗传距离直接变换,具体选择物理距离(bp)还是遗传距离(cM)绘图,是由用户的数据来决定的,两者之间无准确的换算关系,取决于用户的经验。
MapGene2Chrom输出结果为SVG矢量图,推荐用谷歌 Chrome、Firefox等常用浏览器中打开查看,能够随意放大或缩小、简单灵活、易于修改,便于研究人员使用,为生物信息学分析提供辅助。
[1]Lander ES, Green P, Abrahamson J, Barlow A, Daly MJ, Lincoln SE, Newburg L. MAPMAKER: an interactive computer package for constructing primary genetic linkage maps of experimental and natural populations. Genomics, 1987, 1(2): 174-181.
[2]VAN Ooijen JW. Multipoint maximum likelihood mapping in a full-sib family of an outbreeding species. Genet Res, 2011, 93(5): 343-349.
[3]Stam P. Construction of integrated genetic linkage maps by means of a new computer package: Join Map. Plant J, 1993, 3(5): 739-744.
[4]Stam P. JoinMap 2. 0 deals with all types of plant mapping populations. In: Plant Genome III Abstracts. San Diego, USA, 1995.
[5]刘仁虎, 孟金陵. MapDraw, 在Excel中绘制遗传连锁图的宏. 遗传, 2003, 25(3): 317-321.
[6]沈利爽, 郑先武, 朱立煌. Mapplotter——个输出遗传图谱、图示基因型和 QTL曲线图形的软件. 遗传, 2000, 22(3): 172-174.
[7]Stein LD, Mungall C, Shu SQ, Caudy M, Mangone M, Day A, Nickerson E, Stajich JE, Harris TW, Arva A, Lewis S. The generic genome browser: a building block for a model organism system database. Genome Res, 2002, 12(10): 1599-1610.
(责任编委: 吴为人)
MapGene2Chrom, a tool to draw gene physical map based on Perl and SVG languages
Jiangtao Chao, Yingzhen Kong, Qian Wang, Yuhe Sun, Daping Gong, Jing Lv, Guanshan Liu
Key Laboratory for Tobacco Gene Resources, Tobacco Research Institute of Chinese Academy of Agricultural Sciences, Qingdao 266101, China
Genetic linkage map is helpful for analysis on heredity of some gene families and map-based gene cloning because of its simple and elegant manifestation. One software is in need to draw a gene physical map, which shows a manner similar to the genetic linkage map, based on the relative physical distance between genes. Although some tools like GBrowse and MapViewer etc. are available to draw gene physical map, there are obvious limitations for them: (1) the data need to be decorated in advance; (2) users can’t modify results. Therefore, we developed a bio-assisted mapping software——MapGene2Chrom with PC and web versions, which is based on Perl and SVG languages. The software can be used to draw the corresponding physical map quickly in SVG format based on the input data. It will become a useful tool for drawing gene physical map with the advantages of simple input data format, easily modified output and very good portability.
physical map; gene distribution map; SVG vector graph; draw map; bio-software
2014-06-24;
2014-08-06
中国烟草总公司科技重大专项(编号:110201301005[JY-05])项目资助
晁江涛,硕士,助理研究员,研究方向:生物信息学。E-mail: chaojiangtao@caas.cn
刘贯山,研究员,研究方向:烟草突变体鉴定与利用。E-mail: liuguanshan@caas.cn
10.16288/j.yczz.2015.01.013
时间: 2014-11-19 16:47:08
URL: http://www.cnki.net/kcms/detail/11.1913.R.20141119.1647.002.html