番茄青枯雷尔氏菌致病力分化的全基因组分析(共18页)_第1页
番茄青枯雷尔氏菌致病力分化的全基因组分析(共18页)_第2页
番茄青枯雷尔氏菌致病力分化的全基因组分析(共18页)_第3页
番茄青枯雷尔氏菌致病力分化的全基因组分析(共18页)_第4页
番茄青枯雷尔氏菌致病力分化的全基因组分析(共18页)_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、番茄(fnqi)青枯雷尔氏菌致病力分化的全基因组分析(fnx)Whole-Genome Analysis of Tomato Ralstonia Solanacearum Pathogenicity Differentiation摘要(zhiyo)青枯雷尔氏菌(Ralstonia solanacearum)是一种生长在土壤中的植物病原细菌,可在300多种单双子叶植物中引起毁灭性的细菌性青枯病,对植物的危害极大。青枯雷尔氏菌菌株存在着致病力分化的现象,无致病力菌株可侵染寄主植物却不引起寄主发病。目前国际上,尚未见无致病力青枯雷尔氏菌基因组测序的相关报道,通过本项目研究,获得青枯雷尔氏菌无致病力菌

2、株和强致病力菌株的基因组,为青枯雷尔氏菌致病力分化研究奠定基础。本文分别对青枯雷尔氏菌强致病力菌株FJAT-91和无致病力菌株FJAT-1458的全基因组进行Solexa测序,并且利用Velvet和ABySS进行de novo拼接,获得368个FJAT-91框架序列(Scaffold),707个FJAT-1458框架序列;FJAT-91和FJAT-1458的基因组规模分别为5.6 Mb和5.7 Mb;GC含量均为66%左右。数据量和覆盖率,共检测到SNP。通过Prodigal预测基因共获得6556个FJAT-91基因,7060个FJAT-1458基因,其中部分基因未达到全长;基因密度均为79%

3、左右。通过IMG和Swiss-prot对预测基因进行同源注释。将新测序的FJAT-91和FJAT-1458,同已测序完成的青枯雷尔氏菌GMI1000、PSI07、CFBP2957、CMR15、MolK2和IPO1609进行比较基因组学分析。青枯雷尔氏菌泛基因组共有?个基因(unigene)组成;其中?个基因在8个菌株中都存在,构成了青枯雷尔氏菌的核心基因组,占了泛基因组的?%;此外,在无致病力菌株FJAT-1458中共有?个特异获得基因、?个特异丢失基因,在强致病力菌株FJAT-91中,共有?特异获得基因,?个特异丢失基因。ANI进化分歧组成成分的差异关键词:青枯雷尔氏菌,全基因组Solexa

4、测序,de novo拼接,致病力分化1 前言青枯雷尔氏菌(Ralstonia solanacearum)引起的细菌性青枯病(Bacterial wilt)是危害最大、分布(fnb)最广且造成损失最为严重的植物病害之一(Tsuchiya et al., 2005)。青枯雷尔氏菌主要分布在热带、亚热带和温带地区,环境适应能力强;其寄主中有木本植物和草本植物,一年生植物和多年生植物,双子叶植物和单子叶植物(Janse, 2005),对茄科植物如番茄、辣椒、茄子(qi zi)、烟草、马铃薯的危害尤为严重,成为生产的主要障碍之一(Yang et al., 2006),该菌亦可危害花生、香蕉、甘薯、生姜(

5、shn jin)、桉树等植物(Sood, 2005),寄主范围达到44个科的300多种植物(Alvarez, 2005)。因其侵染性强,寄主范围大,地域分布广,在水中和土壤环境中的生存能力强,青枯雷尔氏菌被认为是世界上危害最大植物病原菌之一(Genin, 2010),美国在“911”之后一度将其列在十大农业恐怖微生物之首,多年来一直是相关学科的研究热点。青枯雷尔氏菌表现出高度的种下分化的多态性,可按生理小种(Carmeille et al., 2006)、生化型(Stefani et al., 2005)、血清型、基因型、致病型等指标进行种下分类(Thurston, 2001)。青枯雷尔氏菌的

6、致病力分化极为显著的,自然环境中就存在强致病力、无致病力以及介于其中的过渡菌株。强致病力菌株侵入寄主植物并导致寄主发病,无致病力菌株可侵染寄主植物却不引起寄主发病(Balabel et al., 2005)。现有研究表明,无致病力菌株无法自然恢复为强致病力菌株(Robertson et al., 2004),而强致病力菌株却会自然丧失致病性,弱化形成无致病力菌株,致病力丧失的原因可能是营养条件和极端气候引起的基因突变(Kanda et al., 2003)。青枯雷尔氏菌存在的复杂多态性是其内部基因组的复杂性的体现,青枯雷尔氏菌能自然发生基因重组( HYPERLINK /pubmed?term=

7、 Salanoubat et al., 2002),也存在从环境中获得遗传物质的水平基因转移(Guidot et al., 2009),模式菌株GMI1000中16%的基因可能来自于水平转移(Nakamura et al., 2004),这些都是青枯雷尔氏菌的菌种复杂性的原因(Coupat et al., 2008)。青枯雷尔氏菌的种内差异甚至让人怀疑这些菌株是否还应该属于一个物种。2004年,强致病力的标准菌株GMI1000的基因组全序列被测序并发表(Nakamura et al., 2004),迄今共有6个公开的强致病力菌株基因组序列( HYPERLINK /pubmed?term= Re

8、menant et al., 2010),其中包含4个完成图,2个草图。通过对这些基因组的分析表明,青枯雷尔氏菌基因组呈现镶嵌结构(Genin, 2004),一些持家基因及毒力基因构成大致的骨干,但不同的生态表型或寄主特异性则可能具有不同的基因组模块(Poueymiro et al., 2009)。然而,目前尚无一个完整的无致病力菌株基因组完成图数据,数据的缺乏使得青枯雷尔氏菌复杂的致病力分化机制难以分析。2 材料与方法2.1 菌株的获得通过常规组织分离方法,在番茄青枯病发生田块,通过大量采集与分离获得大量青枯雷尔氏菌菌株,结合TTC培养基鉴定和致病性检测,获得亲缘性关系极高的番茄无致病力菌株

9、FJAT-1458和强致病力菌株FJAT-91。青枯雷尔氏菌无致病力菌株和强致病力菌株的菌落(jnlu)形态以及致病力分化的检测结果见图a。通过青枯雷尔氏菌其菌落形态来判定其致病性强弱,其中强致病性的青枯雷尔氏菌菌落形态表现为:流动性强,中间为粉红色,并且白边比较宽,表面比较湿润。弱致病性或无致病性的青枯雷尔氏菌菌落形态表现为:无流动性,中间为暗红色,并且白边比较窄,表面比较干燥。在相同接菌量的情况下,强致病性青枯雷尔氏菌采取剪叶方式(fngsh)在第4天就开始发病;并且在第6天已经完全发病(死亡率达到100%)。而弱致病性青枯雷尔氏菌在这段期间剪叶均不发病。2.2 高通量测序本文(bnwn)

10、采用Solexa-illumina新一代测序技术分别对青枯雷尔氏菌FJAT-91和FJAT-1458的全基因组进行shotgun测序,其中前者是强致病力菌株,而后者是无致病力菌株,测序平台为GA IIx。Solexa测序读段(short reads)的读长为54 bp,分别构建了两种双末端测序文库(Library),插入序列长度(Insert length)分别为300 bp和2500 bp。其中300 bp的插入文库采用Paired-End测序,两端读段的方向相向(inward);2500 bp文库采用Mate-Pair测序,两端读段的方向相反(outward)。图1. 生物信息学分析的技术

11、路线adebfc图2. 青枯雷尔氏菌致病力分化(fnhu)注:青枯雷尔氏菌强致病力菌株的菌落形态(a:普通相机;b:体视显微镜),青枯雷尔氏菌无致病力菌株的菌落形态(d:普通相机;e:体视显微镜),致病力分化(fnhu)的检测结果(c:强致病力菌株;f:无致病力菌株)2.3 de novo拼接(pn ji)2.3.1 拼接前的质量控制在对高通量读段进行拼接之前,需要进行一系列质量控制,包括:格式转换,质量评估,质量修剪和长度过滤。Solexa高通量测序生成原始数据为一套qseq文件,需要根据标签信息转换为fastq格式,并根据illumina的自动筛选结果输出高质量的读段。qseq转换为fas

12、tq文件的perl脚本采用了多线程编程技术,可根据标签信息,并行式地从各个qseq文件中提取目标样本的读段,并统计目标样本测序的总数据量。读段的质量值采用了illumina 1.3+标准,即PHRED值0至62分别由第64位ASCII码字符()至第126位字符()表示。本文首先利用SolexaQA(Cox et al., 2010)对全部读段的测序质量进行评估,评测结果可为质量修剪提供依据。本文在质量修剪过程中,首先统一剪除3 末端最后一个碱基,使所有读段只为53 bp;继而采用Modified-Mott trimming算法(为CLC Genomics Workbench所采用质量修剪算法)

13、进行Perl编程,对所有读段进行质量修剪和过滤,过程如下:首先通过公式2,将PHRED质量值换算成单碱基测序错误的概率(Pe),接着对每个碱基都计算了一个新值Val,令Val=Limit-Pe,本文将Limit设为0.05。再设置一个新值sum,初始为0;从读段的末端开始扫描序列,每扫描到一个碱基,就把碱基对应的Val值累加,赋予sum,即sum=sum+Val;若碰到sum0的碱基开始到出现sum最大值的碱基结束,这段序列就是质量修剪后(trimmed)保留下来的高质量(High quality)读段,而低质量的序列末端已被切除。若扫描整条序列后,sum仍为0,则舍弃整个读段。经过质量修剪之

14、后,对含有超过2个N(Base Calling模糊不清的碱基)的读段进行修剪,只取最长的一段少于等于2个N的读段。最后根据长度阀值进行(jnxng)过滤,本文只保留读段长度大于阀值35 bp的读段。若PE配对的两条读段中仅其中一条被过滤,则将另一条被保留的读段另存至一个SE(Single End)文件中,使之不影响PE读段的对齐。公式1公式22.3.2 ABySS和Velvet拼接(pn ji)在拼接之前,还需要进行以下处理:Mate-Pair文库(wnk)(MP Library),即本文的2.5 kb文库,双末端配对读段的方向为outward,需要将forward和reverse读段都进行反

15、向互补,使两读段方向转为inward。velvet和ABySS都只识别inward的PE读段,转换之后会使拼接质量提高。本文先分别利用ABySS(Simpson et al., 2009)和Velvet(Zerbino , Birney, 2008)单独各自对青枯雷尔氏菌FJAT-91和FJAT-1458进行拼接。对Kmer值从21至上限35(读段长度过滤的阀值)之间的每个奇数都进行调试,确认达到最佳拼接效果时的Kmer值为35 bp;另外,Velvet的参数min_pair_count和ABySS的参数n意义是一样的,都设为20,表示构成一个框架序列Scaffold至少需要20对读段;ABy

16、SS不需要再设其他参数,Velvet需要参数exp_cov,表示期望的覆盖度(Coverage),可设为auto,还需要指定插入文库的长度及标准差SD,SD的设定只需要取一个尽量大的值,不需要调试,本文设为20%,即300 bp的SD为60 bp,2500 bp的SD为500 bp。本文进一步将ABySS第一次拼接(Kmer=35)得到的框架序列(Scaffold)拆分为重叠群(Contig),Contig长度长于Velvet长序列拼接的长度限制(32700 bp)时,将ABySS的Contig拆分为三分之二互有重叠的两段序列。最后将ABySS的Contig序列作为长序列(long seque

17、nce)和所有短序列(short read)一起通过Velvet进行二次拼接,Velvet的其他参数不变(Kmer=35)。2.3.3 读段定位将读段和拼接后的框架图(Scaffold)进行比对,读段的定位(Mapping)信息可用来计算读段的覆盖率(Coverage)、SNP频率和测序错误率(Error)。本文利用大规模高通量读段快速联配作图工具Bowtie(Langmead et al., 2009)分别将青枯雷尔氏菌FJAT-91和FJAT-1458质量修剪后的读段,与Velvet-ABySS拼接得到的框架图进行比对。首先,选择序列长度大于300 bp的Scaffold,并按长度排序以及

18、重命令,如RS91va_0001。然后,通过bowtie-build建立框架图的ebwt索引。最后,选择Bowtie比对模式为“-v 2”,即半全局联配模式(全局的读段-vs-局部的染色体),允许有2个错配,bowtie尚不支持Gapped比对,比对结果中不会含有InDel;其他参数有-phred64-quals,即本文的读段质量标准为illumina 1.3+;比对结果保存为SAM格式(参数-S);此外,采用Paired-End模式(参数-q -1 m1 -2 m2),不能达到理想的比对效果,因而本文未采用该模式。2.3.4 计算覆盖率(深度(shnd)和广度)Bowtie的比对结果保存为S

19、AM格式,可利用Perl语言读取SAM文件计算(j sun)定位的读段(Mapped read)总数量和碱基总数。利用SAMTools(Li et al., 2009)处理SAM文件(文本文件),过滤未定位的读段,并转换为BAM格式(压缩(y su)的二进制SAM文件),对BAM文件排序并建立索引,最后将多个基于同一个框架图的BAM文件合而为一。本文利用BEDTools(Quinlan , Hall, 2010)的genomeCoverageBed程序计算per-base coverage,即单碱基覆盖率,需要参数“-d”。根据per base coverage通过Perl编程计算所有定位读段

20、对整个框架图(含Gap)的总覆盖率,包括测序深度(Depth)和广度(Breadth)。测序深度为所有定位读段覆盖框架图的倍数,广度为所有定位读段覆盖框架图的完整程度,在本文研究中,框架图中未覆盖读段的部分即为Gap区域。通过扫描per base coverage,计算各个框架序列(Scaffold)的覆盖度(深度Depth和广度Breadth),同时计算各个重叠群(Contig,不含Gap)的测序深度。可以根据覆盖率的高低评估框架图的拼接质量,滤去覆盖率过低(本文设为30)的Scaffold;而覆盖率数倍于平均覆盖率的序列,则可能是重复序列。2.3.5 检测SNP和测序错误读段的Bowtie

21、比对结果已转换为SAMTools处理之后的BAM格式,利用SAMTools的mpileup生成pileup文件,在此文件中包括了每个匹配位点的定位详情,pileup格式说明详见SAMTools网站上的说明: HYPERLINK /pileup.shtml /pileup.shtml通过perl语言编程来处理pileup文件。首先从pileup文件中列出所有差异位点(读段与参照序列之间有错配)。其次,对这些差异位点进行SNP过滤,SNP或者Error的区别只是频率不同。某个位点发生多次测序错误的概率会随着错配次数的增多而急剧降低,错配次数越多,说明该位点存在SNP的概率越高。比如说,参照序列为碱

22、基“A”,读段错配碱基为“T”和“G”,A至T的次数和频率都很高,则有存在SNP的可能性就高,而A至G的次数仅一次,则完全不能排除是测序错误的可能性。因此,进行SNP过滤需要设定一系列阀值,本文设定的阀值如下:差异位点的per base coverage在30以上,500以下,错配次数(绝对数量)在5次以上(包括5次),SNP频率大于等于2%。最后,对不符合SNP筛选条件的错配当作测序错误,错配数进行累积,从而计算测序错误率。测序的错误率为所有测序错误碱基数除以所有定位读段的总碱基数。另外,框架图中少数几个位点需要进行SNP校正。本文进行读段定位的参照序列是新拼接的框架图序列,来自于这些定位读

23、段,在计算差异位点的错配比率时,部分SNP频率高于参照碱基的频率,并且在所有SNP中频率最高,将该SNP和参照碱基交换,进行校正。对框架图进行SNP校正之后,再计算SNP频率和错误率。2.3.6 框架图拼接后的质控统计青枯雷尔氏菌FJAT-91和FJAT-1458基因组拼接之后,需要对其拼接结果(框架图)进行评估,从而判断结果是否理想。首先,通过框架序列(Scaffold)的长度阀值和最低覆盖率对框架图进行质量控制,本文设定的长度阀值为300 bp,最低覆盖率为30。然后,对质控之后的框架图进行评估,计算以下几个数值:Scaffold的数量,长度总和(基因组规模),Scaffold长度的最大值

24、和平均值,Gap的比例,Scaffold的N50、N90序列数量和N50、N90长度值,Contig的数量,Contig的长度总和,Contig长度的最大值和平均值,Contig的N50、N90序列数量和N50、N90长度值。其中N50、N90值的概念如下:将各个序列按长度大小排序,从大至小逐一扫描(somio)各个序列的长度值,进行累积,当该累积值第一次超过所有序列总长的50%时,此时扫描到的序列,其长度值即为N50值,而此时已扫描的序列数量即为N50序列数量。N90值亦同理。2.4 基因(jyn)预测与注释本文(bnwn)利用原核生物基因预测软件Glimmer3、GeneMarkS和Pro

25、digal分别在青枯雷尔氏菌FJAT-91和FJAT-1458基因组框架图的重叠群序列(Contig)上预测编码基因序列。因本文测得的框架图尚不完整,含有较多的Gap,基因预测需包括未达全长的基因片段(Fragment)。基因功能注释,将FJAT-91和FJAT-1458的基因分别与Swiss-Prot和trEMBL数据库进行BLASTP同源比对,选择最相似的比对的结果,并且要求序列比对相似性在30%以上,比对双方中较短的那条序列的全长,联配长度需占其60%以上,期望值E-value在0.001以上。通过Swiss-prot的GO关联(GOA,GO Association),分别对FJAT-9

26、1和FJAT-1458中具有GO注释的基因利用WEGO进行GO功能分类。蛋白质结构域分析,利用Hmmer3的hmmscan程序将FJAT-91和FJAT-1458所有预测基因的蛋白质序列与本地化PFAM数据库进行比对,从而鉴定这些基因的蛋白质结构域。非编码RNA的预测包括核糖体RNA(rRNA)和转运RNA(tRNA)。rRNA可通过青枯雷尔氏菌GMI1000中rRNA序列进行同源预测,tRNA利用rRNAScan-SE和aragorn进行预测。重复序列注释,通过RepeatModeler(调用RECON和RepeatScout)分析FJAT-91和FJAT-1458的框架图序列,发现重复序列

27、,构建物种特异的重复序列数据库,联同RepBase,利用RepeatMasker检测框架图中的重复序列,通过和已有的TE数据库进行比对,对重复序列进行注释。2.5 比较基因组学研究青枯雷尔氏菌CMR15、PSI07、CFBP2957、GMI1000和Po82全基因组完成图(Completed Genome),青枯雷尔氏菌IPO1609、UW551和MolK2基因组草图(Genome Draft),以及青枯雷尔氏菌近缘物种Ralstonia pickettii 12J全基因组完成图,均可从NCBI或者Genoscope RalstoniaScope网站下载数据,后者的网址如下: HYPERLIN

28、K s.fr/agc/microscope/about/collabprojects.php?P_id=67 s.fr/agc/microscope/about/collabprojects.php?P_id=67将新测序的青枯雷尔氏菌强致病力菌株FJAT-91和无致病力菌株FJAT-1458联同以上9个菌株的基因组一起进行比较基因组学研究。2.5.1 双向最佳(zu ji)比对在全基因组水平上,两个(lin )物种之间的蛋白质序列进行双向最佳比对(BBH,Bidirectional Best Hit),可以鉴定得到这两个物种之间的直系同源基因(Orthologous Genes)。利用(ly

29、ng)BLAST+程序包中的BLASTP程序,将以上每个菌株全基因组中的所有蛋白质序列分别和其他10个菌株进行BLASTP,只选择最佳匹配项,并要求序列比对相似性在30%以上,比对双方中较短的那条序列的全长,联配长度需占其60%以上,期望值E-value在0.001以上。通过Perl编程,各个菌株两两之间的最佳比对结果进行聚类2.5.2 全基因组比对(megablast)和基因组岛鉴定2.5.3 计算AAI并构建物种进化树通过蛋白质序列双向最佳比对(BBH)鉴定各个物种两两之间的直系同源基因(Orthologous Genes),从而计算这些直系同源基因的平均氨基酸一致性(AAI,Averag

30、e Amino acid Identity)。各菌株之间的分歧程度通过100%减去AAI值来表示,以此生成距离矩阵,并保存为Phylip所能读取的格式。之后,利用phylip的neighbor程序,采用邻接法(NB)构建物种进化树。3 结果与分析3.1 框架图拼接结果(ji gu)分析3.1.1 数据量和测序深度(shnd)经过Solexa高通量测序,青枯雷尔氏菌强致病力菌株FJAT-91共产生了1.3 Gb数据量(测得碱基总数(zngsh)),无致病力菌株FJAT-1458共产生了1.1 Gb数据量。经过illumina自动筛选之后,FJAT-91的有效读数,即高质量读段的数量,为2109万

31、个,碱基总数为1.1 Gb,占了原始数据的87.6%,测序深度为203(已知青枯雷尔氏菌基因组平均规模为5.6 Mb);而FJAT-1458的有效读数为1751万个,碱基总数为0.9 Gb,是原始数据的87.5%(详见表1),测序深度为169。如表1所示,读段经过质量修剪之后,青枯雷尔氏菌FJAT-91和FJAT-1458实际用于拼接的测序深度分别为156和131,各自修剪了23.2%和22.5%的原始序列,读段的平均长度分别为49.8 bp和50.0 bp,原始读段长度为54 bp。在de novo拼接之后,将读段定位至框架图上,未能联配至框架图上的读段,可以认为这些读段没有在拼接中用到。读

32、段定位结果显示,实际用于拼接的读段覆盖率深度在FJAT-91和FJAT-1458中分别有129和103,分别下降了17%和21%,用于拼接的读段分别仅占原始数据的56%和53%。表1. 青枯雷尔氏菌FJAT-91和FJAT-1458读段数量和碱基总量FJAT-91(virulent)FJAT-1458(avirulent)Raw dataread length54 bp54 bpreads number2407275020001978total bases1299928500 bp1080106812 bpgenome sizeavg. 5.6 Mbavg. 5.6 Mbdepth 1)232

33、193Illumina filteredread length54 bp54 bpreads number2109410617507820total bases1139081724 bp945422280 bpgenome sizeavg. 5.6 Mbavg. 5.6 Mbdepth203169Quality trimmedread length3553 bp, mean=49.8 bp3553 bp, mean=50 bpreads number1750103814740010total bases871237877 bp736276730 bpgenome sizeavg. 5.6 Mb

34、avg. 5.6 Mbdepth156131Mapping to scaffoldread length3553 bp, mean=49.9 bp3553 bp, mean=49.9 bpreads number1454335111935129total bases725271690 bp595253263 bpscaffold size 2)5620164 bp5734490 bpdepth 3)129103breadth 4)88.36%88.74%注:1) 青枯雷尔氏菌基因组规模平均值约为5.6 Mb,测序深度为所有读段可覆盖基因组的倍数,测序深度=碱基总数 / 5.6 Mb;2) 大于

35、300 bp的所有框架序列的总和,包括Gap;3) 测序深度=碱基总数 / Scaffold总长。4) 广度Breadth即所有读段覆盖参照基因组序列的程度,在本文中,未覆盖的区域即Gap部分,测得部分的重叠群序列,实际的测序深度=depth / breadth。图3. 高通量测序的覆盖(fgi)深度3.1.2 de novo拼接(pn ji)基因组框架图经过调试,最佳Kmer值设为35 bp,分别采用了三种拼接方法:单独利用ABySS进行(jnxng)拼接,单独利用Velvet进行拼接,结合Velvet和ABySS进行拼接,在同样的参数设置下,Scaffold长度在300 bp以上的拼接结果

36、,三者的拼接效果表2所示。表2. 拼接结果的质控统计FJAT-91FJAT-1458VelvetABySSV-A 1)VelvetABySSV-Aall scf 2) number126161641022 4)231361641804total length578398761659125700755615908861659125878500scaffold length = 300 bpscf number590268336811222894707scf length569820757751615620164600038655203115734490max scf length58842541

37、07460309728900831134329864avg. scf length9657.982152.515272.185347.941907.58111.02N rate (Gap)14.23%4.49%11.61%16.82%0.44%11.22%scf N50 number18273105242736scf N50 length59152505611205524052304430933scf N90 number1621558784601792241scf N90 length36888041032719867823619ctg 3) number377729522655457931

38、702978ctg length488738055160294967576499094154960965091150ctg max length168583496634691170923113426925ctg avg. length1293.981868.571871.031089.961733.781709.59ctg N50 number648312302780453431ctg N50 length209540283842182729463001ctg N90 number232617351502279918831681ctg N90 length628730823509741809注

39、:1) V-A = Velvet-ABySS; 2) scf = Scaffold, 3) ctg = Contig; 4) 加粗的数字表示最佳Velvet-ABySS拼接的总体特征显示,de novo拼接共获得1022个FJAT-91的Scaffold,长度在300 bp以上的Scaffold有368个,所有Scaffold总长达到5.6 Mb,其中Gap(碱基未测得,标记为“N”)序列的比例为11.6%,所有Contig序列总长为4.97 Mb,包括2655个Contig;在FJAT-1458中,共有1804个Scaffold,长度在300 bp以上的Scaffold有707个,Scaff

40、old总长为5.7 Mb,Gap序列比例为11.2%,Contig序列总长为5.09 Mb,包括2978个Contig。Scaffold和Contig的N50和N90统计结果(见表2),在FJAT-91中,Scaffold的N50序列数量(shling)为10,N50序列长度值为112 kb,Contig的N50序列数量为302,N50序列长度值为3.8 kb;在FJAT-1458中,Scaffold的N50序列数量为36,N50值为31 kb,Contig的N50数量为431,N50值为3 kb。N90的统计结果详见表2。此外,Velvet拼接(pn ji)获得的Scaffold,数量和长度

41、均好于ABySS的拼接结果;而ABySS在Contig拼接上的效果要好于Velvet,Gap比例较低;从表2的结果可见,Velvet-ABySS的Scaffold拼接效果超过了Velvet,Contig拼接效果也与ABySS较为接近,达到了Velvet和ABySS优缺点互补的拼接效果。3.1.3 读段定位结果(ji gu)分析读段分别定位至FJAT-91和FJAT-1458的基因组框架图上,总体统计结果见表1。其中各个Contig的覆盖深度分布如图4所示,在FJAT-91(左)和FJAT-1458(右)中,多数Contig的覆盖深度在50至200以内,FJAT-91中各个Contig的覆盖深度

42、比FJAT-1458略高。从图4亦可知,FJAT-91和FJAT-1458的GC含量基本上在60%至75%之间。此外,图4中FJAT-91和FJAT-1458的散点分布集中,并无明显分区现象,表明测序中基本没有污染。图4. 覆盖深度和GC含量散点图(左:FJAT-91,右:FJAT-1458)不满足SNP过滤条件的错配属于测序错误,从而评估Solexa测序的错误率。在FJAT-91中共有1413371个单碱基测序错误,测序错误率为0.16%;在FJAT-1458中共有1548491个单碱基测序错误,测序错误率为0.21%。在青枯雷尔氏菌FJAT-91中共检测到22,144个SNP,其基因组框架

43、图大小约为5.6 Mb,平均全基因组的SNP密度为3.96/kb;在FJAT-1458中检测到19,017个SNP,SNP密度为3.34/kb。本文未检测单核苷酸的插入和缺失。SNP在全基因组的平均发生频率,在FJAT-91中为10.32%,在FJAT-1458中为10.68%,频率相近。青枯雷尔氏菌FJAT-91和FJAT-1458的SNP中,属于转换(C/T、G/A)的SNP分别只有1700和1400多个,所占比例较少,而颠换四种类型C/G、A/T、C/A和G/T中,C/A和G/T两者总共约占了全部SNP的70%,FJAT-91整体的转换与颠换比为15.81,FJAT-1458的转换与颠换

44、比为15.64。但是,转换的SNP发生频率分别为18%和16%,大于颠换的SNP突变频率。表3. 转换和颠换的SNP分布数量(shling)和频率TransitionsTransversionAllC/TG/AC/GA/TC/AT/GFJAT-91SNP Number1707154329052208320745122144Frequency18.28%18.66%11.37%10.94%7.76%7.91%10.32%FJAT-1458SNP Number1437142426102856667659419017Frequency16.30%16.08%11.66%8.21%8.95%8.81%

45、10.68%3.2 基因组特征(tzhng)概述青枯雷尔氏菌CMR15、PSI07、CFBP2957、GMI1000和Po82已获得全基因完成图,菌株IPO1609、UW551和MolK2只得到基因组草图,共有八个青枯雷尔氏菌基因组已知;本文新测序了两个基因组FJAT-91和FJAT-1458,前者为强致病力菌株,后者为无致病力菌株;分析这些菌株的基因组特征,包括基因组规模,GC含量,编码基因数量,基因密度,基因序列平均(pngjn)长度,rRNA及tRNA数量,分析结果详见表4。表4. 基因组概述(i sh)StrainPhylotypeGenomesize (bp)GCcontentCDS

46、numberGenedensityCDS avg.length (bp)rRNA operonstRNAnumberCMR15III5,593,04166.8%514986.7%904.2359PSI07IV5,606,28866.3%524786.8%808.6149CFBP2957IIA5,683,40266.4%531085.2%972.9156GMI1000I5,810,92266.9%563589.2%955.5457IPO1609IIB5,523,29266.7%520380.7%990.8129UW551IIB5,952,91864.2%530181.3%913.31Molk2I

47、IB5,862,10166.7%543883.8%903.3134Po82IIB5,430,26366.6%508091.3%975.63FJAT-91I5,620,16466.0%655687.6%656.0148FJAT-1458I5,734,49066.0%706086.3%622.4254Mean5,681,688 66.3% 5295 1)85.6%928.0 2)1.8注:1) CDS数量的均值不包括FJAT-91和FJAT-1458; 2) CDS平均长度不包括FJAT-91和FJAT-1458.图5. 十个青枯雷尔氏菌基因组中的CDS数量(shling)FJAT-91图6. F

48、JAT-91基因组注释(zhsh)注:最外层黑白条码表示10 kb扫描窗口的基因密度,白色表示基因密度在60%以下,颜色越深表示基因密度越高;中间层表示所有预测基因的位置,其中(qzhng)红色表示基因不完整(Partial,Fragment),即有缺少起始密码子或终止密码子,蓝色表示基因达到全长(Complete,Full Length);最内层,将具有基因名(Symbol Name)的基因按其位置标识在图中。新测序的青枯雷尔氏菌FJAT-91和FJAT-1458,与GMI1000同属于进化I型;框架图(Scaffold序列长度大于300 bp)的碱基总数分别为5.6 Mb和5.7 Mb,与

49、青枯雷尔氏菌基因组平均规模较为接近(jijn)。统计重叠群序列(不含Gap)的GC含量,青枯雷尔氏菌FJAT-91和FJAT-1458的GC含量均为66%。10个青枯雷尔氏菌的GC含量普遍在一个较高的水平,均值为66.3%。已知的8个青枯雷尔氏菌各有5000多个基因,其中GMI1000最多,具有(jyu)5635个基因,Po82最少,具有5080个基因,均值为5295个。新测序的FJAT-91和FJAT-1458分别预测得到6556和7060个基因,其中有较多的基因片段(Fragment),比例超过50%(如图5所示),这些基因不完整(Partial),缺少起始密码子或终止密码子,未达全长。F

50、JAT-91中全长基因共有3010个,基因片段共有3546个;FJAT-1458中全长基因共有3075个,基因片段共有3985个。因为含有较多基因片段,FJAT-91和FJAT-1458的CDS平均长度分别仅为656 bp和622 bp,而其他8个菌株的CDS平均长度的均值为928 bp,相差较多;FJAT-91全长基因的CDS平均长度为801 bp,FJAT-1458全长基因的CDS平均长度为766 bp,也相差了100多bp,说明这些全长基因中也有一部分基因未达到全长。原核生物具有较高的基因密度,在青枯雷尔氏菌中,基因密度一般可在80%以上,甚至超过90%。统计FJAT-91和FJAT-1

51、458重叠群序列的基因密度,分别达到87.6%和86.3%,基因密度水平基本一致。经过rRNA同源比对和tRNA预测,在FJAT-91中共发现1个rRNA,48个tRNA,在FJAT-1458中共发现2个rRNA,54个tRNA。FJAT-1458图7. FJAT-1458基因组注释(zhsh)注:最外层黑白条码表示10 kb扫描窗口的基因密度,白色表示基因密度在60%以下,颜色越深表示基因密度越高;中间层表示所有预测基因的位置,其中红色(hngs)表示基因不完整(Partial,Fragment),即有缺少起始密码子或终止密码子,蓝色表示基因达到全长(Complete,Full Length

52、);最内层,将具有基因名(Symbol Name)的基因按其位置标识在图中。3.3 青枯雷尔氏菌泛基因组Fig. 3 pan-genome, Core genome and Specific genes of eight R. solanacearum strains. The pan-genome of R. solanacearum and special genes of every strain were identified. 11888 unigenes constituted the pan-genome of R. solanacearum. The pan-genome was composed of the core-genome (genes presented in all strains), the dispensable genome (genes presented in some strains, but not all) and the specific genome (uniquegenes presented in only one strain).Tab. 4 The specific gain genes and specific lose genes o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论