诺禾致源原核转录组生物信息分析结题报告2013年8月_第1页
诺禾致源原核转录组生物信息分析结题报告2013年8月_第2页
诺禾致源原核转录组生物信息分析结题报告2013年8月_第3页
诺禾致源原核转录组生物信息分析结题报告2013年8月_第4页
诺禾致源原核转录组生物信息分析结题报告2013年8月_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、建库流TotalRNA上机差 差 文 列一、建库流从RNA样品到最终数据获得,样品检测、建库、每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果。因此,获得高质量数据是保证生物信息分析正确、全面、可信的前提。为了从上保证数据的准确性、可靠性,诺禾致源对样品检测、建库、每一个生产步骤都严格把控,从根本上确保了高质量数据的产出。流程图如下:TotalRNA诺禾致源对RNA样品的检测主要包括4种方法琼脂糖凝胶电泳分析RNA降解程度以及是否有污Nanodrop检测RNA的纯度(OD260/280比值Qubit对RNA浓度进行精确定Agilent2100精确检测RNA的完fragmentationbuffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(randomhexamers)合成一链cDNA,然后加入缓冲液、dNTPs(dTTP换为dUTP)和DNApolymeraseI合成二链cDNA,随后利用AMPureXPbeads纯化双链cDNA。纯化的双链cDNA再进行末端修复、加A尾并连接接头,然后用AMPureXPbeads进行片段大小选择,最后消化二链后进行PCR富集得到最终的cDNA文库。构建文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/ul,随后使用Agilent2100对文库的insertsize进行检测,insertsize符合预期后,使用Q-PCR方法对文库的有效浓度进行准确定量(文库有效浓度>2nM),以保证文库质量。上机库检合格后,把不同文库按照有效浓度及目标下机数据量的需求pooling后进行 二、生物信息分析流程获得原始序列(SequencedReads)后,在有相关物种参考序列或参 组的情况下,通过 程进行生物信息分析三、项目结果说明1高通量(如illuminaHieqM200MiSq等平台)得到的原始图像数据文件经碱基识别(Baseallng)分析转化为原始序列(Sequenedeas),我们称之为RawDta或RawRes,结果以FASTQ(简称为fq)文件格式,其中包含序列(d)的序列信息以及其对应的质量信息。FASTQ格式文件中每个read由四行描述,如下@EAS139:136:FC706VJ:2:2104:15343:1973931:Y:18:ATCACG其中第一行以“@”开头,随后为illumina标识符(SequeneIdetiies)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为illumia标识符(选择性部分);第四行是对应序列的质量(Cockta.)。illumina标识符详细信息如下UniqueinstrumentRunFlowcell2FlowcellTilenumberwithintheflowcell'x'-coordinateoftheclusterwithinthe'y'-coordinateoftheclusterwithinthe1Memberofapair,1or2(paired-endormate-pairreadsYYifthereadfailsfilter(readisbad),N0whennoneofthecontrolbitsareon,otherwiseitisanevenIndex公式一:Qphred=-10log10(e)illuminaCasava1.8版本 错误率质量值对应字符.5?I2数据质量评 错误率分布检每个碱基错误率是通过Phred数值(Phredscore,Qphred)通过公式1转化得到,而Phred数值是在碱基识别(BaseilluminaCasava1.8版本碱基识别与Phred分值之间的简明对应关Phred分不正确的碱基识别碱基正确识别率Q-9999错误率与碱基质量有关,受仪本身、试剂、样品等多个因素共同影响。对于RNA-seq技术,错误率分布具有两个特点:(1)错误率会随着序列(SequencedReds)长度的增加而升高,这是由于过程中化学试剂的消耗而导致的,并且为illumina高通量平台都具有的特征。(2)前6个碱基的位置也会发生较高的错误率,而这个长度也正好等于在RNA-seq库程中反转录所需要的随机引物的长度。所以推测前6个碱基错误率较高的原因为随机引物和RNA模版的不完全结合(Jiangetal.。图2.1错误率分布横坐标为reads的碱基位置,纵坐标为单碱GCGC含量分布检查用于检测有无AT、GC分离现象,而这种现象可能是或者建库所带来的,并且会影响后续的定量分析在illumna平台的转录组中,反转录成cDNA时所用的6bp的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性。而这种偏与的物种和环境无关,但会影响转录组的均一化程度(Hansenetl.)。除此之外,理论上G和C碱基及A和T碱基含量每个循环应分别相等,且整个过程稳不变,呈水平线。对于DE来说,由于随机引物扩增偏差等原因,常常会导致在得到的每个ed67个碱基有较大的波,这种波动属于正常情况。对于链特异性文库,由于只保留链,G和C碱基AT碱基含量不等。对于链特异性文库,由建库过程中只保留一链,G和C基及AT碱基含量不等。图2.2GC含量分布横坐标为reads的碱基位置,纵坐标为单碱基所占的比例;不同颜色代表不 数据过得到的原始序列,里面含有带接头的、低质量的reads,为了保证信息分析质量,必须对rawreads进行过滤,得到cleanreads,后续分析都基于cleanreads。数据处理的步骤如下去除带接头(adapter)的去除N(N表示无法确定碱基信息)的比例大于10%的去除低质量readsRNA-seq的接头(Adapter,OligonucleotidesequencesforTruSeqTMRNAandDNASamplePrepKits)信息:RNA5’Adapter(RA5),part# 5’-AATGGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-RNA3’Adapter(RA3),part 5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC(6位index)ATCTCGTATGCCGTCTTCTGCTTG-图2.3原始数据过滤结数据质量情况汇

表2.4数据产出质量情况一览SampleRawCleanErrorGCGG数据质量情Rawreads:统计原始序列数据,以四行为一个单位,统计每个文件的序列的个数Cleanreads:计算方法同RawReads,只是统计的文件为过滤后的数据。后续的生物信息分析都是基于CleanreadsCleanbases:序列的个数乘以序列的长度,并转化为以G为单位Errorrate:通过公式1Q20、Q30:分别计算Phred数值大于20、30的碱基占总体碱基的百分GCcontent:计算碱基G和C的数量总和占总的碱基数针对细菌等密度较高的生物,我们用Bowtie2将过滤后的序列进行组定位分析。如果参考组选择合适,而且相关实验不存在污染,实验所产生的序列的定位的百分比正常情况下会高于70%(TotalMappedReadsorFragents),其中具有多个定位的序列(MultipleMapedRadsrFraments)占总体的百分比通常不会超过10%。Reads与参考组比对情况统表3.1Reads与参考组比对情况一览SampleTotalTotal(95MultiplniquelyRead-Read-(47ReadsmaptoReadsmapto'-Readsmappedinproper191477147063比对结果统Totalreads:序列经过数据过滤后的数量统计(Cleandata)Totalmppd:能定位到组上的序列的数量的统计;一般情况下,如果不存在污染并且参考组选择合适的情况下,这部分数据的百分比大于70%。Multiplemapped:在参考序列上有多个比对位置的序列的数量统计;这部分数据的百分比一般会小于10%Uniquelymapped:在参考序列上有唯一比对位置的序列的数量统计Readsmapto'+',Readsmapto'- 序列比对 组上正链和负链的统计Reads在参考组不同区域的分布情根据组的注释信息,对Totalmappedreads比对到组上的各个部分的情况进行统计。正常情况下,区的reads定图3.2Reads在参考组不同域的分布情Reads在上的密度分布情对Totalmapedreds的比对到组(分正负链)的密度进行统计,下图是随机抽取部分reads,展示其在上的map图3.3Reads在上的密度分布最外圈是组;中间的灰色背景区是实际的抽取的reads的分布情况,红色map到正链,蓝色到负链;最里面的圆圈,橘黄色为正链coverage分布,绿色为负链coverage分布,超过所有coverage集均值+2倍标准差的奇异点被舍弃Reads我们提供RNA-seqReads在组上比对结果的bam格式文件,部分物种还提供相应的参考组和注释文件,并推荐使用IGV(IntegraiveGnomicsViewr)浏览器对bam文件进行可视化浏览。IGV浏览器具有以下特点:(1)能在不同尺度下显示单个或多个读段在组上的位置,包括读段在各个上的分布情况和在注释的外显子、内含子、剪接接合区、间区的分布情况等;(2)能在不同尺度下显示不同区域的读段丰度,以反映不同区域的转录水平;(3)能显示及其剪接异构体的注释信息;(4)能显示其他注释信息;(5)既可以从服务器端各种注释信息,又可以从本地加载注释信息。IGV浏览器使用方法可参考我们提供的使用说明文档(IGVQuickStart.pd)。图3.4IGV浏览器4表达水平分一个表达水平的直接体现就是其转录本的丰度情况,转录本丰度程度越高,则表达水平越高。在RNA-seq分析中,我们可以通过定位到组区域或编码区的序列(reads)的计数来估计的表达水平。Reads计数除了与的真实表达水平成正比外,还与的长度和深度成正相关。为了使不同、不同实验间估计的表达水平具有可比性,人们引入了RPKM的概念,RPKM(RadsPerKioassprillonreds)是每百万reads中来自某一每千碱基长度的reads数目。RPKM同时考虑了测序深度和长度对reads计数的影响,是目前最为常用的表达水平估算方法(Mortaavietal,008)。结果文件分别统计了不同表达水平下的数量以及单个的表达水平。一般情况下,RPKM数值0.1或者1作为判断是否表达的阈值,不同的文献所采用的阈值不同。表4.1不同表达水平区间的数量统计RPKM0-1-3-15-2666(60表4.2表达水平统计76305RNA-seq表达水平的饱和曲线检定量饱和曲线检查反映了表达水平定量对数据量的要求。表达量越高的,就越容易被准确定量;反之,表达量低的基因,需要较大的数据量才能被准确定量。表达水平的饱和曲线的体算法描述如下:分别对10%、20%、30%……90%的总体数据单独进行定量分析,并把所有数据条件下得到的的表达水平作为最终的数值。用每个百分比条件下求出的单个的RPKM数值和最终对应的表达水平数值进行比较,如果差异小于15%,则认为这个在这个条件下定量是准确的。图5.1定量饱和曲线检查分布横坐标代表定位 组上的reads数占总reads数的百分比,纵坐标代表定量误差在15%以内的的比RNA-Seq生物学重复是任何生物学实验所必须的,高通量技术也不例外(Hansenetl.)。生物学重复主要有两个用途:一个是证明所涉及的生物学实验操作是可以重复的且变异不大,另一个为后续的差异分析所需要的。样品间表达水平相关性是检验实验可靠性和样本选择是否合理性的重要指标。相关系数越接近1,表明样品之间表达模式的相似度越高。Encode计划建议生物学重复皮尔逊相关系数的平方(R2)大于0.92(理想的取样和实验条件下)。具体的项目操作中,我们要求R2至少要大于0.8,否则需要对样品做出合适的解释,或者重新进行实验。图5.2RNA-Seq重复相关性检R2:pearson6差异表达分 表达水平对通过所有的RPKM的分布图以及盒形图对不同实验条件下的表达水平进行比较。对于同一实验条件下的重复样品,最终RPKM为所有重复数据的平均值图6.1不同实验条件下表达水平比对RPKM分布图(图一)的横坐标为log10(RPKM),纵坐标为的密度。RPKM盒形图(图二)的横坐标为样品名称,纵坐标为log10(RPKM),每个区域的盒形图对差异表达列etal,2010)进行分析:该分析方法基于的模型是负二项分布,第i个在第j个样本中的readcount值为Kij,则Kij~对于无生物学重复的样品,先采用TMM对readcount数据进行标准化处理,之后用DEGseq进行差异分析。差异表达列表如下表6.2差异列3105.1372e-3.9323e-301.6497e-2.3834e-20344e-6.0811e-48119478e-1.2765e-差异列表主要包括的内容Gene_id:编readcount_Sample1:校正后样品1的readcountreadcount_Sample2:校正后样品2的readcountlog2FoldChange:pvalue(pval):统计学差异显著性qvalue(padj):校正后的pvalue。qvalue越小,表 表达差异越显差异表达筛用火山图可以推断差异的整体分布情况,对于无生物学重复的实验,为消除生物学变异,我们从差异倍数和显著水平两个水平进行评估,对差异进行筛选,阈值设定一般为:|log2(FodChange)|>1且qvalue<0.005。对于有生物学重复的实验,由于DESeq已经进行了生物学变异的消除,我们对差异筛选的标准一般为:padj<005。图6.3差异火山有显著性差异表达 用红色点表示;横坐标代 在不同样本中表达倍数变化;纵坐标代 表达量变化差异的统计学显著差异聚类分聚类分析用于判断差异在不同实验条件下的表达模式;通过将表达模式相同或相近的成类,从而识别未知的功能或已知的未知功能;因为这些同类的可能具有相似的功能,或是共同参与同一代谢过程或细胞通路。以不同实验条件下的差异的RPKM值为表达水平,做层次聚类(hierarchicallusering)分析,不同的颜色的区域代表不同的聚类分组信息,同组内的表达模式相近,可能具有相似的功能或参与相同的生物学过程。除了差异表达量rpkm层次聚类分析,我们对还分别用H-cluster、K-means和SOM等三种方法对差异的相对表达水平值log2(ratios)进行聚类。不同的聚类算法分别将差异分为若干cluster,同一cluster中的在不同的处理条件下具有相似的表达水平变化趋势。图6.4差异聚类图一为整体rpkm层次聚类图,以log10RPKM值进行聚类,红色表示高表达,蓝色表示低表达。颜色从红到蓝,表示log10(RPKM)从大到小;图二为log2(ratios)折线图,每个子图中的灰色线条表示一个cluster中的在不同实验条件下相对表达量的折线图,蓝色线条表示这个cluster中的所有在不同实验条件下相对表达量的平均值的折线图,x轴表示实验条件,y轴表示相对表达量差异GO富集分GeneOnology(简称GO,)是功能国际标准分类体系。根据实验目的筛选差异后,研究差异在GeneOntology中的分布状况将阐明实验中样本差异在功能上的体现。GO富集分析方法为GOseq(Youngetal,2010),此方法基于Walleniusnon-entralhype-geomtricistributon。相对于普通的超几何分布(Hyper-geomericdistribuion),此分布的特点是从某个类别中抽取的概率与从某个类别之外抽取一个的概率是不同的,这种概率的不同是通过对长度的偏进行估计得到的,从而能更为准确地计算出GOterm被差异富集的概率。差异GO富集列表7.1差异GO富集列cell1.2529e-1.7778e-localizationof1.2529e-1.7778e-ciliaryorflagellar4.2065e-39794e-cellularcomponent1.717e-12182e-结果表格详细内容如下GO_accession:GeneOntology数据库中唯一的Description:GeneOntology功能的描述Term_type:该GO的类别( onent:细胞组分;biological_prcess:生物学过程;molecular_funtion:功能)Over_represented_pValue:富集分析统计学显Corrected_pValue:矫正后的P-Value,一般情况下,P-value<0.05该功能为富集DEG_item:与该GO相关的差异的数DEG_list:GO注释的差 数差异GO富集DAG有向无环图(DirectdAycicGrah,DAG)为差异GO富集分析结果的图形化展示方式,分支代表包含关系,从上至下所定义的功能范围越来越小,一般选取GO富集分析的结果前10位作为有向无环图的主节点,并通过包含关系,将相关联的GOTerm一起展示,颜色的深浅代表富集程度。我们的项目中分别绘制生物过程(bioogiclroess)、分子功能(moleclarfucton)和细胞组分(celulrompnet)的DAG图。图7.2GO富集有向无每个节点代表一个GO术语,方框代表的是富集程度为TOP10的GO,颜色的深浅代表富集程度,颜色越深就表示富集程度越高,每个节点上展示了该TERM及富集分析的p-value差异GO富集柱状差异GO富集柱状图,直观的反映出在生物过程(biologicalprocess)、细胞组分(cellularcomponent)和分子功能(molecularfunction)富集的GOterm上差异的个数分布情况。我们挑选了富集最显著的30个GOterm在图中展示,如果不足30图7.3GO富集柱状图一:纵坐标为富集的GOterm,横坐标为该term中差异个数。不同颜色用来区分生物过程细胞组分和分子功能,带“*”为富集的GOterm图二:对图一中的GO,按生物过程细胞组分和分子功能三大类别及差异 差异KEGG富集分在生物体内,不同相协调行使其生物学功能,通过Pathway显著性富集能确定差异表达参与的最主要生化代谢途径和信号转导途径。KEGG(KyotoEncyclopediafGenesndGenos)是有关Pathway的主要公共数据库(Kanehisa,2008)。Pathwa性富集分析以KEGGPathway为单位,应用超几何检验,找出与整个组背景相比,在差异表达中显著性富集的Pathway。差异KEGG富集列表8.1差异KEGG富集列SampleP-CorrectedP-FlagellarKEGGponentKEGG553887613552e-252018864166e-HistidineKEGG221572423431e-6.72103017741e-BacterialKEGG0结果表格详细内容如下#Term:KEGG通路的描述信息Id:KEGG数据库中通路唯一Samplenumber:该通路下差异的个数Backgroundnumber:该通路下的个数P-value:富集分析统计学显著CorrectedP-value:矫正后的统计学显著水平,一般情况下,P-value0.05该功能为富集差异KEGG富集散点散点图是KEGG富集分析结果的图形化展示方式。在此图中,KEGG富集程度通过Richfactr、Qvlue和富集到此通的个数来衡量。其中Richfactr指差异表达的中位于该pathway条目的数目与所有有注释中位于该pathway条目的总数的比值。Richfacor越大,表示富集的程度越大。Qvalue是做过多重假设检验校正之后的Pvalue,Qalue的取值范围为[0,1],越接近于零,表示富集越显著。我们挑选了富集最显著的0条typwy0图8.2差异KEGG富集散点纵轴表示pathway名称,横轴表示 factor,点的大小表示此pathway中差异表达个数多少,而点的颜色对应于不同的Qvalue范富集KEGG通路将差异富集出的通路图展示出来,通路图中,包含上调的KO节点标红色,包含下调的KO节点标绿色,包含上下调的标黄色。鼠标悬停于标记的KO节点,弹出差异细节框,标色同上,括号中数字为log2(Foldchang)。以上步骤可脱机实现,如连接互联网,点击各个节点,可以连接到KEGG数据库中各个KO的具体信息页。图8.3著富集的KEGGpathway代谢通路SNP和InDelSNP全称SingleNucleoidePlymorhisms,是指在组上由单个核苷酸变异形成的遗传标记,其数量很多,多态性丰富。从理论上来看每一个SNP位点都可以有4种不同的变异形式,但实际上发生的只有两种,即转换和颠换,二者之比为1:2。SNP在CG序列上出现最为频繁,而且多是C转换为T,原因是CG中的C常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP是指变异频率大于1%的单核苷酸变异。InDel(insertio-deleion)是指相对于参考组,样本中发生的小片段的插入缺失,该插入缺失可能含一个或多个碱基。我们通过samtools和picard-tools等工具对比对结果进行坐标排序、去掉重复的reads等处理,最后通过变异检测软件GATK(McKennaetal2010)分别进行SNPCalling和InDelCalling,并对原始结果进行过滤,得到如下表形式的分析结果。其中表9SNP分析结TCTGAGAG#CHROM:SNP位点所在othercoloums:每 该位点 型(0与REF一致;1与ALT一致;.缺少数据支持用Rockhopper软件(R.McClur,etal,213)将结果根据参照参考组进行组装,并与已注释的模型进行比较,发现新的未知转录本区域。通过Blastx与nr库作比对,对新预测的转录本区域进行注释,将能注释上的转录本区域作为具有编码潜能的新转录本区域。表10新转录本注释结- -- +转录本编转录起始位转录终止位链方NR_GI:比对到NR库的的GenbankNR_ID:比对到NR库 的序列 结构分原核生物功能上关的几个往往串联排列在一起,构子(Operon)结构作为的表达单元,受上游共同的调控区和下游转录终止信号的调控。录时,几个转录在一条mRNA链上,再分别翻译成各自不同的蛋白质。原核生物结构和调控模式如下图所示:我们通过Rockhopper软件,根据reads在组上的分布情况,对子、转录起始位点(TranscriptionStartSite,TSS)和转录终止位点(TranscriptionTerminationSite,TTS)进行预测。然后提取转录起始位点上游700bp序列,通过软件Virtual

表11.1子预测结Numberof+4-3pdxJ,XAC0013,+2XAC0015,+2XAC0021,Start:第一个的起始坐Stop:最后一个的终止坐Strand:链方NumberofGenes:个Genes:名TSS和TTS预表11.2TSS和TTS预测结++++TSS:转录起始位点TTS:转录终止位点Strand:链方Genes:名表11.3启动子预Sequence(species)StartAbrB|Bacillussubtilis(strain+7AlgU(-10)|Pseudomonasaeruginosa(strainATCC15692/+5AlgU(-10)|Pseudomonasaeruginosa(strainATCC15692/+5AlgU(-10)|Pseudomonasaeruginosa(strainATCC15692/+5SequenceID入的序列(species):位置矩阵StartPosition:启动子EndPosition动子终止位点坐Strand方Score:精准Sequence序UTRUTR我们根据转录起始位点(转录终止位点)和翻译起始位点(翻译终止位点)信息,提取5'UTR(3'UTR)序列,并对其长度分布情况进行统计。针对5’UTR,用RBSfinder软件对SD序列进行预测;针对3’UTR,用TransTermHP软件对不依赖σ因子的终止子进行预测。图12.1UTR长度分布横轴表示UTR长度区间,纵轴是不同区间UTR密度的统计,红色虚线代表UTR5’UTRSD序列预表12.2SD序列预测结++-+gene_id:编Start:起始坐Stop:终止坐Strand:链方Pattern:SD序列信Position:SD序列起始坐3’UTR不依赖σ因子的终止子预表12.3终止子预----GCGCGC-gene_id:编Term_start:终止子起始坐Term_end:终止子终止坐strand:链方5'_tail:茎环结构5'5'_stem:茎环结构5'loop:茎环结构环序3'_stem:茎环结构3'3'_tail:茎环结构3'Cis-natualanisensetrancript(cis-ATs)反义转录本是由源DNA链相同区域转录的内生RNA分子,与正义转录本存在部分收敛或分散方向的重复。据目前研究发现,反义转录本是重要的生物机理,主要通过表观遗传学上的改变,对进行调控。反义转录本分为三种类型:enclosed(全部包含)、convergent(3'3')和divergent(5'-5')。对于链特异性建库的RNA-seq数据,可以鉴定其反义转录本在组上的位置、种类以及数量等。表13反义转录本预测结(ISxac3(ISxac3(ISxac3(ISxac3plus_transcript_id:正链转录本编plus_start:正链转录本起始位plus_end:正链转录本终止plus_length:正链转录本长(11)types:反义转录本类型(包括:enclosed、convergent和divergent) sRNA细菌中,长度在50~500nt的非编码RNA通常定义为小RNA(smallNA,sRN)。用Rockhopper软件发现新的间区转录本,通过Blastx与nr库作比对,对新预测的转本区域进行注释,将注释不上的转录本作为候选的非编码sRNA。通过RNAfold软件和IntaRNA对候选的sRNA分别进行二级结构预测和靶预测。sRNA图14.1sRNA长度分布横轴表示sRNA长度区间,纵轴是不同区间sRNA密度的统计,红色虚线代表sRNA长度的均sRNA图14.2sRNA二级结sRNA 预

表14.3sRNA靶预测结11--382--1--416--1--234--93--196--sRNA_id:sRNA编mRNA_id:靶编energy(kcal/mol):自由sRNA_position:sRNA互补位mRNA_position: 互补位四、参考文献Anders,S.(2010).HTSeq:ysinghigh-throughputsequencingdatawithAnders,S.,andHuber,W.(2010).Differentialexpressionysisforsequencecountdata.GenomeBiol.(DESeq)Anders,S.andHuber,W.(2012).DifferentialexpressionofRNA-Seqdataatthegenelevel-theDESeqpackage.(DEseq)Busch,A.,A.S.Richter,etal.(2008).IntaRNA:efficientpredictionofbacterialsRNAtargetsincorporatingtargetsiteaccessbilityandseedregions.Hofacker,I.L.andP.F.Stadler(2006).MemoryefficientfoldingalgorithmsforcircularRNAsecondarystructures.Bioinformatics.(RNAfold)Kanehisa,M.,M.Araki,etal.(2008).KEGGforlinkinggenomestolifeandtheenvironment.Nucleicacidsresearch.(KEGG)Kingsford,C.L.,K.Ayanbule,etal.(2007).Rapid,accurate,computationaldiscoveryofRho-independenttranscriptionterminatorsilluminatestheirrelationshiptoDNAuptake.Genomebiology.(TransTermHP)Langmead,B.,Trapnell,C.,Pop,M.&Salzberg,S.L.(2009).Ultrafastandmemory-efficientalignmentofshortDNAsequencestothehumangenome.GenomeBiol.(Bowtie)Langmead,B.andS.L.Salzberg(2012).Fastgapped-readalignmentwithBowtie2.Naturemethods.(BowtieMao,X.,Cai,T.,Olyarchuk,J.G.,Wei,L.(1995).AutomatedgenomeannotationandpathwayidentificationusingtheKEGGOrthology(KO)asaco

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论