基因转录组的测定及分析_第1页
基因转录组的测定及分析_第2页
基因转录组的测定及分析_第3页
基因转录组的测定及分析_第4页
基因转录组的测定及分析_第5页
已阅读5页,还剩181页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、胡松年中国科学院北京基因研究所什么是 ESTs ?ESTs(Expressed Sequence tags )是从已建好的cDNA库中随机取出一个克隆,从5末端或3末端对插入的cDNA片段进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。大规模EST序列测定的开始1983年:Costanzo等提出EST概念的雏形1991年:Adams测定了三种人脑组织共609条EST,宣布 了cDNA大规模测序的时代的开始代1991年:Okubo等提出大规模cDNA测序的研究战略1993年:Venter等创立现在的EST技术1993年:Boguski & Schuler提出以EST为界标的人

2、类 基因组转录图谱计划 93年前ESTs数据收录于GenBank, EBI和DDBJ。 1993年NCBI(National Center of Biotechnology Information)建立了一个专门的EST数据库dbEST来保存和收集所有的EST数据。 95年中期GenBank 中EST的数目超过了非EST的数目。 现在GenBank中EST的数目已经超过了三千五百万,约占GenBank中序列数的60%.EST数量排名前10的物种Organism ESTsHomo sapiens (human) 8,301,471Mus musculus + domesticus (mouse)

3、 4,852,146Zea mays (maize) 2,018,798Bos taurus (cattle) 1,620,962Arabidopsis thaliana (thale cress) 1,559,485Danio rerio (zebrafish) 1,527,299Glycine max (soybean) 1,481,930Xenopus tropicalis (western clawed frog) 1,422,983Oryza sativa (rice) 1,271,375Ciona intestinalis 1,249,110 截止到2010年3月19日 EST相关

4、数据库相关数据库 储存EST原始数据的一级数据库 EMBL GenBank (dbEST) DDBJ UniGene (/UniGene) TIGR Gene Indices (/tdb/tgi/) STACK (http:/www.sanbi.ac.za/Dbases.html)对EST进行聚类拼接的二级数据库EST的应用 1ESTs与基因识别 ESTs已经被广泛的应用于基因识别,因为ESTs的数目比GenBank中其它的核苷酸序列多,研究人员更容易在EST库中搜寻到新的基因(Boguski et al.

5、, 1994). 在同一物种中搜寻基因家族的新成员在同一物种中搜寻基因家族的新成员(paralogs)。 在不同物种间搜寻功能相同的基因在不同物种间搜寻功能相同的基因(orthologs)。 已知基因的不同剪切模式的搜寻。已知基因的不同剪切模式的搜寻。【注:不过很难确注:不过很难确定一个新的序列是由于交替剪切产生的或是由于定一个新的序列是由于交替剪切产生的或是由于cDNA文库中污染了基因组文库中污染了基因组DNA序列序列(Wolfsberg et al., 1997)】EST的应用 2ESTs与基因图谱的绘制 EST可以借助于序列标签位点(sequence-tagged sites)用于基因图

6、谱的构建. STS本身是从人类基因组中随机选择出来的长度在200-300bp左右的经PCR检测的基因组中唯一的一段序列。来自mRNA的3非翻译区的ESTs更适合做为STSs,用于基因图谱的绘制。其优点主要包括: 由于没有内含子的存在,因此在cDNA及基因组模板中其PCR产物的大小相同; 与编码区具有很强的保守性不同,3UTRs序列的保守性较差,因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。 (James Sikela等,1991年)EST的应用 3ESTsESTs与基因预测与基因预测 由于EST来源于cDNA,因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态

7、下的一个基因的部分序列。使用合适的比对参数,大于90的已经注释的基因都能在EST库中检测到(Bailey et al., 1998)。ESTs可以做为其它基因预测算法的补充,因为它们对预测基因的交替剪切和3 非翻译区很有效。 ESTsESTs与与SNPsSNPs 来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; Picoult-Newberg et al., 1999) 。 应注意注意区别

8、真正的SNPs和由于测序错误( ESTs为单向测序得来,错误率可达2)而引起的本身不存在的SNPs。解决这一问题可以通过: 提高ESTs分析的准确性。 对所发现的SNPs进行实验验证进行实验验证。EST的应用 4EST的应用 5利用利用ESTsESTs大规模分析基因表达水平大规模分析基因表达水平 因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到,所以可以用利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平。 CGAP 为研究癌症的分子机理,美国国家癌症研究所NCI的癌症基因组解析计划(Ca

9、ncer Genome Anatomy Project , CGAP)构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库,并进行了大规模的EST测序,其中大部分的文库未经标准化或差减杂交处理。CGAP网站提供了多种工具用以分析不同文库间基因表达的差异, 如: Digital Gene Expression Displayer (DGED) cDNA xProfiler 基因表达系列分析基因表达系列分析(Serial Analysis of Gene Expression, SAGE) 基因表达系列分析是一种用于定量,高通量基因表达分析的实验方法(Velculescu et al.,

10、1995)。SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签(约9-21个碱基对),这些短的序列被连接、克隆和测序,特定的序列标签的出现次数就反应了对应的基因的表达丰度。 DNA微阵列或基因芯片的研究微阵列或基因芯片的研究 高密度寡核苷酸cDNA 芯片或cDNA微阵列是一种新的大规模检测基因表达的技术,具有高通量分析的优点。在许多情况下,cDNA芯片的探针来源于3EST (Duggan et al., 1999),所以EST序列的分析有助于芯片探针的设计。体内:翻译体外研究:反转录连接,转化Serial analysis of gene expression (SAGE) 技术

11、流程反转录反转录酶切酶切连接连接测序测序单条测序对单条测序对3040条条EST测序测序分析分析低丰度表达基因、基因表达量分析、新基因、低丰度表达基因、基因表达量分析、新基因、上下调控基因鉴定、表达的复合效应上下调控基因鉴定、表达的复合效应Serial analysis of gene expression (SAGE) 技术流程l SAGE文库的构建: NlaIII(锚定酶)酶切,该酶能够识别CATG位点并在其3端进行酶切; 链霉素包被的磁珠进行亲和纯化; 将cDNA分为A和B两部分,分别连接接头A或接头B,每一种接头都含有CATG四碱基突出端、限制性内切酶BsmFI的识别序列和一个PCR引物

12、序列(引物A或B); 用标签酶BsmFI酶切,该酶在其识别位点3端下游的1417bp处进行酶切,产生连有接头的短cDNA片段; 混合并连接两个短cDNA片段,构成双标签(ditag)后,用引物A和B进行PCR扩增; 锚定酶NlaIII切割扩增产物,抽提SAGE双标签片段;并用T4 DNA连接酶连接成多聚体(concaterner); 选择合适的片断长度,克隆进载体;得到的克隆插入序列由一系列的2022bp长的SAGE双标签组成,每两个双标签中间由4bp的NlaIII酶切位点分隔开。l SAGE文库的测序: 单向测序。Serial analysis of gene expression (SAG

13、E) 分析流程l 在双标签多聚体序列中定位NlaIII酶切位点(即CATG);l 提取CATG位点之间的2022bp长的双标签序列;l 去除重复出现的双标签序列,包括反向互补方向上重复的双标签序列;l 截取每个双标签序列最靠近两头末端的10个碱基,即为标签序列;l 去除与接头序列相对应的标签(即TCCCCGTACA和TCCCTATTAA),同时去除含有不确定碱基(即除A、C、T、G四种碱基以外的碱基)的标签;l 计算每个标签的出重复次数,以列表的形式给出一个包含每个标签及其表达丰度的报告。 基因芯片或微阵列技术流程.Clone反转录(可选)反转录(可选)读取光密度读取光密度聚类分析(非同源功能

14、注释)聚类分析(非同源功能注释)标记标记杂交杂交反转录反转录EST分析分析.Gene Chip0.1 0.06 0.05 0.04 0 0 0.07 0.01 表达量矩阵G1,G3,G5G2,G4G6,G9利用EST,SAGE分析结果制作芯片(研究已发现的研究已发现的基因基因)连接,连接,转化转化 Rice genome-wide DNA chip (60,000+预测基因) 果蝇基因芯片原位合成 几种大规模分析基因表达水平的方法的比较几种大规模分析基因表达水平的方法的比较lESTSAGEMicroarrayGeneChip发现新基因发现新基因是是否否有序列有序列是(可直接进行可变剪切的分析)

15、否否否主要问题主要问题采样量实验过程重复性成本高 ESTs很短,没有给出完整的表达序列; 低丰度表达基因不易获得。 由于只是一轮测序结果,出错率达2%-5%; 有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染; 有时出现镶嵌克隆; 序列的冗余,导致所需要处理的数据量很大。ESTs数据的不足数据的不足 技术路线cDNA文库构建随机测序得到EST序列读取与处理序列拼接和注释表达丰度和功能分析表达谱特征分析表达谱特征分析表达量在不同文库中的分布表达谱的比较分析差异表达基因鉴定与分类功能分析作用机理分析作用机理分析Q-PCR验证验证 l EST软件平台EST序列库/序列的质量检查测

16、序量监控聚类和拼接检查(借助于基因组信息)全长ORF寻找发现全长基因研究表达基因概况的主要实验手段(DNA chip、proteomics的先驱)功能分类表达量分析SAGE的先驱交替剪接检测EST特有信息cDNA文库构建 非标准化的非标准化的cDNA文库的构建。文库的构建。 经标准化或扣除杂交处理的经标准化或扣除杂交处理的cDNA文库。文库。 Oligo d(T) cDNA文库。文库。 随机引物随机引物cDNA文库。文库。cDNA文库构建常见问题文库构建常见问题lRNA得率低lmRNA分离效率低lcDNA产物少原因:多糖、多酚、内源性核酸蛋白酶、 miRNA等原因l 多糖多糖-糖蛋白糖蛋白(核

17、酸蛋白酶,植物血凝素等核酸蛋白酶,植物血凝素等)、多酚、多酚类等次生代谢产物在RNA分离时,经常与RNA共沉降,导致RNA 丢失丢失。或导致分离后的RNA严重不纯不纯,影响mRNA分离的得率。l 内源性核酸酶内源性核酸酶存在较多的情况下,可降解双链DNA、RNA或者DNA-RNA杂合体,致使RNA易降解降解,转录后的DNA接头无法连接接头无法连接,是cDNA得率低的原因之一原因之一。l miRNA的存在导致mRNA的降解的降解测序方向的选择根据不同的实验目的选择不同的测序方向: 5 5端端 5上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5端EST较好,大部分ES

18、T计划都是选用5端进行测序的,而且从5端测序有利于将EST拼接成较长的基因序列。 3 3端端 3端mRNA有一20200bp的plyA结构,同时靠近plyA又有特异性的非编码区,所以从3端测得EST含有编码的信息较少但研究也表明,10的mRNA3端有重复序列,这可以作为SSR标记;非编码区有品种的特异性,可以作为STS标记 两端测序两端测序 获得更全面的信息。1. 去除低质量的序列(Phred)2. 应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactual sequences)。载体序列载体序列 重复序列重复序列 污染序列污染

19、序列 (如核糖体如核糖体RNA、细菌或其它物种的基因组、细菌或其它物种的基因组DNA等等)3. 去除其中的镶嵌克隆。4. 最后去除长度小于100bp的序列。序列前处理序列前处理 (pre-processing)1:线粒体基因(8.76%)3:核糖体基因(0.14%)4:重复序列(0.10%)5:基因组DNA(1.95%)6:新基因或EST(27.07%)7:其他已知基因(61.75%)2:E.Coli污染基因(0.23%)家猪脂肪的EST数据分析结果文库质量检验: Contamination and house-keeping gene expression levell LibraryrRN

20、AMitochondriamRNAG3PDActinTubulinMADSLib 10.25%4.90%0.56%0.29%0.09%0.06%Lib 20.66%0.78%0.71%0.20%0.20%0.00%Lib 31.99%0.18%0.50%0.36%0.19%0.06%Lib 40.09%0.31%0.78%0.76%0.83%0.34%Lib 50.64%0.65%0.76%0.50%1.10%0.00%Lib 60.40%0.22%0.44%0.66%1.04%0.13%Lib 70.20%0.30%0.55%0.59%1.31%0.10%Lib 80.18%0.31%0.9

21、2%0.62%2.25%0.40%Lib 90.35%0.31%0.78%0.17%0.20%0.10%Mean0.53%0.88%0.67%0.46%0.80%0.13%STDEV0.58%1.52%0.16%0.21%0.72%0.14%STDEV/Mean0.240.460.891.08文库质量检验: Clone duplication analysisl Controls are non-normalized human EST libraries constructed by different protocols: Krizman protocol 1 (Lib281) Krizm

22、an protocol 2 (Lib675 and Lib774) LTI non-normalized (Lib6346) Soares non-normalized (Lib185)序列质量检验: Length and quality distributionl Quality check process: Head and tail trim (Phred 0.05) Vector masking, repeat masking, contamination masking (CrossMatch) Dropped sequence short than 100 bps after tr

23、im and maskingl 86,136 sequences passed our sequence quality check 41,076 ESTs have more than 80% overall identity to public rice sequences (BLASTN, E-value 1E-15), and thus about 45,000 ESTs may be considered novell Most sequences are of 600 bps and with quality score 40 (error rate 0.0001)中国科学院The

24、 standard Sanger variant to assess reliability of a base call, otherwise known as Phred quality score The Solexa pipeline (i.e., the software delivered with the Illumina Genome Analyzer) earlier used a different mapping, encoding the odds ratio p/(1-p) instead of the probability p: ASCII character:

25、ceedeeeeefffcddddaYccYc33/64Quality Score Advantage: save space镶嵌克隆的识别 Back-to-back poly(A)+ tails. Linker-to-linker in middle of the sequence. Blastn/Blastx search.Aligned the contig consensi to rice indica 9311 genome. A forced joint was made if two contigs have overlap region on the genome. (vali

26、dated by 1045 rice cDNAs)A total of 3,926 contigs were merged resulted in reduction of our contig numbers from 32,489 to 30,222拼接质量检验: Mergence checkESTs的聚类和拼接的聚类和拼接 聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(overlapping)的ESTs整合至单一的簇(cluster)中。聚类作用:聚类作用:v 产生较长的一致性序列(consensus sequence),用于注释。v 降低数据的冗余,纠正错误数据。v 可以

27、用于检测选择性剪切。v 基因表达谱分析ESTs聚类的数据库主要有三个:聚类的数据库主要有三个:v UniGene ()v TIGR Gene Indices ()v STACK 不严格不严格的和严格的聚类的和严格的聚类 (loose and stringent clustering) loose clustering 产生的一致性序列比较长产生的一致性序列比较长 表达基因表达基因ESTs数据的覆盖率高数据的覆盖率高 含有同一基因不同的转录形式,如各种选择性剪接体含有同一基因不同的转录形式,如各种选择性剪接体 每一类中可能包含旁系同源基因每一类中可能包含旁系同源基因(paralogous exp

28、ressed gene)的转的转录本录本 序列的保真度低序列的保真度低 stringent clustering 产生的一致性序列比较短产生的一致性序列比较短 表达基因表达基因ESTs数据的覆盖率低数据的覆盖率低 因此所含有的同一基因的不同转录形式少因此所含有的同一基因的不同转录形式少 序列保真度高序列保真度高有参照的和无参照的聚类有参照的和无参照的聚类 (Supervised and unsupervised clustering) Supervised clustering 根据已知的参考序列(如全长mRNA、已拼接好的一致性序列) 聚类。 Unsupervised clustering

29、没有根据参考序列进行分类。常用的拼接软件 Phrap (/UWGC/analysistools/Phrap.cfm) CAP3(Xiaoqiu Huang ,) TIGR_Assember (/software/assembler/)Cluster的连接利用cDNA克隆的信息和5,3端Reads的信息,不同的Cluster可以连接在一起。UniGene Unigene 结合有指导的和无指导的方法,而且在聚类过程中使用了不同水平的严格度,聚类的算法为megablast,数据库不产生一致性序列。 TI

30、GR Gene Index用的是有严格的和有指导的聚类方法,聚类的算法为类似于BLAST和FASTA的FLAST, 该法得到的一致性序列较短,交替剪切得到的不同的基因属于不同的索引。STACK STACK 用不严格的和无指导的聚类方法,聚类的算法为d2_cluster,产生较长的一致性序列,同一索引中含有不同的剪切方法得到的基因。Clean Short and Tight TIGR-THCUniGeneSTACKLong and Loose 聚类问题l错拼 poly(A) , Linker-to-linker, Gene Families, repeatl漏拼 Low quality, Lin

31、ker-to-linker, repeatl选择性剪切 polyAlinker l 050010001500200025003000050010001500200025003000350040004500500055006000Number of clones sequencedNumber of nonredundant groups 测序饱和度的分析测序饱和度的分析基因在不同文库中表达丰度的比较所有表达基因在不同文库间的分布所有表达基因在不同文库间的分布l6354713544201657(53%)2412(61%)1608(53%)93-11(3117)PA64s(3938)LYP9(30

32、17)基因注释及功能分类注释:注释: 序列联配 Blastn, Blastx 蛋白质功能域搜索(二结构比对) Pfam Interproscan 较好匹配InterproScanNt BlastnEST sequencesNr Blastx完成注释无理想匹配较好匹配完成注释无理想匹配较好匹配无理想匹配New sequences域的注释后 续 分 析常用的基因注释流程基因注释基因注释数据库 注释上的基因所占比例TIGR OGI(ver17)7126 94.3 TIGR PseudoMolecule(ver5)6151 81.4 NCBI UNIGENE(ver62)6714 88.8 NCBI

33、nr protein database5831 77.2 93-11 BGI_Scan5854 77.5 Uniprot protein database3628 48.0 TIGR to GO4565 60.4 KEGG Automatic Annotation Server945 12.5 一共有一共有7250 (95.9%) 的的unigenes被注释。被注释。 基因功能分类基因功能分类 手工分类手工分类 大部分以大部分以Adams 95Adams 95年的文章中的采用分类体系为标准。年的文章中的采用分类体系为标准。【Adams. MD, et al. Initial assessmen

34、t of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature. 1995 377(6547 Suppl):3-174 】 计算机批量处理计算机批量处理 利用标准基因词汇体系Gene Ontology,进行近似的分类(分子功能、生物学过程、分子组分)。 ( 基因产物直系同源簇的分析(基因产物直系同源簇的分析(COGCOG) ( () )GO的组织结构:定向无环图的组织结构:定向无环图( directed acyclic graphs DAGs

35、)各大数据库中基因或基因产物与各大数据库中基因或基因产物与GO术语的对照术语的对照 classification by molecular function012345log10 of ESTs numbertransporter activitytranslation regulator activitytranscription regulator activitystructural molecule activitysignal transducer activityprotein tagging activityobsoletemotor activityenzyme regulat

36、or activitydefense/immunity protein activitychaperone activitycell adhesion molecule activitycatalytic activitybindingapoptosis regulator activityantioxidant activity 表1:家猪脂肪组织的已知基因功能分类表2:猪脂肪组织与猪胚胎胸腺组织和猪甲状腺组织表达谱的比较参考文献:1、猪脂肪组织表达序列标签(ESTs)大规模测序及分析 邓亚军等,遗传学报,Vol.31, NO.11, 2004 2、两种家猪心脏组织基因表达谱的分析 曾燕舞等

37、,遗传学报,Vol.31, No.6, 2004 EST的代谢途径分析(KEGG) http:/www.genome.ad.jp/kegg/ 后续分析后续分析 比较基因组学分析 基因表达谱分析 新基因研究 基因可变剪切分析 实验验证 MicroArray GeneChip RTPCR Northern blotting利用新一代测序仪进行转录组学的研究 lRNAseq is a powerful tool to detcet the whole transciptome in cell and tissue.lPrevious RNAseq research focus on mRNA, bu

38、t recent studies prove that part of functional noncoding transctipt and protein-coding RNAs are lack of polyA.Content of transcriptomelGenes: expression , alterante spliceslNoncoding RNA: snoRNA, mRNA-like ncRNA, snRNA, some antisense transcripts, pesudogenes, retrotransposon ,and others functional

39、RNAs3. Some repeat elements RNA-seq的生物学重复和标准l至少有两个生物学重复,除非“短时间梯度取样”(overlapping time points with high temporal resolution)不需要技术重复l对基因注释较好的物种,只定量比较研究,可用reads大于20M;用于注释基因组的转录组,大于100Ml最好有浓度不同长度不同的绝对定量control (Spike-in),以评估mapping质量、测序均匀性和RNA-seq定量效果l“3端/5端比值”是衡量RNA完整性的关键指标(理想值是1),也要进行计算评估l样品处理流程,文库构建流程

40、,测序机器,测序类型,分析软件,样品评估关键指标,rpkm值关键结果完备。BackgroundmRNA-seqBackgroundSAGEHashimoto S-i, et al. (2009) PLoS ONETotal RNARibosomal RNA Depletion18S RNA28S RNArRNA-depleted RNAFragmentation of RNALigation to AdaptorcDNA RT and RNaseH DigestionP2 PrimerP1 PrimercDNA AmplificationExcise cDNA 140-200bp(to RNA

41、 50-110nt)Size Selection by PAGE SOLiD emulsion PCRSOLiD SequencingrRNA depletion 中国科学院Transcriptome TechnologyQ1: Which species do you want to study? Is it have finished genome sequences and better gene annotation ? Fragment (Mapping ) or Mate Pair (Assembly) SOLiD or Solexa or 454Q2: whats the maj

42、or question do you interested ? mRNA or whole RNA population (including mRNA, non-coding RNA and so on )? Poly-A method or rRNA-minus methodsQ3: If you interested in anti-sense transcript ?SOLiD or Solexa Q4: If you concern about gene structure variation?Mate-Pair or Fragment Human, SOLiD, Fragment

43、and Poly-A methods sequencingResultResult Mapping strategyJunction database construction中国科学院Mapping and Assembly toolsBWA - BWA is a fast light-weighted tool that aligns relatively short sequences (queries) to a sequence database (targe), such as the human reference genomeSeqMap - A Tool For Mappin

44、g Millions Of Short Sequences To The Genome.MAQ - stands for Mapping and Assembly with Quality It builds assembly by mapping short reads to reference sequences. ERANGE - Mapping and Quantifying Mammalian Transcriptomes by RNA-SeqCufflinks - assembles transcripts, estimates their abundances, and test

45、s for differential expression and regulation in RNA-Seq samples.iAssembler a standalone package to assemble ESTs generated using Sanger and/or Roche-454 pyrosequencing technologies into contigs.MapPER - an RNA-seq paired-end read (PER) protocol.Support splice mapping and quantify TopHat - is a fast

46、splice junction mapper for RNA-Seq reads.SpliceMap - SpliceMap is a de novo splice junction discovery tool. It offers high sensitivity and support for arbitrarily long RNA-seq read lengths.MapSplice - Splice Junction Mapping Tool.Trinity RNA-Seq Assembly software solutions targeted to the reconstruc

47、tion of full-length transcripts and alternatively spliced isoforms from Illumina RNA-Seq dataPALMapper - a combination of the spliced alignment method QPALMA with the short read alignment tool GenomeMapper.RNA-Seq Data Analysis Tools中国科学院Web-based toolsrQuant.web - is a web service to provide conven

48、ient access to tools for the quantitative analysis of RNA-Seq data. Galaxy - Mapping pipeline for Illumina, 454, and SOLiD sequencing data.UCSC Genome Browser - This site contains the reference sequence and working draft assemblies for a large collection of genomes. It also provides portals to the E

49、NCODE and Neandertal projects.Bioconductor - Bioconductor is an open source and open development software project for the analysis and comprehension of genomic data.ExpEdit - is a web application for assessing RNA editing in human at known or user specified sites supported by transcript data obtaine

50、d by RNA-Seq experiments.Myrna - a cloud computing tool for RNA sequence.GenePattern - is a powerful genomic analysis platform that provides access to more than 100 tools for gene expression analysis, proteomics, SNP analysis and common data processing tasks.OthersScripture - is a method for transcr

51、iptome reconstruction that relies solely on RNA-Seq reads and an assembled genome to build a transcriptome ab initio.CisGenome - An integrated tool for tiling array, ChIP-seq, genome and cis-regulatory element analysis.中国科学院ArrayExpressHTS - is an R based pipeline for pre-processing, expression esti

52、mation and data quality assessment of high throughput sequencing transcriptional profiling (RNA-seq) datasets.RSEQtools - a modular framework to analyze RNA-Seq data using compact, anonymized data summaries.RNA-MATE - A recursive mapping strategy for high-throughput RNA-sequencing data.SAMMate - an

53、RNA-seq analysis pipeline, allows processing of SAM/BAM files and is compatible with both single-end and paired-end sequencing technologies.Oqtans: Online Quantitative Transcriptome Analysis.DESeq - Digital gene expresion analysis based on the negative binomial distribution.EdgeRMapping resultmRNA-s

54、eq ribominusRNA-seqTotal reads92914107140233818Unique mapping2646580628.48%2609238018.61%Multiple mapping43945144.73%2567128918.31%Junction mapping13351411.44%7717560.55%Ribo mapping13587531.46%1410382910.06%un-mappable5935989363.89%7359456452.48%Multiple10 random tags71837216.35%1787661069.64%2-10

55、random tags367614283.65%779467930.36%Unique mapintron391023114.77%647456124.81%exon-exon junction6567912.48%4030311.54%exon1574546959.49%769826329.50%others 615331523.25%1151652544.14%Detected genes by two methods Another distributionRibominus RNAseq provides more even coverage along the gene bodyGe

56、nes correlationGene expression normalization Fragment Reads: RPKM: quantified transcript levels in reads per kilobase of exon model per million mapped reads RPKM统计的是每个基因中的read个数Pair-end Reads: FPKM: quantified transcript levels in fragment reads per kilobase of exon model per million mapped reads (f

57、ragment is a pair of reads for paired end data) FPKM统计的是每个转录本isoform中的fragment个数Primary analysis - distribute readslDistribution of random mapping reads according to primary RPKMl re-calculate the RPKM -gene expression valuelDifferential expression - IDEG6 Pathway analysis - GenMapp Mapping browser

58、- UCSC Genome browser Function analysis - GO , KEGG 基因表达谱的分析 专一比对到外显子的序列数109 外显子长度专一比对的所有序列数基因表达丰度: RPKM=8484 三个时期表达基因的聚类分析基因表达谱的分析8585Annotation for noncoding RNA1. Collection annotation data:Noncoding RNA databaseRNAdbfRNAdbNONCODEFANTOM3RefseqEnsemblAnnotation for noncoding RNA2. Integrate all th

59、e known transcription regions and name regions according to database rank.3. Mapping reads to above-mentioned data4. Cluster the remain reads.Non-coding identification (Brain)Non-coding identification (Hela)Noncoding RNA distribution in the annotation databaseNoncoding regions plots Distribution of

60、non-coding region (Brain)Distribution of non-coding region (Hela)Powerful detection for some transctiptsPowerful detection for some transctiptsPowerful detection for some transctiptsRepeat region expressionIntron expressionJunction expressionExon skip is more prevalence Antisense transcripts (Brain)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论