rna-seq技术在生物转录组学中的应用_第1页
rna-seq技术在生物转录组学中的应用_第2页
rna-seq技术在生物转录组学中的应用_第3页
rna-seq技术在生物转录组学中的应用_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

rna-seq技术在生物转录组学中的应用

干预组研究是探索功能基因的重要途径,是基因功能和结构研究的基础和出发点。转录组学相对于基因组学而言,只研究被转录的基因,研究范围缩小,针对性更强。经典的减法杂交(subtractivehybridization)、差示筛选(differentialscreening)、cDNA代表差异分析(representativedifferenceanalysis、RDA)以及mRNA差异显示(differentialdisplay)、表达序列标签(EST)等技术已被广泛用于鉴定和克隆差异表达的基因,但是这些技术不能胜任对大量的植物基因进行全面、系统的分析,也不能对细胞内基因表达进行准确的定量研究。于是,cDNA微阵列(cDNAmicroarray)、DNA芯片(DNAchip)、基因表达的系统分析(serialanalysisofgeneexpression,SAGE)和大规模平行测序技术(MPSS)等能够大规模地进行基因差异表达分析的技术应运而生。而近年来,基于新一代测序技术的转录组测序(RNA-seq)成为大规模研究转录组的一种新的且更为有效的方法。转录组测序(RNA-seq)是利用大规模测序技术直接对cDNA序列进行测序,产生数以千万计的reads数量,从而使得一段特殊的基因组区域的转录水平可以直接通过比对到该基因组区域的reads数来衡量。RNA-seq是一个高度灵活的平台,与其他转录组学技术比较,具有以下优点:通量高、成本低、灵敏度高,可以获得低丰度的表达基因,不局限于已知的基因组序列信息,适用于未知基因组序列的物种,不需要克隆的步骤,操作简单,应用领域广(表1)。转录组测序技术被认为是一种在转录水平上更为精确的测定分析方法,在转录组学的应用上具有革命性意义。目前,高通量测序主要有3种测序平台(表2),测序原理及序列长度的差异决定了这3种测序仪在不同领域的应用,这些测序技术已经在动植物研究领域中得到了极为广泛的应用,开创了生物学研究的新时代。相对于传统的sanger测序,转录组测序成本效率高,但其读长较短,特异性测序误差以及缺乏物理克隆,对序列的组装、分析和序列的准确性提出了相当大的挑战,同时由于高通量的测序技术,获得海量的数据,如何从这些数据中找出生物学信息,尤其是功能基因的发掘,成为这项技术能否带来新的科学发现的关键。目前,这些问题已经通过测序方式结合的杂交测序策略,更深度的测序,以及运用新的组装方法和生物信息学工具解决。1干预组研究过程的主要方法和步骤1.1信息分析评估数据量是否满足信息分析要求高通量测序数据以FASTQ格式来记录所测的碱基读段和质量分数。数据产出后,对样品测序获得的Reads进行统计,通过统计各样品Reads长度、数量、碱基数以及GC含量等指标,评估数据量是否满足信息分析要求。之后对原始数据进行质量评估,过滤低质量数据,应用BLAST、RepeatMasker、Seqclean或Crossmatch等软件遮蔽数据组中不属于表达的基因的赝象序列,去除镶嵌克隆,最后获得高质量数据再进行后续分析。1.2从头测序组装到illumina一般分为有参考基因组的重测序的读长定位和无参考基因组的从头测序组装。重测序的读长定位:是指针对有参考序列的数据组装,首先将读长进行排序,然后将所有测序读段通过序列映射定位(mapping)到参考基因组上,与参考基因组进行比对分析,挑选出匹配好的所有读长用于后续分析,同时进行读长的基因定位,用于后续分析。重组装在已具有基因组序列的模式植物中得到了广泛应用,目前组装定位软件有BWA、SOAP、SAMtools、MAQ、ZOOM等。从头测序组装(Denovosequenceassembly):从头测序组装是将各测序读长按顺序拼接成连叠群(contig),再组装成支架(scaffle),最后将支架中间空隙的部分gap进行填洞,最终组装成连续的较长的序列,再通过与模式植物进行比对分析(BLAST),确定基因序列。从头组装对于无参考序列以及短序列的组装提供了一个有效的方法,能够快速获得表达基因。Roche/454技术因产生的读长较长,相对容易进行从头组装,但对Illumina以及SOLID技术由于读长较短,如何将短读长拼接成一个较长的序列,在拼接策略上存在相当大的难度,近年来研究者们针对该问题,设计了各种适用于Illumina的组装软件,取得了较好的拼接效果。自2010年在发表在Nature杂志上的运用denovo测序(Illumina技术)得到熊猫的全基因组序列,至今已在大量非模式动植物中通过3种测序平台互相结合的方法,进行从头测序组装得到单一序列。目前从头组装最常用的软件有:SOAPdenovo、Velvet、Oases、Abyss、ALLPATH等。1.3数据库、搜索比对软件和基因功能分类基因注释,是基于假设“同源等于功能相似”,利用生物信息学方法,将未知基因序列在公共数据库进行相似性搜索比对,通过与数据库中已注释基因的同源性,来推测未知基因的功能。目前已注释的核酸数据库主要有:GenBank(NC-BI)、EMBL、DDBJ,蛋白质数据库主要有:SWISS-PROT、TrEMBL。采用的搜索比对软件主要有BLAST、FASTA等。目前使用的基因功能分类主要有2种方法:GeneOntology(简称GO)分类和KEGG功能分类。GO是基因功能国际标准化分类体系,把基因按照其参与生物学过程(biologicalprocess)、构成细胞的成分(cellularcomponent)和实现的分子功能(molecularfunction)3个部分进行分类,适用于各个物种,能对基因进行限定和描述。KEGG数据库能够系统分析基因产物在细胞中的代谢途径以及功能,生物体内,不同基因相互协调行使其生物学功能,基于KEGG(KyotoEncyclopediaofG-enesandGenomes)的分析有助于更进一步分析表达基因中存在哪些显著性富集的Pathway注释。2干预组研究过程中的基因挖掘2.1转录组检测和基因挖掘通过测序所得到的大量的EST序列,进行处理拼接后得到Unigene,通过与多个公共数据库的比对和注释,运用BLAST等软件,可从中获得有参考注释功能的候选基因或进行新基因的发掘。该种方法主要用于已知基因组信息或无基因组信息但有较为清楚的代谢途径的物种的基因的发掘。对玉米的顶端分生组织(SAM)进行激光捕获显微切割技术获取得到,进行454测序,共获得261000条EST序列,通过与公共数据库的EST的比对和注释,最后得到18560条Unigene,通过RT-PCR方法对SAM细胞和其他组织细胞中进行了基因的验证,同时发现超过大量比对不上的EST中有一些基因在SAM细胞中是特异的。以水稻的愈伤组织、茎尖、根尖、叶片、稻穗为材料,进行转录组的测序,共检测到7232个新转录本,同时发现1356个融合基因,鉴定了234个候选嵌合转录本。利用454测序技术对美国西洋参的根进行了转录组的测序,共产生了31088单一序列,与公共数据库NCBI的数据进行比对和功能注释等生物信息学分析,共发现了150个细胞色素P450和235个糖基转移酶单一序列,通过茉莉酸甲酯诱导试验和real-timePCR进行组织性特异性表达分析与验证,最终确定了1个CYP450和4个UDP基因作为与人参皂苷合成途径的最相关的候选基因。运用Ilumina平台对鹰嘴豆的根、芽、叶和花芽的混合池共3个样本分别进行了转录组测序,对全部测序数据进行了从头组装,获得了53409条非冗余转录本,与公共数据库比对,有85.5%转录本能够进行蛋白注释,且与其它豆科植物的Unigene具有显著的相似性,这些转录本为鹰嘴豆在不同生物代谢途径过程中基因的发掘提供了一种有效方法。对飞蝗的转录组进行Illumina测序,对测序得到的序列进行从头组装,通过与其它已测序昆虫进行比较,得到了72977条转录本,并鉴定了11490个蝗虫蛋白编码基因,发现了18个与发育相关的基因。2.2转录组测序与数字基因表达谱的结合对于无参考基因组且分子基础研究较为薄弱的非模式物种,可以利用转录组测序比较得到差异表达基因,对这些差异表达基因进行聚类分析,将具有相似功能的基因聚到一起,通过已知功能基因来确定聚为一类的未知基因的功能。采用Illumina平台对桉树的木质部和非木质部组织分别进行转录组测序分析,通过2个转录组的BLAST比对和GO分析,从中区别了一批快速生长的木质化桉树与非木质化桉树的基因。对凤眼莲属2种不同授粉方式(自交和杂交),4种不同基因型的花进行了Illumina转录组测定,通过对序列进行从头组装,与相对近缘种水稻进行BLAST比对和功能注释,对4个转录组数据的差异比较分析,从而确定了269个与花发育相关的基因。数字基因表达谱(digitalgeneexpression,DGE)是指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息。转录组测序对于揭示转录组复杂性,确定基因,以及转录本结构、可变剪接、非编码RNA和新转录本,作用非常强大。比较而言,DGE是更适合用于比较基因表达研究,其无偏性,因此对于细胞生物的转录表达谱是更为敏感和准确的方法。将转录组测序(RNA-seq)和DGE2种方法结合,对于无参考基因组或基因组较大且复杂的物种,可以有效地发掘新的功能基因,已经在人类、动物和植物中基因的发掘研究中广泛应用。运用Illumina平台,将各个发育阶段、表型的雌性和雄性稻飞虱进行混合,进行转录组的测序,获得大量Unigene,同时结合6个发育阶段的虫体的表达谱的测定,对不同发育阶段表达基因进行定量分析,通过比较表达谱的差异基因,获得了与表型差异相关以及特异发育时期的基因,并从中随意选择一些基因进行qRT-PCR定量分析,证实了转录组与表达谱结合所获得基因以及基因表达量的可靠性和准确性。通过转录组测序与数字基因表达谱的结合,对非模式物种深海鱼对鲈鱼的免疫遗传性进行了研究,结果表明,通过转录组测序可以得到2673个与免疫相关的基因,通过感染细菌与正常组织的表达谱的差异基因分析,表明具有显著上调和下调的基因与免疫系统的形成表现是密切相关的。对红豆杉的转录组进行了测序,有23515个单一序列被鉴定,同时使用DGE检测了红豆杉的根、茎、叶3种组织的基因差异表达情况,进行GO和KEGG分析,从而鉴定出了一批组织特异性功能基因和紫杉烷生物合成途径的相关基因。利用Illumina技术,对罗汉果花后50d和70d的果实组织进行转录组测序分析,所得数据用于从头组装和功能注释,同时对果实发育不同阶段(花后3d、50d和70d)分别进行了DEG测序,以转录组序列为参考,比较3个DEG的表达基因和基因表达量,在差异基因中找到了与罗汉果三萜物质的生物合成的10个候选基因。基于高通量的转录组测序与DEG的结合使用,是在转录组水平上开展功能基因组学研究的强有力的工具,为非模式植物的功能基因的发掘提供一个有效的方法。最近,根据标准化的Cleantag数据,采用RPKM(ReadsPer

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论