




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
转录组学研究及其在基因表达调控中的应用
广泛的转移组代表细胞或组织中的所有伦字段,包括编码蛋白质的mrna和非编码rn(rna、tna、pcr等)。而狭义的转录组系指所有编码蛋白质的mRNA总和。转录组研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理,已广泛应用于基础研究、临床诊断和药物研发等领域。随着一系列模式生物(Modelorganism)基因组测序的完成,功能基因组学的研究方兴未艾。参照这些模式生物的参考序列(Referencesequence),研究人员可以很方便的研究该物种的全基因组转录情况、不同个体之间的SNP差异、基因拷贝数差异等。而对于非模式生物而言,情况则不容乐观。虽然具有许多模式生物缺少的有趣特征,且其转录组研究对解决基因进化、遗传育种以及生态等诸多方面的问题具有重要意义。但是由于大量的人力和财力都投入到了模式生物的基因组研究当中,导致非模式生物的基因组信息严重缺乏。没有相应物种的参考基因组信息,使得非模式生物转录组的研究举步维艰。传统的研究方法是建立cDNA文库,Sanger法测序获得基因,构建基因芯片,其操作复杂,实验周期长,花费大,让很多研究人员望而却步。近年来,随着DNA高通量测序技术的发展,出现了“下一代”大规模平行测序(Massiveparallelsequencing,MPS)技术,如Roche公司(454GS-FLX)、Illumina公司(GenomeAnalyzerII)和ABI(ABSOLiD),这些大规模平行测序技术的出现已完全改变了转录组研究的方式,产生了“RNA测序技术(RNA-seq)”。RNA-seq也称为转录组测序,与传统的基因芯片技术相比,该技术可以高通量的测定转录组cDNA的序列,揭示特定细胞或组织中表达的全部基因或表达序列标签(Expressedsequencetag,EST)、不同基因的相对表达丰度(表达量)(Abundance)、发现转录水平的SNP、识别一个基因不同的转录本和可变剪切位点(不同拼接)、SSR等遗传多态性和遗传标记、能够检测未知基因、发现新的转录本等。RNA-seq提供精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具。目前,RNA-seq已经成功用于水稻(Oryzasativa)、玉米(Zeamays)、拟南芥(Arabidopsisthaliana)的大规模EST测序研究,发现了这些物种更多EST。但是这些物种都是模式生物,它们不但具有完整的基因组DNA序列信息,而且具有丰富的转录组序列。这些已知的序列信息为测序序列的基因组定位(Mapping)或组装(Assembly)提供强大的支持。RNA-seq在用于检测基因表达和转录组研究时,最显著的优势是无需像基因芯片那样需先解码研究物种的基因信息并设计特异性的探针。因此,RNA-seq可在没有研究物种基因信息的情况下,直接对任何物种的转录组进行分析。RNA-seq的这一特征,弥补了非模式生物转录组研究中缺乏基因组信息的不足。但是,与模式生物转录组研究相比,由于缺乏基因组信息,非模式生物仍不能进行测序序列的基因组定位和注释,只能进行从头拼装(Denovoassembly),并通过同源比对进行测序序列的注释和分析。这也就要求有强大的生物信息学方法和软件作为基础。不过随着生物信息学方法的不断进步,近年来RNA-seq已成为非模式生物转录组研究的先进技术,大量非模式生物的转录组得到研究。本文综述了利用RNA-seq进行非模式生物转录组研究的概况,总结了使用RNA-seq技术研究非模式生物转录组的一般流程及方法,最后对非模式生物转录组研究中有待进一步分析的问题进行展望。1非模式生物的基因测序技术RNA-seq对非模式生物转录组的研究因无参考基因组(Referencegenome)信息,被称为从头转录组分析(Denovotranscriptomeanalysis)。2008年,Vera等运用454GS-20测序技术进行了第一例从头转录组分析研究(M.cinxia;Lepidoptera:Nymphalidae)。之后已经有大量的非模式生物的转录组通过RNA-seq得到研究(图1)。由图1可以看出,得到研究的非模式生物的数量在逐年增加,尤其是2010年,有高达36个非模式生物物种利用RNA-seq技术进行了转录组分析研究。另外,通过文献查阅,笔者对近5年使用RNA-seq技术研究的非模式生物的情况进行了汇总(表1)。由表1可以看出,以上非模式生物的从头转录组研究绝大多数是运用RocheGS-20sequencer、Roche454GS-FLX、454GS-FLXTitanium完成。只有少数是运用IlluminaGAII、GAIIx、HiSeqTM2000完成,包括油菜(B.napus)、烟粉虱(B.tabaci)、甘薯(I.batatas)、弓形虫(T.gondii)、不吉按蚊(A.funestus)、雏豆(C.arietinumL.)、大蒜(A.sativum)、斑海豹(P.largha)、贯叶连翘(H.perforatum)、红花(C.tinctoriusL.)、胡黄连(P.kurrooa)、盐沼甲(P.chalceus)、静水椎实螺(L.stagnalis)、桔小实蝇(B.dorsalis)、欧洲笠螺(P.vulgata)、首乌(P.cuspidatum)、紫甘薯(I.batatasL.)。而ABI公司的ABSOLiD技术则几乎没有运用,仅仅在甜瓜(C.meloL.)的SNP分析上有所运用。究其原因是SOLiD测序技术读长较短(平均读长50bp),并且测序运行时间较长。由于非模式生物缺乏参考基因组信息,测序读长越长,越有利于测序片段的装配。因此,读长最长的Roche454技术(平均读长400bp)在非模式生物转录组研究中应用最为广泛,其次是IlluminaSolexa技术(平均读长100bp)有少数应用。从表1可以看出,非模式生物的从头转录组研究绝大多数是由国外的科研机构完成的,他们最先将RNA-seq技术使用到非模式动物转录组的研究上,而国内,则起步稍晚。目前,国内也已经展开了对中药植物、农业昆虫等物种的从头转录组研究,包括黄花蒿(A.annua)、油菜(B.napus)、烟粉虱(B.tabaci)、丹参(S.miltiorrhiza)、灰飞虱(L.Striatellus)、黄瓜(C.sativusL.)、西洋参(P.QuinquefoliusL.)、甘薯(I.batatas)、淫羊藿(E.Sagittatum)、紫杉(T.cuspidate)、蝴蝶兰(P.orchids)、大蒜(A.sativum)、红花(C.tinctoriusL.)、首乌(P.cuspidatum)等。这些研究证明RNA-seq在发现非模式生物转录组基因及遗传标记中非常有效。例如用新一代高通量测序技术454GS-FLXTitanium对2年生丹参根的转录组进行测序,研究其基因表达谱,挖掘其功能基因,获得46722表达序列标签(EST),序列平均长度414bp,与Sanger测序的长度相当;所得序列与GenBank中丹参的EST合并拼接,获得18235条唯一基因(Unigene),包括6620个序列重叠群(Contig)和11615条单一序列(Singleton),唯一基因总长7.89Mb。在全部唯一基因中,Roche454高通量测序发现了13980条新的唯一基因。数据库中的序列同源性比较表明,其中73.0%(13308条)与其他生物的已知基因具有不同程度的同源性(获得了基因注释)。根据拟南芥蛋白质组数据库注释结果,被注释序列大约包含7800个转录本;另有4927条唯一基因(27.0%)未被注释,认为是可能的新基因。通过BLAST与基因本体论(GeneOntology)分析获得了可能参与丹参酮合成的序列27条(编码15个关键酶),参与丹酚酸合成的序列29条(编码11个关键酶),细胞色素P450序列70条,转录因子序列577条。证明Roche454高通量测序技术作为药用植物功能基因组研究的重要手段可在丹参功能基因的发现中发挥重要作用,这些基因的发现为丹参酮和丹酚酸类化合物生物合成研究奠定了基础,同时也为丹参的转录组研究提供了基础数据。另外,将RNA-seq和定制基因芯片联合使用,对于快速研究非模式生物的转录组非常有效。应用第二代测序技术对非模式生物进行转录组测序,发现基因或EST信息,随后用定制“基因/EST芯片”对单个个体的基因表达情况进行快速鉴定,这一研究思路在非模式生物的功能基因组学研究方面越来越流行。例如,来自美国和芬兰的科学家相互合作,运用第二代测序技术和定制芯片,对一种没有参考序列的非模式生物——庆网蛱蝶(M.cinxia)进行研究。研究者首先提取不同家系的庆网蛱蝶幼虫、蛹和成虫混合样本的RNA,反转录为cDNA。用第二代测序技术进行测序。共得到608053个表达序列标签(平均长度110bp),获得48354个重叠群和59943个单拷贝。为了保证实验结果的正确性,研究者同时取了一部分RNA样品,构建cDNA文库,用传统的Sanger法测序,以此做为第二代测序结果的参照。Sanger法测序得到3888条序列,经过拼接后,得到813条可用序列,其中749条(92%)能在第二代测序的结果中找到。这表明第二代测序的结果具有很高的准确率。由于取样时,研究者取了不同家系的庆网蛱蝶做为样本,所以依据第二代测序的结果,研究者还发现了庆网蛱蝶的一些SNP位点和可变剪接方式。随后研究者根据测序得到的数据,用Agilent的e-array自主设计基因芯片。由于昆虫体内一般都会有一些共生或者寄生的微生物,因此以成虫为样本时,就顺带提取了微生物的RNA,并进行测序,针对微生物的探针也包括在基因芯片上。研究者用自主设计的基因芯片,检测不同家系单个庆网蛱蝶个体的基因表达情况,结果发现了不同家系的庆网蛱蝶携带的微生物也不同。这一成果对于研究庆网蛱蝶的种群特征具有重要意义。这篇文章提供给我们一种比较新颖的研究思路。当我们想对那些没有参考基因组信息的非模式生物进行基因组研究时,我们可以先用第二代测序技术对混合样本进行测序,发现基因,根据序列数据,用Agilent的e-array进行定制基因芯片,然后用基因芯片对不同种群或者不同个体的基因转录情况进行快速分析。2不同模式生物的rt-pcr检测利用RNA-seq技术研究非模式生物转录组的一般流程主要包括:测序RNA样品的准备、高通量DNA测序和生物信息学分析(图2)。由于非模式生物无参考基因组信息,因此与模式生物转录组研究有一定的差异,例如,获得非模式生物的RNA-seq数据后,首先需要进行测序读段(Reads)的从头组装(Denovoassembly),生成唯一基因(包括重叠群和单一序列),才能进行下一步的基因注释和生物信息学分析;而对于模式生物,则可以直接将测序读段定位(Mapping)到参考基因组上进行基因注释及下游分析。下面简要介绍非模式生物转录组研究的一般流程与方法。2.1样品准备2.1.1浮浪幼虫的筛选和重新测序根据所研究的非模式生物及其研究目的,需要选择性地采集不同的样本。例如,Vera等在研究庆网蛱蝶(M.cinxia)转录组时,采集了不同家系庆网蛱蝶的幼虫、蛹和成虫组成混合样本(8个家系,80个个体);Gregory等在对不吉按蚊(A.funestus)的表达谱重测序(Denovoexpressionprofiling)的研究中,为了获得一个覆盖更广泛的转录组数据集,分别采集了两个品系不吉按蚊不同生长阶段的样本(每个品系取10个4龄幼虫、10个蛹,10个雌性成虫和10个雄性成虫);Meyer等在珊瑚(A.millepora)转录组重新测序分析研究时,选择珊瑚的浮浪幼虫作为实验材料,为了增加表达基因的多样性,研究者将珊瑚的浮浪幼虫分成两组进行了不同的温度处理(28℃和32℃培养5d);Jeukens等利用RocheGS-FLX平台研究白鲑(C.clupeaformis)的SNP时,为了增加基因型和表达基因的多样性,采集了24个个体和3种不同的组织(白色肌、脑和肝脏);Kaur等在发现和验证豌豆和蚕豆的SSR遗传标记的研究中,分别采集了其各个生长阶段的样本,包括叶子(幼叶和老叶)、茎、花、未成熟的豆荚、成熟的豆荚和未成熟的种子。由此可知,非模式生物转录组研究的样本采集是一个复杂的过程,需要研究者根据不同的研究目的,采集不同的样本,进行不同的条件处理。2.1.2植物总rna提取研究者根据自己的研究目的,采集到相应的样本之后,就需要提取样本中的总RNA。笔者通过文献查阅,发现非模式生物转录组研究中大部分样本的总RNA是通过TRIzol试剂(Invitrogen)提取的。当然也有其他方法,但只有少数运用,例如,李滢等采用通用植物总RNA提取试剂盒(百泰克公司)提取丹参根总RNA;Parchman等采用CTAB法,可以简单快速的提取松树总RNA。此外,用于非模式生物转录组测序研究的总RNA样品,要满足A260/A280在1.9~2.1之间,A260/A230在2.0~2.5之间,以及RNA完整性指数大于8才能用于后续的研究。因此在进行下一步cDNA合成之前要对RNA样品进行DNaseI的处理(37℃,30min)和进一步纯化(RNeasyMinEluteCleanupKit,Qiagen)。经过DNaseI(RNaseFree)处理并检测合格的RNA样品即可用于下一步的cDNA文库的构建。非模式生物转录组测序中,为了尽可能囊括该物种所有基因,测序的RNA样品制备中,提取各种组织的总RNA,再将各种组织的总RNA混合成一个样品,进行高通量测序。2.2cdna开放程度、归一化过程由于大部分非模式生物从头转录组研究采用Roche454技术,以新一代高通量测序平台Roche454GSFLX为例,其cDNA文库制备与测序流程简述如下:(1)从总RNA样品中提取与纯化mRNA,这一过程一般使用mRNA提取试剂盒完成,如OligotexmRNAMinikit(Qiagen);(2)以纯化的mRNA为模板合成双链cDNA,并纯化合成的cDNA;(3)cDNA片段化,即打断成400~800bp的片段;(4)cDNA片段的末端补平;(5)在两个末端连接上A和B接头(3′和5′端具有特异性);(6)具有A、B接头的单链DNA片段被纯化回收后即组成了样品文库,至此cDNA文库制备完成;(7)将单链DNA文库固定在特别设计的DNA捕获磁珠上,使大部分磁珠携带一个独特的单链DNA片段,然后进行乳液PCR扩增;(8)经乳液PCR扩增后,乳液混合物被打破,扩增的片段仍然结合在磁珠上,携带DNA的捕获磁珠随后放入“PicoTiterPlate”(PTP)板中进行后续的测序。另外,在cDNA文库制备过程中还存在归一化(Normalization)问题。归一化过程一般包括cDNA变性与重新组合、DSN(Duplex-specificnuclease)处理以及归一化片段的扩增。归一化会降低样本中高丰度转录本的数量,有利于新基因的发现,并且可以使代表不同转录本的读段数量占总测序读段的比例增加,有利于SNP的发现与分析。但是,也有文献指出,归一化对基因发现效率的影响很小,并且归一化还会消除自然cDNA样品中基因表达量的差异,以及影响等位基因频率(标准化倾向于降低常见等位基因频率)。因此,研究者在进行非模式生物转录组研究时,需要根据自己的研究目的选择是否进行cDNA文库的归一化。2.3数据处理与生物信息分析2.3.1序列的东北部组装对于非模式生物而言,获得RNA-seq原始数据后,首先需要进行序列的从头组装,这是后续研究与分析的基础。但是,在序列从头组装之前,有时还需要根据测序数据情况对其做某些基本的预处理。例如,数据过滤。2.3.2非模式生物转录组的rna-seq研究在缺乏参考基因组信息的非模式生物转录组研究中,获得RNA-seq原始数据后,首先需要将所有测序读段通过从头组装生成重叠群和单一序列,这是后续处理及生物学功能分析的基础。要完成测序读段的从头组装并不简单,因此,为了有效地做好从头组装,目前生物信息学领域已经开发出多种组装程序,包括:GSAssemblerver.1.1.02.15(Roche)、Newbler、MIRA、CAP3、SeqMan、TGICL、stackPACK、Velvet、AbySS、ALLPATHS2、Oases、SOAP-denovo、Multiple-kmethod、Scaffoldingusingtranslationmapping(STM)、Trinity、PCAP。这些从头组装程序的开发和应用,密切地配合了高通量DNA测序技术的实际应用,使得非模式生物转录组的RNA-seq研究得到快速发展。如表2所示,为近5年来非模式生物转录组研究中常用的组装程序。可以看到,应用最为广泛的是Roche的Newbler,依次是CAP3、MIRA、SeqMan和TGICL,它们都是用于Roche454测序读段的从头组装。而SOAPdenovo、Velvet、Trinity和PCAP则是文献中报道的用于更短测序读段(IlluminaGA测序读段)从头组装的常用程序。从头组装的目的是生成唯一基因(包括重叠群和单一序列),用于下一步的基因注释和生物信息学分析。2.3.3非冗余蛋白数据库的基因编码测序读段通过从头组装生成重叠群和单一序列后,通常使用BLAST程序将这些拼接序列唯一基因(重叠群和单一序列)与核酸、蛋白质序列数据库进行比对(E值<1e-5),选择匹配最好的一项作为注释信息。常用于比对的核酸数据库为GenBank非冗余核酸数据库Nt;常用的蛋白质数据库则包括Swiss-Prot/UniProtKB、GenBank非冗余蛋白数据库Nr、COG和KEGG。基因注释一般包括:使用BLASTN与NCBI中的非冗余核酸数据库Nt进行比对,检索相似序列,对唯一基因进行注释;使用BLASTX和BLAST2GO与蛋白质数据库(Nr和SwissProt)比对,获得GO信息注释,并对序列(按分子功能、细胞组分、生物学过程)进行分类;使用BLASTX与蛋白质数据库(COG、KEGG)比对,获得COG注释和KEGG代谢途径注释。例如用新一代高通量测序技术IlluminaHiSeqTM2000对红花(C.tinctoriusL.)转录组进行测序研究中,Huang等使用BLAST程序(E<1e-5)将红花唯一基因与核酸数据库(Nt)和蛋白数据库(Nr、SwissProt、KEGG和COG)进行比对,共计注释了70342条唯一基因,大约占总唯一基因的58%。其中,21943条唯一基因具有COG注释信息,30203条唯一基因可以匹配到121个KEGG代谢通路。此外,还利用BLAST2GO程序和WEGO软件对红花唯一基因进行了GO信息注释,共计26332条唯一基因匹配到1754个GO-term。2.3.4认识差异表达基因和鉴定控制特定生物学过程的基因、识别分子在非模式生物转录组研究中,利用新一代高通量测序技术产生的大量数据除了可以进行以上基因注释中常见的GO、KEGG和COG分析外,还可以进行大量的其他生物信息学分析。如基因发现(Genediscovery)、SNP鉴定[9,11,14,19,34,52,54,59,64,72,76,84,92,97,115]、SSR鉴定[26,41,51,56,60,64,70,72,73,75,92,97]、鉴定差异表达基因、鉴定控制特定生物学过程的基因、识别可变拼接等。例如,在日本沼虾(M.nipponense)的转录组研究中,Ma等在GO、KEGG和COG分析的基础上,利用生物信息学手段发现了许多与性别决定有关的基因,包括DMRT1、FTZ-F1、FOXL2、FEM1等。除此之外,还利用Mrepssoftware(http://bioinfo.lifl.fr/mreps/)鉴定出6689个SSR,利用VarScan(http://varscan)鉴定出18107个高质量SNP。Logacheva等通过比较甜荞(F.esculentum)和苦荞(F.tataricum)的转录组测序结果,分析了两者的差异表达基因,这些差异基因包括逆转座子基因以及糖类合成与代谢相关基因。另外,利用其他信息学手段还鉴定出许多与荞麦花序发育相关的基因。Huh等在食蟹猴(M.fascicularis)转录组研究中,分析鉴定出4314个可变剪接事件。总之,生物信息学分析是我们分析研究非模式生物转录组的重要手段,除以上介绍的几项数据分析外,根据不同的研究目的,我们还可以进行预测新的开放阅读框(ORF),确定基因表达丰度,发现遗传标记,发现microRNA等。3非模式生物转录组测序技术的发展非模式生物具有许多模式生物缺少的有趣特征,通过非模式生物转录组的研究可以解答基因进化、遗传育种以及生态方面的许多问题。而新一代测序技术的发展,从根本上延伸了转录组研究的范围,普及到了非模式生物和野生型群体,使之成为了值得期待的研究领域。笔者通过文献查阅,尝试对近5年非模式生物转录组研究情况进行了简要汇总,统计了近5年来利用RNA-seq技术研究的非模式生物物种数量,并简要介绍了非模式生物转录组研究的一般流程及方法。由于近年来非模式生物
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025公司项目部安全培训考试试题带答案(研优卷)
- 宾馆安全管理课件
- 2025项目管理人员安全培训考试试题(完整)
- 2024-2025新入职工入职安全培训考试试题答案新
- 2025年承包商入厂安全培训考试试题及一套参考答案
- 2025年员工安全培训考试试题附答案【轻巧夺冠】
- 2025年工厂职工安全培训考试试题及参考答案(典型题)
- 2025年安全管理员安全培训考试试题答案4A
- 2024年仁爱科普版中考英语完形说题课件
- 2025-2030年中国led驱动市场发展现状及前景趋势分析报告
- 新媒体技术应用 课件 5.1.1易企秀如何制作H5
- 如何正确佩戴安全帽
- 【高考真题】2022年新高考物理真题试卷-河北卷(含答案)
- 社保系统保密培训
- 2024年中考物理试题分类汇编:浮力及其应用(原卷版 )
- 《摄影基础知识讲座》课件
- 2024-2030年中国临近空间飞行器发展规划及未来前景展望研究报告
- 瑞幸咖啡认证考试题库(值班主管)
- 工厂自动化规划报告
- 2023年LNG设备操作维护手册培训资料
- 一般企业财务报表附注(模板)
评论
0/150
提交评论