版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、收稿日期:20120911;修订日期:20121012作者简介:周华(1980,女,江西吉安人,在读博士生,助理研究员,主要研究方向:园林植物遗传育种。*通讯作者:余发新(1968,男,江西九江人,博士,研究员,主要研究方向:林木遗传育种。E-mail :fxyu2000126com 。第30卷第5期2012年10月江西科学JIANGXISCIENCEVol30No5Oct2012文章编号:10013679(201205060705高通量转录组测序的数据分析与基因发掘周华1,张新2,刘腾云1,余发新1*(1江西省科学院生物资源研究所,江西省观赏植物遗传改良重点实验室,江西南昌330029;2南
2、京市林业站,江苏南京210036摘要:高通量转录组测序(RNA-seq 是在转录组水平上进行深度测序的一项技术,为真核生物转录组学的研究开创了新平台,但同时测序所得到的海量数据的生物信息学分析成为科研工作者的一大挑战。对转录组测序技术进行了阐述,重点介绍了转录组测序后的数据分析,以及在真核生物尤其是非模式物种中的基因发掘方法。关键词:转录组测序;数据分析;基因发掘中图分类号:Q987文献标识码:AData Processing and Gene Discovery of High-throughputTranscriptome SequencingZHOU Hua 1,ZHANG Xin 2,
3、LIU Teng-yun 1,YU Fa-xin 1*(1The Biology Institute ,Jiangxi Academy of Sciences ,Horticultural Plant Genetic Improvement Key Lab ,Jiangxi Nanchang 330029PRC ;2Nanjing Forestry Bureau ,Jiangsu Nanjing 210036PRC Abstract :High-throughput transcriptome sequencing (RNA-seq is a recently developed approa
4、ch to transcriptome profiling that uses deep-sequencing technologiesIt provided a novel platform for eu-karyotic transcripome researches ,but the bioinformatics analysis of sequencing data became the chal-lenge of scientific workerIn this review ,we described the researches process of high-throughpu
5、t transcriptome sequencing technology ,focusing on sequencing data analysis and gene discovery of dif-ferent species ,especially of non-model speciesKey words :Transcriptome sequencing ,Data processing ,Gene discovery0前言转录组研究是一个发掘功能基因的重要途径,是基因功能及结构研究的基础和出发点。转录组学相对于基因组学而言,只研究被转录的基因,研究范围缩小,针对性更强。经典的减法
6、杂交(subtractive hybridization 、差示筛选(differentialscreening 、cDNA 代表差异分析(representative di-fference analysis 、RDA 以及mRNA 差异显示(dif-ferential display 、表达序列标签(EST 等技术已被广泛用于鉴定和克隆差异表达的基因,但是这些技术不能胜任对大量的植物基因进行全面、系统的分析,也不能对细胞内基因表达进行准确的定量研究。于是,cDNA 微阵列(cDNA microarray 、DNA芯片(DNA chip、基因表达的系统分析(ser-ial analysis
7、of gene expression,SAGE和大规模平行测序技术(MPSS等能够大规模地进行基因差异表达分析的技术应运而生。而近年来,基于新一代测序技术的转录组测序(RNA-seq成为大规模研究转录组的一种新的且更为有效的方法。转录组测序(RNA-seq是利用大规模测序技术直接对cDNA序列进行测序,产生数以千万计的reads数量,从而使得一段特殊的基因组区域的转录水平可以直接通过比对到该基因组区域的reads数来衡量1。RNA-seq是一个高度灵活的平台,与其他转录组学技术比较,具有以下优点:通量高、成本低、灵敏度高,可以获得低丰度的表达基因,不局限于已知的基因组序列信息,适用于未知基因组
8、序列的物种,不需要克隆的步骤,操作简单,应用领域广(表1。表1RNA-seq与其他转录组学技术比较方法芯片SAGE和MPSS RNA-seq原理杂交Sanger测序高通量测序信号荧光模拟信号数字化信号数字化信号分辨率5 100bp1bp1bp通量01 1Gb1 10Mb1 15Tb背景高低低起始RNA用量多多少生物信息分析低高极高转录组测序技术被认为是一种在转录水平上更为精确的测定分析方法,在转录组学的应用上具有革命性意义2。目前,高通量测序主要有3种测序平台(表2,测序原理及序列长度的差异决定了这3种测序仪在不同领域的应用3,这些测序技术已经在动植物研究领域中得到了极为广泛的应用,开创了生物
9、学研究的新时代。相对于传统的sanger测序,转录组测序成本效率高,但其读长较短,特异性测序误差以及缺乏物理克隆,对序列的组装、分析和序列的准确性提出了相当大的挑战,同时由于高通量的测序技术,获得海量的数据,如何从这些数据中找出生物学信息,尤其是功能基因的发掘,成为这项技术能否带来新的科学发现的关键4。目前,这些问题已经通过测序方式结合的杂交测序策略,更深度的测序,以及运用新的组装方法和生物信息学工具解决5。表23种高通量测序平台比较测序平台Roche/454ABI/Solid Illumina/Solexa测序原理焦磷酸合成测序双碱基编码连接测序可逆性链终止合成测序平均读长(bp100 40
10、035 5035 100数据量(Gb/run01 11 101 10运行时间(day/run0335 83 5测序成本(¥/b009000500031转录组测序的主要方法和步骤11数据处理高通量测序数据以FASTQ格式来记录所测的碱基读段和质量分数。数据产出后,对样品测序获得的Reads进行统计,通过统计各样品Reads 长度、数量、碱基数以及GC含量等指标,评估数据量是否满足信息分析要求。之后对原始数据进行质量评估,过滤低质量数据,应用BLAST、Re-peatMasker、Seqclean或Crossmatch等软件遮蔽数据组中不属于表达的基因的赝象序列,去除镶嵌克隆,最后获得高质量数据再
11、进行后续分析。12数据组装与定位一般分为有参考基因组的重测序的读长定位和无参考基因组的从头测序组装。重测序的读长定位:是指针对有参考序列的数据组装,首先将读长进行排序,然后将所有测序读段通过序列映射定位(mapping到参考基因组上,与参考基因组进行比对分析,挑选出匹配好的所有读长用于后续分析,同时进行读长的基因定位,用于后续分析。重组装在已具有基因组序列的模式植物中得到了广泛应用6,7,目前组装定位软件有BWA、SOAP、SAMtools、MAQ、ZOOM 等。从头测序组装(De novo sequence assembly:从头测序组装是将各测序读长按顺序拼接成连叠群(contig,再组装
12、成支架(scaffle,最后将支架中间空隙的部分gap进行填洞,最终组装成连续的较长的序列,再通过与模式植物进行比对分析(BLAST,确定基因序列。从头组装对于无参考·806·江西科学2012年第30卷序列以及短序列的组装提供了一个有效的方法,能够快速获得表达基因。Roche/454技术因产生的读长较长,相对容易进行从头组装,但对Illumina以及SOLID技术由于读长较短,如何将短读长拼接成一个较长的序列,在拼接策略上存在相当大的难度7,近年来研究者们针对该问题,设计了各种适用于Illu-mina的组装软件,取得了较好的拼接效果8,9。自2010年在发表在Nature杂
13、志上的运用de novo 测序(Illumina技术得到熊猫的全基因组序列10,至今已在大量非模式动植物中通过3种测序平台互相结合的方法,进行从头测序组装得到单一序列11,12。目前从头组装最常用的软件有: SOAPdenovo、Velvet、Oases、Abyss、ALLPATH等。13基因注释及分类基因注释,是基于假设“同源等于功能相似”,利用生物信息学方法,将未知基因序列在公共数据库进行相似性搜索比对,通过与数据库中已注释基因的同源性,来推测未知基因的功能。目前已注释的核酸数据库主要有:GenBank(NC-BI、EMBL、DDBJ,蛋白质数据库主要有:SWISS PROT、TrEMBL
14、。采用的搜索比对软件主要有BLAST、FASTA等。目前使用的基因功能分类主要有2种方法: Gene Ontology(简称GO分类和KEGG功能分类。GO是基因功能国际标准化分类体系,把基因按照其参与生物学过程(biological process、构成细胞的成分(cellular component和实现的分子功能(molecular function3个部分进行分类,适用于各个物种,能对基因进行限定和描述13。KEGG 数据库能够系统分析基因产物在细胞中的代谢途径以及功能,生物体内,不同基因相互协调行使其生物学功能,基于KEGG(Kyoto Encyclopedia of G-enes
15、and Genomes的分析有助于更进一步分析表达基因中存在哪些显著性富集的Pathway注释14,15。2转录组测序的基因发掘21利用比对和注释发掘基因通过测序所得到的大量的EST序列,进行处理拼接后得到Unigene,通过与多个公共数据库的比对和注释,运用BLAST等软件,可从中获得有参考注释功能的候选基因或进行新基因的发掘。该种方法主要用于已知基因组信息或无基因组信息但有较为清楚的代谢途径的物种的基因的发掘16。对玉米的顶端分生组织(SAM进行激光捕获显微切割技术获取得到,进行454测序,共获得261000条EST序列,通过与公共数据库的EST 的比对和注释,最后得到18560条Unig
16、ene,通过RT-PCR方法对SAM细胞和其他组织细胞中进行了基因的验证,同时发现超过大量比对不上的EST中有一些基因在SAM细胞中是特异的17。以水稻的愈伤组织、茎尖、根尖、叶片、稻穗为材料,进行转录组的测序,共检测到7232个新转录本,同时发现1356个融合基因,鉴定了234个候选嵌合转录本18。利用454测序技术对美国西洋参的根进行了转录组的测序,共产生了31088单一序列,与公共数据库NCBI的数据进行比对和功能注释等生物信息学分析,共发现了150个细胞色素P450和235个糖基转移酶单一序列,通过茉莉酸甲酯诱导试验和real-time PCR进行组织性特异性表达分析与验证,最终确定了
17、1个CYP450和4个UDP基因作为与人参皂苷合成途径的最相关的候选基因19。运用Ilumina平台对鹰嘴豆的根、芽、叶和花芽的混合池共3个样本分别进行了转录组测序,对全部测序数据进行了从头组装,获得了53409条非冗余转录本,与公共数据库比对,有855%转录本能够进行蛋白注释,且与其它豆科植物的Unigene具有显著的相似性,这些转录本为鹰嘴豆在不同生物代谢途径过程中基因的发掘提供了一种有效方法20。对飞蝗的转录组进行Illumina测序,对测序得到的序列进行从头组装,通过与其它已测序昆虫进行比较,得到了72 977条转录本,并鉴定了11490个蝗虫蛋白编码基因,发现了18个与发育相关的基因
18、21。22利用表达差异发掘基因对于无参考基因组且分子基础研究较为薄弱的非模式物种,可以利用转录组测序比较得到差异表达基因,对这些差异表达基因进行聚类分析,将具有相似功能的基因聚到一起,通过已知功能基因来确定聚为一类的未知基因的功能。采用Illumina平台对桉树的木质部和非木质部组织分别进行转录组测序分析,通过2个转录组的BLAST比对和GO分析,从中区别了一批快速生长的木质化桉树与非木质化桉树的基因22。对凤眼莲属2种不同授粉方式(自交和杂交,4·906·第5期周华等:高通量转录组测序的数据分析与基因发掘种不同基因型的花进行了Illumina转录组测定,通过对序列进行从头
19、组装,与相对近缘种水稻进行BLAST比对和功能注释,对4个转录组数据的差异比较分析,从而确定了269个与花发育相关的基因23。数字基因表达谱(digital gene expression, DGE是指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息24。转录组测序对于揭示转录组复杂性,确定基因,以及转录本结构、可变剪接、非编码RNA和新转录本,作用非常强大。比较而言,DGE是更适合用于比较基因表达研究,其无偏性,因此对于细胞生物的转录表达谱是更为
20、敏感和准确的方法。将转录组测序(RNA-seq和DGE2种方法结合,对于无参考基因组或基因组较大且复杂的物种,可以有效地发掘新的功能基因,已经在人类25,26、动物27和植物28中基因的发掘研究中广泛应用。运用Illumina平台,将各个发育阶段、表型的雌性和雄性稻飞虱进行混合,进行转录组的测序,获得大量Unigene,同时结合6个发育阶段的虫体的表达谱的测定,对不同发育阶段表达基因进行定量分析,通过比较表达谱的差异基因,获得了与表型差异相关以及特异发育时期的基因,并从中随意选择一些基因进行qRT-PCR定量分析,证实了转录组与表达谱结合所获得基因以及基因表达量的可靠性和准确性29。通过转录组
21、测序与数字基因表达谱的结合,对非模式物种深海鱼对鲈鱼的免疫遗传性进行了研究,结果表明,通过转录组测序可以得到2673个与免疫相关的基因,通过感染细菌与正常组织的表达谱的差异基因分析,表明具有显著上调和下调的基因与免疫系统的形成表现是密切相关的30。对红豆杉的转录组进行了测序,有23515个单一序列被鉴定,同时使用DGE检测了红豆杉的根、茎、叶3种组织的基因差异表达情况,进行GO 和KEGG分析,从而鉴定出了一批组织特异性功能基因和紫杉烷生物合成途径的相关基因31。利用Illumina技术,对罗汉果花后50d和70d的果实组织进行转录组测序分析,所得数据用于从头组装和功能注释,同时对果实发育不同
22、阶段(花后3d、50d和70d分别进行了DEG测序,以转录组序列为参考,比较3个DEG的表达基因和基因表达量,在差异基因中找到了与罗汉果三萜物质的生物合成的10个候选基因32。基于高通量的转录组测序与DEG的结合使用,是在转录组水平上开展功能基因组学研究的强有力的工具,为非模式植物的功能基因的发掘提供一个有效的方法。最近,根据标准化的Clean tag数据,采用RPKM(Reads Per Kilo bases per Million reads方法来比较一个基因在不同处理样本的表达量,提高了表达量计算的准确性33。3展望高通量转录组测序技术目前仍处于起步发展阶段,但以明显的优势为分子生物学和
23、转录组学的研究提供了一个崭新的平台和巨大的发展机遇。然而下一个挑战在于测序数据的爆炸式增长,如何对这些海量数据进行分析,从中提取有意义的生物学信息,这将成为现在及今后的研究热点。利用转录组测序技术进行基因发掘,将大大丰富真核生物尤其是非模式生物的基因资源,推动分子育种事业的发展。参考文献:1Ansorge W JNext-generation DNA sequencing tech-niquesJN Biotechnol,2009,25(4:1952032Wang Z,Gerstein M,Snyder MRNA-Seq:a revolu-tionary tool for transcript
24、omicsJNat Rev Genet,2009,10(1:57633Glenn T CField guide to next-generation DNA se-quencersJMol Ecol Resour,2011,11(5:7597694Van Vliet ANext generation sequencing of microbialtranscriptomes:challenges and opportunitiesJFemsMicrobiology Letters,2010,302(1:175Wall P K,Leebens-Mack J,Chanderbali A S,et
25、alComparison of next generation sequencing technologiesfor transcriptome characterizationJBMC Genomics,2009,10:3473666Cheung F,Haas B J,Goldberg S,et alSequencingMedicago truncatula expressed sequenced tags using454Life Sciences technologyJBmc Genomics,2006,7:2722827Weber A,Weber K L,Carr K,et alSam
26、pling the ara-bidopsis transcriptome with massively parallel pyrose-quencingJPlant Physiology,2007,144:32428Birol I,Jackman S D,Nielsen C B,et alDe novo tran-·016·江西科学2012年第30卷scriptome assembly with ABySSJBilinformatics,2009,25(21:287228779Robertson G,Schein J,Chiu R,et alDe novo assem-bl
27、y and analysis of RNA-seq dataJNature Meth-ods,2010,7:90991210Li R,Fan W,Tian G,et alThe sequence and de novoassembly of the giant panda genomeJNature,2010,463(7279:31131711Butler J,Maccallum I,Kleber M,et alAllpaths:de no-vo assembly of whole-genome shotgun microreadsJGenome Res,2008,18(5:81082012R
28、obertson G,Schein J,Chiu R,et alDe novo assem-bly and analysis of RNA-seq dataJNature Meth-ods,2010(7:90991213Ashburner M,Ball C A,Blake J A,et alGene ontolo-gy:tool for the unification of biologyThe Gene Ontol-ogy ConsortiumJNat Genet,2000,25(1:252914Altermann E,Klaenhammer T RPathwayVoyager:pathwa
29、y mapping using the Kyoto Encyclopedia ofGenes and Genomes(KEGGdatabaseJBMC Ge-nomics,2005,6:6015Wixon J,Kell DThe Kyoto encyclopedia of genes andgenomes-KEGGJYeast,2000,17(1:485516Morozova O,Hirst M,Marra M AApplications of newsequencing technologies for transcriptome analysisJAnnu Rev Genomics Hum
30、 Genet,2009,10:13515117Emrich S J,Barbazuk W B,Li L,et alGene discoveryand annotation using LCM-454transcriptome sequen-cingJGenome Res,2007,17(1:697318Zhang G,Guo G,Hu X,et alDeep RNA sequencing atsingle base-pair resolution reveals high complexity ofthe rice transcriptomeJGenome Res,2010,20(5:6466
31、5419Sun C,Li Y,Wu Q,et alDe novo sequencing and a-nalysis of the American ginseng root transcriptome u-sing a GS FLX Titanium platform to discover putativegenes involved in ginsenoside biosynthesisJBmcGenomics,2010,11:26227420Garg R,Patel R K,Tyagi A K,et alDe novo assemblyof chickpea transcriptome
32、using short reads for genediscovery and marker identificationJDNA Res,2011,18(1:536321Chen M X,Ai L,Xu M J,et alIdentification and char-acterization of microRNAs in Trichinella spiralis bycomparison with Brugia malayi and Caenorhabditis ele-gansJParasitol Res,2011,109(3:55355822Mortazavi A,Williams
33、B A,Mccue K,et alMappingand quantifying mammalian transcriptomes by RNA-SeqJNat Methods,2008,5(7:62162823Mizrachi E,Hefer C A,Ranik M,et alDe novo assem-bled expressed gene catalog of a fast-growing Eucalyp-tus tree produced by Illumina mRNA-SeqJBMCGenomics,2010,11:68169324Ness R W,Siol M,Barrett S
34、CDe novo sequence as-sembly and characterization of the floral transcriptomein cross-and self-fertilizing plantsJBMC Genom-ics,2011,12:29825岳桂东,高强,罗龙海,等高通量测序技术在动植物研究领域中的应用J中国科学:生命科学,2012,42(2:10712426Stockhammer O W,Zakrzewska A,Hegedus Z,et alTranscriptome profiling and functional analyses of thezebrafish embryonic innate immune response to Salmo-nella infectionJJ Immunol,2009,182(9:5641565327Levin J Z,Berger M F,Adiconis X,et alTargetednext-generation sequencing of a cancer transcriptomeenhances detection of sequence variants and no
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2030年中国婴幼儿营养米粉行业营销模式及未来5发展趋势报告
- 2024-2030年中国妇女发饰品行业市场发展前景及竞争战略分析报告
- 2024-2030年中国天花吊顶行业供需形势及投资战略研究报告
- 2024-2030年中国圆形打包机行业市场发展趋势与前景展望战略分析报告
- 2024-2030年中国吊索具行业发展趋势及项目投资建议分析报告版
- 2024-2030年中国双氰胺行业发展环境分析及项目可行性研究报告
- 2024-2030年中国冷轧极薄行业产量预测及投资规模分析报告版
- 2024-2030年中国冶炼锑融资商业计划书
- 2024年全年白酒供货及销售协议
- 2024年字画装裱技术转让协议
- 二年级数学看错数字问题专项练习
- 七十岁老人换驾照考三力测试题库
- 2024《整治形式主义为基层减负若干规定》全文课件
- 北京市八中2023-2024学年高二上学期期中生物试题 含解析
- 脑病科优势病种护理方案
- 1803综采工作面供电设计
- 水污染控制工程课程设计
- 教研员蹲点调研实施方案
- 《三只小猪》剧本
- 连续性内部资料出版物准印证申请表
- 药厂生产过程中的危险有害因素分析及安全对策
评论
0/150
提交评论