




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基因转录组的测定及分析胡松年husn@中国科学院北京基因研究所大规模表达序列标签(EST)测定及分析1、什么是EST?2、EST的应用
3、EST序列测定及分析过程什么是ESTs?ESTs(ExpressedSequencetags
)是从已建好的cDNA库中随机取出一个克隆,从5’末端或3’末端对插入的cDNA片段进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。大规模EST序列测定的开始1983年:Costanzo等提出EST概念的雏形1991年:Adams测定了三种人脑组织共609条EST,宣布
了cDNA大规模测序的时代的开始代1991年:Okubo等提出大规模cDNA测序的研究战略1993年:Venter等创立现在的EST技术1993年:Boguski&Schuler提出以EST为界标的人类基因组转录图谱计划
●●93年前ESTs数据收录于GenBank,EBI和DDBJ。●1993年NCBI(NationalCenterofBiotechnologyInformation)建立了一个专门的EST数据库dbEST来保存和收集所有的EST数据。●95年中期GenBank中EST的数目超过了非EST的数目。●现在GenBank中EST的数目已经超过了三千五百万,约占GenBank中序列数的60%.EST数量排名前10的物种Organism ESTsHomosapiens(human) 8,301,471Musmusculus+domesticus(mouse)4,852,146Zeamays(maize) 2,018,798Bostaurus(cattle) 1,620,962Arabidopsisthaliana(thalecress) 1,559,485Daniorerio(zebrafish) 1,527,299Glycinemax(soybean) 1,481,930Xenopustropicalis(westernclawedfrog)1,422,983Oryzasativa(rice) 1,271,375Cionaintestinalis 1,249,110截止到2010年3月19日
EST相关数据库
储存EST原始数据的一级数据库◆EMBL◆GenBank(dbEST)◆DDBJ◆UniGene(/UniGene)◆TIGRGeneIndices(/tdb/tgi/)◆
STACK(http://www.sanbi.ac.za/Dbases.html)对EST进行聚类拼接的二级数据库EST的应用1ESTs与基因识别
ESTs已经被广泛的应用于基因识别,因为ESTs的数目比GenBank中其它的核苷酸序列多,研究人员更容易在EST库中搜寻到新的基因(Boguskietal.,1994).●在同一物种中搜寻基因家族的新成员(paralogs)。●在不同物种间搜寻功能相同的基因(orthologs)。●已知基因的不同剪切模式的搜寻。【注:不过很难确定一个新的序列是由于交替剪切产生的或是由于cDNA文库中污染了基因组DNA序列(Wolfsbergetal.,1997)】EST的应用2ESTs与基因图谱的绘制
EST可以借助于序列标签位点(sequence-taggedsites)用于基因图谱的构建.STS本身是从人类基因组中随机选择出来的长度在200-300bp左右的经PCR检测的基因组中唯一的一段序列。来自mRNA的3’非翻译区的ESTs更适合做为STSs,用于基因图谱的绘制。其优点主要包括:●由于没有内含子的存在,因此在cDNA及基因组模板中其PCR产物的大小相同;●与编码区具有很强的保守性不同,3’UTRs序列的保守性较差,因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。(JamesSikela等,1991年)EST的应用3ESTs与基因预测
由于EST来源于cDNA,因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。使用合适的比对参数,大于90%的已经注释的基因都能在EST库中检测到(Baileyetal.,1998)。ESTs可以做为其它基因预测算法的补充,因为它们对预测基因的交替剪切和3‘非翻译区很有效。
ESTs与SNPs
来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs(Buetowetal.,1999;Gargetal.,1999;Marthetal.,1999;Picoult-Newbergetal.,1999)。应注意区别真正的SNPs和由于测序错误(ESTs为单向测序得来,错误率可达2%)而引起的本身不存在的SNPs。解决这一问题可以通过:●提高ESTs分析的准确性。●对所发现的SNPs进行实验验证。EST的应用4EST的应用5利用ESTs大规模分析基因表达水平因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到,所以可以用利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平。◆
CGAP
为研究癌症的分子机理,美国国家癌症研究所NCI的癌症基因组解析计划(CancerGenomeAnatomyProject,CGAP)构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库,并进行了大规模的EST测序,其中大部分的文库未经标准化或差减杂交处理。CGAP网站提供了多种工具用以分析不同文库间基因表达的差异,如:●
DigitalGeneExpressionDisplayer(DGED)●
cDNAxProfiler◆基因表达系列分析(SerialAnalysisofGeneExpression,SAGE)
基因表达系列分析是一种用于定量,高通量基因表达分析的实验方法(Velculescuetal.,1995)。SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签(约9-21个碱基对),这些短的序列被连接、克隆和测序,特定的序列标签的出现次数就反应了对应的基因的表达丰度。◆
DNA微阵列或基因芯片的研究高密度寡核苷酸cDNA芯片或cDNA微阵列是一种新的大规模检测基因表达的技术,具有高通量分析的优点。在许多情况下,cDNA芯片的探针来源于3'EST(Dugganetal.,1999),所以EST序列的分析有助于芯片探针的设计。EST技术流程体内:翻译体外研究:反转录连接,转化转化效率问题(基因芯片)文库构建技术已经成熟测序采样问题(SAGE)测序成本已经大大降低大数据量分析理念已经形成Serialanalysisofgeneexpression(SAGE)技术流程反转录酶切连接测序单条测序==对30-40条EST测序分析低丰度表达基因、基因表达量分析、新基因、上下调控基因鉴定、表达的复合效应实验步骤较长要求较高Serialanalysisofgeneexpression(SAGE)
技术流程SAGE文库的构建:NlaIII(锚定酶)酶切,该酶能够识别CATG位点并在其3′端进行酶切;链霉素包被的磁珠进行亲和纯化;将cDNA分为A和B两部分,分别连接接头A或接头B,每一种接头都含有CATG四碱基突出端、限制性内切酶BsmFI的识别序列和一个PCR引物序列(引物A或B);用标签酶BsmFI酶切,该酶在其识别位点3′端下游的14-17bp处进行酶切,产生连有接头的短cDNA片段;混合并连接两个短cDNA片段,构成双标签(ditag)后,用引物A和B进行PCR扩增;锚定酶NlaIII切割扩增产物,抽提SAGE双标签片段;并用T4DNA连接酶连接成多聚体(concaterner);选择合适的片断长度,克隆进载体;得到的克隆插入序列由一系列的20-22bp长的SAGE双标签组成,每两个双标签中间由4bp的NlaIII酶切位点分隔开。SAGE文库的测序:单向测序。 Serialanalysisofgeneexpression(SAGE)
分析流程在双标签多聚体序列中定位NlaIII酶切位点(即CATG);提取CATG位点之间的20-22bp长的双标签序列;去除重复出现的双标签序列,包括反向互补方向上重复的双标签序列;截取每个双标签序列最靠近两头末端的10个碱基,即为标签序列;去除与接头序列相对应的标签(即TCCCCGTACA和TCCCTATTAA),同时去除含有不确定碱基(即除A、C、T、G四种碱基以外的碱基)的标签;计算每个标签的出重复次数,以列表的形式给出一个包含每个标签及其表达丰度的报告。
基因芯片或微阵列技术流程….….Clone反转录(可选)读取光密度聚类分析(非同源功能注释)标记杂交反转录EST分析………….………….………….GeneChip0.10.060.050.04…000.070.01…表达量矩阵G1,G3,G5G2,G4G6,G9…利用EST,SAGE分析结果制作芯片(研究已发现的基因)连接,转化Ricegenome-wideDNAchip(60,000+预测基因)
果蝇基因芯片…原位合成
几种大规模分析基因表达水平的方法的比较
◆ESTs很短,没有给出完整的表达序列;◆低丰度表达基因不易获得。◆由于只是一轮测序结果,出错率达2%-5%;◆有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染;◆有时出现镶嵌克隆;◆序列的冗余,导致所需要处理的数据量很大。ESTs数据的不足
技术路线cDNA文库构建随机测序得到EST序列读取与处理序列拼接和注释表达丰度和功能分析表达谱特征分析表达量在不同文库中的分布表达谱的比较分析差异表达基因鉴定与分类功能分析作用机理分析Q-PCR验证
EST软件平台EST序列库/序列的质量检查测序量监控聚类和拼接检查(借助于基因组信息)全长ORF寻找发现全长基因研究表达基因概况的主要实验手段(DNAchip、proteomics的先驱)功能分类表达量分析SAGE的先驱交替剪接检测EST特有信息cDNA文库构建◆
非标准化的cDNA文库的构建。(可用于基因表达量的分析)◆
经标准化或扣除杂交处理的cDNA文库。(富集表达丰度较低的基因)◆
Oligod(T)cDNA文库。(非翻译区由于不含有编码序列,与编码区保守序列相比所受到的选择压力比较小,因而其多态性程度比较高,便于多态性位点的选择以用于遗传图谱的构建。)◆随机引物cDNA文库。(所获得的EST在基因功能的鉴定时具有更多的信息含量,并且在构建EST数据库时更有优势,同时有利于利用EST数据库聚类完整的基因和阅读框的寻找,便于利用更敏感的蛋白质比较来寻找同源基因。)cDNA文库构建常见问题RNA得率低mRNA分离效率低cDNA产物少原因:多糖、多酚、内源性核酸蛋白酶、miRNA等原因多糖-糖蛋白(核酸蛋白酶,植物血凝素等)、多酚类等次生代谢产物在RNA分离时,经常与RNA共沉降,导致RNA丢失。或导致分离后的RNA严重不纯,影响mRNA分离的得率。内源性核酸酶存在较多的情况下,可降解双链DNA、RNA或者DNA-RNA杂合体,致使RNA易降解,转录后的DNA接头无法连接,是cDNA得率低的原因之一。miRNA的存在导致mRNA的降解测序方向的选择根据不同的实验目的选择不同的测序方向:◆5’端
5’上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5’端EST较好,大部分EST计划都是选用5’端进行测序的,而且从5’端测序有利于将EST拼接成较长的基因序列。◆3’端
3’端mRNA有一20-200bp的plyA结构,同时靠近plyA又有特异性的非编码区,所以从3’端测得EST含有编码的信息较少.但研究也表明,10%的mRNA3’端有重复序列,这可以作为SSR标记;非编码区有品种的特异性,可以作为STS标记.◆两端测序
获得更全面的信息。1.
去除低质量的序列(Phred)2.
应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactualsequences)。●载体序列(/repository/vector)
●重复序列(RepBase,)●污染序列
(如核糖体RNA、细菌或其它物种的基因组DNA等)3.
去除其中的镶嵌克隆。4.
最后去除长度小于100bp的序列。序列前处理(pre-processing)1:线粒体基因(8.76%)3:核糖体基因(0.14%)4:重复序列(0.10%)5:基因组DNA(1.95%)6:新基因或EST(27.07%)7:其他已知基因(61.75%)2:E.Coli污染基因(0.23%)家猪脂肪的EST数据分析结果文库质量检验:Contaminationandhouse-keepinggeneexpressionlevel
文库质量检验:CloneduplicationanalysisControlsarenon-normalizedhumanESTlibrariesconstructedbydifferentprotocols:Krizmanprotocol1(Lib281)Krizmanprotocol2(Lib675andLib774)LTInon-normalized(Lib6346)Soaresnon-normalized(Lib185)序列质量检验:LengthandqualitydistributionQualitycheckprocess:Headandtailtrim(Phred0.05)Vectormasking,repeatmasking,contaminationmasking(CrossMatch)Droppedsequenceshortthan100bpsaftertrimandmasking86,136sequencespassedoursequencequalitycheck41,076ESTshavemorethan80%overallidentitytopublicricesequences(BLASTN,E-value1E-15),andthusabout45,000ESTsmaybeconsiderednovelMostsequencesareof600bpsandwithqualityscore40(errorrate0.0001)镶嵌克隆的识别►Back-to-backpoly(A)+tails.►
Linker-to-linkerinmiddleofthesequence.►
Blastn/Blastxsearch.Alignedthecontigconsensitoriceindica9311genome.Aforcedjointwasmadeiftwocontigshaveoverlapregiononthegenome.(validatedby1045ricecDNAs)Atotalof3,926contigsweremergedresultedinreductionofourcontignumbersfrom32,489to30,222拼接质量检验:MergencecheckESTs的聚类和拼接
聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(over-lapping)的ESTs整合至单一的簇(cluster)中。聚类作用:产生较长的一致性序列(consensussequence),用于注释。降低数据的冗余,纠正错误数据。可以用于检测选择性剪切。基因表达谱分析ESTs聚类的数据库主要有三个:
UniGene(/UniGene)TIGRGeneIndices(/tdb/tgi/)STACK(http://www.sanbi.ac.za/Dbases.html)
(ESTclusteringtutorial,httP://www.sanbi.ac.za)不严格的和严格的聚类(looseandstringentclustering)◆looseclustering●产生的一致性序列比较长●表达基因ESTs数据的覆盖率高●含有同一基因不同的转录形式,如各种选择性剪接体●每一类中可能包含旁系同源基因(paralogousexpressedgene)的转录本●序列的保真度低◆stringentclustering●产生的一致性序列比较短●表达基因ESTs数据的覆盖率低●因此所含有的同一基因的不同转录形式少●序列保真度高
(ESTclusteringtutorial,httP://www.sanbi.ac.za)有参照的和无参照的聚类(Supervisedandunsupervisedclustering)◆Supervisedclustering
根据已知的参考序列(如全长mRNA、已拼接好的一致性序列)聚类。◆
Unsupervisedclustering
没有根据参考序列进行分类。
常用的拼接软件◆Phrap(/UWGC/analysistools/Phrap.cfm)◆CAP3(XiaoqiuHuang
,huang@)◆TIGR_Assember(/software/assembler/)Cluster的连接利用cDNA克隆的信息和5’,3’端Reads的信息,不同的Cluster可以连接在一起。UniGene◆Unigene结合有指导的和无指导的方法,而且在聚类过程中使用了不同水平的严格度,聚类的算法为megablast,数据库不产生一致性序列。TIGRGeneIndex◆TIGRGeneIndex用的是有严格的和有指导的聚类方法,聚类的算法为类似于BLAST和FASTA的FLAST,该法得到的一致性序列较短,交替剪切得到的不同的基因属于不同的索引。STACK◆
STACK用不严格的和无指导的聚类方法,聚类的算法为d2_cluster,产生较长的一致性序列,同一索引中含有不同的剪切方法得到的基因。CleanShortandTightTIGR-THCUniGeneSTACKLongandLoose聚类问题错拼poly(A),Linker-to-linker,GeneFamilies,repeat漏拼Lowquality,Linker-to-linker,repeat选择性剪切polyAlinker
测序饱和度的分析基因在不同文库中表达丰度的比较所有表达基因在不同文库间的分布
6354713544201657(53%)2412(61%)1608(53%)93-11(3117)PA64s(3938)LYP9(3017)基因注释及功能分类注释:◆序列联配
Blastn,Blastx◆蛋白质功能域搜索(二结构比对)PfamInterproscan
较好匹配InterproScanNtBlastnESTsequencesNrBlastx完成注释无理想匹配较好匹配完成注释无理想匹配较好匹配无理想匹配Newsequences域的注释后续分析常用的基因注释流程
基因注释数据库注释上的基因所占比例TIGROGI(ver17)712694.3TIGRPseudoMolecule(ver5)615181.4NCBIUNIGENE(ver62)671488.8NCBInrproteindatabase583177.293-11BGI_Scan585477.5Uniprotproteindatabase362848.0TIGRtoGO456560.4KEGGAutomaticAnnotationServer94512.5一共有7250(95.9%)的unigenes被注释。
基因功能分类◆手工分类大部分以Adams95年的文章中的采用分类体系为标准。【Adams.MD,etal.Initialassessmentofhumangenediversityandexpressionpatternsbasedupon83millionnucleotidesofcDNAsequence.Nature.1995377(6547Suppl):3-174】◆计算机批量处理利用标准基因词汇体系GeneOntology,进行近似的分类(分子功能、生物学过程、分子组分)。(/)◆
基因产物直系同源簇的分析(COG)
(/COG/)
GO的组织结构:定向无环图(directedacyclicgraphs[DAGs])各大数据库中基因或基因产物与GO术语的对照其它分类系统与GO的对照表
表1:家猪脂肪组织的已知基因功能分类表2:猪脂肪组织与猪胚胎胸腺组织和猪甲状腺组织表达谱的比较参考文献:1、猪脂肪组织表达序列标签(ESTs)大规模测序及分析邓亚军等,遗传学报,Vol.31,NO.11,20042、两种家猪心脏组织基因表达谱的分析曾燕舞等,遗传学报,Vol.31,No.6,2004
EST的代谢途径分析(KEGG)
http://www.genome.ad.jp/kegg/
后续分析◆比较基因组学分析◆基因表达谱分析◆新基因研究◆基因可变剪切分析◆实验验证
►
MicroArray
►GeneChip
►RT-PCR
►Northernblotting利用新一代测序仪进行转录组学的研究
RNAseqisapowerfultooltodetcetthewholetransciptomeincellandtissue.PreviousRNAseqresearchfocusonmRNA,butrecentstudiesprovethatpartoffunctionalnoncodingtransctiptandprotein-codingRNAsarelackofpolyA.ContentoftranscriptomeGenes:expression,alterantesplicesNoncodingRNA: snoRNA,mRNA-likencRNA,snRNA,someantisensetranscripts,pesudogenes,retrotransposon,andothersfunctionalRNAs3. Somerepeatelements
BackgroundmRNA-seqBackgroundSAGEHashimotoS-i,etal.(2009)PLoSONETotalRNARibosomalRNADepletion18SRNA28SRNArRNA-depletedRNAFragmentationofRNALigationtoAdaptorcDNA
RTandRNaseHDigestionP2PrimerP1PrimercDNAAmplificationExcisecDNA~140-200bp(toRNA~50-110nt)SizeSelectionbyPAGE
SOLiDemulsionPCRSOLiDSequencingrRNAdepletionResultResult
MappingstrategyJunctiondatabaseconstructionPrimaryanalysis>distributereadsDistributetheuniquemappingreadstogenesmodel.GeneexpressionnormalizationRPKM:
quantifiedtranscriptlevelsinreadsperkilobaseofexonmodelpermillionmappedreadsCisthenumberofmappablereadsthatfellontothegene’sexons,Nistotalnumberofmappablereadsinexperiment.(Normalizebetweenlibraries)Listhelengthofgene’sexons.(Normalizeinlibrary)Primaryanalysis>distributereadsDistributionofrandommappingreadsaccordingtoprimaryRPKMre-calculatetheRPKM geneexpressionvalueDifferentialexpressionIDEG6PathwayanalysisGenMapp MappingbrowserUCSCGenomebrowserFunctionanalysisGO,KEGGMappingresultmRNA-seqribominusRNA-seqTotalreads92914107140233818Uniquemapping2646580628.48%2609238018.61%Multiplemapping43945144.73%2567128918.31%Junctionmapping13351411.44%7717560.55%Ribomapping13587531.46%1410382910.06%un-mappable5935989363.89%7359456452.48%Multiple>10randomtags71837216.35%1787661069.64%2-10randomtags367614283.65%779467930.36%Uniquemapintron391023114.77%647456124.81%exon-exonjunction6567912.48%4030311.54%exon1574546959.49%769826329.50%others615331523.25%1151652544.14%DetectedgenesbytwomethodsAnotherdistributionRibominusRNAseqprovidesmoreevencoveragealongthegenebodyGenescorrelationAnalysisGeneexpressionprofileanalysisIntronexpressionanalysisNon-codingregionidenficationAntisensetranscriptsidenficationRepeatsequenceexpression
基因表达谱的分析专一比对到外显子的序列数×109外显子长度×专一比对的所有序列数基因表达丰度:RPKM=79
三个时期表达基因的聚类分析基因表达谱的分析80AnnotationfornoncodingRNA1.Collectionannotationdata:NoncodingRNAdatabaseRNAdbfRNAdbNONCODEFANTOM3RefseqEnsemblAnnotationfornoncodingRNA2.Integratealltheknowntranscriptionregionsandnameregionsaccordingtodatabaserank.3.Mappingreadstoabove-mentioneddata4.Clustertheremainreads.Non-codingidentification(Brain)Non-codingidentification(Hela)NoncodingRNAdistributionintheannotationdatabaseNoncodingregions’plots
Distributionofnon-codingregion(Brain)Distributionofnon-codingregion(Hela)PowerfuldetectionforsometransctiptsPowerfuldetectionforsometransctiptsPowerfuldetectionforsometransctiptsRepeatregionexpressionIntronexpressionJunctionexpressionExonskipismoreprevalence
Antisensetranscripts(Brain)Antisensetranscripts(Hela)AntisensetranscriptsBrainHelaAntisensetranscriptsConclusionrmRNA-seqidentifiedmorenoveltranscriptsfromtheintergenic,intronicandrepeatsequencesregions,asthecandidatepolyA-transcriptsthereadsfromrmRNA-seqshowamoreuniformdistributionacrossgenescomparedtothosefrommRNA-seq,whichimprovesthesensitivityofdetection,accuracyofquantificationandcompletenessofspliceandexonmaps
ExonexpressionRNA-seq技术与芯片技术的比较方法 表达芯片 Tilling芯片 RNA-seq
与基因组大小相关分辨率 N/A (人/小鼠≥35bp)1bp成本 低 低-高,与芯片密度相关高检测范围<4个数量级 <2数量级与测序量及实际表达量相关灵敏度中 低 高新转录本不可以有限可以可变剪接不可以有限可以可变调控区不可以 可以可以反义转录本 N/AN/A可以SNPs,突变有限有限可以等位表达差异 有限有限可以数据量0.01-0.05Gb 0.1-1Gb 1-15Tb生物信息分析 低 高 极高引自Wilhelm,B.等,2009BrainHelaRNA-seq的优势不局限于已知的基因组序列信息,适用于未知基因组序列的物种的高通量转录组研究相对于芯片技术,背景信号值低,没有检测上限,对于基因表达谱有非常宽的检测范围。在有内参的情况下,在定量方面显示出了较高的准确度和可重复性。不需要克隆的步骤,操作简单,需要的样本量少,可以在单细胞的水平上进行表达谱分析通量高,成本比Tillingarray或者大规模的EST测序要低。RNA-seq的挑战文库构建过程中大片段的RNA必须经过片段化处理,会引入一定的偏倚。PCR会造成表达量的变化。海量短序列数据的比对或拼接情况复杂,对重复序列和多匹配序列的精确定位存在明显问题。高等真核生物可变剪接和反式剪接的鉴定仍有相当的误差。测序深度的确定因物种、器官、组织、时期而变,很难有统一公式直接计算。
RNA-seqPipelineRNAmiRNA
StudyofthefunctionofRAD9inmouseEScellsbyusingSOLiDtranscriptomeprofiling中科院北京基因组研究所114rad9基因的功能TSSpArad9(6.45kb)19qA19qB19qC119qC219qC319qD119qD219qD3chr19PCNAdomainRAD9(389aa)中科院北京基因组研究所115Functionalofrad9rad9基因功能
DNA损伤修复细胞周期调控细胞周期检验点细胞凋亡基因表达调控中科院北京基因组研究所116
HUHUMEScell(rad9+/+)MEScell(rad9-/-)MEScell(rad9+/+HU)MEScell(rad9-/-HU)中科院北京基因组研究所117(一)RNA-seq数据的注释文库
rad9+/+rad9+/+HU
rad9-/-
rad9-/-HU原始序列数124844521741453077497676771785677专一比对到基因组的序列数19841883(15.89%)12559817(16.94%)15931603
(21.25%)16295605
(22.7%)多处比对到基因组的序列数11122526(8.91%)13882945(18.73%)13329492(17.78%)20246560
(28.21%)比对到外显子连接处序列数357399
(0.29%)262490
(0.35%)421659
(0.57%)451795
(0.62%)整体的注释率31321808(25.09%)26705252(36.02%)29682754(39.60%)36993960(51.53%)RNA-seq的数据注释结果中科院北京基因组研究所118RNA-seq数据的注释(续)专一比对到基因组的序列在基因区和基因间区的分布rad9+/+rad9-/-rad9-/-HUrad9+/+
HU
中科院北京基因组研究所119(二)基因表达谱的分析文库
rad9+/+
rad9+/+HU
rad9-/-rad9-/-HURNA-seq(>5tags)17320
152961591216569
DNA-chip11036
1158811041
11905表达基因的种类中科院北京基因组研究所120基因表达谱的分析(续)RNA-seq与DNA-chip对基因检测能力分析rad9+/+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因组研究所121基因表达谱的分析(续)RNA-seq与DNA-chip对检测到的基因表达量的分布rad9
+/+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因组研究所122基因表达谱的分析(续)RNA-seq与DNA-chip对基因表达谱检测的相关性分析中科院北京基因组研究所123基因表达谱的分析(续)RNA-seq与DNA-chip对差异基因检测的相关性分析rad9
-/-vsrad9
-/-HU中科院北京基因组研究所124(三)内含子区域表达的分析基因的外显子和内含子表达丰度的相关性分析中科院北京基因组研究所125内含子区域表达的分析(续)基因内含子区域有明显表达举例中科院北京基因组研究所126(四)基因间区域表达的分析基因间表达区域的鉴定rad9+/+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因组研究所127基因间区域表达的分析(续)基因5’UTR和3’UTR延伸区域的表达中科院北京基因组研究所128基因间区域表达的分析(续)基因间表达区域的鉴定rad9+/+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因组研究所129基因间区域表达的分析(续)Non-codingRNA的表达中科院北京基因组研究所130基因间区域表达的分析(续)基因间表达区域的鉴定rad9+/+rad9+/+HUrad9-/-rad9-/-HU中科院北京基因组研究所131基因间区域表达的分析(续)新鉴定的基因间区转录位点在四个文库中的比较rad9+/+rad9+/+HUrad9-/-rad9-/-HUrad9-/-HUrad9-/-rad9+/+HUrad9+/+中科院北京基因组研究所132(五)基因可变剪切的分析pATSSTSSpAGenomicDNATranscriptionStartSiteExonPolyadenylation中科院北京基因组研究所133基因可变剪切的分析(续)在四个文库中外显子连接形式的鉴定rad9-/-rad9
-/-HU
rad9+/+
rad9+/+HUrad9-/-rad9-/-HUrad9+/+rad9+/+HUrad9+/+
rad9+/+HUrad9-/-rad9
-/-HU中科院北京基因组研究所134基因可变剪切的分析(续)在四个文库中外显子连接形式的鉴定以及比较中科院北京基因组研究所135(六)反义转录本的分析
基因具有反义转录本举例中科院北京基因组研究所136反义转录本的分析(续)基因正义和反义表达丰度的相关性分析中科院北京基因组研究所137反义转录本的分析(续)反义转录本在基因组上分布的偏好性中科院北京基因组研究所138(七)差异表达基因的分析HUHUMEScell(rad9+/+)MEScell(rad9-/-)MEScell(rad9+/+HU)MEScell(rad9-/-HU)中科院北京基因组研究所139差异表达基因的分析(续)文库
rad9+/+rad9-/-
rad9+/+HUrad9-/-HU
rad9+/+
rad9+/+HU
rad9-/-
rad9-/-HU差异基因5989
546045605591
上调基因5598
492614211881
下调基因391
5343139
3710文库间差异基因的比较中科院北京基因组研究所140差异表达基因的分析(续)rad9基因敲除后上下调基因的功能分类(GO)
rad9+/+vsrad9-/-up-regulatedgenesrad9+/+HUvsrad9-/-HUup-regulatedgenes中科院北京基因组研究所141中科院北京基因组研究所142差异表达基因的分析(续)小结通过rad9+/+与rad9-/-,rad9+/+HU与rad9-/-HU基因表达谱的比较,我们得知rad9
敲除后的MES细胞大部分基因表达活性增强,而这种基因组整体转录水平的上调,可能是受到表观遗传学的调控。根据这个结果,我们认为rad9基因一个重要新功能是参与表观遗传学的调控。中科院北京基因组研究所143差异表达基因的分析(续)上调基因与CpGisland
的相关性分析rad9+/+vsrad9-/-up-regulatedgenesrad9+/+HUvsrad9-/-HUup-regulatedgenes中科院北京基因组研究所144差异表达基因的分析(续)HU对细胞毒性作用HU是一种用于治疗骨髓白血病和实体瘤的核糖核苷酸还原酶(RibonucleotideReductase,RR)抑制剂类抗肿瘤药物(MayhewCN,etal.2005)。通过抑制RR的活性使得细胞在S期DNA复制前期不能够获得足够的游离的脱氧核苷酸,触发复制期检验点,进而使细胞静止在S期。HU通过产生的过氧化物和硝基化物引起二价铜介导的DNA碱基损伤(8-羟基-2′脱氧鸟甘酸)(O‘DonovanP,etal.2005)。
中科院北京基因组研究所145差异表达基因的分析(续)文库
rad9+/+rad9-/-
rad9+/+HUrad9-/-HU
rad9+/+
rad9+/+HU
rad9-/-
rad9-/-HU差异基因5989
546045605591
上调基因5598
492614211881
下调基因391
5343139
3710文库间差异基因的比较中科院北京基因组研究所146中科院北京基因组研究所147中科院北京基因组研究所148中科院北京基因组研究所149
差异表达基因的分析(续)
小结通过比较rad9+/+和rad9+/+HU基因表达谱的变化,我们得知当细胞用HU处理后,基因整体的转录水平下调,细胞可能处于一种停滞的状态。而在这个时候,一些抵抗外界压力和DNA损伤修复的基因表达活性增强,另外还包括一些抑制细胞周期和细胞凋亡的基因,这些基因需要使细胞停滞下来进行修复活动。中科院北京基因组研究所150转录的抑制中科院北京基因组研究所151转录的抑制中科院北京基因组研究所152中科院北京基因组研究所153差异表达基因的分析(续)文库
rad9+/+rad9-/-
rad9+/+HUrad9-/-HU
rad9+/+
rad9+/+HU
rad9-/-
rad9-/-HU差异基因5989
546045605591
上调基因5598
492614211881
下调基因391
5343139
3710文库间差异基因的比较中科院北京基因组研究所154中科院北京基因组研究所155中科院北京基因组研究所156中科院北京基因组研究所157
差异表达基因的分析(续)
小结通过比较rad9-/-和rad9-/-HU基因表达谱的变化,我们得知当rad9敲除后的细胞用HU处理后,基因整体的转录水平仍处于下调状态。但是,在这个时候,细胞周期进行失去了控制,细胞没有时间进行修复活动,从而细胞凋亡活动增加。中科院北京基因组研究所158结论对于真核生物转录组的研究,以第二代测序技术为基础的RNA-seq方法是一个更加敏感的方法,通过深度的取样,它不仅可以更加真实的反映基因的表达谱,并且可以帮助我们进一步了解真核生物转录组的复杂性,包括一些non-codingRNAs,反义转录本,基因的可变剪切的鉴定等等。数据表明了rad9基因除了对细胞周期以及细胞凋亡的调控作用,可能一个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高分秘技2024年CPMM试题及答案
- 国际冷链物流解决方案试题与答案
- 2017年辽宁省鞍山市中考化学试卷(解析)
- 餐饮美学基础 课件全套 模块1-4 餐饮美学概论 -餐厅民俗美学
- 真人分享2024年CPMM考试经验试题及答案
- 烫伤急救与护理课件
- 植物对环境变化的适应试题及答案
- 江苏扬州历年中考作文题(2001-2024)
- 高效学习2024年CPMM的法门试题及答案
- SCMP全真模拟试题及答案分享
- 苏教版二年级下册科学第二单元《玩磁铁》教材分析课件
- 现在进行时练习题及答案70502
- 腹股沟疝区域神经阻滞(“麻醉”文档)共30张
- MSBR工艺设计(含计算书)
- 久其软件使用
- 配电房检查保养记录表
- 公安派出所建筑外观形象设计规范1
- 一年级语文部编版上册《ie üe er》课件
- 人民币教具正反面完美打印版
- 勤奋与懒惰小学心理健康课教案——告别懒惰.doc
- 消费者权益保护法培训课件
评论
0/150
提交评论