




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、核苷酸序列分析核苷酸序列分析胡松年胡松年 2005 基因表达序列标签基因表达序列标签(EST)数据分析手册)数据分析手册第七第七章章吴祖建等吴祖建等 2011 生物信息学分析实践生物信息学分析实践第第4.3节节重复序列分析开放读码框(open reading frame, ORF)的识别基因结构分析内含子/外显子剪切位点识别选择性剪切分析CpG 岛的识别核心启动子/转录因子结合位点/转录启始位点的识别转录终止信号的预测GC含量/密码子偏好性分析核苷酸序列分析重复序列分析重复序列分析原核基因组中除rRNA、tRNA基因有多个拷贝外,重复序列(repetitive sequences)不多。哺乳动
2、物基因组中则存在大量重复序列,分为3类:1. 高度重复序列。一般较短,长10300bp,重复106次左右,占基因组10%60%,在人类基因组中约占20%,功能还不明确。核苷酸序列分析重复序列分析重复序列分析2. 中度重复序列。长10300bp,重复10105次,占基因组1040%。哺乳类中含量最多的一种称为Alu的序列,长约300bp,重复3105次,在人类基因组中约占7%,功能不是很清楚。3. 单拷贝序列。这类序列基本上不重复,占哺乳类基因组的50%80%,在人类基因组中约占65%。由于大量重复序列影响序列分析,因此在对真核基因分析前,最好把重复序列屏蔽掉。核苷酸序列分析http:/www.
3、/cgi-bin/WEBRepeatMaskerArabidopsis thaliana chromosome 2, part sequence (NC_003071.1)Output开放读码框的识别开放读码框的识别 开放读码框(open reading frame, ORF) 是一段起始密码子(ATG)和终止密码子(TAA, TAG, TGA)之间的碱基序列 ORF 是潜在的蛋白质编码区 原核生物中多数基因的编码序列在100氨基酸以上;真核生物的编码区由内含子和外显子组成,其外显子的平均长度约为50个氨基酸。 预测ORF的方法有两类:基于统计分析和模式识别(如
4、GENSCAN, GeneMark, GRAIL II 等),基于同源比对。核苷酸序列分析开放读码框的识别开放读码框的识别 Kozak规则规则: ORF中起始密码子ATG前后的碱基具有特定的偏好性。若将第一个ATG中的碱基分别标为1、2、3位,则Kozak规则可描述如下:1. 第4位的偏好碱基为G;2. ATG的5端的15bp范围内的侧翼序列内不含碱基T;3. 第3、6、9位G为偏好碱基;4. 除第3、6、9位,在整个侧翼序列区中,C为偏好碱基。核苷酸序列分析基因开放阅读框基因开放阅读框/ /基因结构分析识别工具基因结构分析识别工具Getorfhttp:/bioweb.pasteur.fr/s
5、eqanal/interfaces/getorf.htmlWeb/LinuxPlotorfhttp:/bioweb.pasteur.fr/seqanal/interfaces/plotorf.htmlWeb/LinuxORF Finder /gorf/gorf.html WebBestORFhttp:/ /GeneMark/WebGene Finder/tools/genefinder/(Dr. Michael Zhang )WebFGENESH
6、http:/ LinuxFgeneSB/ FgeneSVhttp:/ /generation/WebGeneBuilder http:/r.it/webgene/genebuilder.html WebFGENESH+ /+http:/ Web/LinuxGenomeScan /genomescan.html WebGeneWise http:/www.sanger.ac.uk/Software/Wise2/ WebGRAIL/grailexp/Web/Linux/
7、WindowsBCM Gene Finder/seq-search/gene-search.htmlWeb核苷酸序列分析开放读码框的识别开放读码框的识别 预测ORF的方法都是针对特定物种而设计的,如GENSCAN最初是针对人类的,后扩展对脊椎动物、果蝇、拟南芥、玉米基因的预测。 GlimerM适于恶性疟原虫、拟南芥、曲霉菌和水稻 对mRNA, cDNA, EST, 宜用GetOrf, ORF Finder, Plotorf, BestORF 等核苷酸序列分析应用应用ORF Finder预测水稻瘤矮病毒预测水稻瘤矮病毒(RGDV)S
8、8片断的片断的ORF ORF Finder: /gorf/gorf.html 水稻瘤矮病毒(rice gall dwarf virus, RGDV)引起的水稻瘤矮病是中国及东南亚国家水稻上的一种重要病毒病害. 为构建融合蛋白的表达载体,需要对RGDV S8片断的基因序列(GenBank登陆号:AY216767)进行ORF分析并确定其位置,为设计表达引物提供信息.提交序列:以登陆号或直接粘贴FASTA格式的序列.参数设置:可设置待分析序列片断的起始和结束位置;ORF Finder提供了22种遗传密码表可供选择。这里选择默认参数.核苷酸序列分析T
9、he Genetic Codes点击点击结果验证 采用数据库搜索方法对选定的ORF进行验证 BLASTB比对搜索到多个显著相似的序列, 因此所预测的ORF可信度比较高点击GetOrf http:/bioweb.pasteur.fr/seqanal/interfaces/getorf.htmlggccagatgg aacatattgc tttcgggagc acaaggatcg ggtctactac gtctcggagcggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgcttcggcaagtt ctccaagacc aa
10、caaactga agttccatat cacggcgctc tactacttggcgccctacgc ccagtacaag gtgtgggtga agccctcctt cgagcagcag tttctctacg输出结果输出结果GENSCAN /GENSCAN.htmlggccagatgg aacatattgc tttcgggagc acaaggatcg ggtctactac gtctcggagcggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgcttcggcaagtt ctcca
11、agacc aacaaactga agttccatat cacggcgctc tactacttggcgccctacgc ccagtacaag gtgtgggtga agccctcctt cgagcagcag tttctctacg输出结果输出结果启动子及转录因子结合位点分析启动子及转录因子结合位点分析启动子启动子(Promoter)是RNA聚合酶识别、结合并开始转录所必需的一段DNA序列。原核生物启动子序列包括:1.CAP序列序列(增强聚合酶的结合和转录的起始序列,-70-40)2.-10序列序列:在-4到-13bp处,有保守序列TATAAT,称为Pribnow框,各碱基频率:T89 A89 T
12、50 A65 A65 T1003.-35序列序列:约在-35处有保守序列TTGACA, 其中TTG十分保守,各碱基频率:T85 T83 G81 A61 C69 A52核苷酸序列分析启动子及转录因子结合位点分析启动子及转录因子结合位点分析真核生物启动子是在基因转录起始位点(+1)及其5上游大约100200bp或下游100bp的一组具有独立功能的DNA序列,包括:1. 核心启动子核心启动子( core promoter): 转录起始位点(+1)一般是A或G及转录起始位点上游-25-30的TATA框2. 上游启动子元件上游启动子元件(upstream promoter element, UPE):
13、包括通常-70bp附近的CAAT框(GGCCAATCT)和GC框(GGGCGG)等核苷酸序列分析PromoterScan:80/molbio/proscan粘贴粘贴AY684193AY684193输出结果输出结果内含子内含子/外显子剪切位点识别外显子剪切位点识别对基因组序列的读码框区域进行预测内含子5端供体位点(donor splice site): GT内含子3端受体位点(acceptor splice site): AG内含子区域核苷酸组分是识别编码区的重要依据核苷酸序列分析不同的序列通常采用不同的分析方法NetGene2和Splice Vi
14、ew用于分析基因组核苷酸序列编码区的剪切位点和内含子mRNA/cDNA序列可用Spidey,SIM4,BLAT和BLAST等分析工具内含子内含子/外显子剪切位点识别外显子剪切位点识别如何分析mRNA/cDNA的外显子组成?RNASPL与相应的基因组序列比对,分析比对片段的分布位置预测工具:Spidey,SIM4,BLAT,BLAST,FASTA 核苷酸序列分析基因开放阅读框基因开放阅读框/基因结构分析工具基因结构分析工具对基因组序列的读码框区域进行预测对基因组序列的读码框区域进行预测NNSplice/seq_tools/splice.htmlWeb
15、Splice Viewhttp:/r.it/webgene/wwwspliceview.htmlWeb NetGene2http:/www.cbs.dtu.dk/services/NetGene2/WebSPL/SPLM/RNASPL/FSPLICEhttp:/ Web/LinuxSpidey/spideyWebPROT_MAPhttp:/ Sim4http:/gamay.univ-perp.fr/analyse_seq/sim4/Web/LinuxBLAT/
16、kent/src/unzipped/blat/LinuxBLAST/BLAST/ExecutablesWeb/Windows/LinuxFASTA/pub/fasta/win32_fasta/fasta34t21b5d.zipWeb/Windows/Linux核苷酸序列分析NetGene2http:/www.cbs.dtu.dk/services/NetGene2/ 用于人类、线虫和拟南芥的基因序列分用于人类、线虫和拟南芥的基因序列分析析 报告受体位点和供体位点信息,对报告受体位点和供体位点信息,对DN
17、A正负两条链分析正负两条链分析 图形显示可能的编码区、受体位点和供图形显示可能的编码区、受体位点和供体位点信息体位点信息ATGGGAAACTGGGTGGTTAACCACTGGTTTTCAGTTTTGTTTCTGGTTGTTTGGTTAGGGCTGAATGTTTTCCTGTTTGTGGATGCCTTCCTGAAATATGAGAAGGCCGACAAATACTACTACACAAGAAAAATCCTTGGGTCAACATTGGCCTGTGCCCGAGCGTCTGCTCTCTGCTTGAATTTTAACAGCACGCTGATCCTGCTTCCTGTGTGTCGCAATCTGCTGTCCTTCCTGAGG
18、GGCACCTGCTCATTTTGCAGCCGCACACTGAGAAAGCAATTGGATCACAACCTCACCTTCCACAAGCTGGTGGCCTATATGATCTGCCTACATACAGCTATTCACATCATTGCACACCTGTTTAACTTTGACTGCTATAGCAGAAGCCGACAGGCCACAGATGGCTCCCTTGCCTCCATTCTCTCCAGCCTATCTCATGATGAGAAAAAGGGGGGTTCTTGGCTAAATCCCATCCAGTCCCGAAACACGACAGTGGAGTATGTGACATTCACCAGCATTGCTGGTCTCACTGGAGTGATC
19、ATGACAATAGCCTTGATTCTCATGGTAACTTCAGCTACTGAGTTCATCCGGAGGAGTTATTTTGAAGTCTTCTGGTATACTCACCACCTTTTTATCTTCTATATCCTTGGCTTAGGGATTCACGGCATTGGTGGAATTGTCCGGGGTCAAACAGAGGAGAGCATGAATGAGAGTCATCCTCGCAAGTGTGCAGAGTCTTTTGAGATGTGGGATGATCGTGACTCCCACTGTAGGCGCCCTAAGTTTGAAGGGCATCCCCCTGAGTCTTGGAAGTGGATCCTTGCACCGGTCATTCTTTAT
20、ATCTGTGAAAGGATCCTCCGGTTTTACCGCTCCCAGCAGAAGGTTGTGATTACCAAGGTTGTTATGCACCCATCCAAAGTTTTGGAATSpidey/IEB/Research/Ostell/Spidey/q可对可对cDNA或或EST序列分析序列分析qNCBI开发,基于开发,基于BLAST和和Dot View局部局部比对算法比对算法q优势在于能同时将多条优势在于能同时将多条mRNA/cDNA或或EST序列与基因组序列进行比对序列与基因组序列进行比对输入基因组序列输入基因组序列Z83819输入序列输入序列:
21、AF166326AF166327选择性剪切选择性剪切(Alternative splicing)分析分析核苷酸序列分析选择性剪切选择性剪切(Alternative splicing)分析分析 选择性剪接是调控基因表达的重要机制 了解不同物种、细胞、发育阶段、环境压力下基因的调控表达机制 分析方法: 查询选择性剪切相关的网站 多序列比对查询选择性剪切相关的网站查询选择性剪切相关的网站http:/www.ebi.ac.uk/asd/index.html综合综合http:/splicenest.molgen.mpg.de/综合综合/new_alt_exon
22、_db2/综合综合5/AsMamDB/哺乳动物哺乳动物/tigr-scripts/tgi/splnotes.pl?species=human.tw/.au/altExtron人人/kent/intronerator/altsplice.html线虫线虫http:/ AF166327, AF166328, NM_013955, 与Seq1比对,可判断Seq1的剪切机制。Seq1与AF1
23、66327最为相似,与AF166327在基因的5相匹配,而缺失了第1013号外显子区域。Seq1与与AF166317比对结果比对结果基于序列比对分析选择性剪切基于序列比对分析选择性剪切在序列上高度相似的在序列上高度相似的mRNA/cDNA/EST序列序列相匹配的基因组序列相匹配的基因组序列序列比对序列比对对分布位置进行分析对分布位置进行分析cDNA/mRNA/EST 序列比对序列比对收集序列收集序列核苷酸序列分析评判的标准:评判的标准:来自来自Unigene的高质量数据的高质量数据Exon至少有至少有3条条ESTs覆盖覆盖Exon周围有周围有GT-AG信号信号Blast比对比对Score值值1
24、00相似度相似度95%S.Gupta et al., Genome wide identification and classification of alternative splicing based on EST data, Bioinformatics 2004, 20(16): 2579-2585基因周围调控序列分析基因周围调控序列分析 CpG岛位于真核生物基因转录起始位点上游,GC含50% ,长度几百到几千“p”表示“C”和“G”以磷酸二酯键连接一般CpG岛出现在脊椎动物看家基因(house keeping gene)或频繁表达基因中活性基因的CpG岛具有抵抗序列甲基化的作用80%
25、的人类基因的转录起始位点存在CpG岛,因而搜索CpG岛可为发现基因提供重要线索核苷酸序列分析http:/www.ebi.ac.uk/emboss/cpgplot/CpgplotCpgreportIsochoreAF129756.1Results ForCpgplotCpgreportIsochoreExample基因周围调控序列分析基因周围调控序列分析转录终止信号的预测q真核生物编码基因中,转录终止信号是在mRNA序列的3端终止密码子下游置上加尾的信号,主要标志为出现AATAAA序列,可以重复出现,在其后的10-15 bp处开始合成PolyA.q在基因预测软件中,转录终止信号也被化定基因的范围
26、,以便对ORF区域进行更好的识别和分析核苷酸序列分析转录终止信号预测转录终止信号预测Hcpolyahttp:/r.it/webgene/wwwHC_polya.htmlWeb POLYAHhttp:/ /tools/polyadq/polyadq_form.htmlWebPolyadq/tools/polyadq/polyadq_form.html粘贴粘贴AF129756.1.txt中的序列中的序列密码子使用偏性分析密码子使用偏性分析遗传密码子表遗传密码子表UCAGU苯丙氨酸苯丙氨酸 Phe丝氨酸丝氨酸 Ser酪氨
27、酸酪氨酸 Tyr 半胱氨酸半胱氨酸 CysU苯丙氨酸苯丙氨酸丝氨酸丝氨酸酪氨酸酪氨酸半胱氨酸半胱氨酸C亮氨酸亮氨酸 Leu丝氨酸丝氨酸终止子终止子 Ter 终止子终止子 TerA亮氨酸亮氨酸丝氨酸丝氨酸终止子终止子色氨酸色氨酸 TrpGC亮氨酸亮氨酸脯氨酸脯氨酸 Pro组氨酸组氨酸 His 精氨酸精氨酸 ArgU亮氨酸亮氨酸脯氨酸脯氨酸组氨酸组氨酸精氨酸精氨酸C亮氨酸亮氨酸脯氨酸脯氨酸谷氨酰胺谷氨酰胺 Gln 精氨酸精氨酸A亮氨酸亮氨酸脯氨酸脯氨酸谷氨酰胺谷氨酰胺精氨酸精氨酸GA异亮氨酸异亮氨酸 ILe苏氨酸苏氨酸 Thr天冬酰胺天冬酰胺Asn丝氨酸丝氨酸 SerU异亮氨酸异亮氨酸苏氨酸苏氨酸
28、天冬酰胺天冬酰胺丝氨酸丝氨酸 C异亮氨酸异亮氨酸苏氨酸苏氨酸赖氨酸赖氨酸 Lys 精氨酸精氨酸 ArgA甲硫氨酸甲硫氨酸 Met苏氨酸苏氨酸赖氨酸赖氨酸精氨酸精氨酸GG缬氨酸缬氨酸 Val丙氨酸丙氨酸 Ala天冬氨酸天冬氨酸Asp甘氨酸甘氨酸 GlyU缬氨酸缬氨酸丙氨酸丙氨酸天冬氨酸天冬氨酸甘氨酸甘氨酸 C缬氨酸缬氨酸丙氨酸丙氨酸谷氨酸谷氨酸 Glu 甘氨酸甘氨酸 A缬氨酸缬氨酸丙氨酸丙氨酸谷氨酸谷氨酸甘氨酸甘氨酸 GSecond PositionFirst Position (5 end)Third Position (3 end)密码子使用偏性分析密码子使用偏性分析q生物体内普遍存在同义密
29、码子非均衡使用的现象, 例如: 某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子, 这些密码子被称为最优密码子(optimal codon), 此现象被称为密码子偏性(codon bias)。.q不同物种的基因、不同功能的基因在密码子使用上存在着明显的偏性核苷酸序列分析密码子使用偏性分析密码子使用偏性分析意义意义q 基因异源表达q 与某些物种的蛋白表达水平相关q 揭示有关物种间或某一物种的基因家族间的基因进化规律q 基因的翻译调控q 其他应用 密码子偏性的分析也常对许多实验操作起指导和辅助作用, 如: 鉴定编码区, 制备基因克隆的寡核苷酸探针, 基因芯片设计等核苷酸序列分析密码子使用
30、偏性分析密码子使用偏性分析密码子使用指标(密码子使用指标(Codon usage indices)q (1) 密码子适应性指标CAI (codon adaption index)q (2) 最优密码子使用频率FOP (frequency of optimal codons)q (3)密码子偏性指标CBI (codon bias index)q (4) 有效密码子数ENC (effective number of codons)q (5)GC含量 (GC content of gene)q (6)密码子第三位GC含量 (GC of silent 3rd codon position)核苷酸序列分
31、析密码子使用偏性分析密码子使用偏性分析密码子使用指标(密码子使用指标(Codon usage indices)q(7) 密码子第三位A、T、C、G含量( silent base composition)q (8) 同义密码子数目 (Number of synonymous codons)q (9) 序列氨基酸总数 (Total number of amino acids)q (10)蛋白质疏水性 (Hydrophobicity of protein)q (11) 蛋白质芳香性 (Aromaticity of protein)核苷酸序列分析密码子适应性指标CAI (codon adaption
32、index) CAI is a measurement of the relative adaptedness of the codon usage of a gene towards the codon usage of highly expressed genes. The relative adaptedness () of each codon is the ratio of the usage of each codon, to that of the most abundant codon within the same synonymous family. L is the nu
33、mber of synonymouscodons in the gene. 常用于基因表达水平的测量,此值为01 ,越接近1 表示基因的表达水平越高。1 11 1l n l nL Lk kk kC A IE xpC A IE xpL Lw w= =骣骣琪琪= =琪琪琪琪琪琪桫桫 最优密码子使用频率FOP (frequency of optimal codons) Fop is the fraction of synonymous codons which are optimal codons. If rare synonymous codons have been identified, th
34、ere is a choice of calculating the original Fop index or a modified Fop index_ _ _o op pc co od do on ns ss sy yc co od do on ns sN NF Fo op pN N= =_ _ _ _o op p c co od do on ns sr ra ar re e c co od do on ns ss sy y c co od do on ns sN NN NF Fo op pN N- -= =密码子偏性指标CBI (codon bias index) CBI is a m
35、easure of directional codon bias, and is a measure of the extent to which a gene uses a subset of optimal codons Where Nopt = number of optimal codons; Ntot = number of synonymous codons; Nran = expected number of optimal codons if codons were assigned randomly.o op pt tr ra an nt to ot tr ra an nN
36、NN NC C B B I IN NN N- -= =- -有效密码子数ENC (effective number of codons) 取值范围在2061之间,即如果每种氨基酸只使用一种密码子则有效密码子数为20,如果各种同义密码子的使用机会完全均等,则有效密码子数为61,越靠近20偏性越强。 ENC值越小,基因的密码子偏爱程度越大。 单子叶植物玉米、高粱、大麦、小麦、水稻的ENC值均小于40,而双子叶植物拟南芥、豌豆的ENC分别为52.33和51.39,表明5种单子叶植物的waxy基因具有较强的密码子偏好,而双子叶植物的偏好性则相对较低。 7个物种waxy基因密码子的ENC值和GC3含量
37、相对同义密码子使用频率RSCU (relative synonymous codonusage)1 11 1i iijijn nijijj ji ix xR SC UR SC Ux xn n= = = xij表示编码第i个氨基酸的第j个密码子的出现次数, ni表示编码第i个氨基酸的同义密码子的数量。 密码子使用偏性分析工具CodonW http:/www.molbiol.ox.ac.uk/cuWindows/Web/LinuxSYCOhttp:/bioweb.pasteur.fr/seqanal/interfaces/syco/htmlWeb /LinuxCHIPhttp:/bioweb.pa
38、steur.fr/seqanal/interfaces/chips.htmlWeb /LinuxCodon usage/sms/index.htmlWeb密码子使用偏性分析工具CodonW使用 Input.dat数据详见Tutorial.txt Check the input data codonw input.dat -nomenu codonw input.dat all_indices nomenu 输出文件input.out和input.blk codonw input.dat all_indices c_type 2 f_type 4 -nomenu密码子使用偏性分析工具CodonW使用 Correspondence Analysis (COA, 对应分析) codonw input.dat -coa_cu -nomenu silent 输出文件cai.coa cbi.coa coa_raw codon.coa cusort.coa e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 户出包婚姻协议书
- 被开除赔偿协议书
- 篮球馆转让协议书
- 碳资产投资协议书
- 旅行社儿童协议书
- 枪弹库保密协议书
- 学校茶炉工协议书
- 已签订退房协议书
- 特斯拉充电协议书
- 章程和出资协议书
- 中华人民共和国保守国家秘密法实施条例
- 机票代理合作协议
- 课件:第二章 社会工作项目申请(《社会工作项目策划与评估》课程)
- 2023年中国检验认证集团福建有限公司招聘笔试题库及答案解析
- 【教学课件】微专题一:探究郑州暴雨事件
- 智慧教育典型案例:之江汇“空间站”:校本研修资源利用的载体创新探索
- (完整版)钢楼梯施工方案
- 装饰装修工程监理细则详解模板
- 高度近视黄斑劈裂的自然病程及进展因素课件
- 三峡库区秭归县头道河Ⅱ号滑坡防治工程地质详细勘查报告
- 三腔二囊管压迫止血及护理课件
评论
0/150
提交评论