核酸序列分析泛讲_第1页
核酸序列分析泛讲_第2页
核酸序列分析泛讲_第3页
核酸序列分析泛讲_第4页
核酸序列分析泛讲_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1基因预测开放读码框GENSCANGenomeScanGeneMarkGLIMMER基因结构分析内含子/外显子剪切位点NetGene2Spidey选择性剪切ProSplicerSpidey转录调控序列分析启动子/转录起始位点DBTSSPromoterScanCpG岛CpGPlot转录终止信号Hcpolya序列组分分析GC含量cgview密码子偏好性使用CodonW限制性核酸内切酶位点NEBcutter核酸序列分析基因预测:早期指预测DNA序列中编码蛋白质的部分,即外显子部分;现在指整个基因结构的预测,综合各种外显子预测的算法及对基因结构信号的认识,预测出可能的完整基因。(启动子预测、重复序列预测、CpG岛的预测等等)

通过生物信息学手段发现基因的一般过程①获取DNA目标序列②查找ORF并将目标序列翻译成蛋白质序列③在数据库中进行序列搜索④多序列比对,查找基因家族⑤查找目标序列中的特定模序⑥预测目标序列的二级、三级结构⑦获取相关蛋白质的功能信息3开放读码框的识别开放阅读框开放阅读框(英语:Openreadingframe;缩写:ORF;其他译名:开放阅读框架、开放式阅读框架,开放读架等)是生物个体的基因组中,可能是蛋白质编码序列的部分。基因中的ORF包含并位于开始编码与终止编码之间。由于一段DNA或RNA序列有多种不同读取方式,因此可能同时存在许多不同的开放阅读框架。开放阅读框包含一段可以编码蛋白的碱基序列,不能被终止子打断。单链DNA序列可能有3种阅读框,但通常只有一种具有编码的作用,称为开放阅读框(openreadingframeorORF)。封闭阅读框(blockreadingframe)

当一个新基因被识别,其DNA序列被解读,DNA序列可以按六种框架阅读和翻译。例如一段5'-UCUAAAGGUCCA-3'序列。此序列共有3种读取法:

UCUAAAGGUCCA

CUAAAGGUC

UAAAGGUCA

ORF识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或密码子,符合这些条件的序列有可能对应一个真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。

基因结构分析(1)原核基因结构•原核生物基因组小,基因密度高,很少存在重复序列, 一个基因是由编码一个蛋白质或RNA的开封阅读框构成, 中间没有间断。•细菌的起始密码子为:ATG,GTG,TTG•核糖体结合位点(Shine-Delgaronsequence)•终止密码子较容易确定•转录终止子•密码子偏好性翻译起始位点翻译终止位点编码区转录终止子TTTTT

7转录起始位点

AGGAGGT

核糖体结合位点(2)真核基因结构

•基因组较大,基因密度低,富含重复序列和转座元件;最重要 的是基因被插入的非编码序列(内含子)切分成小段(外显 子)。•初生的转录产物需要经过三个步骤转变成成熟的可翻译为蛋白的mRNA。•真核基因预测的主要问题是识别外显子、内含子和间接位点。•真核基因中存在一些保守序列特征有助于进行计算预测,如:GT-AG规则,密码子偏好性,六聚体频率,kozak序列,CpG岛,poly-A8名称TATA框(TATAbox)CAAT框(CAATbox)GC框(GCbox)所处位置转录起始点上游约19~27bp处位于转录起始点上游70~80bp有两个拷贝,分别位于CAAT框的两侧组成TATA(A/T)A(A/T)GG(T/C)CAATCTGGCGGG功能与转录因子TFⅡ结合,能够准确识别转录起始点与转录因子CTF结合,促进转录与转录因子SP1结合,起增强转录效率的作用9原核和真核生物基因转录起始位点上游区结构原核生物真核生物TTGACATATAATAmRNA+1-10-35PyAPyTATAATGC区CAAT区mRNA+1-40-25-110增强子上游启动子元件,UPE核心启动子元件转录起始位点10转录终止信号加polyA信号:AAUAAA转录终止信号:GCrich二重对称区、UUUUUUC-GC-GG-CG-CU-AG-CG-CC-GG-CUUUUUUUUURNA5’3’AAUAAACAAAAAAAAAAAAA成熟mRNA5’3’AAUAAACAGUmRNA前体5’3’真核基因组中的重复序列存在方式单一序列重复序列中度重复序列高度重复序列长度大于300bp2~200bp拷贝数出现一次或很少几次拷贝数102~106之间拷贝数106~108之间功能编码蛋白质的结构基因(3万~4万个)一般不编码蛋白质,但在基因调控中起重要作用一般不能转录,但参与染色体结构的维持、形成结构基因间隔等,如构成着丝粒、端粒等的卫星DNARepBase是真核生物DNA中重复序列数据库Kozak序列(真核生物)

该序列是在起始密码子之前与核糖体作用的位点,真核生物mRNA起始密码AUG上游的第三个核苷酸常常是嘌呤,且多为A(-3A);其次紧跟在AUG后面的核苷酸,常常也是嘌呤,但多数情况下是G(+4G)。高等真核生物的Kozak同源序列为:GCCACC(ATG),弱Kozak同源序列是:CATTGG(ATG);酵母的Kozak同源序列是:AAAAAA(ATG),弱Kozak序列是:CGGTGT(ATG),而没有起始功能的AUG附近的核苷酸序列则无此保守性。

不同生物对密码子的使用有不同的偏好,在编码区和非编码区,特定氨基酸密码子的出现频率是不同的,因而蛋白质编码区密码存在一定的规则性。

CodonW

/密码子使用频度142、

内含子/外显子分析对基因组序列的读码框区域进行预测内含子5’端供体位点(donorsplicesite):GT内含子3’端受体位点(acceptorsplicesite):AG预测工具:GENSCAN,GENEMARKNetGene2,SpliceView

CpG岛(CpGisland)是短的、分散的、非甲基化核酸序列,它常出现在持家基因和受调节表达的基因5’端,CpG岛定义为长度超过200bp,p(CG)>0.6×p(C)×p(G)值,且GC含量大于50%的序列区域。统计表明在人和鼠的基因中80%含有CpG岛。覆盖5’启动子区域,并常向3端延伸约1000bp,进入基因翻译区。通过CpG岛分析可帮助确定基因5’末端位置。分析序列中的CpG岛可用WebGene或CpGplot。(三)、CpG岛存在的主要问题•假阳性(FalsePositive,FP):多预测了假的编码区,即在非编码区预测出编码区。•假阴性FalseNegative,FN):漏掉了真实的编码区,即将编码区预测为非编码区。(Over•

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论