生物信息学讲课二_第1页
生物信息学讲课二_第2页
生物信息学讲课二_第3页
生物信息学讲课二_第4页
生物信息学讲课二_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组(约1300万bp)所包含的6千多个基因,大约60%是通过信息分析得到的。a)、利用EST(

ExpressionSequenceTag)

数据库(dbEST)发现新基因和新SNPs

国际上现已出现了几个基于EST的基因索引如UniGene(/pub/schuler/unigene),Merck-Geneindex(/est/esthmpg.html),GenExpress-index(),这些基因索引数据库(即二次数据库)构建了基因框架,极大地方便了相关研究者。

超大规模计算b)、从基因组DNA序列中预测新ORF

二、新基因和新SNPs的发现与鉴定StructureofeukaryoticmRNACap5’-UTRCodingregion3’-UTRPoly-AInitiation(AUG)Termination(AUG,UGA,UAA)EST序列数据库的形成EST序列数据库SNP:

SingleNucleotidePolymorphismsHUMANGENETICDIVERSITY:

TheUltimateHumanGeneticDatabaseAnytwoindividualsdifferinabout3x106bases(0.1%).Thepopulationisnowabout6x109.Acatalogofallsequencedifferenceswouldrequire18x1015entries.Thiscatalogmaybeneededtofindtherarestormostcomplexdiseasegenes.基因电脑克隆的实质:

以一个序列片段为线索,通过它和整个数据库的比较,还原出全序列原貌。

原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。

可行性到目前为止,公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。

EST数据库:dbEST不同的实施方案和计算量将数据库中的所有序列进行两两比较,将他们分成一组组(一组内的序列都属于同个基因),最后再拼接成一条条完整的cDNA序列。对于人的EST库(5百万条序列),需要进行的序列比对次数为:0.5*(5*106)2=1.25*1013。以一组感兴趣的(如表达于某种组织的)序列作为”种子”序列(N条),将它们和整个库比较,以找到它们所属的完整cDNA序列。这种方案需要进行的序列比对次数为:

N*5*106。SiClone流程图数据准备,包括:序列纯化及格式标准化-----------------------取出一条种子库大库种子和大库的序列比对判断种子序列能否被延长能

———延长了的序列代替旧序列否结束,放入contig库

EST数据库质量相对较低,就象许多文献报道,发现了许多内含子,克隆载体,多酶切点,ALU以及3’、5’非翻译序列(统称污染序列,也称载体序列或非insert序列)被包含在EST数据库中,这使得EST序列分析复杂化。因此在进行Contig电脑组装之前,需要探测并去除EST数据库中的污染序列。

181201221240tactgggtgggaactcaccgcagtgcaggcaaagctatgggccagactgcttctctagga241261281300ttcctcctcactggggcaggggcatctctggaaggaaagggcggcagcccccaggctcgt-----301321341360gccgaattcttgggcctcgaggggccaaattccctataggtgnggtcgtatttaaattcg---------361381395gtaatcaggtccnaggctgtttccngtgtggaant

图1.1EST序列H67267尾随载体示图

图中下划线部分为EcoRI酶切位点和相应的Adaptor序列,

尾随86bp的PT7T3D载体polylinker,该EST为反向测序序列

为探测并去除EST数据库中的污染序列,必须建立载体库,对种子库和人EST库中的每条序列扫描其前端和尾部检查上述非Insert序列,并去除。

全长cDNA标注涉及到mRNA的5’端即转录起始位点区、第一个ATG、开读框架、终止密码子和3’端的确认。目前国际上各种二次数据库的建立和公布,使得我们有可能利用现有的数据源,通过同源性比较来预测mRNA的5’端,最常用的与转录起始位点相关的数据库是真核启动子数据库(TheTRADATProject,EukaryoticPromoterDatabase,EPD.http://www.epd.unil.ch/)。

开读框架(OpenReadingFrame:ORF)的预测常与第一个ATG和终止密码子的确定相关,但由于EST序列相对较低的测序质量,在测序过程中出现的碱基删除或插入错误(称为indel错误)将引起读框移动,甚至出现假终止密码子,所以,仅凭第一个ATG和终止密码子是不足以确定ORF的。

我们结合下述几种方法对Contigs进行标注,先用复合人工神经网络系统预测Contig编码蛋白的可能性,然后采用NCBI的ORF预测软件

(ORFfinder:/gorf/orfig.cgi)初步判断ORF的可能范围。第一个ATG的确定则依据Kozak规则和信号肽分析软件(SignalPhttp://www.cbs.dtu.dk/services/signalP)的结果。所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律,若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下:(1)第4位的偏好碱基为G;(2)ATG的5’端约15bp范围的侧翼序列内不含碱基T;(3)在-3,-6和-9位置,G是偏好碱基;(4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。Kozak规则是基于已知数据的统计结果,为获得高可信度的结果,我们把预测过程中证实含完整mRNA5’端的Contig翻译为蛋白序列,然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,则测试序列有可能为信号肽,假如在该测试序列的第一个Met5’端存在终止密码子,该序列为信号肽的可能性更大。3’端的确认主要根据Poly(A)尾序列,若测试Contig不含Poly(A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。

5’

1tcagccgcccggagccgctcccggagcccggccgtagaggtgcaatcgcagcgngnagcc*(35bp)

61cgcagcccgcgccccgagcccgccgccgcccttcgaggggcncccaggccgcgccatggt

(116bp)M121gaaggtgacgttcaactccgctctggcccagaaggaggccaagaaggacgagcccaagag181cggcgaggaggcgctnatnatcccccccgangccgtcgcggtggantgnaaggacccaga241tgatgtggtacnanttggcnaaagaagancntgntgttgntgnatgtgctttggantagc301atttatgcttgnaggtgtnattctaggaggagcatacttgtacaaatattttgcacttca361accagatgacgtgtactactgtggaataaagtacatcaaagatgatgtcatcttaaatga421gccctctgcagatgccccagctgctctctaccagacaattgaagaaaatattaaaatctt481tgaagaagaagaagttgaatttatcagtgtgcctgtcccagagtttgcagatagtgatcc541tgccaacattgttcatgactttaacaagaaacttacagcctatttagatcttaacctgga601taagtgctatgtgatccctctggaacacttccattgttatgccacccaggaaacctactg661ggagttacttatttaacatcaaggctggaacctatttgcctcagtcctatctgattcaat*(674bp)

721gagcacatggttattactgatcgcattgaaaacattgatcacctgggtttctttatttat781ccgactgtgtcatgacaaggaaacttacaaactgcaacgcggagaaactattaaagggta841ttcagaaacgtgaagccagcaattggtttcgcaattcggcattttcgaaaacaaatttgc*(851bp)

901cgtggaaacttttaatttgttcttgaacagtcaagaaaaacattattgaggnaaatta*(924bp)

961atcacagcataaccccacccttttacattttgtgcagtgattattttttaaagtccttcc1021ttnatgtaagtagcaacaggggctttactatcttttcatctcattaatccaattaanacc1081attaccttaaaatttttttctttcgaagtgtggtgtcttttatatttgaattagtaactg1141tatgaagtcatagataatagtacatgtcaccttaggtagtaggaagaattacaatttctt1201taaatcatttatctggatttttatgttttattagcattttcaagaagacggattatctag1261agaataatcatatatatgcatacgtaaaaatggaccacagtgacttatttgtagttgtta1321gttgccctgctacctagtttgttagtgcatttgagcmcacattttaattttcctctaatt1381aaaatgtgcagtattttcagtgtcaaatatatttaactatttrgggaatgatttccmcct1441ttatgttttaatatcctaggcatctgctgtaataatattttagaaaatgtttggaattta1501agaaataacttgtgttactaatttgtataacccatatctgtgcaatggaatataaatatc1561acaaagttgtttaactagactgcgtgttgtttttcccgtataataaaaccaaagaa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论