数据库系统专题 第七章 生物信息处理技术_第1页
数据库系统专题 第七章 生物信息处理技术_第2页
数据库系统专题 第七章 生物信息处理技术_第3页
数据库系统专题 第七章 生物信息处理技术_第4页
数据库系统专题 第七章 生物信息处理技术_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据库系统专题

AdvancedTopicsonDatabaseSystems第七章生物信息处理技术本章主要内容遗传信息的结构和功能生物数据库序列比对后缀树基因表达数据分析数据库专题讲义遗传信息的结构和功能DNA分子结构基因的结构基因表达数据库专题讲义DNA分子结构四种核苷酸

嘌呤:腺嘌呤(adenineA)

鸟嘌呤(guanineG)

嘧啶:胞嘧啶(cytosineC)

胸腺嘧啶(thymineT)DNA分子的双螺旋结构数据库专题讲义DNA分子结构DNA分子的碱基序列储存和编码了大量遗传信息DNA分子的双螺旋互补结构直接表明了遗传信息复制和传递的机制DNA分子的双螺旋互补结构为DNA损伤造成的遗传信息丢失提供了保护措施DNA双链的互补性是DNA分析研究的理论基础数据库专题讲义基因的结构5‘3‘CAAT框TATA框转录启始点外显子1外显子2外显子3内含子1内含子2启动子区域转录启始密码(ATG)转录终止密码(TAA)polyA信号转录终止点数据库专题讲义基因的结构大多数真核细胞基因的显著特征是有非编码的插入序列,称为内含子(intron)内含子能够转录成RNA,在翻译成蛋白质之前被加工剪接,因此不包含在mRNA序列中被内含子隔开的编码序列为外显子(exon),剪接后连在一起形成成熟的mRNA,参与指导蛋白质合成不同基因的内含子和外显子数目和大小不同,一般基因越大,外显子越多。内含子可能远远大于外显子,也可能内含子中包含其他基因的编码序列,即基因内基因数据库专题讲义基因的结构启动子(promoter)

一般位于基因转录启始点上游100-200bp范围,是能与DNA聚合酶和转录因子相互作用的核苷酸序列,包含一些DNA序列元件TATA框:人类许多基因在转录启始点5’端上游25-30bp处有一段高度保守序列,由7个碱基组成,TATAA/TAA/T,其中两个碱基可以变化。TATA框能与转录因子TFII结合,再与RNA聚合酶II形成复合物,准确识别转录启始点,启动基因转录数据库专题讲义基因的结构启动子(promoter)CAAT框:位于转录启始点5’端上游-70

-80bp处有一段高度保守序列,由9个碱基组成,GGGC/TCAATCA,其中一个碱基可以变化。CAAT框能与转录因子CTF结合,提高转录效率GC框:有一些基因没有TATA框和CAAT框,但存在富含G和C核苷酸的序列;GC框是由GGCGGG组成,能与转录因子Spl结合,促进转录过程数据库专题讲义基因的结构增强子(enchancer):是一个短序列元件,结合于转录因子,能增强基因的转录活性。可位于基因的任何位置,其功能与位置和序列方向无关。结合增强子的蛋白可和结合启动子的蛋白相互作用,增强基因表达终止子(terminater):是由AATAAA和一段回文序列组成,AATAAA是多聚腺苷酸(polyA)的附加信号,回文序列转录后形成发夹结构,阻碍RNA聚合酶继续移动,转录终止数据库专题讲义基因表达中心法则DNA序列所蕴藏的遗传信息,经过转录和翻译,实现信息传递和指导蛋白质合成,这一过程称为基因表达基因表达成共线性,即DNA的先行核苷酸序列转录为RNA的线性核苷酸序列,RNA三连体密码子转译成特定多肽的线性氨基酸序列这种DNA->RNA->蛋白质的信息传递原则称之为中心法则数据库专题讲义基因表达转录(transcription)----DNARNA的过程以DNA双链中的一条作为模板,ATP、CTP、GTP、UTP作为前体RNA,在RNA聚合酶催化下,按碱基互补方式合成RNA单链的过程。转录在细胞核中进行,转录后的RNA碱基序列与DNA模板序列互补,同非模板链一致,只是把T换成了U数据库专题讲义基因表达转录(transcription)----DNA成熟mRNA的过程转录有三种产物:信使RNA(mRNA)—RNA聚合酶II、核糖体RNA(rRNA)--RNA聚合酶I、转运RNA(tRNA)--RNA聚合酶III。mRNA将遗传信息传递给蛋白质数据库专题讲义基因表达转录过程外显子1外显子2外显子3GT----AGGT----AG内含子1内含子2E1E2E3GU----AGGU----AG基因启动子原始RNA转录E1E2E3GU----AGGU----AG原始RNA加工剪切成熟mRNA数据库专题讲义基因表达翻译翻译是指将mRNA转译成氨基酸序列的过程。成熟的mRNA从细胞核进入细胞质,由核糖体和其他成分阅读mRNA所携带的信息,指导多肽合成遗传密码表三个碱基组成一个遗传密码,对应一个氨基酸数据库专题讲义基因表达氨基酸名氨基酸名氨基酸名Alanine丙氨酸Glycine苷氨酸Tyrosine酪氨酸Valine缬氨酸AsparticAcid冬氨酸Histidine组氨酸Phenylalanine苯基丙氨酸GlutamicAcid谷氨酸Cysteine半胱氨酸Proline脯氨酸Lysine赖氨酸Asparagine天酰氨酸Methionine蛋氨酸Arginine精氨酸Glutamine谷酰氨酸Isoleucine异亮氨酸Serine丝氨酸Tryptophan色氨酸Leucine亮氨酸Threonine苏氨酸数据库专题讲义基因表达first第二个核苷酸UCAGthirdUUUU苯丙UUC苯丙UUA亮氨酸UUG亮氨酸UCU丝氨酸UCC丝氨酸UCA丝氨酸UCG丝氨酸UAU酪氨酸UAC酪氨酸UAA终止UAG终止UGU半胱UGC半胱UGA终止UGG色氨酸UCAGCCUU亮氨酸CUC亮氨酸CUA亮氨酸CUG亮氨酸CCU脯氨酸CCC脯氨酸CCA脯氨酸CCG脯氨酸CAU组氨酸CAC组氨酸CAA谷酰CAG谷酰CGU精氨酸CGC精氨酸CGA精氨酸CGG精氨酸UCAG数据库专题讲义基因表达first第二个核苷酸UCAGthirdAAUU异亮AUC异亮AUA异亮AUG蛋起始ACU苏氨酸ACC苏氨酸ACA苏氨酸ACG苏氨酸AAU天酰AAC天酰AAA赖氨酸AAG赖氨酸AGU丝氨酸AGC丝氨酸AGA精氨酸AGG精氨酸UCAGGGUU缬氨酸GUC缬氨酸GUA缬氨酸GUG缬氨酸GCU丙氨酸GCC丙氨酸GCA丙氨酸GCG丙氨酸GAU天冬GAC天冬GAA谷氨酸GAG谷氨酸GGU甘氨酸GGC甘氨酸GGA甘氨酸GGG甘氨酸UCAG数据库专题讲义基因表达翻译过程首先识别mRNA的AUG起始密码子每三个连续核苷酸编码一个氨基酸直到终止密码子出现(UAA,UAG,UGA)数据库专题讲义生物数据库随着基因测序技术快速发展,在Internet上积累的大量的生物序列数据,主要包括两种类型DNA序列蛋白质序列数据库专题讲义生物数据库生物序列数据的积累成爆炸性增长数据库专题讲义生物数据库主要生物数据库

Bank

EntriesGenbank 18,197,000Swissprot

115,106PDB 18,881数据库专题讲义生物数据库一个简单的核苷酸序列编码CCTGACAAATTCGACGTGCGGCATTGCATGCAGACGTGCATGCGTGCAAATAATCAATGTGGACTTTTCTGCGATTATGGAAGAACTTTGTTACGCGTTTTTGTCATGGCTTTGGTCCCGCTTTGTTCAGAATGCTTTTAATAAGCGGGGTTACCGGTTTGGTTAGCGAGAAGAGCCAGTAAAAGACGCAGTGACGGAGATGTCTGATG

CAATAT

GGA

CAA

TTG

GTT

TCT

TCT

CTG

AAT....................TGA数据库专题讲义生物数据库基因测试完成情况•19940•19951•2002109

eukaryotes(真核细胞基因)bacteria(细菌基因)archaea(?)108316数据库专题讲义生物数据库生物数据库的种类序列数据库结构数据库General specialGenbank,embl PromotersPIR,Swissprot GenomesGeneral SpecialPDB Specificproteinfamilies folds数据库专题讲义生物数据库生物数据库的种类核苷酸序列数据库蛋白质数据库GenbankEMBLSwissprot PIR-proteinSP-TREMBL 数据库专题讲义生物数据库WWW资源NCBI:NationalCenterofBiotechnologyinformation(updateddatabases)searchtool:ENTREZ数据库专题讲义序列比对序列比对的意义功能相似的基因具有相似的结构结构相似的基因具有相似的序列序列相似是生物信息学中的一种最基本的研究手段序列相似性可能意味着结构和功能相似性同源序列是相似的,但相似序列可能是同源的数据库专题讲义序列比对全局比对局部比对ATTGCAGTG-TCGAGCGTCAGGCTATTGCGTCGATCGCAC-GCACGCTCATATTGCAGTGGTCCCGCGTCAGGCTTAAATTGCGT-GGTCGCACTGCACGCT数据库专题讲义序列比对----两两比对ATTGCAGTGATCGATTGCGTCGATCGSolution1:ATTGCAGTGATCG||||||||||ATTGCGTCGATCGSolution2:ATTGCAGT-GATCG||||||||||||ATTGC-GTCGATCG数据库专题讲义序列比对----如何评价Solution1:ATTGCAGTGATCG||||||||||ATTGCGTCGATCGSolution2:ATTGCAGT-GATCG||||||||||||ATTGC-GTCGATCG12matches+2gaps10matches+3mismatches数据库专题讲义序列比对----计分模式Match:+1Mismatch:-1Gap:-2Solution1:ATTGCAGTGATCG||||||||||ATTGCGTCGATCGSolution2:ATTGCAGT-GATCG||||||||||||ATTGC-GTCGATCGScore=7Score=8数据库专题讲义序列比对如何找到分值最高的比对结果动态规划(DynamicalProgramming)主要思路是将一个复杂的问题分解成若干个子问题,利用局部优化来不断地找到全局优化的过程数据库专题讲义序列比对----动态规划Seq1)AGCSeq2)AAACNeedelman-Wunschalgorithm(1970)数据库专题讲义序列比对----动态规划先计算第0行与第0列AGCAAACmatch=1mis

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论