第三章序列分析_第1页
第三章序列分析_第2页
第三章序列分析_第3页
第三章序列分析_第4页
第三章序列分析_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章序列分析1第一页,共九十二页,编辑于2023年,星期四什么是序列分析?拿到一个基因/蛋白质序列,我能做什么?第二页,共九十二页,编辑于2023年,星期四在数据库中进行序列相似性搜索基因结构分析/启动子序列分析Motif的寻找与序列的模式识别(含亚细胞定位,跨膜区的预测等序列分析的内容-----为了功能的分析第三页,共九十二页,编辑于2023年,星期四序列比对第1节第四页,共九十二页,编辑于2023年,星期四序列的相似性相似性(similarity)

是指一种很直接的数量关系。比如说,A序列和B序列的相似性是80%,或者4/5。这是个量化的关系。第五页,共九十二页,编辑于2023年,星期四序列的相似性相似性(similarity)通常在某些位点上有一些氨基酸被另外一些化学物理特性相近的氨基酸所代替,这种突变可称为保守突变。将保守突变的因素考虑在内,就可以对两序列的相似程度打分,所得分值即代表其相似的程度。第六页,共九十二页,编辑于2023年,星期四一致性(identity):两个蛋白质有一定数量的氨基酸在排比的位点上是相同的,即如果38个氨基酸的蛋白质中15个位点相同,我们说它们一致性为39.4%.MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG-------------PRNGTIKIYENPARTFTRPYSAKNITIYKEND第七页,共九十二页,编辑于2023年,星期四所以,相似性的数值一定比一致性的要()大or相等or小第八页,共九十二页,编辑于2023年,星期四同源性(homology):

指从一些数据中推断出的两个基因或蛋白质序列具有共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。生物序列的同源性第九页,共九十二页,编辑于2023年,星期四相似性和同源性关系一般来说,序列间的相似性越高的话,它们是同源序列的可能性就更高。注意不要等价混用这两个名词。A序列和B序列的同源性为80%,记住这种说法是错误的!!第十页,共九十二页,编辑于2023年,星期四PorcineandhumanBmal1gene第十一页,共九十二页,编辑于2023年,星期四PorcineandhumanBmal1gene第十二页,共九十二页,编辑于2023年,星期四复习-第1节序列比对判断题:A序列和B序列的相似性是80%.A序列和B序列的一致性为39.4%.A序列和B序列的同源性是80%.相似性的数值一定比一致性的要大.两序列间的相似性越高,它们的同源性就越高.第十三页,共九十二页,编辑于2023年,星期四第2节Blast的应用第十四页,共九十二页,编辑于2023年,星期四Blast简介

BLAST是基于序列相似性的数据库搜索程序。BLAST是“局部相似性基本查询工具”(BasicLocalAlignmentSearchTool)的缩写。第十五页,共九十二页,编辑于2023年,星期四Blast程序评价序列相似性的两个数据Score:使用打分矩阵对匹配的片段进行打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大。Evalue:氨基酸残基(或碱基)随机排列得到上述Score值的概率的大小。E值越小表示越匹配。E=0表示完全配对,不存在随机配对。第十六页,共九十二页,编辑于2023年,星期四主要的blast程序程序名查询序列数据库搜索方法Blastn核酸核酸核酸序列搜索逐一核酸数据库中的序列Blastp蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列Blastx核酸蛋白质核酸序列翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。Tblastn蛋白质核酸蛋白质序列和核酸数据库中的核酸序列翻译后的蛋白质序列逐一比对。TBlastx核酸核酸核酸序列翻译成蛋白质序列,再和核酸数据库中的核酸序列翻译成的蛋白质序列逐一进行比对。第十七页,共九十二页,编辑于2023年,星期四/Blast.cgi第十八页,共九十二页,编辑于2023年,星期四BLAST检索中采用的数据库类别:蛋白数据库:nr:无冗余数据库,汇集了GenBank中所有的蛋白序列+PDB+Swissprot+PIR等汇集;第十九页,共九十二页,编辑于2023年,星期四BLAST检索中采用的数据库类别:核酸数据库:nr/nt:无冗余数据库,汇集了GenBank+DDBJ+EMBL中所有的核甘酸序列(不包括EST)第二十页,共九十二页,编辑于2023年,星期四BLAST的应用第二十一页,共九十二页,编辑于2023年,星期四具体步骤1.登陆blast主页

/BLAST/2.根据数据类型,选择合适的程序3.填写表单信息4.提交任务5.查看和分析结果第二十二页,共九十二页,编辑于2023年,星期四第二十三页,共九十二页,编辑于2023年,星期四第二十四页,共九十二页,编辑于2023年,星期四第二十五页,共九十二页,编辑于2023年,星期四第二十六页,共九十二页,编辑于2023年,星期四第二十七页,共九十二页,编辑于2023年,星期四提高期望阈值(Expectthreshold);降低延伸种子序列的长度(wordsize)主要用途:搜索短的基序,如验证PCR引物的特异性第二十八页,共九十二页,编辑于2023年,星期四Blastn---1第二十九页,共九十二页,编辑于2023年,星期四Blastn---1第三十页,共九十二页,编辑于2023年,星期四Blastn---1Blastn1的作用:①对于已知的基因,可以分析其相似基因;②对于未知的基因片段,可以分析其属于什么基因。第三十一页,共九十二页,编辑于2023年,星期四Blastn---1第三十二页,共九十二页,编辑于2023年,星期四Blastn---1第三十三页,共九十二页,编辑于2023年,星期四Blastn---2WhatisEST?第三十四页,共九十二页,编辑于2023年,星期四Blastn---2第三十五页,共九十二页,编辑于2023年,星期四Blastn---2有什么作用?对于新基因,可以了解基因的结构特征,5-UTR和3-UTR的大小.

第三十六页,共九十二页,编辑于2023年,星期四Blastp第三十七页,共九十二页,编辑于2023年,星期四Blastp第三十八页,共九十二页,编辑于2023年,星期四Blastp第三十九页,共九十二页,编辑于2023年,星期四Blastp第四十页,共九十二页,编辑于2023年,星期四Blastp第四十一页,共九十二页,编辑于2023年,星期四Blastp第四十二页,共九十二页,编辑于2023年,星期四BlastpBlastp的作用:①对于已知的蛋白,可以分析其相似蛋白;②对于未知的蛋白片段,可以分析其属于什么蛋白。第四十三页,共九十二页,编辑于2023年,星期四具体步骤1.登陆blast主页

/BLAST/2.根据数据类型,选择合适的程序3.填写表单信息4.提交任务5.查看和分析结果第四十四页,共九十二页,编辑于2023年,星期四第四十五页,共九十二页,编辑于2023年,星期四rice第四十六页,共九十二页,编辑于2023年,星期四第四十七页,共九十二页,编辑于2023年,星期四第四十八页,共九十二页,编辑于2023年,星期四第四十九页,共九十二页,编辑于2023年,星期四Blastx第五十页,共九十二页,编辑于2023年,星期四Blastx第五十一页,共九十二页,编辑于2023年,星期四Blastx第五十二页,共九十二页,编辑于2023年,星期四BlastxBlastx:

分析你的基因编码什么产物?分析你的基因是否是新基因?第五十三页,共九十二页,编辑于2023年,星期四Blastx第五十四页,共九十二页,编辑于2023年,星期四tBlastn第五十五页,共九十二页,编辑于2023年,星期四tBlastn第五十六页,共九十二页,编辑于2023年,星期四tBlastntBLASTn的作用:已知一种蛋白序列,在另一物种中进行其同源蛋白基因的电子克隆(insilicocloning);寻找一个新的蛋白质序列(如双向电泳得到的)是否已有核酸序列,是否可以克隆?第五十七页,共九十二页,编辑于2023年,星期四Blastx当Blastx没有结果时,可以考虑使用。第五十八页,共九十二页,编辑于2023年,星期四第一节序列比对第二节Blast应用第三节序列功能分析第五十九页,共九十二页,编辑于2023年,星期四序列分析的目的是什么?

--为了功能的分析--拿到一个基因/蛋白质序列,我能做什么?第六十页,共九十二页,编辑于2023年,星期四序列组成/分子量/等电点---初级分析酶切位点分析(载体构建)基因结构分析/启动子序列分析序列功能分析的内容

第六十一页,共九十二页,编辑于2023年,星期四Part1.初级序列分析序列的组成/分子量/等电点分析第六十二页,共九十二页,编辑于2023年,星期四/第六十三页,共九十二页,编辑于2023年,星期四第六十四页,共九十二页,编辑于2023年,星期四Part2.

酶切位点分析

只要进行基因工程利用必须用到各种限制性内切酶如GGATCCBamHI第六十五页,共九十二页,编辑于2023年,星期四进行酶切位点分析的时候,对于构建载体,我们需要知道的信息是你的序列中有/没有某个酶的位点?为什么?如果答案是“有”,是什么情况?“没有”又是什么情况?PlasmidvectorSacIXbaIHindIIIHindIIIXbaICloningsiteSacI第六十六页,共九十二页,编辑于2023年,星期四Part3.基因结构分析/启动子序列分析第六十七页,共九十二页,编辑于2023年,星期四1)基因结构分析:了解基因的内含子/外显子排列方式;例子1:水稻6PGDH基因进化分析的结果表明其可能来源于内共生(基因结构分析表明其没有内含子).例子2:NHX基因第六十八页,共九十二页,编辑于2023年,星期四1)基因结构分析:GenomicDNAcDNA第六十九页,共九十二页,编辑于2023年,星期四用softberry预测基因结构/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind第七十页,共九十二页,编辑于2023年,星期四什么是HMM?HiddenMarkovModels(HMMs,隐马尔可夫模型)最早是在上个世纪60年代末70年代初提出来的一种概率论模型。进入80年代以后,逐渐被利用在各个领域。主要的应用领域:语音识别系统。生物学中的DNA/protein序列的分析。机器人的控制。文本文件的信息提取。第七十一页,共九十二页,编辑于2023年,星期四什么是HMM?对于给定的核苷酸序列,我们在位置p处出现的概率依赖于它后核苷酸序列。即任何一个核苷酸的出现并不是完全独立的。对于基因识别而言,HMM可以分为2种:按内容搜索:即根据核苷酸和密码子在编码区内的分布规律来确定蛋白质的编码区;按信号搜索:即通过分析编码区周围的信号(启动子\终止子\各种cis-element等来确定蛋白质的编码区。大家只要知道HMM是目前生物信息学中应用非常广泛的概率论模型,广泛应用于基因识别,其基本原理基于任何一个序列的出现都不是独立的。第七十二页,共九十二页,编辑于2023年,星期四一个例子:用softberry预测基因结构第七十三页,共九十二页,编辑于2023年,星期四2)启动子序列分析:

什么是启动子?启动子序列,一般在TSS之前2000bp,了解哪个位点是TSS,哪个是起始ATG?TSSATGTATApromoter转录起始位点(transcriptionstartsite,TSS)第七十四页,共九十二页,编辑于2023年,星期四2)启动子序列分析:

所以,我们必须得到TSS的位置.如何通过生物信息学方法确定TSS?

首先截取包括ATG之前3000bp和基因的序列采用以下两种方法1)软件预测,如Softberry;2)搜索EST数据库;第七十五页,共九十二页,编辑于2023年,星期四分析的目的:2)首先找到ATG前面约3000:如何通过生物信息学方法确定TSS?以AF486280为例.首先要找到包

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论