版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、杜 娟 2013.03.13,生物信息学-第三章,序列比对分析(一),主要内容,基本概念 计分矩阵 空位罚分 文献选读,2,人与狗是否同源?,3,序列的相似性,相似性 (similarity) 是指一种很直接的数量关系。比如说,A序列和B序列的相似性是80,或者4/5。这是个量化的关系。,4,一 基本概念,序列的相似性,相似性 (similarity) 通常在某些位点上有一些氨基酸被另外一些化学物理特性相近的氨基酸所代替,这种突变可称为保守突变。 将保守突变的因素考虑在内,就可以对两序列的相似程度打分,所得分值即代表其相似的程度。,5,一致性 (identity): 两个蛋白质有一定数量的氨基
2、酸在排比的位点上是相同的,即如果38个氨基酸的蛋白质中15个位点相同我们说它们一致性为39.4%. MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG -PRNGTIKIYENPARTFTRPYSAKNITIYKEND,6,所以, 相似性的数值一定比一致性的要( ) 大 or 相等 or 小,7,同源性 (homology): 指从一些数据中推断出的两个基因或蛋白质序列具有共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。,生物序列的同源性,8,相似性和同源性关系,一般来说,序列间的相似性越高的话,它们是同源序列的
3、可能性就更高。 注意不要等价混用这两个名词。 A序列和B序列的同源性为80,记住这种说法是错误的!,9,同源(Homology),同源是根据相似性得出的进化关系结论。 同源或非同源(没有度量程度的差别) 两条序列同源意味着它们拥有共同的祖先。 同源的几种类型: 直系同源(Orthology) 旁系同源(Paralogy) 异同源(Xenology),10,直系同源(Orthology),由最后共同祖先中的一个基因通过物种分化 (Speciation)而产生的同源基因,称为直系同源基因(Ortholog)。 直系同源基因在不同物种中的功能通常相同 (但反过来不一定正确)。,11,旁系同源(Par
4、alogy),通过基因重复(Gene duplication)产生的基因称为旁系同源基因(Paralog)。,12,13,例 子,异同源(Xenology),通过基因水平转移(Horizontal Gene Transfer, HGT)而获得的同源基因,称为异同源基因(Xenolog)。,14,两次物种分化事件:Sp1和Sp2 两次基因复制事件:Dp1和Dp2 一次基因水平转移(向左的红箭头),15,相似与同源之间的关系,相似可能是随机产生的,或者通过趋同进化(convergence evolution)形成相似的序列、结构和功能。 相似也可由两个来自共同祖先的序列通过趋异进化(diverge
5、nt evolution)产生。通过这种方式产生的相似序列被称为同源序列。,16,什么是序列比对?,序列比对(Sequence Alignment)是在两条(双序列比对)或多条(多序列比对)序列中寻找按照相同次序排布的一连串的单个字符或字符模块的过程。 按比对序列条数分类 双序列比对:两条序列的比对 多序列比对:三条或以上序列的比对,17,HEAGAWGHEE,PAWHEAE,sequence 1:,sequence 2:,例 子,注: 短横线”-”表示插入的空位,18,HEAGAWGHEE,PAWHEAE,sequence 1:,sequence 2:,例 子,sequence 3:,EAA
6、WGHAE,19,我们为什么关注序列比对?,相似的序列可能具有相似的功能与结构 发现一个基因或蛋白哪些区域容易发生突变,哪些位点突变后对功能没有影响 BLAST搜索的基础 发现生物进化方面的信息,20,序列比对两种类型,全局序列比对 定义:在全局范围内对两条序列进行比对打分的方法 适合于非常相似且长度近似相等的序列 局部序列比对 定义:一种寻找匹配子序列的序列比对方法 适合于一些片段相似而另一些片段相异的序列,21,例 子,22,Sequence 1: HEAGAWGHEE Sequence 2: PAWHEAE,序列比对例子,23,例 子,HEAGAWGHE-E P-A-W-HEAE,One
7、 alignment,比对计分方法,最佳比对,比对得分值 = 匹配得分 - 错配得分 - 空位罚分 最佳比对:在所有可能的比对结果中,比对得分值最高的比对即为最佳比对。,26,二 记分矩阵,DNA计分矩阵 蛋白质计分矩阵 广泛使用的两种矩阵 PAM BLOSUM,27,记分矩阵 (SCORING MATRICES),DNA Scoring Matrices Amino Acid Substitution Matrices PAM (Point Accepted Mutation) BLOSUM (Blocks Substitution Matrix),DNA计分矩阵,Sequence 1 Se
8、quence 2,AGCT A1000 G0100 C0010 T0001,匹配: 1 错配: 0 分值:5,29,转换和颠换,表示转换(transition),表示颠换(transversions) 转换比颠换更容易发生,30,转换和颠换,转换速率是颠换3倍时的模型,31,蛋白质计分矩阵,PTHPLASKTQILPEDLASEDLTI,PTHPLAGERAIGLARLAEEDFGM,Sequence 1 Sequence 2,记分矩阵,T:G= -2 T:T = 5 Score= 48,CSTPAGND. C 9 S-1 4 T-1 1 5 P-3-1-1 7 A 0 1 0-1 4 G-3
9、 0-2-2 0 6 N-3 1 0-2-2 0 5 D-3 0-1-1-2-1 1 6 . .,CSTPAGND. C 9 S-1 4 T-1 1 5 P-3-1-1 7 A 0 1 0-1 4 G-3 0-2-2 0 6 N-3 1 0-2-2 0 5 D-3 0-1-1-2-1 1 6 . .,32,第一个用于序列分析的记分矩阵是被Dayhoff 等人于1978年构建的 矩阵是对组相似性达到以上紧密相关的蛋白质家族中个突变进行观察构建获得的,33,PAM(Point Accepted Mutation Matrices)矩阵,氨基酸容易被其它生化、物理特性相似的氨基酸替换 PAM1(1个
10、PAM单位)被定义为每100个残基出现一个被接受的点突变(氨基酸的置换不引起蛋白质功能上的显著变化) PAMn是PAM1自乘n次 PAM250、PAM120、PAM80和PAM60矩阵可用于相似性分别为20%、40%、50%和60%的序列比对,34,PAM250,各个氨基酸本身的替换频率最大,正值表示氨基酸之间的替换频率大,负值表示氨基酸之间的替换频率小,氨基酸本身的替换频率越高表示该氨基酸在自然界中比较少,35,36,64种密码子以及它们所编码的氨基酸,GAU (Asp/D) 天冬氨酸GAC (Asp/D) 天冬氨酸GAA (Glu/E) 谷氨酸GAG (Glu/E) 谷氨酸,模块替换矩阵B
11、LOSUM以序列片段为基础,它是 基于蛋白质模块(Block)数据库而建立起来的 在模块比对的每一列中,分别计算 两两氨基酸的变化情况,来自所有 模块的数值被用来计算BLOSUM矩阵 矩阵后面的数字表示构建此矩阵所用的 序列的相似程度,如BLOSUM62表示由 相似度为62%的序列构建,A A C E C,A - C = 0 A - E = -1 C - E = -4 A - A = 4 C - C = 9,A A C E C,BLOSUM矩阵 (Blocks Substitution Matrix),BLOSUM62,如何选择合适的评分矩阵?,一般来说,在局部相似性搜索上, BLOSUM 矩
12、阵较PAM要好 当比较距离相近的蛋白时,应选择低的PAM或高的BLOSUM矩阵;当比较距离较远的蛋白时,应选择高的PAM或低的BLOSUM矩阵 对于数据库搜索来说一般选择BLOSUM62矩阵 PAM矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域,39,空位用来表示序列进化过程中的插入或删除 空位值为负值 空位罚分的方法 线性空位罚分 (Linear gap penalty ) 仿射空位罚分 (Affine gap penalty ) 最优的序列比对通常具有以下两下特征: 尽可能多的匹配 尽可能少的空位 插入任意多的空位会产生较高的分数,但找到的并不一定是真正相似序列,4
13、0,三 空位罚分 (Gap Penalties),线性空位罚分( linear gap penalty ) 计算公式如下:,wx = g x g 空位罚分值 x 空位长度,41,HEAGAWGHE-E P-A-W-HEAE,Alignment 1,if g = -11 Gap Penalty:-11 * 5 = -55,HEAGAWGHE-E P-A-W-H-EAE,Alignment 2,例 子,42,仿射空位罚分( affine gap penalty ) 计算公式定义如下:,wx = g + r(x - 1) g 引入第一个空位罚分 r 空位延伸罚分 x 空位的长度 |g|r|,44,4
14、5,序列比对: 仿射空位罚分: 引入第一个空位罚分: g=-3 空位延伸罚分: r=-1 打分矩阵: BLOSUM62 得分 =?,例 子,(-2)+(-3)+4+(-3)+2*(-1)+11+(-3)+8+5+(-3)+5=17,严紧的罚分很难本来很相似的序列对准 松弛的罚分甚至可以使两个无关的序列达到100%的相似性,问题: 如何选择空位罚分值的大小?,四 文献选读,47,伴随成人期神经退行性变性的儿童期静态脑病(Static encephalopathy of childhood with neurodegeneration in adulthood (SENDA) ) 脑铁沉积 确诊为SENDA的5名患者的基因进行了分析。患者大脑萎缩并伴随认知障碍。,48,49,Xp11.23 WDR45,自噬作用,磷酸肌醇 FRRG基序,50,练 习 一,得分标准:匹配 +5 错
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深圳市易夏电子科技有限公司-加工承揽协议书
- 建筑工程技术实习报告
- 房屋委托装修出售合同
- 《重庆配合比宣贯》课件
- 版手房买卖合同
- 个人之间的委托投资协议
- 2024年度知识产权许可使用合同详细解读3篇
- 花的类型课件
- 2024年度物流合同:国际快递服务与供应链管理2篇
- 课件素材结束语图片
- 安德里兹FPS系列冲浆泵使用说明书
- 水声通信系统中的信道编码技术研究
- 钢结构课设钢结构平台计算书哈工大威海最终终
- PFMEA表格(范例)
- 前列腺增生的护理查房ppt课件
- 酒店前台专业术语常见缩写及解释
- 新教科版三年级上册科学 1.2《水沸腾了》 教案
- 潮州市乡镇信息技术教育的现状和对策
- 一体化净水设备安装、调试、运行操维护说明
- tpe、tpr-SGS检测报告(共4页)
- 行政执法程序流程图
评论
0/150
提交评论