第四章、序列的同源比较及分子系统学和分子进化分析1ppt课件_第1页
第四章、序列的同源比较及分子系统学和分子进化分析1ppt课件_第2页
第四章、序列的同源比较及分子系统学和分子进化分析1ppt课件_第3页
第四章、序列的同源比较及分子系统学和分子进化分析1ppt课件_第4页
第四章、序列的同源比较及分子系统学和分子进化分析1ppt课件_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章第四章序列的同源比较及分序列的同源比较及分子系统学和分子进化子系统学和分子进化分析分析 主要内容主要内容 第一节、序列类似性比较第一节、序列类似性比较第二节、系统发育分析第二节、系统发育分析第一节、序列类似性比较第一节、序列类似性比较一、序列类似性比较简介一、序列类似性比较简介二、序列类似性比较根底知识二、序列类似性比较根底知识三、两个序列类似性比较方法三、两个序列类似性比较方法四、两个序列类似性比较软件与操作四、两个序列类似性比较软件与操作五、多个序列类似性比较软件与操作五、多个序列类似性比较软件与操作 一、序列类似性比较简介一、序列类似性比较简介1、序列比较的根本义务是:、序列比较的

2、根本义务是:发现序列之间的类似性发现序列之间的类似性区分序列之间的差别区分序列之间的差别2、目的:、目的:类似序列类似序列 类似的构造,类似的功类似的构造,类似的功能能 判别序列之间的同源性判别序列之间的同源性推测序列之间的进化关系推测序列之间的进化关系 3、序列比较的实际根底:进化学说、序列比较的实际根底:进化学说 一、序列类似性比较简介一、序列类似性比较简介进化分歧进化分歧进化趋同进化趋同直向同源直向同源 orthologous):不同种属的同源序列,是:不同种属的同源序列,是基因复制的结果。如:基因复制的结果。如:血红素和血红素和血红素。血红素。共生同源共生同源 paralogous):

3、同一种属的同源序列,是:同一种属的同源序列,是物种行成的结果。如:人和鼠的物种行成的结果。如:人和鼠的血红素。血红素。4 4、序列比较的根本操作是:比对、序列比较的根本操作是:比对alignalign 是指这两条序列中各个字符的一种一一是指这两条序列中各个字符的一种一一对应关系,或字符对比陈列。序列的比对对应关系,或字符对比陈列。序列的比对是一种关于序列类似性的定性描画,它反是一种关于序列类似性的定性描画,它反映在什么部位两条序列类似,在什么部位映在什么部位两条序列类似,在什么部位两条序列存在差别。最优比对提示两条序两条序列存在差别。最优比对提示两条序列的最大类似程度,指出序列之间的根本列的最

4、大类似程度,指出序列之间的根本差别。差别。一、序列类似性比较简介一、序列类似性比较简介1 1 假设有两条长度相近的、来自同一个字母表的序列,它们之间非常类假设有两条长度相近的、来自同一个字母表的序列,它们之间非常类似,仅仅是有一些细微的差别,例如字符的插入、字符的删除和字符交换,似,仅仅是有一些细微的差别,例如字符的插入、字符的删除和字符交换,要求找出这两条序列的差别。这种操作实践运用比较多,例如,有两个实验要求找出这两条序列的差别。这种操作实践运用比较多,例如,有两个实验室同时测定某个基因的室同时测定某个基因的DNADNA序列,其结果能够不一样,需求经过序列比较来序列,其结果能够不一样,需求

5、经过序列比较来比较实验结果。比较实验结果。2 2 假设有两条序列,要求判别能否有一条序列的前缀与另一条序列的后假设有两条序列,要求判别能否有一条序列的前缀与另一条序列的后缀类似,假设是,那么分别取出前缀和后缀。该操作常用于大规模缀类似,假设是,那么分别取出前缀和后缀。该操作常用于大规模DNADNA测序测序中序列片段的组装。中序列片段的组装。一、序列类似性比较简介一、序列类似性比较简介3 3 假设有两条序列,要求判别其中的一条序列能否是另一条序列的子序假设有两条序列,要求判别其中的一条序列能否是另一条序列的子序列。这种操作常用于搜索特定的序列方式。列。这种操作常用于搜索特定的序列方式。4 4 假

6、设有两条序列,要求判别这两条序列中能否有非常类似的子序列。假设有两条序列,要求判别这两条序列中能否有非常类似的子序列。这种操作可用于分析保守序列。这种操作可用于分析保守序列。一、序列类似性比较简介一、序列类似性比较简介二、序列类似性比较根底知识二、序列类似性比较根底知识1、字符串的操作、字符串的操作2、编辑间隔、编辑间隔3、打分矩阵、打分矩阵二、序列类似性比较根底知识二、序列类似性比较根底知识1、字符串的操作、字符串的操作特定的符号 代表字母表 A* 代表由字母表A中字符所构成的一系列有限长度序列或字符串或序列的集合 a、b、c代表单独的字符 s、t、u、v代表A*中的序列 |s|代表序列s的

7、长度二、序列类似性比较根底知识二、序列类似性比较根底知识1、字符串的操作、字符串的操作为了阐明序列为了阐明序列s子序列和子序列和s中单个字符,在中单个字符,在s中各中各字符之间用数字标明分割边境字符之间用数字标明分割边境例如,设例如,设s=ACCACGTA,那么,那么s可表示为可表示为 0A1C2C3A4C5G6T7A8 二、序列类似性比较根底知识二、序列类似性比较根底知识1、字符串的操作、字符串的操作S的子序列与子串的子序列与子串S的子序列:选取的子序列:选取s中的某些字符或删除中的某些字符或删除s中的某些字符中的某些字符 而构成而构成s的子序列的子序列 例如:例如: TTT 是是 ATAT

8、AT的子序列。的子序列。 S的子串:是由的子串:是由s中相继的字符所组成。中相继的字符所组成。 例如:例如:TAC是是AGTACA的子串,的子串, 但不是但不是TTGAC的子串是子序列。的子串是子序列。 子串是子序列子串是子序列 子序列不一定是子串子序列不一定是子串二、序列类似性比较根底知识二、序列类似性比较根底知识2、编辑间隔、编辑间隔GCATGACGAATCAG TATGACAAACAGC GCATGACGAATCAG TATGAC-AAACAGC 定性的描画定性的描画定量的数值定量的数值类似度类似度间隔间隔二、序列类似性比较根底知识二、序列类似性比较根底知识2、编辑间隔、编辑间隔两条序列

9、的类似程度的定量计算类似度,它是两个序列的函数,其值越大,表示两个序列越类似 两个序列之间的间隔。间隔越大,那么两个序列的类似度就越小 对于两条长度相等的序对于两条长度相等的序列,海明间隔等于对应列,海明间隔等于对应位字符不同的个数。位字符不同的个数。运用间隔不够灵敏:运用间隔不够灵敏:序列长度能够不同;序列长度能够不同;两条序列中各位置上的字符两条序列中各位置上的字符并一定是真正的对应关系。并一定是真正的对应关系。二、序列类似性比较根底知识二、序列类似性比较根底知识2、编辑间隔、编辑间隔字符编辑操作字符编辑操作Edit Operation 字符编辑操作可将一个序列转化为一个新序列字符编辑操作

10、可将一个序列转化为一个新序列 Matcha,a 字符匹配;字符匹配; Deletea,- 从第一条序列删除一个字符,或在第二条序从第一条序列删除一个字符,或在第二条序 列相应的位置插入空白字符;列相应的位置插入空白字符; Replacea,b 以第二条序列中的字符以第二条序列中的字符b 交换第一条序列交换第一条序列 中的字符中的字符a,ab; Insert-,b 在第一条序列插入空位字符,或删除第二条在第一条序列插入空位字符,或删除第二条 序列中的对应字符序列中的对应字符b。二、序列类似性比较根底知识二、序列类似性比较根底知识2、编辑间隔、编辑间隔ACCGACAATATGCATA ATAGGT

11、ATAACAGTCAACCGACAATATGCATA ACTGACAATATGGATA 第二条序列头尾颠倒第二条序列头尾颠倒第二条序列交换成互补碱基第二条序列交换成互补碱基CTAGTCGAGGCAATCTCTTGTCGAAGCAATCACTAGTCGAGGCAATCTGAACAGCTTCGTTAGT 二、序列类似性比较根底知识二、序列类似性比较根底知识2、编辑间隔、编辑间隔二、序列类似性比较根底知识二、序列类似性比较根底知识3、打分矩阵、打分矩阵 在打分矩阵中,详细地列出各种字符交换的得分,从而使得计算序列之间在打分矩阵中,详细地列出各种字符交换的得分,从而使得计算序列之间的类似度更为合理。在

12、比较蛋白质时,我们可以用打分矩阵来加强序列比对的的类似度更为合理。在比较蛋白质时,我们可以用打分矩阵来加强序列比对的敏感性。打分矩阵是序列比较的根底,选择不同的打分矩阵将得到不同的比较敏感性。打分矩阵是序列比较的根底,选择不同的打分矩阵将得到不同的比较结果,而了解打分矩阵的实际根据将有助于在实践运用中选择适宜的打分矩阵。结果,而了解打分矩阵的实际根据将有助于在实践运用中选择适宜的打分矩阵。二、序列类似性比较根底知识二、序列类似性比较根底知识3、打分矩阵、打分矩阵1、核酸打分矩阵设、核酸打分矩阵设DNA序列所用的字母表为序列所用的字母表为 = A,C,G,T a. 等价矩阵等价矩阵 b. BLA

13、ST矩阵矩阵 c. 转移矩阵转移矩阵transition,transversion 嘌呤:腺嘌呤嘌呤:腺嘌呤A,鸟嘌呤,鸟嘌呤G;嘧啶:胞嘧啶;嘧啶:胞嘧啶C,胸腺嘧,胸腺嘧啶啶T 二、序列类似性比较根底知识二、序列类似性比较根底知识3、打分矩阵、打分矩阵1、核酸打分矩阵、核酸打分矩阵 等价矩阵等价矩阵 等价矩阵是最简单的一种打分矩阵,其中,一样核苷等价矩阵是最简单的一种打分矩阵,其中,一样核苷酸匹配的得分为酸匹配的得分为“1,而不同核苷酸的交换得分为,而不同核苷酸的交换得分为“0没有得分。没有得分。 BLAST矩阵矩阵 BLAST 是目前最流行的核酸序列比较程序,这也是一是目前最流行的核酸序

14、列比较程序,这也是一个非常简单的矩阵,假设被比的两个核苷酸一样,那么个非常简单的矩阵,假设被比的两个核苷酸一样,那么得分为得分为“+5,反之得分为,反之得分为“-4。 转换转换-颠换矩阵颠换矩阵 核酸的碱基按照环构造分为两类,一类是嘌呤腺嘌核酸的碱基按照环构造分为两类,一类是嘌呤腺嘌呤呤A,鸟嘌呤,鸟嘌呤G,它们有两个环;另一类是嘧啶胞,它们有两个环;另一类是嘧啶胞嘧啶嘧啶C,胸腺嘧啶,胸腺嘧啶T,它们的碱基只需一个环。假设,它们的碱基只需一个环。假设DNA碱基的变化碱基交换坚持环数不变,那么称碱基的变化碱基交换坚持环数不变,那么称为转换为转换transition,如,如AG,CT;假设环数发

15、生;假设环数发生变化,那么称为颠换变化,那么称为颠换transversion,如,如AC,AT 等。在进化过程中,转换发生的频率远比颠换高,其中等。在进化过程中,转换发生的频率远比颠换高,其中转换的得分为转换的得分为“-1,而颠换的得分为,而颠换的得分为“-5。ATCGA1000T0100C0010G0001等价矩阵表等价矩阵表ATCGA5-4-4-4T-45-4-4C-4-45-4G-4-4-45ATCGA1-5-5-1T-51-1-5C-5-11-5G-1-5-51 转移矩阵转移矩阵 BLAST矩阵矩阵二、序列类似性比较根底知识二、序列类似性比较根底知识3、打分矩阵、打分矩阵二、序列类似性

16、比较根底知识二、序列类似性比较根底知识3、打分矩阵、打分矩阵li等价矩阵lii 氨基酸突变代价矩阵GCM liii疏水矩阵 livPAM矩阵Point Accepted Mutationlv BLOSUM矩阵l Blocks Amino Acid Substitution MatricesjijiRij01其中Rij代表打分矩阵元素i、j分别代表字母表第i和第j个字符。二、序列类似性比较根底知识二、序列类似性比较根底知识3、打分矩阵、打分矩阵遗传密码矩阵GCM GCM 矩阵经过计算一个氨基酸残基转变到另一个氨基酸残基所需的密码子变化数目而得到,矩阵元素的值对应于代价。假设变化一个碱基,就可以使

17、一个氨基酸的密码子改动为另一个氨基酸的密码子,那么这两个氨基酸的交换代价为1;假设需求2 个碱基的改动,那么交换代价为2;以此类推。留意,Met 到Tyr 的转变是仅有的密码子三个位置都发生变化的转换。Glx 代表Gly、Gln或Glu,而Asx 那么代表Asn 或Asp,X 代表恣意氨基酸。GCM常用于进化间隔的计算,其优点是计算结果可以直接用于绘制进化树,但是它在蛋白质序列比对尤其是类似程度很低的序列比对中很少被运用。二、序列类似性比较根底知识二、序列类似性比较根底知识3、打分矩阵、打分矩阵疏水矩阵是根据氨基酸残基交换前后疏水性的变化而疏水矩阵是根据氨基酸残基交换前后疏水性的变化而得到得分

18、矩阵。假设一次氨基酸交换疏水特性不发生得到得分矩阵。假设一次氨基酸交换疏水特性不发生太大的变化,那么这种交换得分高,否那么交换得分太大的变化,那么这种交换得分高,否那么交换得分低。低。二、序列类似性比较根底知识二、序列类似性比较根底知识3、打分矩阵、打分矩阵 PAM 矩阵矩阵 是第一个广泛运用的最优矩阵,它是基于进化原理的,建立在进化的点接受突变模是第一个广泛运用的最优矩阵,它是基于进化原理的,建立在进化的点接受突变模型型PAMPoint Accepted Mutation根底上,经过统计类似序列比对中的各种氨基根底上,经过统计类似序列比对中的各种氨基酸交换发生率而得到该矩阵。酸交换发生率而得

19、到该矩阵。Dayhoff 和她的同事们研讨了和她的同事们研讨了71 个相关蛋白质家族的个相关蛋白质家族的1572 个突变,发现蛋白质家族中氨基酸的交换并不是随机的,由此,断言一些氨基酸个突变,发现蛋白质家族中氨基酸的交换并不是随机的,由此,断言一些氨基酸的交换比其他交换更容易发生,其主要缘由是这些交换不会对蛋白质的构造和功能产的交换比其他交换更容易发生,其主要缘由是这些交换不会对蛋白质的构造和功能产生太大的影响。假设氨基酸的交换是随机的,那么,每一种能够的取代频率仅仅取决生太大的影响。假设氨基酸的交换是随机的,那么,每一种能够的取代频率仅仅取决于不同氨基酸出现的背景频率。然而,在相关蛋白中,取

20、代频率大大地倾向于那些不于不同氨基酸出现的背景频率。然而,在相关蛋白中,取代频率大大地倾向于那些不影响蛋白质功能的取代,换句话说,这些点突变曾经被进化所接受。这意味着,在进影响蛋白质功能的取代,换句话说,这些点突变曾经被进化所接受。这意味着,在进化历程上,相关的蛋白质在某些位置上可以出现不同的氨基酸。化历程上,相关的蛋白质在某些位置上可以出现不同的氨基酸。二、序列类似性比较根底知识二、序列类似性比较根底知识3、打分矩阵、打分矩阵 PAM 矩阵矩阵 一个一个PAM 就是一个进化的变异单位,即就是一个进化的变异单位,即1%的氨基酸改动。但是,这并不意味着经的氨基酸改动。但是,这并不意味着经过过10

21、0 次次PAM后,每个氨基酸都发生变化,由于其中一些位置能够会经过多次改动,后,每个氨基酸都发生变化,由于其中一些位置能够会经过多次改动,甚至能够变回到原先的氨基酸。因此,另外一些氨基酸能够不发生改动。甚至能够变回到原先的氨基酸。因此,另外一些氨基酸能够不发生改动。二、序列类似性比较根底知识二、序列类似性比较根底知识3、打分矩阵、打分矩阵两个一样的残基之间的类似性分值越高,比较保两个一样的残基之间的类似性分值越高,比较保守,不容易突变;守,不容易突变;两个一样的残基之间的类似性分值越低,比较容两个一样的残基之间的类似性分值越低,比较容易突变;易突变;两个不同的残基之间的类似性分值越高,两个不同

22、的残基之间的类似性分值越高,进化过程中容易发生互换;进化过程中容易发生互换;两个不同的残基之间的类似性分值为负值,两个不同的残基之间的类似性分值为负值,进化过程中不容易发生互换。进化过程中不容易发生互换。二、序列类似性比较根底知识二、序列类似性比较根底知识3、打分矩阵、打分矩阵BLOSUM 矩阵 是由是由Henikoff 首先提出的另一种氨基酸交换矩阵,它也是经过统计类似蛋白质序列的首先提出的另一种氨基酸交换矩阵,它也是经过统计类似蛋白质序列的交换率而得到的。交换率而得到的。PAM 矩阵是从蛋白质序列的全局比对结果推导出来的,而矩阵是从蛋白质序列的全局比对结果推导出来的,而BLOSUM 矩阵那

23、么是从蛋白质序列块短序列比对而推导出来的。矩阵那么是从蛋白质序列块短序列比对而推导出来的。 但在评价氨基酸交换频率时,运用了不同的战略。根本数据来源于但在评价氨基酸交换频率时,运用了不同的战略。根本数据来源于BLOCKS 数据数据库,其中包括了部分多重比对包含较远的相关序列,与在库,其中包括了部分多重比对包含较远的相关序列,与在PAM 中运用较近的相关序中运用较近的相关序列相反。列相反。 虽然在这种情况下没有用进化模型,但它的优点在于可以经过直接察看而不是经虽然在这种情况下没有用进化模型,但它的优点在于可以经过直接察看而不是经过外推获得数据。同过外推获得数据。同PAM模型一样,也有一系列的模型

24、一样,也有一系列的BLOSUM 矩阵,可以根据亲缘关矩阵,可以根据亲缘关系的不同来选择不同的系的不同来选择不同的BLOSUM 矩阵进展序列比较。然而,矩阵进展序列比较。然而,BLOSUM 矩阵阶数的意矩阵阶数的意义与义与PAM 矩阵正好相反。低阶矩阵正好相反。低阶PAM 矩阵适宜用来比较亲缘较近的序列,而低阶矩阵适宜用来比较亲缘较近的序列,而低阶BLOSUM 矩阵更多是用来比较亲缘较远的序列。普通来说,矩阵更多是用来比较亲缘较远的序列。普通来说,BLOSUM-62 矩阵适于矩阵适于用来比较大约具有用来比较大约具有62类似度的序列,而类似度的序列,而BLOSUM-80 矩阵更适宜于类似度为矩阵更

25、适宜于类似度为80%左左右的序列。右的序列。二、序列类似性比较根底知识二、序列类似性比较根底知识3、打分矩阵、打分矩阵BLOSUM 62三、两个序列类似性比较方法三、两个序列类似性比较方法1、矩阵作图法进展序列比较、矩阵作图法进展序列比较 进展序列比较的一个简单的方法是进展序列比较的一个简单的方法是“矩阵作图法或矩阵作图法或“对角线作图,这种方法是由对角线作图,这种方法是由Gibb Gibb 首先提出。将两条待首先提出。将两条待比较的序列分别放在矩阵的两个轴上,一条在比较的序列分别放在矩阵的两个轴上,一条在Y Y轴,从下往轴,从下往上,一条在上,一条在X X 轴,从左到右,当对应的行与列的序列

26、字符匹轴,从左到右,当对应的行与列的序列字符匹配时,那么在矩阵对应的位置作出配时,那么在矩阵对应的位置作出“点标志。逐个比较一点标志。逐个比较一切的字符对,最终构成点矩阵。切的字符对,最终构成点矩阵。一样子串矩阵标志图一样子串矩阵标志图反向序列矩阵标志图反向序列矩阵标志图三、两个序列类似性比较方法三、两个序列类似性比较方法1、矩阵作图法进展序列比较、矩阵作图法进展序列比较多个一样延续子序列矩阵标志图多个一样延续子序列矩阵标志图三、两个序列类似性比较方法三、两个序列类似性比较方法1、矩阵作图法进展序列比较、矩阵作图法进展序列比较 两条序列中有很多匹配的字符对,因此在点矩阵中会构成很多点标志。当对

27、长并且类似的序列进展比较时,这样的点阵图很快会变得非常复杂和模糊。运用滑动窗口替代一次一个位点的比较是处理这个问题的有效方法。 三、两个序列类似性比较方法三、两个序列类似性比较方法1、矩阵作图法进展序列比较、矩阵作图法进展序列比较a对人类对人类Homo sapiens与黑猩猩与黑猩猩Pongo pygmaeus的的球蛋白基因球蛋白基因序列进展比较的完好点阵图。序列进展比较的完好点阵图。b利用滑动窗口对以上的两种球蛋白基因序列进利用滑动窗口对以上的两种球蛋白基因序列进展比较的点阵图,其中窗口大小为展比较的点阵图,其中窗口大小为10个核苷酸,类似度阈值为个核苷酸,类似度阈值为8。 2、动态规化算法

28、、动态规化算法 进展序列的两两比对最直接的方法就是生成两条序列一切进展序列的两两比对最直接的方法就是生成两条序列一切能够的比对,分别计算得分或代价函数,然后挑选一个能够的比对,分别计算得分或代价函数,然后挑选一个得分最高或代价最小的比对作为最终结果。得分最高或代价最小的比对作为最终结果。 但是,两条序列能够的比对数非常多,是序列长度的指数但是,两条序列能够的比对数非常多,是序列长度的指数函数,随着序列长度的增长,计算量呈指数增长。从算法时函数,随着序列长度的增长,计算量呈指数增长。从算法时间复杂性的角度来看,这种比对方法显然不适宜。用前面所间复杂性的角度来看,这种比对方法显然不适宜。用前面所引

29、见的点矩阵分析方法,在寻觅斜线及斜线组合时,依然需引见的点矩阵分析方法,在寻觅斜线及斜线组合时,依然需求较大的运算量。因此,必需设计高效的算法以找出最优的求较大的运算量。因此,必需设计高效的算法以找出最优的比对。比对。 著名的著名的Needleman-Wunsch Needleman-Wunsch 算法,就是针对寻求最正确序算法,就是针对寻求最正确序列比对这一问题所设计的动态规划寻优战略。列比对这一问题所设计的动态规划寻优战略。三、两个序列类似性比较方法三、两个序列类似性比较方法2、动态规化算法、动态规化算法三、两个序列类似性比较方法三、两个序列类似性比较方法2、动态规化算法、动态规化算法三、

30、两个序列类似性比较方法三、两个序列类似性比较方法2、动态规化算法、动态规化算法三、两个序列类似性比较方法三、两个序列类似性比较方法求解过程求解过程起点起点终点终点ATTCCGAAGA AGTCGAAGGT 从两个序列前端开场从两个序列前端开场 逐渐推进逐渐推进 直到两个序列的末端。直到两个序列的末端。2、动态规化算法、动态规化算法三、两个序列类似性比较方法三、两个序列类似性比较方法四、两个序列类似性比较操作四、两个序列类似性比较操作 1、ebi.ac.uk/emboss/align/四、两个序列类似性比较操作四、两个序列类似性比较操作 2、/blast/bl2s

31、eq/wblast2.cgi五、多个序列类似性比较操作五、多个序列类似性比较操作 与序列两两比对不一样,与序列两两比对不一样,序列多重比对序列多重比对Multiple Alignment的目的是发现多的目的是发现多条序列的共性。假设说序列两条序列的共性。假设说序列两两比对比较主要用于建立两条两比对比较主要用于建立两条序列的同源关系和推测它们的序列的同源关系和推测它们的构造、功能,那么,同时比对构造、功能,那么,同时比对一组序列对于研讨分子构造、一组序列对于研讨分子构造、功能及进化关系更为有用。功能及进化关系更为有用。 五、多个序列类似性比较操作五、多个序列类似性比较操作 例如,某些在生物学上有

32、重要意义的类似性只能经过将例如,某些在生物学上有重要意义的类似性只能经过将多个序列对比陈列起来才干识别。同样,只需在多序列比对多个序列对比陈列起来才干识别。同样,只需在多序列比对之后,才干发现与构造域或功能相关的保守序列片段。之后,才干发现与构造域或功能相关的保守序列片段。 对于一系列同源蛋白质,人们希望研讨隐含在蛋白质序对于一系列同源蛋白质,人们希望研讨隐含在蛋白质序列中的系统发育的关系,以便更好地了解这些蛋白质的进化。列中的系统发育的关系,以便更好地了解这些蛋白质的进化。在实践研讨中,生物学家并不是仅仅分析单个蛋白质,而是在实践研讨中,生物学家并不是仅仅分析单个蛋白质,而是更着重于研讨蛋白

33、质之间的关系,研讨一个家族中的相关蛋更着重于研讨蛋白质之间的关系,研讨一个家族中的相关蛋白质,研讨相关蛋白质序列中的保守区域,进而分析蛋白质白质,研讨相关蛋白质序列中的保守区域,进而分析蛋白质的构造和功能。序列两两比对往往不能满足这样的需求,难的构造和功能。序列两两比对往往不能满足这样的需求,难以发现多个序列的共性,必需同时比对多条同源序列。以发现多个序列的共性,必需同时比对多条同源序列。五、多个序列类似性比较操作五、多个序列类似性比较操作 多序列比对的意义多序列比对的意义 用于描画一组序列之间的类似性关系,以便用于描画一组序列之间的类似性关系,以便了解一个基因家族的根本特征,寻觅了解一个基因

34、家族的根本特征,寻觅motif,保守区域等保守区域等 用于描画一个同源基因之间的亲缘关系的远用于描画一个同源基因之间的亲缘关系的远近,运用到分子进化分析中近,运用到分子进化分析中 其他运用,如构建其他运用,如构建profile,打分矩阵等,打分矩阵等五、多个序列类似性比较操作五、多个序列类似性比较操作 多序列比对的方法多序列比对的方法 同源性分析中经常要经过多序列比对来找出序列之间同源性分析中经常要经过多序列比对来找出序列之间的相互关系,和的相互关系,和blast的部分匹配搜索不同,多序列比对的部分匹配搜索不同,多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序大多都是采用全局比对的

35、算法。这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程,特别是的自动多序列比对是一个非常复杂且耗时的过程,特别是序列数目多,且序列长的情况下。序列数目多,且序列长的情况下。多序列比对大体上分为两大类:多序列比对大体上分为两大类: 1、手工比对辅助编辑软件如、手工比对辅助编辑软件如bioedit,seaview,Genedoc等:经过辅助软件的不同颜色显示不同残基,等:经过辅助软件的不同颜色显示不同残基,靠分析者的察看来改动比对的形状。手工比对方法在文献靠分析者的察看来改动比对的形状。手工比对方法在文献中经常看到,由于难免参与一些客观要素,手工比对通常中经常看到,由于难免参与一些

36、客观要素,手工比对通常被以为有很大的随意性。但在运转经过测试并具有较高可被以为有很大的随意性。但在运转经过测试并具有较高可信度的计算机程序根底上,结合实验结果或文献资料,对信度的计算机程序根底上,结合实验结果或文献资料,对多序列比对结果进展手工修饰,也是非常必要的。多序列比对结果进展手工修饰,也是非常必要的。五、多个序列类似性比较操作五、多个序列类似性比较操作 2、 计算机程序自动比对 经过特定的算法好像步法,渐进法等,由计算机程序自动搜索最正确的多序列比对形状: 1、同步法 将序列两两比对时的二维动态规划矩阵扩展到三维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大,对于计算机

37、系统的资源要求比较高,普通只需在进展少数的较短的序列的比对的时候才会用到这个方法。 2、步进法 最常见的就是clustal所采用的方法。其根本思想就是基于类似序列通常具有进化相关性的这一假设。Clustal的渐进比对过程:在比对过程中,先对一切的序列进展两两比对并计算它们类似性分值,然后根据类似性分值将它们分成假设干组,并在每组之间进展比对,计算类似性分值。根据类似性分值继续分组比对,直到得到最终比对结果。在比对过程中,类似性程度较高的序列先进展比对而间隔较远的序列添加在后面。五、多个序列类似性比较操作五、多个序列类似性比较操作 氨基酸分组及其代表性颜色氨基酸分组及其代表性颜色五、多个序列类似

38、性比较操作五、多个序列类似性比较操作 多序列比对工具多序列比对工具Clustal的运用的运用 Clustal是一个单机版的基于渐进比对的多序列是一个单机版的基于渐进比对的多序列比对工具,由比对工具,由Higgins D.G.等开发,有运用于多种操等开发,有运用于多种操作系统平台的版本。作系统平台的版本。Clustal的任务原理的任务原理 CLUSTAL是一种渐进的比对方法,先将多个序是一种渐进的比对方法,先将多个序列两两比对构建间隔矩阵,反响序列之间两两关系;列两两比对构建间隔矩阵,反响序列之间两两关系;然后根据间隔矩阵计算产生系统进化指点树,对关系然后根据间隔矩阵计算产生系统进化指点树,对关

39、系亲密的序列进展加权;然后从最严密的两条序列开场,亲密的序列进展加权;然后从最严密的两条序列开场,逐渐引入临近的序列并不断重新构建比对,直到一切逐渐引入临近的序列并不断重新构建比对,直到一切序列都被参与为止。序列都被参与为止。 五、多个序列类似性比较操作五、多个序列类似性比较操作 多序列比对工具多序列比对工具Clustal的运用的运用 Clustal输入输出格式输入格式:输入输出格式输入格式:输入序列的格式比较灵敏,支持输入序列的格式比较灵敏,支持FASTA、PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。等格式。输出格式:输出格式也可以选择,有输出格式:输

40、出格式也可以选择,有ALN、GCG、PHYLIP和和NEXUS等,用户可以根据本人的需求选择等,用户可以根据本人的需求选择适宜的输出格式。适宜的输出格式。五、多个序列类似性比较操作五、多个序列类似性比较操作 多序列比对工具多序列比对工具Clustal的运用的运用 单机操作单机操作ClustalX 五、多个序列类似性比较操作五、多个序列类似性比较操作 多序列比对工具多序列比对工具Clustal的运用的运用 网上操作网上操作ClustalWCLUSTAL W ebi.ac.uk/clustalw/五、多个序列类似性比较操作五、多个序列类似性比较操作 多序列比对局限性多序列比对局限性 目前,构建多序列比对模型的方法大体可以分为目前,构建多序列比对模型的方法大体可以分为两大类:第一类是基于氨基酸残基的类似性,如物两大类:第一类是基于氨基酸残基的类似性,如物化性质、残基之间的可突变性等;另一类方法那么化性质、残基之间的可突变性等;另一类方法那么主要利用蛋白质分子的二级构造和三级构造信息,主要利用蛋白质分子的二级构造和三级构造信息,也就是说根据序列的高级构造特征确定比对结果。也就是说根据序列的高级构造特征确定比对结果。显然,这两种方法所得结果能够有很大差别。普通显然

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论