版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DNA序列分类模型研究DNA序列分类模型研究12000年6月人类基因组计划中DNA全序列草图完成,2004年10月绘制了精确的全序列图,标志着生命科学“登月计划”又向前迈出一步,从此人类拥有了一部记录着自身生老病死及遗传进化全部信息的“天书”。DNA作为一种遗传物质,早已在50多年前就被发现。它是由4种碱基:腺嘌呤(A)、胞嘧呤C)、鸟嘌呤(G)及胸腺嘧呤(T)按一定顺序排成的长约30亿的序列。2000年6月人类基因组计划中DNA全序列草2生物数学模型第7讲扩展DNA序列分类模型研究课件3虽然全序列图绘制成功,但这个几十亿的长序列中既没有断句,也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。生物数学模型第7讲扩展DNA序列分类模型研究课件4但人们也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。但人们也发现了DNA序列中的一些规律性和结构。例如,在全序列5作为研究DNA序列结构的尝试,提出以下DNA序列的分类问题:(1)现有20个已知类别的人造DNA序列,其中第1~10序列为A类,第11~20序列为B类,现要求从中提取特征,构造分类方法,并用构造的方法对另外第21~40个未标明类别的人工序列进行分类,并写出结果。(2)用构造的分类方法来给部分天然DNA序列进行分类,给出分类结果。作为研究DNA序列结构的尝试,提出以下DNA序列的分类问题:6序列1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga序列1.aggcacggaaaaacgggaataacgga7方法1基于字母出现频率的分类不同段的DNA序列中,每个碱基出现的概率并不相同。A组的G含量较高,B组的T含量较高,为做定量化的分析!引入数学中的内积概念,即将(A,T,G,C)的频率分别作为四维向量的四个分量(PA,PT,PG,PC),于是得到两组向量Ai,Bi(i=1,…10)然后将未知的某个序列作为一个新的向量C,将它归入A组或B组。在Hilbert空间中将向量归一化后计算内积内积小的两个序列!我们可以认为它们的相关性小!而内积大的序列!我们就认为其相关性大方法1基于字母出现频率的分类不同段的DNA序列中,每个碱基8方法一评价方法一是从概率统计的角度分析问题局限性:统计字母出现的频率时,忽略了字母所在位置以及各个字母之间的相互关系,造成用这种方法对已知分类的序列进行检验时,个别频率特性不明显的序列不太容易分类,所以这种方法虽然有其科学性,但还不够完善,不能完全体现序列的所有特征。方法一评价方法一是从概率统计的角度分析问题9方法二基于字母出现周期性对于某单个字母,以a为例,,设它在序列中第t1,t2,…,tk+1个位置出现,我们试图找出这些数字之间的关联,首先,可以认识到考查ti的分布及绝对值是意义不大的,因为序列是一大段DNA中的一个片断,片断的起始段不同会导致ti的不同,于是为了抵消ti的线性位移,考虑下面一组值即字母a出现的间距。方法二基于字母出现周期性对于某单个字母,以a为例,,10由所得数据知,Varg与Vart上述方法对A、B组的区分率很高,于是可以用可以考虑序列si的波动幅度,而表征波动幅度的量在统计中是中心矩。作为这种方法的目标函数由所得数据知,Varg与Vart上述方法对A、B组的区分率11生物数学模型第7讲扩展DNA序列分类模型研究课件12可以把一串DNA序列看成一个信息流,关于A、B的分类,可以考虑其单位序列所含信息量(即熵)的多少。从直观上来看,我们可以认为重复得越多,信息量越少。设序列为L=(a1,a2,…,an),前m个字符所带的信息量为fm(L)记即gm(L)为加上第m个字母之后所增加的信息量可以把一串DNA序列看成一个信息流,关于A、B的分类,可13现在的问题就归结为如何找出一个合适的gm(l),不妨设g具有以下性质:性质1:gm(l)>0,即任意加上一个字符,它或多或少带有一定信息量。性质2:第m个字符(或者是以它结尾的较短序列)与前面的序列(信息流)重复得越多,gm(l)的值必然越小。性质3:第m个字符(或者是以它结尾的较短序列)如果和与它靠得越近的重复,gm(l)的值越小,和与它离得越远的重复gm(l)的值越大。性质4:f0(l)=0。现在的问题就归结为如何找出一个合适的gm(l),不妨设g具有14以第m个字符结尾的i字串且以第t个字符结尾的i字串完全相同否则以第m个字符结尾的i字串且以第t个字符结尾的i字串完全相同15定义为单位长度所带的信息量不妨设ti=ci-1,c>0,p=6另外当取a=0.392,b=0.1,c=2可以将A、B组的F值分得较开,并可以用来处理未知数据。定义为单位长度所带的信息量不妨设ti=ci-1,c>0,p=16方法三讨论这种方法从序列的信息量(熵)入手,认为当序列中有大量的重复元素时,信息量就会比重复少的序列所含有的信息少,所以,其侧重点是是序列前后的重复性,也就是序列元素的相关性。从A、B两类数据中可以很清楚地看到B组中序列重复量大,所含的信息明显少于A组。而这个特征就被我们定义的熵函数凸显出来。将DNA序列看成一个信息流的方法由于其在实际问题中的广泛背景,将会是一个很有价值的想法。统计学和信息论的一套非常成熟的强大工具也会在DNA研究中发挥巨大的作用。方法三讨论这种方法从序列的信息量(熵)入手,认为当序列中有大17考虑采用序列中的A、G、T、C的含量百分比作为该序列的特征百分比分别记为na,ng,nt,nc则得到一组表征该序列特征的四维向量(na,ng,nt,nc),由相关性取三维向量(na,ng,nt)即可一般的判别问题为:设有k个类别G1,G2,…Gk,对任意一个属于Gi类样品x,其特征向量X的值都可以获得,现给定一个由已知类别的一些样品x1,x2,…xn组成的学习样本,要求对一个来自这k个类别的某样品x,根据其特征向量X的值作出其所属类别的判断。方法四常规数学模型考虑采用序列中的A、G、T、C的含量百分比作为该序列的特18A欧氏距离(Euclid)分类模型把每个样本视为三维空间的一个点,以其到不同集合几何中心的欧氏距离作为判据,具体的算法如下:1、计算属于A类与属于B类的20个样本点集合各自的几何中心:A欧氏距离(Euclid)分类模型把每个样本视为三维空间的192、对于给定的样本点Xi,分别计算该点到CA,CB的的欧氏距离:3、判别准则如下:a、若DA<DB,则判为A类b、DB<DA,则判为B类c、若DA=DB,则列为不可判用上述算法对已知学习样本A1-A20进行分类,除了A4分类错误外,其余都分类正确。2、对于给定的样本点Xi,分别计算该点到CA,CB的的欧氏距20模型评价用欧氏距离作为判据虽然简便直观,但存在着明显的缺陷。从概率统计的角度来看,用欧氏距离描述随机点之间的距离并不好。因此当待分类样本是随机样本,具有一定的统计性质时,这个模型并不能很好的描述两个随机点之间的接近程度。模型评价用欧氏距离作为判据虽然简便直观,但存在着明显的缺陷。21B氏距离(Mahalanobis)分类模型为了克服采用欧氏距离时的缺陷,我们采用马氏距离来代替欧氏距离。马氏距离定义为:判别准则如下:a、若dm(X,A)<dm(X,B),则判为A类b、若dm(X,B)<dm(X,A),
,则判为B类c、若dm(X,A)=dm(X,B),
,则列为不可判用上述算法对已知学习样本A1-A20进行分类,除了A4分类错误外,其余都分类正确。B氏距离(Mahalanobis)分类模型为了克服采22CFisher准则分类模型Fisher分类法是另一种基于几何特性的分类法分类法的思想也是把三维空间的样本映射为一维的特征值y具体的作法是先引入一个与样本同维的待定向量u,令y=uTxu的选取,要使同一类别产生的y尽量聚拢,不同类别产生的y尽量拉开CFisher准则分类模型Fisher分类法是另一种基于几23样品X到某一类G的距离定义为:其中c为G的几何中心判别准则如下:a、若L(X,A)<L(X,B),则判为A类b、若L(X,B)<L(X,A),
,则判为B类c、若L(X,A)=L(X,B),
,则列为不可判用上述算法对已知学习样本A1-A20进行分类,除了A4分类错误外,其余都分类正确。样品X到某一类G的距离定义为:其中c为G的几何中心判别准则如24方法四三种分类模型的比较有的未知序列,三种方法给出了不同结果方法四三种分类模型的比较有的未知序列,三种方法给出了不同结25对于任一个序列,当三种分类法结果完全一致时,认为它判别有效。对于任一个序列,当三种分类法结果不完全一致时,认为该序列为不可判类。考虑制定一个联合判定准则对于任一个序列,当三种分类法结果完全一致时,认为它判别有效。26方法五基于碱基相关性的分类模型通常任意两个数值序列的相关性都是通过这两个序列的相关函数来刻画的,由于本序列是非数值的序列,同时无法将碱基按通常的方式进行数值化,因而刻画任意两个序列的相关程度的变量需要重新定义!方法五基于碱基相关性的分类模型通常任意两个数值序列的相关27定义一:相关运算对于任意碱基m和n,相关运算的值由下表给定;定义一:相关运算对于任意碱基m和n,相关运算28定义二:哑元除四个碱基外,另行定义一个哑元,规定任意碱基与哑元作相关运算的结果都为0。定义二:哑元除四个碱基外,另行定义一个哑元,规定任意碱基29定义三:序列的延拓即在该序列的左右两端均用哑元填充定义三:序列的延拓即在该序列的左右两端均用哑元填充30定义四:序列的相关度对于任意的两个序列AN、BM,定义序列A和序列B的相关序列Si定义序列B对序列A的相关度为例如序列A{T,C,T}与序列B{A,G,T,C,T,C}的相关度为:定义四:序列的相关度对于任意的两个序列AN、B31公理一:任意给定三个序列S、A、B,若A与S的相关度大于B与S的相关度,则A与S属同一类的可能性大于B与S属同一类的可能性。公理一:任意给定三个序列S、A、B,若A与S的相关度大于B与32基于相关度的分类算法1、对于任意一个未知序列S将其与序列A1-A20中的每一个依次作求相关度的运算,结果记为SS1,SS2,…SS20。2、定义S与A、B类的平均相关度分别为基于相关度的分类算法1、对于任意一个未知序列S将其与序列A1333、判别准则若SA>SB,则将S判定给A类若SB>SA,则将S判定给B类若SA=SB,则将S列为不可判类4、W可作为衡量该序列分类的可信性的一个标准,显然当W越接近于1,该序列与A类的相关性和与B类的相关性区别就越小,分类结果就越不可信。反之W与1差的越远,该序列与A类的相关性和与B类的相关性区别就越大,分类结果就越可信。3、判别准则4、W可作为衡量该序列分类的可信性的一个标准,34方法五的改进带反馈的相关度分类算法一般说来,带反馈的算法以神经网络算法最具有代表性,但对于一般的分类算法而言,可以采用多次反复分类的办法来实现反馈的目的方法五的改进带反馈的相关度分类算法一般351、对全部未知样本进行相关度分类,计算出所有未知样本的W值;2、在所有被判为A类的待分类序列中,取出W值最大的一个作为标准学习样本加入到A类的标准样本中;3、在所有被判为B类的待分类序列中,取出W值最小的一个作为标准学习样本加入到B类的标准样本中;4、重复对剩余的待分类序列进行相关度分类,并按上述步骤不断扩充标准学习样本,直至全部的待分类序列都被加入到标准学习样本中。用新算法对未知序列进行了重新分类,得到了不同于原无反馈分类算法的结果,而且新的分类结果的W值明显与1离开的更大。可以看出反馈对算法的性能有一定的改进!1、对全部未知样本进行相关度分类,计算出所有未知样本的W值;36六其它一些研究方法基于生物学的特征抽取三联体,具有三联体形式的遗传密码子对蛋白质的合成具有决定性作用。有理由认为它在序列中的出现体现了该序列的本质特征基于人工神经网络的模型人工神经网络是一种带反馈的自适应算法,本问题采用神经网络模型是合适的"它可以在给定特征向量的情况下代替一般的距离分类模型运用模糊聚类分析可以从DNA序列的全局角度出发,来研究DNA序列的分类,忽略DNA序列的局部结构的特征,从全局的角度对DNA序列进行研究。六其它一些研究方法基于生物学的特征抽取37生物信息学的发展趋势获取人和各种生物的完整基因组,建立相关数据库,发展分子标记辅助育种技术发现新基因和新的单核苷酸多态性基因组中非编码蛋白质完整基因组的比较研究在基因组水平研究生物进化从功能基因组到系统生物学蛋白质结构模拟与药物设计新型高效算法在生物信息学中的应用生物信息学的发展趋势获取人和各种生物的完整基因组,建立相关38在生物信息学中,许多研究就是对新算法的需求,“算法是core、算法是key、算法是soul”。生物信息学对我们提出了很多富有魅力的话题,比如DNA序列拼接、比对,蛋白质折叠,疾病基因发现,药物作用靶点预测等等。有些问题甚至是NP性质的,这些问题到现在还是没有办法解决的,必须等到新的算法出现,才能够得到解决。在生物信息学中,许多研究就是对新算法的需求,“算法是cor39DNA序列分类模型研究DNA序列分类模型研究402000年6月人类基因组计划中DNA全序列草图完成,2004年10月绘制了精确的全序列图,标志着生命科学“登月计划”又向前迈出一步,从此人类拥有了一部记录着自身生老病死及遗传进化全部信息的“天书”。DNA作为一种遗传物质,早已在50多年前就被发现。它是由4种碱基:腺嘌呤(A)、胞嘧呤C)、鸟嘌呤(G)及胸腺嘧呤(T)按一定顺序排成的长约30亿的序列。2000年6月人类基因组计划中DNA全序列草41生物数学模型第7讲扩展DNA序列分类模型研究课件42虽然全序列图绘制成功,但这个几十亿的长序列中既没有断句,也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。生物数学模型第7讲扩展DNA序列分类模型研究课件43但人们也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。但人们也发现了DNA序列中的一些规律性和结构。例如,在全序列44作为研究DNA序列结构的尝试,提出以下DNA序列的分类问题:(1)现有20个已知类别的人造DNA序列,其中第1~10序列为A类,第11~20序列为B类,现要求从中提取特征,构造分类方法,并用构造的方法对另外第21~40个未标明类别的人工序列进行分类,并写出结果。(2)用构造的分类方法来给部分天然DNA序列进行分类,给出分类结果。作为研究DNA序列结构的尝试,提出以下DNA序列的分类问题:45序列1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga序列1.aggcacggaaaaacgggaataacgga46方法1基于字母出现频率的分类不同段的DNA序列中,每个碱基出现的概率并不相同。A组的G含量较高,B组的T含量较高,为做定量化的分析!引入数学中的内积概念,即将(A,T,G,C)的频率分别作为四维向量的四个分量(PA,PT,PG,PC),于是得到两组向量Ai,Bi(i=1,…10)然后将未知的某个序列作为一个新的向量C,将它归入A组或B组。在Hilbert空间中将向量归一化后计算内积内积小的两个序列!我们可以认为它们的相关性小!而内积大的序列!我们就认为其相关性大方法1基于字母出现频率的分类不同段的DNA序列中,每个碱基47方法一评价方法一是从概率统计的角度分析问题局限性:统计字母出现的频率时,忽略了字母所在位置以及各个字母之间的相互关系,造成用这种方法对已知分类的序列进行检验时,个别频率特性不明显的序列不太容易分类,所以这种方法虽然有其科学性,但还不够完善,不能完全体现序列的所有特征。方法一评价方法一是从概率统计的角度分析问题48方法二基于字母出现周期性对于某单个字母,以a为例,,设它在序列中第t1,t2,…,tk+1个位置出现,我们试图找出这些数字之间的关联,首先,可以认识到考查ti的分布及绝对值是意义不大的,因为序列是一大段DNA中的一个片断,片断的起始段不同会导致ti的不同,于是为了抵消ti的线性位移,考虑下面一组值即字母a出现的间距。方法二基于字母出现周期性对于某单个字母,以a为例,,49由所得数据知,Varg与Vart上述方法对A、B组的区分率很高,于是可以用可以考虑序列si的波动幅度,而表征波动幅度的量在统计中是中心矩。作为这种方法的目标函数由所得数据知,Varg与Vart上述方法对A、B组的区分率50生物数学模型第7讲扩展DNA序列分类模型研究课件51可以把一串DNA序列看成一个信息流,关于A、B的分类,可以考虑其单位序列所含信息量(即熵)的多少。从直观上来看,我们可以认为重复得越多,信息量越少。设序列为L=(a1,a2,…,an),前m个字符所带的信息量为fm(L)记即gm(L)为加上第m个字母之后所增加的信息量可以把一串DNA序列看成一个信息流,关于A、B的分类,可52现在的问题就归结为如何找出一个合适的gm(l),不妨设g具有以下性质:性质1:gm(l)>0,即任意加上一个字符,它或多或少带有一定信息量。性质2:第m个字符(或者是以它结尾的较短序列)与前面的序列(信息流)重复得越多,gm(l)的值必然越小。性质3:第m个字符(或者是以它结尾的较短序列)如果和与它靠得越近的重复,gm(l)的值越小,和与它离得越远的重复gm(l)的值越大。性质4:f0(l)=0。现在的问题就归结为如何找出一个合适的gm(l),不妨设g具有53以第m个字符结尾的i字串且以第t个字符结尾的i字串完全相同否则以第m个字符结尾的i字串且以第t个字符结尾的i字串完全相同54定义为单位长度所带的信息量不妨设ti=ci-1,c>0,p=6另外当取a=0.392,b=0.1,c=2可以将A、B组的F值分得较开,并可以用来处理未知数据。定义为单位长度所带的信息量不妨设ti=ci-1,c>0,p=55方法三讨论这种方法从序列的信息量(熵)入手,认为当序列中有大量的重复元素时,信息量就会比重复少的序列所含有的信息少,所以,其侧重点是是序列前后的重复性,也就是序列元素的相关性。从A、B两类数据中可以很清楚地看到B组中序列重复量大,所含的信息明显少于A组。而这个特征就被我们定义的熵函数凸显出来。将DNA序列看成一个信息流的方法由于其在实际问题中的广泛背景,将会是一个很有价值的想法。统计学和信息论的一套非常成熟的强大工具也会在DNA研究中发挥巨大的作用。方法三讨论这种方法从序列的信息量(熵)入手,认为当序列中有大56考虑采用序列中的A、G、T、C的含量百分比作为该序列的特征百分比分别记为na,ng,nt,nc则得到一组表征该序列特征的四维向量(na,ng,nt,nc),由相关性取三维向量(na,ng,nt)即可一般的判别问题为:设有k个类别G1,G2,…Gk,对任意一个属于Gi类样品x,其特征向量X的值都可以获得,现给定一个由已知类别的一些样品x1,x2,…xn组成的学习样本,要求对一个来自这k个类别的某样品x,根据其特征向量X的值作出其所属类别的判断。方法四常规数学模型考虑采用序列中的A、G、T、C的含量百分比作为该序列的特57A欧氏距离(Euclid)分类模型把每个样本视为三维空间的一个点,以其到不同集合几何中心的欧氏距离作为判据,具体的算法如下:1、计算属于A类与属于B类的20个样本点集合各自的几何中心:A欧氏距离(Euclid)分类模型把每个样本视为三维空间的582、对于给定的样本点Xi,分别计算该点到CA,CB的的欧氏距离:3、判别准则如下:a、若DA<DB,则判为A类b、DB<DA,则判为B类c、若DA=DB,则列为不可判用上述算法对已知学习样本A1-A20进行分类,除了A4分类错误外,其余都分类正确。2、对于给定的样本点Xi,分别计算该点到CA,CB的的欧氏距59模型评价用欧氏距离作为判据虽然简便直观,但存在着明显的缺陷。从概率统计的角度来看,用欧氏距离描述随机点之间的距离并不好。因此当待分类样本是随机样本,具有一定的统计性质时,这个模型并不能很好的描述两个随机点之间的接近程度。模型评价用欧氏距离作为判据虽然简便直观,但存在着明显的缺陷。60B氏距离(Mahalanobis)分类模型为了克服采用欧氏距离时的缺陷,我们采用马氏距离来代替欧氏距离。马氏距离定义为:判别准则如下:a、若dm(X,A)<dm(X,B),则判为A类b、若dm(X,B)<dm(X,A),
,则判为B类c、若dm(X,A)=dm(X,B),
,则列为不可判用上述算法对已知学习样本A1-A20进行分类,除了A4分类错误外,其余都分类正确。B氏距离(Mahalanobis)分类模型为了克服采61CFisher准则分类模型Fisher分类法是另一种基于几何特性的分类法分类法的思想也是把三维空间的样本映射为一维的特征值y具体的作法是先引入一个与样本同维的待定向量u,令y=uTxu的选取,要使同一类别产生的y尽量聚拢,不同类别产生的y尽量拉开CFisher准则分类模型Fisher分类法是另一种基于几62样品X到某一类G的距离定义为:其中c为G的几何中心判别准则如下:a、若L(X,A)<L(X,B),则判为A类b、若L(X,B)<L(X,A),
,则判为B类c、若L(X,A)=L(X,B),
,则列为不可判用上述算法对已知学习样本A1-A20进行分类,除了A4分类错误外,其余都分类正确。样品X到某一类G的距离定义为:其中c为G的几何中心判别准则如63方法四三种分类模型的比较有的未知序列,三种方法给出了不同结果方法四三种分类模型的比较有的未知序列,三种方法给出了不同结64对于任一个序列,当三种分类法结果完全一致时,认为它判别有效。对于任一个序列,当三种分类法结果不完全一致时,认为该序列为不可判类。考虑制定一个联合判定准则对于任一个序列,当三种分类法结果完全一致时,认为它判别有效。65方法五基于碱基相关性的分类模型通常任意两个数值序列的相关性都是通过这两个序列的相关函数来刻画的,由于本序列是非数值的序列,同时无法将碱基按通常的方式进行数值化,因而刻画任意两个序列的相关程度的变量需要重新定义!方法五基于碱基相关性的分类模型通常任意两个数值序列的相关66定义一:相关运算对于任意碱基m和n,相关运算的值由下表给定;定义一:相关运算对于任意碱基m和n,相关运算67定义二:哑元除四个碱基外,另行定义一个哑元,规定任意碱基与哑元作相关运算的结果都为0。定义二:哑元除四个碱基外,另行定义一个哑元,规定任意碱基68定义三:序列的延拓即在该序列的左右两端均用哑元填充定义三:序列的延拓即在该序列的左右两端均用哑元填充69定义四:序列的相关度对于任意的两个序列AN、BM,定义序列A和序列B的相关序列Si定义序列B对序列A的相关度为例如序列A{T,C,T}与序列B{A,G,T,C,T,C}的相关度为:定义四:序列的相关度对于任意的两个序列AN、B70公理一:任意给定三个序列S、A、B,若A与S的相关度大于B与S的相关度,则A与S属同一类的可能性大于B与S属同一类的可能性。公理一:任意给定三个序列S、A、B,若A与S的相关度大于B与71基于相关度的分类算法1、对于任意一个未知序列S将其与序列A1-A20中的每一个依次作求相关度的运算,结果记为SS1,SS2,…SS20。2、定义S与A、B类的平均相关度分别为基于相关度的分类算法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023-2024学年黑龙江省哈尔滨市香坊区七年级(上)月考数学试卷(10月份)(五四学制)
- 沪科版八年级数学上册第14章素养综合检测课件
- 北师大版八年级生物上册第5单元生物圈中的动物和微生物第18章生物圈中的微生物第2节微生物与人类的关系课件
- 委托合同解除通知书模板
- 全国赛课一等奖英语七年级上册(人教2024年新编)《Unit 1 SectionB Project 3a-3c》课件
- 北师大版九年级数学下册《1.5三角函数的应用》同步测试题(附答案)
- 内蒙古鄂托克旗乌兰镇中学2024届中考数学最后一模试卷含解析
- 期中模拟检测(1-4单元) (试题)-2024-2025学年五年级上册数学人教版
- 苏少版七年级下册音乐教案(版)
- 二年级上册道德与法治说课稿-13 我爱家乡山和水 部编版
- 第4课《公民的基本权利和义务》(课件)-部编版道德与法治六年级上册
- 国开(甘肃)2024年春《地域文化(专)》形考任务1-4终考答案
- 成本会计实训的内容
- 《高血压本科》PPT课件.ppt
- 充分发挥中学学科带头人示范辐射作用的五大抓手
- 工程竣工财务决算审计报告模板
- 基于PLC的谷物烘干机控制系统设计--程序代码-附 录
- 家庭电路的进户线示意图PowerPoint 演示文稿
- 多肉植物生长观察日记小报
- lampsite LTE 站点配置指导v1.1
- 市政工程钢筋混凝土管砂石基础垫层量计算公式
评论
0/150
提交评论