四节基因表达数据聚类分析生物信息学chap9_第1页
四节基因表达数据聚类分析生物信息学chap9_第2页
四节基因表达数据聚类分析生物信息学chap9_第3页
四节基因表达数据聚类分析生物信息学chap9_第4页
四节基因表达数据聚类分析生物信息学chap9_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因表达数据主要来自于两个方面,一是基因芯片,这是最主要的表达数据来源,利用基因芯NA的数据Scheaet基因表达数据主要来自于两个方面,一是基因芯片,这是最主要的表达数据来源,利用基因芯NA的数据Scheaetal195AE(ondisbu,199)聚类分析是模式识别中一种非常有吸引力的方法,特别适用于模式分类数不知道的情况。从机器学习的角度来看,有两种基本的聚类分析(Kaufmn90),即所谓有教师聚类和无教师聚类。在有师聚类中,对于每一类有一个参考模式,对于一个未分类的向量,通过计算选择一个最接近的参考模式,并将该向量归入该参考模式所对应的类,这实际上是一个分类问题。而真正的聚类分析(或无监督学习傅京孙,191986(1)(2)计算相似性(3)(4)显示分析对数据进行聚类分析之前,必须将包含在基因表达矩阵中的数据进行相似程度分析,并且对分析结果进行量化。通常情况下,相似往往被赋于一个较大的量化的值,而不相似则由一个较小的量化的值来表示。在实际计算中,往往以距离代替相似的概念,相似性度量被转化为两个基因表达模式之间的距离。距离越小,表达模式越相近,反之,则表达模式差异大。所有的距离值的集合可以(1)表达矩阵的任意两行数据之间的距离可用以确(2)表达矩阵的任意两列数据之间的距离可以确定基因表达实验条在基因表达数据聚类分析中,将具有相似表达模式的基因放在同一组。首先选择一个计算基表达相似性的度量。常见的相似性度量有欧几里德距离、点积、相关系数等。欧几里德距离是通常采用的距离的定义,与测度的选择无关。假设有两个基因表达模式分别Y=(y,y,…,y),距离函 d(X,Y)必须满足如下条件X=(x1,x2,…,xm)d(X,Y)≧0(9-(9-(9-(9-X=d(X,Y)=d(X,Y)≦d(X,Z)+两个表达模式之间的欧氏1mmd(X,Y)(xy)(9- 相关系数mx yYS(X,Y)m( offset)(ioffset(9-)(G 相关系数mx yYS(X,Y)m( offset)(ioffset(9-)(G (9-GmGofst是G的各分量的均值,G或者变化趋势相同的基因,如图9.9()、(b)所示。欧氏距离、相关系数与分子生物学中两个基因coexrssd)在有些情况下,两个基因的调控输入一样,但是调控结果不一样,甚至相反。如何找出具类关系的基因呢?互信息可能是一种有用的度量指标,其定义MI(X,Y)H(X)H(Y)H(X,Y(9-mH(X)p(xi)log2p(xi(9-MI(X,Y)是向X和Y互信息,H(X)是X的熵图 (c)两个基因的调控制输入一样,但是调控结果不一样,甚至相假定有一组样本{X1X2XN},要求将这些样本分成M个类,由于存在多种可能的分类方案,最简单的准则是误差平方和准则,其准则函数定义如MJ||Xmi(9-i1XMfi表示第imiJ化的聚类就是最好的聚类。当每类的样本都很密集,而各类之间又有明显的分离,使用这种准则进为聚类效果好。因此可以用类间距离与类内距离的比值作为衡量聚类结果的标准。基因表达模式分类有效性分析的另一种方法是采用最小类间距离分类有效性分析的另一种方法是采用最小类间距离与类内平均距离的相对差值作为判断依算公式如下S(i)b(i) (9-其中b(i)为某类中的样本i到其他类的平均距离的最小值,a(i)为某类中的样本i与类内其它样本的平均距离。S(i)的值反映了样本i的分类情况,一般通过某类中所有样本的平均S(i)值作为判断该类的对于基因表达模式的聚类问题,由于目前对基因表达的系统行为了解得不全面,没有聚类的先验知识,所以只能用无师聚类方法。在基因表达数据分析方面,层次式聚类是用得比较多的一种方法(Selmn,198ien981.简单聚nX1X2,…XN一个聚类的中心Z1,假设Z1=X1。然后计算X2到Z1的距离D21,如D21大于给定的阈值T,则说X2不属于第一类,应该分到另外的类。在这种情况下,建立一个新的聚类中心Z2=X2。如果D21小于阈值T,则将X2分到第一类中。接着处理其它基因,在处理第i个基因时,首先计算该基因的表达数据向量与现有各类中心的距离,假设与第j类的距离Dij最小,并且Dij<T,则将基因i分配到第j类i简单聚类算法的结果与第一个聚类中心的选择、基因的顺序、阈T以及基因表达数据在其间的分布有关。该方法对于给定的一组表达数据模式进行初步分类提供了一种快速的算2.层次式(Jabsn192;Gron181(向量。(树的中间节点,层次式聚类算法如下假设n个基因,计算这些基因表达模式之间的距离(或相似性存放在距离矩阵D矩阵Dnn列,矩阵元素Diji和基因j表达模式之间的距离;聚类初始化,使每个基因自成一类,开始时共有n个类,每个类的大小为1,分别用n搜寻矩阵D,寻找具有最小距 的一对i、建立一个新的类(ij)ijij中所有的基因,如图图9.10所示;在树中为类(ij)生成一个新的节点,并将原来类i和类j所在的节点作为该节点的子节点;以类(ij)代替原来的类i和类j,重新计算距离矩阵D,除去D中所有与i、j有关的行和列,重复步骤3至步骤6(n-1)次,此时仅剩下一个单独的(ij) ij图 层次式聚类算法节点合并示在上述过程的第5不同于基因表达模式之间的两两距离计算,因为一个类中可能含有多个基因。新生成的类到其它类的距离计算公式由聚类算法决定,如单一连锁、完全连锁或平均连锁聚类算法等。对于单一连锁聚((ij) ij图 层次式聚类算法节点合并示在上述过程的第5不同于基因表达模式之间的两两距离计算,因为一个类中可能含有多个基因。新生成的类到其它类的距离计算公式由聚类算法决定,如单一连锁、完全连锁或平均连锁聚类算法等。对于单一连锁聚(xi到xj到x(ij)到其它类x的距离等于i到x的距离与j到x的距离的最大值;而对于平均连锁聚类,类到其它x的距离等于i到x的距离与j到x的距离的平均值3.K平均KK平均聚类算法的基本过程如下任意选取K个基因表达向量作为初始聚类中一般选择前KZ1,Z2,…,Zk,在没有先验知识的情况下反复迭代计算。在第l次迭代过程中,如果||X-Zj(l)||<||X-Zi(l)||(i=1,2,…,K,ij),则将X所代表的基因归于第j类。按照上述办法处理所有的基因;经过上述处理,聚类可能发生变化,因此需要重新计算K个新聚类中心Z(l1)1(9-jNXfj(lj其中fj(l)为第l次迭代中第j个聚类的基因集合,Nj为该集合中基因的个数2聚类中心的K、初始聚类中心的选择、基因排列的顺序以及基因表达数据的分布影响的结果,当基因表达模式类别之间分离较远时,该算法可以取得令人满意的聚类分析结4.自组织映射神经网人工神经网络技术在模式识别方面有着独特的优势,在生物信息学中的应用也非常广泛,如基因识别、蛋白质结构预测等。神经网络能够进行非线性数据处理,发现复杂的数据关系,其中,自组织映射神经网络SM(elf-OaizingMKohonn19;Tmaota.,999自组织映射是Kohonen在1990年提出的类似大脑思维的一种人工神经网络方法,它是一争学习算法,可以被认为是一种从N维模式空间各点到输出空间少数点的映射。这一映射由系统本身信息存储在网络个节点连接权值向量中,具有与权值向量相似的输入向量争学习算法,可以被认为是一种从N维模式空间各点到输出空间少数点的映射。这一映射由系统本身信息存储在网络个节点连接权值向量中,具有与权值向量相似的输入向量将分为一类。SOM包括一维和二维模型,二维SOM也称为KFM(KohonenFeatureMapping)。它们的区别在于KFM近神经元的相一维SOM结构如图9.11(a)所示n维的输入矢量的输入节点数为n,输出节点数为p代表预先确定的样本集预计分类的最大类数目下为输出节点与输入节点之间的权值矩阵,表ww1n1wtw21w2n2W ⁝⁝ wpnwtwwppOut-WInput-图 SOM的结构图。(a)一维(b)二维SOM一维SOM的具体学习过程如下(1)随机确定权值矩阵的各元素值,并归一化,ˆii1,2,...,p(2)反复进行以下运算,直到达到预定学习次数或每次学习后权值改变量小于某一阈xˆi (a)随机选择样本x,计算与对应各输出单元的权值矢量间的距离xˆm(b)求出获胜单元,满 (xwˆmˆmk k (c)调整获胜单元的权值矢iˆkk学习过程结束后输出层各个节点分别代表不同的类,每个样本被自动地划分各节点表的类中二维SOM9.11b)所示,与一维SOMKooen元对周围神经元之间存表的类中二维SOM9.11b)所示,与一维SOMKooen元对周围神经元之间存在有近到远的不同的影响作用,而不是简单的侧抑制作用。对邻近神元的交互作用函数有巴拿马草帽型(公式9-31)或矩形型(公9-32RddFc(j)(9-ddc(j)F(9-0其中是输出单元c与邻近单j之间在神经元平面上的距离是交互作用半径二维SOM具体学习过程用随机数设定权值初始值,并进行权向量归一化计算,在以后每次修正权向量之后wij22归一化,使其满i反复进行以下运算,直到达到预定学习次数或每次学习后权值改变量小于某一阈(a)输入一个样本矢量X,计算各输出单元强度netjWTX ji(b)找出主兴奋单元cnetcj确定各输出单元在主兴奋单元影响下的兴奋 计算各权值修正量wijyj(e)根据学习次数更新学习步长η和邻域交互作用R学习过程可以采用从全局到局部的策略,在这种策略下,学习初期可设定较大的交互作用半径RRSM的聚类结果与k长。图12是一个基因表达模式的SM聚类结果,表示共得到4个分类cte1、lte2、lter3和lte4基因、、5数据值分别为最大方差和平均方差,代表个各类中样本聚集程度。SOM聚类结果示意5.1993)模拟人类的思维方法,通过隶属度函数来反映某一对nmxij关系矩阵前,必须对样本(1)建立模糊相似SOM聚类结果示意5.1993)模拟人类的思维方法,通过隶属度函数来反映某一对nmxij关系矩阵前,必须对样本(1)建立模糊相似进行预处理,使样本数据压缩到[0,1]闭区间内。方法简介如下为了建立模糊相似矩阵,引入相似系2nnnrrR~rrnrij表示两xixj之间相似程度的度量,rij1时,表明这两个样本相似性越通常为相关系数(也可以采用欧氏距离(2)生成模糊等价模糊相似矩阵反映了样本间的相似关系,但它只具有自反性和对称性,不具有传递性,因能直接用于分类。可以通过平方法得到R的传递t(R)t(R)可以看作是模糊等价矩阵~~~R R2k ~~~t(R)R2k(当R2k(R2k)2时 ~~计算传递闭包时采用最小最大方法(3)构建动态聚类()λ,λ值,就可实现对样本的聚类。或者有规律的选择不同的λ值,得到不同λ下的聚类结果,并构建分类树称之为动态聚类图。根据动态聚称之为动态聚类图。根据动态聚类图可以直观的得到在不同λ值下的分类情况,更有利于分析样之间的关系6.主成分分析PCA(PrincipalComponent主成分分析是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。该方法在生物学方面有着重要的应用,已广泛应用于生态(1999给定nmmn方面刚好体现在几个主要变量上,我们只需要将这几个变量分离出来,进行详细分析。但是在一般情况下,并不能直接找出这样的关键变量。这时我们可以用原有变量的线性组合来表示事物的主要CACA(rnrn(M维3RM降到R。达数据,如果用CACA令AatitnAnr确定新变量的个数r是一个两难的问题。我们的目标是减小r,如果r小,则数据的维数低,便于r呢?这需要进一步分析每令i代表第i个特征值,定义第i个主元素的贡献率为 (9-nnkk前r个主成分的累计贡r1r(9-k nnkkk贡献率表示所定义的主成分在整个数据分析中承担的主要意义占多大的比重,当取前r个主成分来代r1r(9-k nnkkk贡献率表示所定义的主成分在整个数据分析中承担的主要意义占多大的比重,当取前r个主成分来代之,则可靠性越小。一般要求累计贡献率达70%以上。经过CAQR9.160007个时间点表达PCA分析结果(Raychaudhurietal.,2000变化,而前三个主元素反应95%以上的变化,因此取前两个主元素9.137个特征值的图示表 PCA对酵母基因表达数据的分析结果(Raychaudhuriet点外,其它所有系数都为正值(9.14(a)。如果某个基因对应此主元素的值为较大的正数,则基因表达上调,如果此主元素的值为较大的负数,则基因表达下调。第2个主元素表示在时间序贯中基因表达的变化1个时间点外,其它系数逐个增大(见图9.14(b)。如果某个基因的表达量随时间不c)实验条主元1234567特征%9.137、聚类9.137、聚类分析结果的树图表与基因表达数据聚类分析相关的另一种方法是可视化方法1998),其目标是将基表达数据聚类结果以直观的图形方式显示出来,以便于理解。虽然可用各种聚类方法对基因表达数据进行聚类,但是所得到的结果之中的每一类仍然包含许多基因,难以分辨,必须将聚类分析与图首先应用层次式的聚类方法进行聚类计算,以一棵树表示基因之间的关系,其中分支的长度表9.10对于n个基因,从树形结构来看,有2n-l种可能的线形排序,其中存在一个最优的线形排序图 主元素系数变化图5程,细线之间的连接反映了个基因表达模式逐层分类9.15基因表达模式聚类结果图示将基因表达数据分析、分析结果可视化与基因组、转录调控因子、启动子等数据库集成起可以帮助生物学研究人员深入地研究基因的表达调控,发现隐藏在基因组中的调控信息,揭调控的规律,了解基因的功能,认识基因之间的相互作用分子生物学家最终的目标是利用生物分子数据揭示基本的细胞过程,认识细胞过程对生物体的影响。要达到这样的目标,必须研究不同功能的基因、蛋白质之间复杂的相互作用关系,不能仅仅研究单个基因或蛋白质。大多数分子之间复杂的相互作用关系依赖于特定的因子,这些因子增强或(McAdmsadAkin99;Svaeu98一个基因网络由一组生物分子(如基因、蛋白质)以及它们之间的相互作用构成,这些生物分子共同完成一些特定的细胞功能任务。在实际分析过程中,往往以图这种数据结构表示基因网络,描述了特定细胞或组织中的功能路径,如代谢、基因调控,信号传图9.16是一个基因网络示例,描述基因表达在化学催化中的作用。基因proB首先表达,产蛋白质—谷氨酰激酶,该酶催化谷氨酸盐和ATP的化学反应,生图9.16是一个基因网络示例,描述基因表达在化学催化中的作用。基因proB首先表达,产蛋白质—谷氨酰激酶,该酶催化谷氨酸盐和ATP的化学反应,生成谷氨酰磷酸脂和ADP底底表催反产产基因表达在化学催化中的表催抑反产催表反产自然催表反产抑代谢路径示例:脯氨酸的1-吡咯啉-5-羧基还原1-吡咯啉-羧谷氨酰谷氨酰磷酸脂还原谷氨酰磷酸谷氨酰谷氨谷氨酰磷酸谷氨酰谷氨酸该基因表达只是一个简单代谢路径的一个部分。整个代谢路径包括所生成的一系列蛋白质,如图该基因表达只是一个简单代谢路径的一个部分。整个代谢路径包括所生成的一系列蛋白质,如图.17产物还没有形成,催化反应没有受到抑制作用,最终产物很快形成。随着反应的不断进行,最终产物越来越多,反馈抑制越强烈,降低形成最终产物的速率。通过反馈,整个系统的反应将达到一个利用基因芯片所得到的表达数据不仅可用于分析基因表达的时空规律,研究基因的功能,而且还可用于分析基因之间的相互制约关系,研究基因表达调控网络。基因表达实际上是细胞、组织、器官受遗传和环境影响的结果。一个基因的转录和表达由细胞的生化状态所决定,在一个基因的转录过程中,一组转录因子作用于该基因的启动子区域,控制该基因转录,而这些转录因子本身又是其它基因的产物。当一个基因通过转录、翻译形成功能基因产物后,它将改变细胞的生化状态,从而直接或间接地影响其它基因的表达,甚至影响自身的表达。多个基因的表达不断变化,使得细胞总的来说,一个基因的表达受其它基因的影响,而这个基因又会影响其它基因的表达,这种相互影响、相互制约关系构成了复杂的基因表达调控网络。从系统的观点来看,一个细胞就是一个复杂的动力学系统,其中每个基因相当于系统的一个变量,各个变量之间相互影响。基因调控网络分析的目的就是要根据实验数据建立调控网络的数学模型,并通过数学模型来分析基因之间的相互作用关系。根据实验观察结果构建的基因调控网络模型应能够描述每个基因的表达水平如何受其它基下面介绍几种基因调控网1、布尔网络模AandnotBA基因表达,并且B基因不表达,则C基因表达”。以G=(V,F)表示络,其中V是图的节点集合,每个节点代表一个基因,或者代表一个环境刺激。环境刺激可以是任F合,每条边代表基因之间的相互作用关系。上例所对应的网络见9.18C9.2节点CAB9.18(Somogyiand.2、BCC9.2节点CAB9.18(Somogyiand.2、BC的状态应当如何。1(),,0(,.1()(,)和状态(,,间切换借助于机器学习或者其它智能训练的方法可以构建一个具体的布尔网络,即根据基因表达的实验数据建立待研究的基因之间的相互作用关系,确定每个基因的连接输入(或调控输入其搜索空间非常大,需要利用先验知识或合理的假设,以减小搜索空间,有效地构造布尔网9.19布尔网络模型状态转换图(Somogyiand(a)单稳态(b)多稳11001000101101111010010100 C 0010假设v代表布尔网络中的一个节点,其对应的布尔规假设v代表布尔网络中的一个节点,其对应的布尔规则用布尔函数fv描述,如果v有k个连接输入,则布尔函数fv有k个变量,其形式为f(u1,…,uk),ui{0,1}(i=1,…,k)。对于任何ui,f(u1,…,ui,…,uk)f(u1,…,ui,…,uk),这里ui是ui的互补值,即如果ui=1,则ui=0,如果ui=0,则ui=1。假v100果一个节点v的值由布尔表达式l(u)l()…l()所确定,则称节点vv的值由布尔表达式l(u)l(u)…l()v是“或”节点。这里l(u)为uiu(ui代表取ui。对于基因v,可以被强制成为“非活化”状态,或者通过过量表达成为“活化”状态。令x1,…,xp,y1,…,yq是一个布尔网络G中的不同基因,在一次实验e中,使基因x1,…,xp过量表达,而使基因y1,…,yq失活,记为e=<x1,…,xp,y1,…,yq>。一个基因的表达有三种情况,即正常表达、失活、过量表达。根据实验e,为布尔网络中的每个vvv布尔网络G的全局状态是一个V{0,1}的映射。全局状态不一定与基因调控规则一致,此时网且各个节点的布尔值与所有基因调控规则一致,即如果节点v有若干个输入u1,…,uk,(v)=fv((u1(uk)),则全局状态是稳定的。否则全局状态是是不稳定的。一个全局状态是“观进一步,如果没有扰动,即e=<>,则“观察到的全局状态”为固有全局状态。给定n些基因的表达数据。在不同的实验条件下,基因表达水平的变化体现了基因之间相互作用关系。往往有针对性地设计一组实验,使得某些基因的表达被抑制,而另一些基因过量表达,观察这些扰动阵E9.3表达矩阵1000110111001-表达矩阵E的每一行对应于一种实验条件下各个基因的表达水平,每一列对应于一个基因在不EjeejPi”()或低表达抑制9.3450要为n(即节点连接输入的个数。而如果有限为必要条件,为构造布尔调控网络,必须满足下限要求;而上限为充分条件,如果满足上限条件则必定能够构造出一个布尔调控网络。详细的分析结果见9.49.4在不同情况下,构造一个布尔调控网络需要实验次数的上下限(Akutsuet下面介绍Ideker(Ideertal999基因表达数据重建没有回路的布尔调控网络。该方法的主要策略是反复交互地应用两种分析工具:预测器和选择器。利用预测器推导一个或者多个与基因表达数据一致的布尔网络,然后返回一个最949.4在不同情况下,构造一个布尔调控网络需要实验次数的上下限(Akutsuet下面介绍Ideker(Ideertal999基因表达数据重建没有回路的布尔调控网络。该方法的主要策略是反复交互地应用两种分析工具:预测器和选择器。利用预测器推导一个或者多个与基因表达数据一致的布尔网络,然后返回一个最94需要设计不同的扰动实验。利用选择器进行扰动实验的设计,有意识地设计出能够辨别那些候选网络的扰动实验。交替使用这两种工具,不断细化布尔网络。在每个循环过程中,首先使用选择器设预测器根据表达矩阵E推导布尔网络,为网络中的每个节点vk构造合适的布尔函数fk。首选择输入变量,确定一个最小节点集合Sk,集合Sk中每个节点所对应基因的表达水平影响vk对应基因的表达,即影响fk。然后建立如表9.2所示的真值表。构造fk的过程如下:建立节点集合Sij。考虑表达矩阵E(表9.3)中所有vk表达水平不相同的两行(除了vk被强制为高表达或低表达所在的行,令这两行的行号分别为i、j,寻找其它节点Sij,使得属于Sij的节点对应基因的表达值i行和j行不一样。可以肯定,集合Sij中至少有一可以作为函fk的变量寻找{Sij}的一个最小覆盖集合Smin。寻找最小节点集合Smin,使可以解释在所有(、j)观察到的差别,即Smn中至少有一个节点出现在集合Sj数f。输入变量的组合没有出现在表达矩阵E中,则真值表将是不完整的,用特殊的符号在真值表选择器分析预测器所返回的L个假设的等值网络,从一组可能的P中选择一个新的扰动使得p能够最好地区别L个假设的等值网络。下面是一种基于熵的选择器算法PpLp个网络中出现S个不同的状态(1≤S≤L,按照下式计算熵值Sllog2(lsHps(9-LL约下上无约(2(n-O(n2n-O(所有节点是“与”节点“或”节点O((O入度≤2,没有抑制所有节点是“与”节点“或”节点其中lss种状态的网络个数,1≤s≤S。选择熵值Hp最大的扰动p作为下一次实验。Hp其中lss种状态的网络个数,1≤s≤S。选择熵值Hp最大的扰动p作为下一次实验。Hp描述扰动后期望的信息增益,各个网络产生的不同状态越多,得到的信息量越熵E之中。L=1,或Hp=0基因的影响2、线性组合模线性组合模型(ErbandMichaels1999)是一种连续网络模型,在这种模型中,一个基因的值是若干个其它基因表达值的加权和。基本表示形式Xi(tt)wijXj(9-jXi(+i在+tXj(t)是基因j在twijji逼近基因调控的实际情况。例如,可以增加一个常数项,反映一个基因在没有其它调控输入下的活将上述表达式转换为线性差分方程,描述一个基因表达水平的变化趋势。这样,在给定一系列Xi(twij分析各个基因的表达行为。实验结果表明,该模型能够较好地拟合基因表达实验3、加权矩阵模加权矩阵模型(Weaer199nnu(u(ttWW表一wijjitj对基因的净调控输入为j(即ujt)j对i的调控影响程度Wiji的总调控输入ri(t)为ri(t)Wijujj(9-这一形式与线性组合模型相似,Wij为正值,则基因激发i的表达,而负值表示基因ji的表达,0表示j对基i没有作用。与线性组合模型不同的是,基因i最终表达响11e(iri(t)iu(t1)(9-i这种函数是神经网络中常用的 函数,其中和是两个常数,规定非线性映射函数曲线的置和曲度。通过上式,计算出t+1时刻基因i置和曲度。通过上式,计算出t+1时刻基因i的表达水平。在最初阶段,加权矩阵的值是未知的。但对于这样的模型,可以利用成熟的线性代数方法和神经网络方法进行分析。实验表明,该模4、互信息关联网可以用距离或相关系数作为基因表达模式之间的相似性度量,还可以用另外一种度量形式X是nH(X)P(xi)log2(P(xi(9-这里P(xi)为基因表达值出现在区间xi的频率,n为表达水平的区间数目。熵越大,则基因表达水平两个基因表达模式的互信息按下式计MI(X,Y)H(X)H(Y)H(X,Y(9-互信息是在给定一个基因表达模式的情况下关于另一个基因表达附加信息的度量。MI(X,Y)=0,则表示两个基因表达不相关,反之,MI(X,Y)越大,则两个基因越是非随机相关,它们之间的生物在构建互信息关联网络时,首先根据基因表达实验数据计算所有基因对之间的互信息,取所有互信息值大于给定阈值(预先设定)的基因对,建立这些基因对之间的连接关系,从而形成所需的(ButtendKhne20)。基因调控网络除了上述模型之外,还有其它一些模型,如微分方程模型(WahdeandHertzChenetal19995、基因调控网络实(1)GeneNet(KolpakovetalGeneNetGeneExpress(http://wwwmgs.bionet.nsc.ru/systems/GeneExpress/)的一部分。GeneNet体功能,良好的调控功能和对外界刺激的反应。该基因网具有以下基本功能:(a)描述执行特定生物功能时所涉及到的整体基因交互作用;(b)描述基因的蛋白质编码;(c)描述基因对外界刺激的传感途径;(d)通过一组反馈自动地稳定网络参数或者使网络转换到新的功能状态;(e)利用外部信号、激素和代谢产物作为生理学参数激发基因网纠正其作用(见图9.20。该基因网描述了四类实体:(a)细胞(组织,器官);(b)蛋白质;(c)基因;(d)白质调控物质或代谢产物)。该基因网还描述了实体间两种关系反应即通过互作用产生新的实体或过程调控(regulatory)事件特定反应对实体的作用9.20GeneNet9.20GeneNet(2)调控网络的分析仿真知识Rzesky等人提出一种分析和模拟调控网络的知识模型(Rzhetkyetl20;htpeeme.pm.olmi.eutoieonooy/Rzhesky该模型勾画出一种定义整体局部关系的概念分类法,它既描述了主要概念的性质,又勾画出一组主要公理。其两个技术关键是:调控路径的表示;从科技文章抽取信息的自然语言处理(NLP哥伦比亚基因组中心研制出一个有关真核生物调控网的模型(Ontology,Rzhetskyetal.,2000)(3)哥伦比亚大学真实分子网络编辑器Cutent(TrueEditorfor9.21(a(Java3D、CyberVRML97forJava和等软件包实现分子网络编辑(htp://enm6cpccouba.d/tkie/uet/9.21.(49.21.(4)生物分子相互作用数据库用以及蛋白质与其它分子的相互作用(如蛋白质-DNARA的实验数据迅速增长。这些数据的规范化是用生物信息学方法研究生物分子相互作用的一个前提。那么究竟应该如何规范有关生物分子相互作用、复合及作用路径等生物信息的数据呢?下面简单介绍生物分子相BINDaeradoue20;tiif.srio.c/IN/BIND数据规范规定了3种有用的数据库管理和数据交换对象:交互体,分子联合体和(pahwy,数据模型采用统一的建模语言(UML)来说明。BIND数据库中尽可能地存放指向其它数据库的数据条目的指针,而不是存储信息的副本。一个IND分子联合体对象代表任何化学体:IND或原子间的相互作用。每个交互体包括一个I数据对象,一段编辑史更新序列,一个交互定义(IID)访问号,两个关联分子,一条关于交互的描述,一系列文献及私有标志。IND最高级生物细胞信号路径(t://biif.shi.nca/p/IND/Sec/id.sn参考文献1998(),21(6:658-1990..276-韩正忠,方宁生1993.模糊数学应用.东南大学出版社何新贵.1998.数据采掘中的模糊技术.计算机科学 1998,25(专刊):129-吉根林,孙志挥2001.数据挖掘技术.中国图象图形学报6(8:715-1986.刘明吉,王秀峰,王治宝等2000.一种基于遗传算法的知识挖掘算法.计算机工程26(8):13-陆汝钤1996.人工智能.科学出版社,北京1999.20012001,18(5):AgrawalR,SrikantR.1994.Fastalgorithmsforminingassociationrules.In:Proceedingofthe20thinternationalConferenceonverylargedatabase,Santiago,Chile,Sept,487-499.AkutsuT,KuharaS,MaruyamaO,MiyanoS.1998.ASystemforIdentifyingGeneticNetworksfromGeneExpressionPatternsProducedbyGeneDisruptionsandOverexpressions.GenomeInformSerWorkshopGenomeInform,9:151-160.AkutsuT,KuharaS.MaruyamaO,MiyanoS.1998.Identificationofgeneregulatorynetworksbystrategicdisruptionsandgeneoverexpressions.InProceedingsoftheNinthAnnualACM-SIAMSymposiumonDiscreteAlgorithms,California,695-702.AkutsuT,MiyanoS,KuharaS.1999.IdentificationofgeneticnetworksfromasmallnumberofgeneexpressionpatternsundertheBooleannetworkmodel.PacSympBiocomput,AlexandrovN,MironovA.1990.ApplicationofanewmethodofpatternrecognitioninDNAsequenceanalysis:astudyofE.colipromoters.NucleicAcidsRes.,18:1847-1852.AndersonJSJ,ParkerR.2000.Computationalidentificationofcis-actingelementsaffectingpost-transcriptionalcontrolofgeneexpressioninSaccharomycescerevisiae,NucleicAcidsRes.,28:1604-1617.BaderGD,HogueCW.2000.BIND--adataspecificationforstoringanddescribingbiomolecularinteractions,molecularcomplexesandpathways.Bioinformatics,BaileyTL,ElkanC.1994.Fittingamixturemodelbyexpectationmaximizationtodiscovermotifsinbiopolymers.ProceedingofthesecondInternationalConferenceonIntelligentSystemforMolecularBiology.28-36.BerryMJA,LinoffG,1997.Dadaminingtechniquesformarketing,salesandcustomersupport,JohnWiley&SonsNewYork.BoguskiMS.1998.Datamanagementandanalysisforgeneexpressionarrays.Nat.Genet.,BrazmaA,JonassenI,ViloJ,UkkonenE.1998.Predictinggeneregulatoryelementsinsilicoonagenomicscale,GenomeRes.,8:1202-1215.BrazmaA,JonassenI,EidhammerI,GilbertD.1998.Approachestotheautomaticdiscoveryofpatternsinbiosequences.JComputBiol,5(2):279-305.BussemakerHJ,LiH,SiggiaED.2000.Buildingadictionaryforgenomes:identificationofpresumptiveregulatorysitesbystatisticalanalysis.ProcNatlAcadSciUSA,97(18):10096-10100.ButteAJ,KohaneIS.2000.MutualInformationRelevanceNetworks:FunctionalGenomicClusteringUsingPairwiseEntropyMeasurements,PacificSymposiumonBiocomputing,CarrDB,SomogyiR,MichaelsG.1997.Templatesforlookingatgeneexpressionclustering,StatisticalComputingandGraphicsNewsletter,8:20-29.ChenMS,HanHW,YuPS.1996.Datamining:anoverviewfromadatabaseperspective.IEEETransKnowledgeandDataEngineering,866-883.ChenT,HeHL,ChurchGM.1999.Modelinggeneexpressionwithdifferentialequations.PacificSymp.Biocomp.4:29–40.CrowleyEM,RoederK,BinaCrowleyEM,RoederK,BinaM.1997.AstatisticalmodelforlocatingregulatoryregionsingenomicDNA.J.Mol.Biol.,268(1):8-14.levelsduringCNSdevelopmentandinjury.PacificSymp.Biocomp.99,EisenMB,SpellmanPT,BrownPO,BotsteinD.1998.Clusteranalysisanddisplayofgenome-wideexpressionpatterns.ProcNatlAcadSciUSA,95(25):14863-14868.RS,MichaelsGS.1999.LinearModelingofmRNAExpressionLevelsDuringDevelopmentandInjury,PacificSymposiumonBiocomputing,4:53-35.FayyadUM,Piatetsky-shapiroG,SmythP.1996.AdvancesinknowledgediscoveryanddataCalifornia:AAAI/MITD.1998.ComposingMagicLenses.ACMSIGCHIFrechK,HerrmannG,WernerT.1993.Computer-assistedprediction,classification,anddelimitationofproteinbindingsitesinnucleicacids.NucleicAcidsRes.,21:GalasDJ,EggertM,WatermannMS.1985.Rigorouspattern-recognitionmethodsforsequences.J.Mol.Biol.,186:117-GordonAE.1981.Classification:methodsfortheexploratoryanalysisofmultivariatedata.Chapman&Hall,NewYork.HeldenJV,AndreB,Collado-VidesJ.1998.Extractingregulatorysitesfromtheregionofyeastgenesbycomputationalanalysisofoligonucleotidefrequencies,J.Mol.Biol.,281:827-842.HertzGZ,etal.1990.IdentificationofconsensuspatternsinunalignedDNAknowstobefunctionallyrelated.CABIOS,6(2):81-HortonPB,KanehisaM.1992.AnassessmentofneuralnetworkandstatisticalapproachesforpredictionofE.colipromotersites.NucleicAcidsRes,20(16):4331-8.IdekerTE,ThorssonV,KarpRM.1999.Discoveryofregulatoryinteractionsthroughperturbation:inferenceandexperimentaldesign.PacSympBiocomput,305-16.JabsonJ.1992.Appliedmultivariatedataanalysis:categoricalandmethods.Springer,NewJacobsAndersonJS,ParkerR.2000.Computationalidentificationofcis-actingelementsaffectingpost-transcriptionalcontrolofgeneexpressioninSaccharomycescerevisiae.NucleicAcidsRes2000Apr1;28(7):1604-17.JensenLJ.2000.AutomaticdiscoveryofregulatorypatternsinpromoterBioinformatics,16:326-JerdingDF,StaskoJ.1998.TheInformationMural:ATechniqueforDisplayingNavigatingLargeInformationSpacesIEEETransactionsonVisualizationandComputerGraphics,4(3):257-271.JosephPB.1996.DataMiningWithNeuralNetworks:SolvingBusinessProblemsFromDevelopmenttoDecisionSupport[M].McGrawHill,New49.L.1990.FindingGroupsindata:Anintroductiontoclusteranalysis,Wiley&Sons,NewKohonenT.1997.Self-organizingmap.Springer,KoikeT,RzhetskyA.2000.Agraphiceditorforanalyzingsignal-transductionpathways.Gene259:235-244.KolpakovFA,AnankoEA,KolesovGB,KolchanovNA.1998.GeneNet:adatabasefornetworksanditsautomatedvisualization.Bioinformatics,14(6:529-KozianDH,KirschbaumBJ.1999.Comparativegene-expressionanalysis.TrendsBiotech.,LawrenceCE,AltschulSF,BoguskiMS,LiuJS,NeuwaldAF,WoottonJC.1993.Detectingsubtlesequencesignals:aGibbssamplingstrategyformultiplealignment.Science,262(5131):208-214.LiangS,FuhrmanS,SomogyiR.1998.AGeneralReverseEngineeringAlgorithmforLiangS,FuhrmanS,SomogyiR.1998.AGeneralReverseEngineeringAlgorithmforInferenceofGeneticNetworkArchitectures,PacificSymposiumonBiocomputing,3:18-29.LiuniS,PrunellaN,PesoleG,D'OrazioT,StellaE,DistanteA.1993.SIMDparallelizationoftheWORDUPalgorithmfordetectingstatisticallysignificantpatternsinDNAsequences.ComputApplBiosci.,9(6):701-7.LuH,RudyS,LiuH.1996.Effectivedataminingusingneuralnetworks.IEEETransactionsKnowledgeandDateEngineering,8(6):957-MarcP,DevauxF,JacqC.2001.yMGV:adatabaseforvisualizationanddataminingofpublishedgenome-wideyeastexpressiondata.NucleicAcidsRes,29(13):E63-3.McAdamsHH,ArkinA.1997.Stochasticmechanismsingeneexpression.ProcNatl.Acad.Sci.USA,94:814–819.MengeritskyG,SmithTF.1987.RecognitionofcharacteristicpatternsinsetsfunctionallyequivalentDNAsequences.Comput.Applic.Biosci.,3:223-MichaelBE,PaulTS,PatrickOB,BotsietinD.1998.Clusteranalysisanddisplaygenomewideexpressionpatterns,Proc.Natl.Acad.Sci.USA,95:14863-MorozovP,SitnikovaT,ChurchillG,AyalaFJ,RzhetskyA.2000.ANewMethodforCharacterizingReplacementRateVariationinMolecularSequences:ApplicationoftheFourierandWaveletModelstoDrosophilaandMammalianProteinsGenetics,OhlerU,HarbeckS,NiemannH,NothE,ReeseMG.1999.Interpolatedmarkovchainseukaryoticpromoterrecognition.Bioinformatics,15(5):362-O'NeillMC.1991.Trainingback-propagationneuralnetworkstodefineanddetectDNA-bindingsites.NucleicAcidsRes,19(2):313-8.PatrickD,etal.1999.Geneexpressiondataanalysisandmodeling,PacificonPersidisA.2000.Datamininginbiotechnology.NATUREBIOTECHNOLOGY,18:237-PesoleG,PrunellaN,LiuniS,AttimonelliM,SacconeC.1992.WORDUP:anefficientalgorithmfordiscoveringstatisticallysignificantpatternsinDNAsequences.NucleicAcidsRes,20(11):2871-5.PickertL,ReuterI,KlawonnF,WingenderE.1998.Transcriptionregulatoryanalysisusingsignaldetectionandfuzzyclustering.Bioinformatics,14(3):244-microarrayexperiments:applicationtosporulationtimeseries.PacSympBiocomputRobinsonAJ,FloresTP.1997.Noveltechniquesforvisualisinginformation.ProcIntConfIntellSystMolBiol,5:241-RothFP,HughesJD,EstepPW,ChurchGM.1998.FindingDNAre

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论