生命科学与数学_第1页
生命科学与数学_第2页
生命科学与数学_第3页
生命科学与数学_第4页
生命科学与数学_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.生命科学与数学许玉霞自1953年沃森和克里克发现DNA的双螺旋构造,人们对生命信息遗传的研究进入了一个崭新的时代,相继发现了“遗传密码字典、“遗传的中心法那么等,使人们对生命是如何一代一代繁衍的,有了初步的理解。但离真正揭开生命信息遗传之谜还差之甚远。1987年,美国开场了人类基因组研究方案,任务有两个:第一个是“读出,即研究出人类基因组的全部核苷酸的顺序;第二个是“读懂,即找出全部基因在染色体上的位置,理解它们的功能。整个基因组测序完成后的数据可以构成一本100万页的书,其上只有4个字母的反复出现.如何处理、存储和分析这些数据?这已不是生物学家本身可以解决的问题,需要其他学科,特别是数学与

2、计算机学科的介入.。首先介绍了分子生物学的一些最根本的知识,然后着重介绍了目前人类基因组研究中的假设干问题及其所用到的数学方法与模型。1、背景与根本知识生命的根本单位是细胞,它由细胞膜、细胞质和细胞核三者组成,遗传信息储存在细胞核中。人的细胞核中含有23对染色体,染色体含DNA脱氧核糖核酸和蛋白质。DNA经螺旋、扭曲、折叠等压缩到万分之一并与蛋白质一起而组成染色体。DNA是一种大分子,由两股长链以螺旋式构成,这种螺旋构造是在1953年由沃森和克里克提出,并获1962年的Nobel奖,是20世纪最伟大的科学发现之一。DNA分子上的一个个有生物功能的片段是基因。基来由假设干按一定顺序排列的核苷酸组

3、成。核苷酸由磷酸基团、脱氧核糖及碱基构成,有4种不同的碱基,即:腺嘌呤、鸟嘌呤、胞嘧啶及胸腺嘧啶,分别用A,G,C,T表示。核苷酸按其所含碱基的不同也分为4种。在DNA的双股上,A,T成对出现,G,C也成对出现,每对称为一个碱基对。遗传密码在DNA的链上,密码由4种不同的核苷酸按一定顺序排列而成,即可看成由4个字母A,G,C,T排列而成.据估计,人类的DNA约含有30亿个密码,排列组成至少10万条基因.决定人体蛋白质的20种氨基酸的遗传密码已找出,先由A,G,C,T中每3个字母重复排列成一密码子,共有43=64个密码子.每一密码子对应一种氨基酸;但由于只有20种氨基酸,故这种对应只能是多对一的

4、,例如AGA,AGG都对应于精氨酸,此种对应关系已完全确定,称为遗传密码字典。使人们惊叹不已的是,自然界所有的生命形式都共用这本密码。在确定了三联体码在DNA上线性串接的结合方式后,发现了为蛋白质编码的基因构造。这些基因在DNA上所处的位置,称为DNA的编码区,约占整个基因组的3%5%,其余部分习惯上统称为“废物JunkDNA.在对编码区上DNA的构造所进展的40多年的研究工作中,已造就了几十名Nobel奖获得者。然而,“JunkDNA中包含的信息也许更多。总之,细胞细胞核染色体蛋白质含氨基酸、DNA由核苷酸组成基因上有密码子,即由A,G,C,T组成的三联体码。1987年,美国开场了人类基因组

5、研究方案,任务有两个:第一个是“读出,即研究出人类基因组的全部核苷酸的顺序;第二个是“读懂,即找出全部基因在染色体上的位置,理解它们的功能。用数学的语言来说,人类基因组方案的最根本、最直接的结果是得到一个由4个字母A,G,C,T可重复排列而组成的长度为3109的一维链.解读后,人们不仅获得静态的构造信息,而且还能得到动态的四维时空调控信息.目前国际上找到了全长基因约2万条,平均每天能找到9条.据报道,复旦大学创造了一种新技术,每日能找到15条.科学家们把此方案与40年代的曼哈顿方案研究原子弹、氢弹和60年代的阿波罗方案宇航、登月相比。2、目前基因组研究中的假设干数学方法1概率统计方法概率统计是

6、较早进入生命科学研究领域的学科之一,早在20世纪4050年代,Fisher和Wright就用它研究过数量遗传学。下面给出几个例子说明它在当今人类基因研究中的应用。2.1.1隐马尔可夫模型HMM隐马尔可夫模型HiddenMarkovModels是由两个随机变量序列组成:一个是观测不到的马尔可夫链Yn:n0,另一个是可以观测到的随机序列Xn:n0。且两者间有如下的联络:n,条件概率为。Yn,n0称为隐马尔可夫链,Xn,n0称为其观测链。隐马尔可夫模型已在语音识别中得到广泛应用2,3,80年代末开场应用于计算生物学。目前,隐马尔可夫模型在人类基因组研究的许多方面都有广泛的应用,如,DNA序列的阵排列

7、alignment46、寻找基因genefinding7,8、作基因图geneticmapping9、作物理图physicalmapping10及蛋白质二级构造的预测11等.这诸多应用的根本思想都源于如下的Bayes统计分析:考虑随机模型M=S,PM,对分别以PM|s,Ps|M表示Px来自模型M|x=s,Px=s|x来自模型M;那么上述诸应用问题大多可抽象为如下的识别问题或判别问题1识别问题:现观察到一序列s,问此序列是来自模型M的概率是多少?由Bayes公式,欲计算PM|s,需知道两个先验概率PM和Ps。但在实际问题中往往很难做到.可退一步考虑如下的判别问题。2判别问题:再考虑另一随机模型N

8、=S,PN,根据观察到的序列s,判断s是来自M,还是来自N?此时,可由比较两个条件概率PM|s和PN|s的大小来得到答案。仍由Bayes公式可得。下面以“多个DNA序列的阵排列问题为例子说明如何在DNA序列上建立隐马尔可夫模型HMM。设有r个DNA序列,其中,序列a1,a2,,ar的一个阵排列定义为:在a1,a2,ar中不同的位置分别插入空隙符号“gap,使其变为maxn1,nr,显然,对于给定的序列a1,a2,ar可以有许多不同的阵排列。例如,都是序列a=AGGT,b=ATGTG的阵排列。引入阵排列的目的在于讨论序列之间的相似性,为此,定义函数和要寻找使da1,a2,ar到达最小的那些排列,

9、称其为“最优的阵排列。由于所有可能的阵排列的数目随序列的长度及序列个数呈指数增加,例如当r=2,n1=n2=L=1000所有可能的阵排列的数目大约为1060012。直接进展逐个比较来得到最优的阵排列是不现实的,必须寻找其他的算法。最近,用HHM来解决此问题,得到了较好的结果见文献4,13。隐马尔可夫模型HMM可如下建立:隐马尔可夫链Yn取值为M配对、I插入、及删除3个状态;可观察到的序列Xn取值为A,G,C,T.隐马尔可夫链Yn可以看做在DNA序列上运动,在第k步时相应于DNA序列上的第k个位置取值假设为配对状态M,那么以概率Pka|M在此位置产生字母假设为插入状态I,那么以概率Pka|I在此

10、位置插入字母假设为删除状态D,那么将位置k上的字母删除。隐马尔可夫链Yn的转移矩阵为Pyk+1|yk。于是当隐马尔可夫链Yn运动了N+1步后,便可得到两个序列,一是状态序列:y0开场,y1,,yN,yN+1=ML+1完毕观察不到;二是字母序列:x1,x2,xV,VN可观察到。当yi是M配对或I插入时,产生的字母记为xli,那么状态序列y=y0,y1,yn,yn+1与字母序列x=x1,x2,xV的概率分布为其中,因此序列x=x1,x2,xV出现的概率为。利用训练集可以将模型中的未知参数k=0,N估计出来。2.1.2物理图与随机区间覆盖问题作图是人类基因组研究方案中一项主要的任务,通过作图可确定基

11、因及其他功能区在DNA序列上的位置。关键的图是物理图和遗传图,遗传图是通过关联分析将的基因的相对位置定位在染色体上;物理图是将一组标记定位在染色体上并估计其间的互相间隔 ,每一标记点可以是一条基因,也可以不是。如今,已构造出具有30000个标记点的整个人类基因组的物理图,每个标记点的平均间隔 大约是100kbkilobases。在作物理图的过程中遇到如下的随机区间覆盖问题:设M是一给定的区间相当于染色体,其长度为G;I为随机区间之集,其元素的区间长度的分布;P是随机点的集合,其点随机地分布在区间M上。称一区间为anchored,假如它至少包含P中一个元素,称I中的两区间为连接的,假如它们的交集

12、中包含P中一点,将所有互相连接的区间以它们所包含P中的最小点为左端点,以它们所包含P中的最大的点为右端点,组成一个新区间。称为一个重叠群contig。问题是:应选取多少个I中的元及中的元,才能使所有的重叠群几乎覆盖了区间?譬如,覆盖M的比例平均起来达99%.此问题已由Arratia等14较为圆满的解决。2.1.3结肠癌与大偏向医学上发现结肠癌是一种遗传因素占主导地位的疾病,在某些家族中发病率很高,并有继承性.1991年Kinzler等人报告见文献13,结肠癌与位于第5条染色体长臂上的,称做APC的遗传基因的变异有关。但后来进一步的研究说明,同样都是APC基因变异的人,而受感染的程度却大不一样。

13、一年后,Dove及其同事在老鼠中找到了类似的种群,称为Min,极易患结肠瘤,同时他们还发现另一种群AKR,具有抵抗结肠瘤的才能。为进一步弄清其中的缘由,Lande等将其进展逆代杂交实验,并分析实验所得数据,检验结肠瘤是否与某遗传基因有关。对每一染色体上的一固定位置x,引入统计量Zx,假如在此条染色体上没有变异基因,那么在任一位置x,Zx服从均值为0的正态分布,但由于假设检验要在整条染色体上进展,发现是否在某一特殊区域内Zx较大,因此需要知道Zx沿整条染色体或其上某一区域的最大值的分布。Lander等证明了在他们所讨论的问题中Zx是参数为X=2的Ornstein-Uhlenbeck过程。再利用F

14、eingold等人见文献15的结果可知:对充分大的t有其中Xt是标准正态分布函数,G是染色体的长度。利用上述结果,Lander等发如今老鼠的第4条染色体上有一特殊区域与其患结肠瘤有关,假设检验的置信度为0.00216,17。2.1.4DNA序列分析与随机彷徨DNA序列是由A,G,C,T4个字母组成的序列。1992年Voss,Li-Kakeko对此做了频谱分析.同年,Peng等的工作提醒了DNA序列中存在长程相关而引起人们的兴趣。发现这种相关性的方法是将DNA序列表为一维随机彷徨:从第1个碱基即第1个字母算起,假设是嘌呤碱基即A或G那么向负走一步,假设是嘧啶碱基即C或T那么向正走一步。记n步后的

15、净位移为fn,n=1,2,L,L为序列长度.在长度为l的窗口里计算位移的均方差,然后对全序列求和,得到Peng函数Fl。他们发现,对某种序列所谓有内含子的序列有于是认为这种序列中碱基存在长程相关。长程相关是DNA序列分析中的一个研究热点,它可以出如今相隔几千个碱基的位置上。罗辽复把DNA序列表为二维随机彷徨,张春霆提出了DNA序列的空间曲线表示,都获得了好的成果见文献18。2.2拓扑学方法DNA上碱基的排列次序称为DNA的1级构造。双链DNA的双螺旋立体构造称为DNA的2级构造。双螺旋的中轴线由每个碱基对的中点所连成的线也绞拧成螺旋状,称为超螺旋,它可以打结,是DNA的3级构造。人类细胞中的4

16、6条染色体的DNA分子链连起来可达1.8m,卷曲在细胞核中,就如同200km长的钓鱼线挤在一个篮球里19。研究DNA的2级和3级构造,双螺旋及轴线的立体形状、行为以及其生物功能,是非常重要的问题。拓扑学与几何学,特别是纽结理论,是分析此问题的有力武器。实际上,约在1969年美国拓扑学家Fuller,就是应研究DNA的分子生物学家的要求而研究闭带形,并得到了与White公式本质上一样的结果。附带谈及,蛋白质也有3级,甚至4级构造。DNA中的碱基序列决定蛋白质的1级构造,即氨基酸序列。在合成后,蛋白质便自发折叠成一准确的3级构造,然后才能执行催化、调控、化学输运、流动和构造支持等功能。人们把“DN

17、A序列决定氨基酸序列称为生命的第1密码,而把“蛋白质氨基酸序列决定其自然构造称为第2密码。破译第2密码的意义非常重大,其中必将用到几何学与拓扑学参看文献19。2.3数理语言学与密码学方法语言文字是人类表达和传递信息的工具,同样,DNA序列也是用以表达和传递人类遗传的信息。DNA这本由30亿个文字A,G,C,T写成的无标点、无断句的“天书是否也应与某种“语言相对应,假如能掌握它的“语言就可以读懂它了。美国科学家Zipf和Shannon用两个标准的语言学实验分析DNA,Zipf实验的结果发现“JunkDNA与人类的语言具有一样的特征,即单词出现频率的对数与单词排序的对数呈线性关系。Shannon的

18、实验的结果也说明“JunkDNA有很大的冗余度,这也和人类的语言一致,而DNA的编码区那么不显示上述任何的语言特征。陈润生等提出用密码学的方法分析DNA序列,并获得了一些好结果。语言的数理研究始自Chomsky,从形式语言的角度来讨论遗传信息的传递将是很有意义的详见文献18的3.3节彭守礼、刘次全的文章。3、基因突变基因一般是稳定的,但在机体内外因素的影响下,某些基因会发生变异或损伤,基因的突变有时可导致遗传疾病,但也可产生新的种群,从而产生进化。突变与选择是进化的动力。常见的突变是碱基置换如A,G互换,C,T互换等和基因缺失,或是各种插入、重复、倒位等。迄今,讨论外源诱导突变的工作较多,如化

19、学诱变、辐射、紫外线照射等。基因的突变是否也有如量子跃迁类似的内秉随机性?Monod认为,DNA中的一个突变,以及突变造成的某种蛋白质的过量消费、消失或功能改变属于本质上的偶尔性,内在的基因突变,成为密码系统的固有噪音。突变在群体中发生是随机的。莫诺还认为蛋白质的氨基酸次序也是随机的,他说,“如某种蛋白质含有200个氨基酸残基,即使知道了199个确实切次序,也对剩下的1个不能预测参见文献20,p.71。突变发生在密码子的第1位,第2位或第3位,概率是不同的,第3位较易突变。从DNA到蛋白质,中间要经过RNA,因此有不确定性,构成Crick摆动。各基因的突变频率不一,例如p53基因是突变最频繁的

20、抑癌基因,它的突变可引起癌症;p73基因与此类似,它位于1号染色体短臂上。Tau基因那么与痴呆症有关.关于肿瘤,目前认为它源于某些基因改变,引起细胞突变而异常增殖。单个基因的改变缺乏以形成肿瘤,肿瘤的发生是多种基因按一定顺序改变的结果。不同肿瘤的点突变方式不同,如肺癌多为G变为T,结肠癌多为G变为A。关于对基因突变的数学研究,概率统计分析有一些见文献1,但真正有作用的数学模型尚未见到。突变是稀少的,高等生物突变率约在5%8%。统计物理中研究大概率事件,而生命科学中那么多为小概率事件,生命之出现本身就是小概率事件。除基因突变外,染色体也可以发生畸变。畸变类型主要有两种,一是染色体数目畸变,这时多

21、出或丧失几条染色体;另一种是染色体构造畸变,染色体发生断裂。断裂后的断片未与断端相接而丧失;或断片接同源染色体的相应部分而重复;或断片倒转后接到断端上而使顺序颠倒等等,其结果可能引起先天愚呆、白血病等。4、完毕语如今,每天得到的生物序列主要是DNA序列、RNA序列与蛋白质的氨基酸序列等的数据量以指数速度增加,按实验室通常处理数据的方法只能处理这些数据中的极小一部分。2019年6月26日,由美、英、日、法、德和中国组成的国际人类基因组方案协作组分别在六国同时宣布人类基因组工作框架图覆盖人类基因组90%区域的序列图绘制完成。假如说,人类基因组是一部蕴涵人类生命奥秘的天书,这一工作意味着人类已经破译

22、了这一天书中的绝大部分文字。这是人类在认识自身,探究生命奥秘的伟大征程中又一里程碑式的工作。2019年2月15日,人类基因组方案协作组又在世界著名的科学杂志?自然?上结合发表了题为?人类基因组的序列的初步测定及分析?论文,这说明人类已经初步读懂了这部天书的部分内容。整个基因组测序完成后的数据可以构成一本100万页的书,其上只有4个字母的反复出现,既未发现语法,又没标点。如何处理、存储和分析这些数据?这是数学家、物理学家和生物学家面对的一个难题,需要应用现有的数学方法甚至需要开展新的数学方法与理论来应付这一挑战。另一方面,基因组相关数据库及Internet技术的高度兴隆,使世界各国的科学家都能及时得到待分析的资料与数据,因此从事理论研究的根本条件对所有学者都是相近的,我们应抓住这一大好时机。不久前,著名的分子生物学家Gilbert,Nobel奖获得者在Nat

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论