matlab生物本科毕业论文_第1页
matlab生物本科毕业论文_第2页
matlab生物本科毕业论文_第3页
matlab生物本科毕业论文_第4页
matlab生物本科毕业论文_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、XXXX本科毕业论文二维DNA序列的相似性分析XX XX本 科 毕 业 论 文(设计)题目: 二维DNA序列的相似性分析 姓名: 专业: 学院: 学号: 指导教师: 职称: 201X年 X月X 日XX本科毕业论文(设计)诚信声明 本人郑重声明:所呈交的毕业论文(设计),题目二维DNA序列的相似性分析 是本人在指导教师的指导下,独立进行研究工作所取得的成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式注明。除此之外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。本人完全意识到本声明的法律结果。毕业论文(设计)作者签名: 日期: 年 月 日目 录1 引言41.1选题的背景

2、和意义41.2生物信息学特点51.3 国内外的发展状况52. DNA的相关知识和结构72.1 什么是DNA72.2 DNA的结构72.3 DNA的功能和工作原理102.4 DNA的相似性103. 欧式距离法DNA相似性分析123.1 实验的简介和布局123.2 DNA序列的二维图形表示方法123.3 欧式距离以及相似性的判断133.4 实验结论214. 对未来生物信息学的展望21附录 参考文献 致谢 英文摘要22【参考文献】22致谢23【Abstract】24二维DNA序列的相似性分析XXXXXXX XXX学号:XXXXXX【摘要】 随着生命科学技术的高速发展,生物科学家的研究从生物个体的研究

3、,发展到后来研究细胞,再发展到现在研究基因序列。尤其是当全球的人类基因组计划HGP实施的进一步深入探索,为生物学家提供了许许多多的人类基因组序列数据。科学家们通过对这些基因组数据的分析和解读,使我们能够更加详细了解到人类以及各种各样生命个体的发展的过程,如更好的预测了解并解决疾病,得知各种不同生命种类之间的联系等。现在大多数科学家都是通过数学的方式去描述一段DNA的组成。基因的分析主要是通过DNA数字序列的分析,而如果要确切区别不同种类的生命个体抑或是寻找同源或者非同源,那就要通过DNA序列的相似性分析。这也是属于生物信息学里面的DNA序列比对的一种。【关键词】欧式距离;相似性分析;DNA序列

4、;生物信息学1 引言本次的研究方向是生物信息学里的序列比对。序列比对中的相似性分析是属于生物信息学里一向很重要的研究方向。此前,已经有了许多序列比对的方法。从方法上讲,比如Needleman-Wunsch的全局比对法,非线性时间序列法近似于熵的DNA序列动态分析法等等。从维数上说,已经有了一维到四维的图形分析法。而我这次的研究方法,是采用二维图像的欧式距离相似性分析法。通过对DNA序列的碱基表示在笛卡尔坐标上,再通过求和欧式距离,分析不同碱基的欧式距离增加的趋势来比较3。1.1选题的背景和意义 生物信息学领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演

5、化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。生物信息学是内涵非常丰富的学科,它的核心是生物基因组学,它包括信息的获取和处理以及存储、分配和解释。基因组信息学最关键的是能够读懂整个基因组的核苷酸顺序,也就是说全部基因在染色体上的位置以和没一个DNA片段的功能;并且在发现了新基因信息之后要进行一种蛋白质空间结构模拟和预测。最后再依据特定蛋白质的功能进行药物设计。所以说,去分析理解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在调控中的作用,描述人类疾病的诊断,治疗内在规律。研究目标就是揭示"遗传语言的根本规律以及基

6、因组信息结构的复杂性",解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。 近年来,生物科学技术迅猛发展,生物科学技术迈入了数据分析时代。另一方面,由于计算机能力越发的强大,以及互联网的连接更加便利。这就使得这些数据等到很好的贮存,传输,处理和分析。所以,为了更高效率对生物科学的研究,就诞生出了生物信息学这一分子生物学与计算机信息处理紧密相关的学科。生物信息学从内容上分,分为两个主要方面:基因组的静态结构分析,主要包括序列、结构特征的分析,如结构基因组学、比较基因组学;基因组的动态分析,包括功能基因组学、表达基因组学、蛋白质组学、代谢分析等。

7、生物信息学从时间段分主要分为三个发展的阶段,分别是前基因组时代、基因组时代以及后基因组时代。前基因组时代的工作主要是DNA和蛋白质序列的分析、生物数据库的组建;基因组时代则是基因组的发现与识别,并且做好网络数据库系统的准备;后基因组则是开始了大规模的基因组分析以及各种数据的整合和比较。而处于生物信息学里的基因组学,则是研究生物的遗传结构。主要是有对核苷酸序列的一个测序以及数据的一个分析。DNA序列的比对,则是属于比较基因组学,也就是研究对不同进化阶段基因组的比较和不同种群和群体的基因组的比较6。1.2生物信息学特点伴随着计算机领域的快速发展,生物信息学也发展的十分迅速,信息量与日剧增。截止到目

8、前,已经有了100多种生物学的数据库。不过,现在生物信息学发展还处在一个原始积累的阶段,还是以量的增加为主,并没有找到规律性和理论性的东西,和天文学、物理学等发展是一样的。但是随着往后大量资料的积累、总结和分析,从中寻找规律,最终肯定能成为定律和准则,并进一步知道科学理论的创立和进行应用。其次,生物信息学是以基因的结构为基础,以蛋白质的结构为中介来找到致病基因和相应的药物开发为目的和动力。除了一些科学院会有开设生物信息学的相关研究所,更多的是,生物信息学发展的主体是公司,而目前发展的重点的各种软件的开发。它属于21世纪的新兴产业,人才十分的缺乏。当然,量大而且种类多的基因信息是需要网络才能够共

9、享的。现在剪成的网站仅仅才十几个,其中GenBank是比较常用的站点1。这次的选题选择的是生物信息学中的其中一个重点研究方向,也就是序列比对。什么是序列比对?序列比对(Sequence Alignment)7 8最根本的问题就是去研究两个或者多个的不同符号序列的差异性和相同性。从生物学的初衷来看,这个问题包含了几个重要的含义:从零散并且重叠的序列片断中重新构造出完整的DNA序列。在不同的试验条件下在探测数据中决定基因图存贮,遍历和比较数据库中的DNA序列。比较两个或多个序列的相似性,并且在数据库中搜寻相关的序列和子序列,寻找核苷酸的连续产生模式,接着再找出蛋白质亦或是DNA序列中的信息成分。序

10、列比对考虑了DNA序列的生物学特性,比如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等。两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的10。而人类为了发现位置DNA序列上的功能区域,也经常用未知序列和同种或者异种生物上已知功能的序列惊醒比较。必要时也可以

11、整个DNA数据库星星比较。只要发现它们之间的相似程度高,就可以认为他们的功能类型是相似的。当然,由于随着进化和突变会引起DNA序列碱基的缺失与插入,就会将比对造成影响,所以,后续的数学家和科学家们都发展了许多序列比较的有效方法。最典型的是Needleman和Wunsch的动态规则算法和Dayhoff的突变数据矩阵技术规则等。序列比对正因为有了上述的功能,所以这种方法对于生物信息学以及人类的发展都是有重大意义的,这就是此次毕设的选题意义所在6。1.3 国内外的发展状况首先说说国外的发展状况。国外的科技一般都领先国内很多很多,并且,他们也非常重视生物信息学这个学科。有关于生物信息学科的生物科技公司

12、和相关研究机构不断建立。而且,在88年的时候,美国国会就通过了一项议案,成立了国家生物技术信息中心。也就是生物分析最常上的网址(NCBI)。随后,欧洲和日本方面也分别建立了欧洲生物信息学研究所(EBI)和信息生物学中心(EBI)。它们的目的都是为了进行计算分子生物学的基础研究,构建和散布分子生物学数据库。基本上,很多核酸和蛋白质的信息都储存在这三家研究中心。所有资料都是在全世界共享和公开。当然,相关的科学专业周刊也随之雨后春笋般涌出。权威的杂志如1970年,出现了Computer Methods and Programs in Biomedicine这本期刊;到1985年4月,就有了第一种生物

13、信息学专业期刊Computer Application in the Biosciences。现在,我们可以看到的专业期刊已经很多了7。至于国内生物信息学的发展则起步比较晚,但是在建立之后由于国际间的合作还是发展得很快的。如我国相继成立了北京大学生物信息学中心、华大基因组信息学研究中心、中国科学院上海生命科学院生物信息中心、中国人民解放军总医院神经信息中心。部分高校已经或准备开设生物信息学专业。2002年国家自然科学基金委在生物化学、生物物理学与生物医学工程学学科设立了生物信息学项目,并列入生命科学部优先资助的研究项目。国家 863计划特别设立了生物信息技术主题,从国家需求的层面上推动我国生物

14、信息技术的大力发展。虽然,国内生物信息学发展非常快,但总体来讲与国际水平差距还是比较大,而且这些差距不是一天两天能够追赶上来的。一方面表现为相对于国内生物医药科学的研究与开发,对生物信息学洋酒和服务的需求之后;另一方面我国学者在生物信息学领域发表的有高影响力的论文只有不到美国学者发表数量的6%,差距相当大。但是可喜的是在生物信息学领域,一些著名院士和教授在各自领域取得了一定成绩,有的甚至在国际上还占有一席之地。如北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST序列拼接方面以及在基因组演化方面、天津大学的张春霆院士在DNA序列的几何学分析方面等等。此外

15、,各类国内的重点大学也相继设置生物信息学的学科,以促进生物信息学未来的发展8。另外,国内对于生物信息学的相关会议和活动不断召开,这也在一定程度促进了生物信息学在中国的发展。1997年9月和12月,中国科学院于在香山召开了第80,87会议,并且邀请有关专家就“生物信息学”和“DNA芯片的现状与未来”进行探讨。2003年11月28至29日,中国科技协会第81次主题为“生物信息学与进化计算”青年科学家论坛在北京中国科技会堂成功召开。这次是中国科技协会开展的交叉学术学会,目的是为了促进国内青年科学家对生物信息学的一个交流,并且也促进生物信息学的成长与发展。这也是国内首次以“生物信息学”为主题的一次多学

16、科交叉的青年科学家论坛。参加会议的人一致认为系统生物学、非编码区功能研究、基因调控和相互作用网络等是当前生物信息学研究的热点问题3。尽管如此,声称说是为了生物信息学发展的各类机构和公司都是不完善的。他们很少做科研,更多的是,他们做的是一种简单的计算机辅助去做一个生物实验的设计罢了。专业性远远比不上外国的正规机构5。2. DNA的相关知识和结构2.1 什么是DNA很多人都听说过DNA这么一个东西。可是,大家知道的只是表面而已,就知道它是与遗传相关,仅此而已。可是,当深入了解什么是DNA后,才发现DNA是多么的美丽。DNA,英文全称为Deoxyribonucleic acid,又称脱氧核糖核酸,也

17、称作是去氧核糖核酸。当然,大众的认识也是正确的。DNA是构成基因的基本材料,而基因则是包含了一段又一段的遗传片段。人类的代代相传的某一种特性的相似性,正是由于基因里DNA的复制传递,从而完成性状的传播。(有少数的生物是利用RNA来做遗传因子)DNA本身属于高分子聚合物,而它的溶液为高分子溶液,具有很高的粘度,可被甲基绿染成绿色。DNA对光特别是紫外线(260nm)有一定的吸收作用,所以我们可以对DNA进行含量测定。当核酸变性时,吸光度升高,称为增色效应;当变性核酸重新复性时,吸光度又会恢复到原来的水平。较高温度、有机溶剂、酸碱试剂、尿素、酰胺等都可以引起DNA分子变性,即DNA双链碱基间的氢键

18、断裂,双螺旋结构解开也称为DNA的解螺旋。DNA因为它有聚合性,所以组成单位为四种脱氧核苷酸,分别是腺嘌呤脱氧核苷酸(DAMP 脱氧腺苷)、胸腺嘧啶脱氧核苷酸(DTMP 脱氧胸苷)、胞嘧啶脱氧核苷酸(DCMP 脱氧胞苷)、鸟嘌呤脱氧核苷酸(DGMP 脱氧鸟苷)。我们把他们俗称为A、T、C、G。另外,五碳糖与磷酸分子借由酯键相连,组成其长链骨架,排列在外侧,四种碱基排列在内侧。每个糖分子都与四种碱基里的其中一种相连,这些碱基沿着DNA长链所排列而成的序列,这就是遗传密码,进而去指导着蛋白质的合成。相反,读取密码的过程称为转录,是以DNA双链中的一条单链为模板转录出一段称为mRNA的核酸分子。大多

19、数MRNA都会有合成蛋白质的相关信息,而且另有一些本身就拥有特殊的功能,就比如rRNA、mRNA在细胞内,DNA与蛋白质相继结合形成染色体。那么这组染色体则统称为染色体组。而人类的正常的体细胞中含有46条染色体。在细胞分裂之前会,染色体在分裂间期就完成复制,细胞分裂期又可划分为:G1期-DNA合成前期、S期-DNA合成期、G2-DNA合成后期。相对于真核生物,比如动植物和真菌而言,染色体主要存在于细胞核内;而原核生物如细菌,则主要存在于细胞质中的拟核内。染色体上的染色质蛋白,如组织蛋白,能够将DNA进行组织并压缩,以帮助DNA与其他蛋白质进行交互作用,进而调节基因的转录2。2.2 DNA的结构

20、DNA本身有四种不同的结构10,分别是一级、二级、三级以及四级结构4。一级结构: 图2.1 DNA的一级结构5指的是组成DNA的四种基本核苷酸脱氧核糖核苷酸(核苷酸),通过3',5'磷酸二酯键彼此连接起来的线形多聚体,以及起基本单位脱氧核糖核苷酸的排列顺序。 每一种脱氧核糖核苷酸由三个部分所组成:一分子含氮碱基+一分子五碳糖(脱氧核糖)+一分子磷酸根。核酸的含氮碱基又可分为四类:腺嘌呤(adenine,缩写为A),胸腺嘧啶(thymine,缩写为T),胞嘧啶(cytosine,缩写为C)和鸟嘌呤(guanine,缩写为G)。DNA的四种含氮碱基组成具有物种特异性。即四种含氮碱基

21、的比例在同物种不同个体间是一致的,但在不同物种间则有差异。DNA的四种含氮碱基比例具有奇特的规律性,每一种生物体DNA中 A=T ,C=G 查加夫(Chargaff)法则(即碱基互补配对原则)。  二级结构: 图2.2 DNA的二级结构二级结构是指两条脱氧多核苷酸链反向平行盘绕所形成的双螺旋结构。DNA的二级结构分为两大类:一类是右手螺旋,另一类是左手双螺旋。沃森与克里克发现的双螺旋,称为B型的水结合型DNA,这种是在细胞中最为常见。当然,也有的DNA为单链,常见于原核生物,如大肠杆菌噬菌体有的DNA为环形,有的DNA为线形。碱基A与T之间可以形成两个氢键,G与C之间可以形

22、成三个氢键,使两条多聚脱氧核苷酸形成互补的双链,组成碱基对的两个碱基的分布不在一个平面上,氢键使碱基对沿长轴旋转一定角度,使碱基的形状像螺旋桨叶片的样子,整个DNA分子就形成双螺旋缠绕状。-DNA的结构,碱基对之间的距离非常的小,至哟0.34nm,10个碱基对转一周,故旋转一周(螺距)是3.4nm。在生物体内自然生成的DNA几乎都是以-DNA结构存在。三级结构: 图2.3 DNA的三级结构至于DNA的三级结构,因为三级结构本身是属于空间的结构。它是由DNA进一步扭曲盘绕所形成,也称为超螺旋结构。DNA的超螺旋结构可分为正、负超螺旋两大类,它们之间是可以相互转换的。超螺旋是克服张力而形成的。每当

23、DNA双螺旋分子在溶液中以一定构象自由存在时,双螺旋处于能量最低状态此为松弛态。如果使这种正常的DNA分子额外地多转几圈或少转几圈,就能使双螺旋产生张力,如果DNA分子两端是开放的,这种张力可通过链的转动而释放出来,DNA就恢复到正常的双螺旋状态。不过,如果DNA分子两端是固定的,或者是环状分子,那么这种张力就不能通过链的旋转释放掉,只能使DNA分子本身发生扭曲,以此抵消张力,这就形成超螺旋,是双螺旋的螺旋。最后是四级结构:核酸以反式作用存在(如核糖体、剪接体),这可看作是核酸的四级水平的结构 图2.4 DNA的四级结构2.3 DNA的功能和工作原理生物的性状主要是通过蛋白质来表现出来,而蛋白

24、质成分和功能是由DNA来决定的。所以,DNA到蛋白质这一过程也称作是生命的复制过程。DNA合成蛋白质的过程包括复制、转录和翻译。首先DNA将进行复制。在双螺旋的DNA中,DNA含有双链,一开始,DNA双链在酶的作用下双链解开,形成了复制叉,复制叉主要是由多种蛋白质和酶参与的比较复杂的一种复制过程。由于氢链链数的限制,DNA的碱基排列配对方式只能是A对T(由两个氢键相连)或C对G(由三个氢链相连)。所以复制过程中,只要知道一条链的剪辑数列,就能够确定另一条碱基序列。因为每一条链都要和另一条互补。所以腹部就是遵循碱基互补配对原则。随后进行的DNA转录,怎是在细胞核内进行的。在之前分解的一条DNA链

25、就成为了模版,按照碱基互补配对原则,合成RNA的一个过程。最后,再通过DNA的翻译,从而形成了蛋白质。这之间遵循着一个规则,就是中心法则。2.4 DNA的相似性DNA的相似性12指的是两条不同的DNA序列的大概相似程度。比如说,如果在实验中,比对两条DNA,就会有不同的相似程度。可能是百分之20,也可能是百分之30,甚至是百分之70以上。这就牵涉到另外一个概念,也就是DNA的同源或者是不同源。而比对中的结论也就是这两者。要么是同源,要么就是不同源。两个不同的DNA,一定会有差异。而相似的地方也是许多方面的。比如也许仅仅是AGCT的相似,也许是结构的相似,亦或是功能性上的一个相似。当然,前面也说

26、过,数量和结构决定功能。所以,去研究相似性,也是要从多个方面和多种方法去入手。DNA的相似性研究可以从多维方向入手,分为一维、二维和三维。DNA正是如此简单的简单元素(AGCT)和不简单的组成结构,才会构成生物的各种多样性。而这种多样性就是恰恰就是体现在它的结构多样性。所以,我们在分析不同物种的相似性的时候,根本的目的就是分析他们结构组成的相似性,再进一步就到了功能的相似性。相似性不仅仅是从他们的A、G、C、T的数量分析,也是要从这四种核苷酸的组成结构不同而相区别。在接下来的实验过程中,我将会给A、G、C、T给予不同的坐标定位。3. 欧式距离法DNA相似性分析3.1 实验的简介和布局在DNA序

27、列的相似性分析中,有许许多多不同的方法。每一种方法都有它自身的优劣性。从最直观图形的方法来看,DNA的相似性分析纬度能够从一维跨越到四维。图形来表示一段DNA对于研究和比较DNA序列局部和整体是非常有用的一种手段。由于DNA是由四个不同的核苷酸组成,所以,我们能够用四种不同的单位向量来表示这四种核苷酸。随后就将一段DNA序列映射成一维数字序列,二维平面曲线、三维空间立体图形以及四维的复合曲线。并且,我们可以根据不同图形曲线得到DNA序列的相关的数字特征。利用这些图形表示的数字特征向量,就可以用任意多维向量表示DNA序列,再通过特定的函数来测量不同向量之间的距离来进行DNA的相似性分析。所以,这

28、次的论文实验部分如下: 1:首先取六种不同病毒的DNA序列片段,其中四种是禽流感病毒,另外两种分别是SARS和诺如病毒。 2:给这六种不同的DNA序列片段画二维图像。每一个碱基都对应每一个不同的向量。 3:基于欧式距离,计算两两病毒之间的偶是距离,取不同的碱基数目去做一个比较从而得出相似性的结论。3.2 DNA序列的二维图形表示方法 其实,DNA用二维图形来表示最开始的是GATES,NANDY以及LEONG。当然,他们的方法都是不一样的。主要还是通过X轴或者是Y轴的移动单位向量来实现。这移动的过程当中就画了许许多多历山的点。当基数多了之后,点与点之间便可以练成一条曲线。在NADNY的理论中,他

29、是用T和A分别对应着坐标轴的-X和-Y轴。而什么是退化性4?退化性就是一些图上的序列会形成一些闭环或者是圈。这样的画,对于表示DNA序列的某些结构的性质有不完整性。甚至会出现,一些本来就不一样的DNA序列却有相同的图形。所以,DNA一些更加细节的部分却不能在图上表现出来,只表现个大概。这在科学和数学上都是不允许的。中后期,为了克服二维图像的一种高退化性和重叠性,郭小峰等人提出了两一种表示方法,就是用四个不同的坐标表示AGCT。如下(1)可是这种方法也不能够完全去消灭掉。所以,后期的时候,有人提出了表示2个核酸基性质的DNA图形方法,也称作是(DUAL-BASE CURVE)。就是在平面上一次表

30、示两个核酸基的性质。可是,在科学的快速发展下,这种方法也是被证明不能够完全消除。想要完全消除,也就是这次研究的目的。当然,也不能够保证在以后也是正确的。 而这次实验是二维图形,所以就必须在笛卡尔坐标上表示出四个核苷酸和数量的问题。主要就是设定四个不同的二维向量去表示A.G.C.T四种不同的核苷酸,接着再映射成连续的或者是离散的曲线。本文中,将映射成离散的曲线。当碱基的数量级达到一定程度的时候,图像就近似的像一条曲线。为了避免在二维图像中会出现退化性,所以,这次的实验将采用Stephen S-T yau所一桶的一种新的2维DNA序列的图形表示方法。而且序列与图形的映射的一一对应的。此方法是将A.

31、G.C.T四块碱基映射成笛卡尔坐标上的四个向量。嘌呤A和G是属于第一象限,而嘧啶基C和T将是第四象限。这种图形十分直观,最重要的是没有退化性。它把一段DNA的序列信息毫无损失的展展现在了二维的平面上,可以看得出整体和局部的特征11。 (2)这里,满足如下条件: (3) (4),这里,是DNA序列的长度,分别是1到这个子序列中碱基A,G,T和C出现的累积个数,定义,这样可以把DNA序列转换成二维数字序列。按照上述的极坐标形式,通过MATLAB软件便做出了每一个DNA的片段二维图像,也就是离散点的一个集合。之后,就要根据数据和图像分析两个DNA的相似性,这又用到了另一个知识,也就是欧式距离。3.3

32、 欧式距离以及相似性的判断 在这次的相似性分析中,相似性的确切数据体现我们采取的多维的距离计算方法。现在,存在有几种距离的判定方法,而最常用的分别是欧式距离、马氏距离。 马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。对于一个均值为,协方差矩阵为的多变量向量,其马氏

33、距离为(x-)'(-1)(x-)(1/2)。欧式距离(Euclid distance),也是很常用的一个判断相似性的手段。他定义的是在N维空间中,点与点之间的真实距离。而我这次的实验所要用到的就是两点之间的直线段。因为DNA是由多个碱基构成的,所以,欧式距离也会相继累加。马氏距离和欧式距离各有不同的优劣势,我们为什么选择用欧式距离是有根据的。马氏优缺点:1)马氏距离的计算是建立在总体样本的基础上的,这一点可以从上述协方差矩阵的解释中可以得出,也就是说,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;2)在

34、计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可。3)还有一种情况,满足了条件总体样本数大于样本的维数,但是协方差矩阵的逆矩阵仍然不存在,比如三个样本点(3,4),(5,6)和(7,8),这种情况是因为这三个样本在其所处的二维空间平面内共线。这种情况下,也采用欧式距离计算。4)在实际应用中“总体样本数大于样本的维数”这个条件是很容易满足的,而所有样本点出现3)中所描述的情况是很少出现的,所以在绝大多数情况下,马氏距离是可以顺利计算的,但是马氏距离的计算是不稳定的,不稳定的来源是协方差矩阵,这也是马氏距离与欧式距离的最大差

35、异之处。优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点:它的缺点是夸大了变化微小的变量的作用。如果用dij表示第i个样品和第j个样品之间的距离,那么对一切i,j和k,dij应该满足如下四个条件: 当且仅当i=j时,dij=0 dij>0 dij=dji(对称性) dijdik+dkj(三角不等式) 显然,欧氏距离满足以上四个条件。满足以上条件的函数有多种,本节将要用到的马氏距离也是其中的一种。所以,为了不让DNA的微小数据差别就造成差异性巨大

36、的这一体现,我就采取了欧式距离这个判定方法。欧式距离公式:n维欧氏空间它是一个点集,它的每个点 X 可以表示为 (x1,x2,xn) ,其中 xi (i = 1,2,n) 是实数,称为 X 的第i个坐标,两个点 A = (a1,a2,an) 和 B = (b1,b2,bn) 之间的距离 d(A,B) 定义公式:d(A,B) =sqrt ( ( ai - bi )2 ) (i = 1,2,n) (5)二维欧式距离:d = sqrt( (x1-x2)2+(y1-y2)2 ) (6)而DNA序列里面的每一个碱基都是对应着一个坐标点。所以,多个点的欧式距离我就采取了求和的公式来计算。本文选取的六种不同

37、的DNA病毒是由美国国家生物技术信息中心(NCBI,Bethesda,MD,USA)所构建的数据库里。选取了四种同源的病毒和两种不同源的病毒来做比较。表1 六种不同的病毒以及NCBI访问号病毒名称访问号基因名称H1N1CY071824.2virus(A/AddisAbaba/WR2848T/2009(H1N1)H5N1(1)AY585374.1A/duck/Guangdong/40/2000(H5N1)H5N1(2)AY585361.1(A/duck/Guangdong/12/2000(H5N1)H7N9KC853766.1A/Hangzhou/1/2013(H7N9)EV71GQ175180

38、.1EV71/Fuyang.Anhui.CHN/17.08/8SARSAY282752.2SARScoronavirusCUHK-Su10在编程中,定义四个不同的碱基坐标,首先要计算出A,G,C,T的个数,这当中用了MATLBA中的for循环语句,如下:for i=1:n1 if A1(i)='a' N1(1)=N1(1)+1; elseif A1(i)='t' N1(2)=N1(2)+1; elseif A1(i)='g' N1(3)=N1(3)+1; elseif A1(i)='c' N1(4)=N1(4)+1; 其次,因为要

39、定义好每一个碱基的基础坐标。而且,图上的点是基于碱基的累计和来画的,所以,定义的坐标如下:X=0.5*N2(1)+sqrt(3)/2*N2(3)+0.5*N2(2)+sqrt(3)/2*N2(4); (7)Y=sqrt(3)/2*N2(1)+0.5*N2(3)-sqrt(3)/2*N2(2)-0.5*N2(4); (8)而且,还用到了hold on和hold off这一指令来实现累计和的坐标点描绘。当图画好之后,便要进行欧式距离的计算,相关编程如下:d1=sqrt(sum(X1-X2).2+(Y1-Y2).2);d2=sqrt(sum(X1-X3).2+(Y1-Y3).2);d3=sqrt(s

40、um(X1-X4).2+(Y1-Y4).2);d4=sqrt(sum(X1-X5).2+(Y1-Y5).2);d5=sqrt(sum(X1-X6).2+(Y1-Y6).2);分别是H1N1与其余5中不同病毒的欧式距离,并用disp指令来显示欧式距离的值通过相关的坐标定义,在MATLAB画出了如下的DNA图(都是基于1200个碱基下)图3.1 H1N1 DNA序列图图3.2 H5N1(1)DNA序列图图3.3 H5N1(2)DNA序列图图3.4 H7N9 DNA序列图图3.5 SARS DNA序列图图3.6 EV71 DNA序列图图3.7 整合图从上图可以看得出,前面的四种流感病毒的趋势是一致的

41、,而后两个病毒的离散点趋势和前面四个图明显不一样。这样可以初步判断出前四个图,也就是禽流感病毒系列有明显的相似性。但是,仅仅从二维图形的就比较出相似性是不严谨的。接下来,将再通过欧式距离来判断病毒之间的相似性。根据欧式距离以及多个点的欧式距离d = sqrt( (x1-x2)2+(y1-y2)2 ) (9) (10)分别选取150个碱基、450个碱基、750个碱基以及1200个碱基来做一个相似度差异的比较。如果两两是相似的,那么递增的程度就比较少;如果两两的差异性比较大,那么他们递增的程度就小。下面是列表来表示,分别用H1N1的病毒和其余六种病毒相比。表2 欧式距离的增长量对比的病毒碱基数目为

42、150碱基数目为450碱基数目为750碱基数目为1200H5N1 15.650216.183669.849268.5327H5N1 26.392715.719769.808070.1026H7N96.64419.393150.260760.4622EV7110.64185.5919105.5557176.1707SARS26.833468.9654186.5026186.74103.4 实验结论根据欧式距离的公式(9)和(10),很明显,它是一个累加的并且是递增的一个数值。所以,只要是两列DNA序列是不一样的,那么它总会有大于零的值。所以,欧式距离的参考性在于探讨两DNA序列相异性究竟有多大。

43、如果相异性小,那么反过来就说明了它们之间的相似性大。从数据中我们可以看出,在碱基数目为150到450的这一段,EV71和SARS与H1N1的差异并不明显。是否,这就能说明了它们之间是相似了呢。当然可以,这仅仅只能够说明是部分相似。之后,随着运算的碱基数目增加,到了750到1200这一段,基本上H1N1和前面三种禽流感病毒,随着碱基数目的增加,碱基差异性的增加已经比较小。另一方面,非禽流感病毒则差异性逐渐的增大。当然,因为6种都是不一样的病毒,拥有不同的DNA碱基数和碱基排序。当DNA的碱基数目趋近于比较大的数量级的时候,即使是同样属于禽流感病毒群,还是会存在一定的差异性。所以说,上述的数据只能

44、够说明,它们的相似性在多少以上,或者说它们是有一部分相似的。最终,这样欧式距离在判别DNA的相似性上还是有参考性质的。很可惜的是,因为自己搜集到的资料有限并且自己手上的设备落后,对于更高数量级的DNA序列不能再做进一步的描述和相似程度的比较。但是,往后总是有机会去验证这个理论。4. 对未来生物信息学的展望 这次的实验让我第一次接触到了生物信息学这一概念。也认识到,社会快速发展,伴随着的是科技的高速飞跃。生物信息学,是一门极其具有潜力的研究科目。 完整的基因组的测序是一项重大的成就,其实,生物信息学仅仅还是一个婴儿,我们也仅仅位于理解生命的开始。生命,都是有一段段一片片的碱基序列构成。我们对各种

45、不同的基因进行定位和对编码区的一个翻译,从而获得基因的蛋白质产物。其次,通过相似性来搜索建立与已知序列的关联。 现在,通过相似性的分析也建立了一个数据库,有了相似性的检索工具,我们在研究基因方面的相关知识就能够简便很多。比如,我们能够很容易的找到同源序列又或者是同源的蛋白质。9 相似性分析只是生物信息学里学问的一种,要结合相似性分析的方法,综合分析复杂的生物学系统。从而了解更加全面的基因组数据,在基因和基因之间构建成一种新的联系网络。在往后的大数据时代,这种联系对于科研来说有着相当重要的作用。 未来,生物信息学必将要建立起高度集成的、可由多用户共同使用的数据库。并且,要从这些分离的数据源中推导

46、出并最终是基于知识的正确的判断成为可能。当然,“序列-结构-功能”的生物信息学并不能给出全部答案,但是不断成熟的、全面的生物信息学方法将会帮助我们更好的绘制生命的蓝图,更好的服务并造福于人类世界。附录 参考文献 致谢 英文摘要【参考文献】1 李越中, 闫章才, 高培基. 基因组研究与生物信息学M. 山东:山东大学出版社,20012 王哲. 生物信息学概论M.西安:第四军医大学出版社, 2001,3 Handbook of Cpmpararative Genomics Principles And MethodologyM 20084 于成龙. DNA 序列的图形表示及其相似性分析:D. 杭州:

47、浙江大学, 2006:2-3,7-165 郑伟国. 生物信息学的现状与未来J. 口岸卫生控制: 2003 9(5):40-436 钱俊生, 孔伟,卢大振. 生命是什么. 人类基因组计划及其对社会的影响M,20027 张春霆. 生物信息学的现状与展望M. 世界科技研究与发展,2000,22(6):17-198朱杰.生物信息学的研究现状及其发展问题的探讨D.陕西;陕西师范大学物理学与信息技术学院生物物理研究所,2002,3(4),6-1879 张敏. 生物序列比对算法研究现状与展望J. 大连大学学报, 2004:75-7910刘赞波,DNA及蛋白质序列相似性分析方法研究D.2009:6-8,10-1111刘希奎,李艳,许进,DNA序列二维图形表示和有关分析D.华中科技大学信息科学与工程学院,华中科技大学控制科学与工程系 泰安,武汉,自然科学进展 2004,14(9)2-103712 Xiaodong Guo, Qi Dai, Bin Han, Lei Zhu, Lihua Li Similarity Analysis of DNA Sequences Based on LZ Complexity

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论