本科毕业答辩演讲稿(使用遗传算法从蛋白质质谱数据提取特征).doc_第1页
本科毕业答辩演讲稿(使用遗传算法从蛋白质质谱数据提取特征).doc_第2页
本科毕业答辩演讲稿(使用遗传算法从蛋白质质谱数据提取特征).doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

尊敬的各位老师: 大家上午好!我叫XX,本次论文指导老师是XX老师,我选的毕业论文题目是使用遗传算法从蛋白质质谱数据提取特征,下面我先汇报一下自己选择这篇论文的动机以及基本写作思路。重所周知,蛋白质是遗传物质的直接反映者,通过对蛋白质所反映出的特征进行分析,能够准确地判断出生物体的一些特征,如是否具有癌症性状。但是蛋白质所反映出的信息成千上万,在对数据进行分析之前,必须先知道哪个才是对我们做出判断有决定性作用的,哪个是与我们所研究的方面无关的,这就是论文中提到的特征提取。例如,这次论文中所选取的例子,是121卵巢癌症患者和95例对照的样本收集,针对每个样本有15000个质谱数据,编写程序的目的,就是通过遗传算法,决定出哪20个质谱数据能够对判断是否是癌症患者起决定性作用。现在,我来陈述本篇论文的结构,主要内容分为三个部分:蛋白质质谱,遗传算法,特征提取的程序实现。蛋白质质谱是蛋白质分子经过质谱仪分析而得的数据。首先,被分析样品的气态蛋白质分子,在高真空中受到高速电子流或其它能量形式的作用,失去外层电子生成分子离子,或进一步发生化学键的断裂或重排,生成多种碎片离子。然后,将各种离子导入质量分析器,利用离子在电场或磁场中的运动性质,使多种离子按不同质荷比m/e的大小次序分开,并对多种的离子流进行控制、记录,得到质谱图。最后,得到谱图中的各种离子及其强度实现对样品成分及结构的分析。质谱分析具有如下优点:很高的灵敏度,能为亚微克级试样提供信息,能最有效地与色谱联用,适用于复杂体系中痕量物质的鉴定或结构测定,同时具有准确性易操作性快速性及很好的普适性。正因为质谱法有这些优点,所以分子量测定、氨基酸鉴定、蛋白质序列分析及立体化学分析等。现在来看第二部分,遗传算法。遗传算法以达尔文的进化论和Mendel的遗传理论为基础,将生物进化过程中的适者生存法则和遗传过程中的随机配对交叉机制相结合,通过模拟生物进化的过程和机制来搜索最优解。从本质上而言,遗传算法是一种迭代算法,它通过逐次逼近来获得问题的近似最优解。其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则。遗传算法的这些性质,已被人们广泛地应用于组合优化、信号处理、自适应控制和人工智能计算中。在将数据载入算法之前,首先要对数据进行编码,成为可以被程序处理的数据,也就是二进制串。应遵循的准则首先是完备性,也就是问题空间中的所有点(候选解)都能作为GA空间中的点(染色体)表现。第二是健全性,就是GA空间中的染色体能对应所有问题空间中的候选解。第三是非冗余性(nonredundancy),就是染色体和候选解一一对应。在遗传算法程序之中,会包含一个用于创建初始群体的函数,这个函数会在编码而成得可行解中随机选择成为第一代父本,进行迭代。把这些假设的可行解置于问题的“环境”中,并按适者生存的原则,从中选择出较适应环境的“染色体”进行复制,再通过交叉、变异过程产生更适应环境的新一代“染色体”群,这个过程就称为迭代。适应度,是表示某一个体对环境的适应能力,也表示该个体繁殖后代的能力。遗传算法的适应度函数也叫评价函数,是用来判断群体中的个体的优劣程度的指标,它是根据所求问题的目标函数来进行评估的。适应度函数是遗传算法的核心,它决定了遗传算法的进化方向,也就是我们最后所得到的数据的特点,就是由适应度函数来决定的。不同的程序是有不同的适应度函数的。比如我的这次试验是要找出能够对判断是否是癌症起决定作用的质谱数据,那我的适应度函数用了一个分类函数,按照质谱数据对个体进行分类,选出能够使分类后两组的真值分离最大化的作为特征质谱。在程序中我用两个语句把癌症个体真值赋成,健康个体的真值为。迭代的核心在于三个关键词复制、交叉、变异。遗传算法的有效性主要来自复制和交叉操作,尤其是交叉在遗传算法中起着核心的作用。复制操作有多种算法,最经典的是轮盘赌算法,即将上一代种群中所有个体按适应度值成比例的依次组成一个圆形的轮盘随机转动轮盘,当轮盘停下来时,指针所指向的个体就是被选中的个体,由于适应度值较高的个体所占的区域较大,被选中的概率也较高,保证了适应度值较高的个体能在新的种群中产生较多的后代。交叉算子有很多种,包括单点交叉、多点交叉、洗牌交叉等等。交叉操作分两步实现。第一步是在群体中随机抽取两个个体,作为交叉操作的父个体。第二步是随机地选择交叉点,对匹配的位串进行交叉繁殖,产生一对新的位串。由于种群的个体有限,经过若干代交叉操作,源于一个较好的祖先的个体会逐渐充斥整个种群,使问题过早收敛而得不到最优解。为避免这种情况出现,就要效法自然界生物的变异,对个体进行小概率的翻转(替换)。变异是由变异算子完成的,反映到数据上就比如原来的数据是一串,那么我把它的某位变成,就完成了最简单的变异过程。决定迭代进行到什么程度的就是收敛条件。有很多种收敛条件,如时间限制,就是我进行多少代之后就停止迭代。再比如精度限制,当个体适应度的方差或标准差低于一定的数值时停止迭代,或者适应度限制,当连续几代最优个体的适应度没有明显变化时终止算法。在本次实验中采取的是时间限制。这是一张遗传算法的图解,它很直观地表示出了遗传算法的步骤。这里的初始条件就是收敛条件,我的论文里选的是时间收敛,设置迭代次数为50次,没到次数就会一直迭代。然后是计算个体适应值,这里用到适应度函数。这是为下步的选择做准备的。然后用概率来选择遗传算子。比如变异的概率是百分之一,也就是500例个体中有5个变异的个体,则从适应度高的个体中选出5个,对它运用变异算子。其他个体进行交叉或者直接复制到下一代。然后再回到第二步进行收敛检验。最后一部分主要内容就是程序设计了。由于ppt篇幅的关系我没有把所有程序都列举出来。程序一共分为6个部分,数据加载到matlab,创建初始种群,创建适应度函数,创建选择结构,调用遗传算法,显示被选择特征。我选择了数据加载和调用遗传算法两部分解释一下。Load语句将数据加载至matlab,whos是显示出数据名和类型。从输出可以看出,一共有216组数据,每组有15000个质谱数据。下面看看主程序的调用。Rand是随机产生均匀分布的随机数, randn是随机产生正态分布的随机数,这两个随机数是在调用之前必须设置的。设置所需的特征数目。设置适应度函数以便下步调用。而之前已经编写好了适应度函数biografit。函数的参数有三个,分别是适应度、特征数目和选择结构。这个选择结构中包含了设置好的初始群体创建函数,迭代次数,每代得人口增加数等。的返回值是一个下标,然后把对应的质谱数据存入Significant_Masses。函数的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论