北邮生物信息基础大作业报告_第1页
北邮生物信息基础大作业报告_第2页
北邮生物信息基础大作业报告_第3页
北邮生物信息基础大作业报告_第4页
北邮生物信息基础大作业报告_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、班级2013211124姓名曹爽学号2013210640疾病自动诊断问题1 .问题分析问题中已知100个腹泻患者的20项检查指标样本,并将其作为观测向量二(x1,X2,.,X19,X20)其中Xj为诊断结果值,要求据此诊断出新的腹泻病例的类型是细菌性还是病毒性。这属于模式识别中的非参数判别分类问题,一般而言需要根据观测样本提取特征,之后设计分类器并应用于新的数据的决策。非参数判别分类方法有线性分类器、非线性分类器、近邻法、人工神经网络、支持向量机等。在此我仅提出两个模型供参考。模型一:利用线性分类器。假设判别函数是线性函数,用已知的100个训练样本去估计线性判别函数的参数。在选择和提取特征时,

2、由于这20项指标对判别的贡献程度不同,所以应该根据重要性相应加权,这一步需要利用主成分分析的方法。随后我们需要求解判别函数,这一步我们采用较为成熟的Fisher线性判别函数分析方法,通过降低维度的方式,把20维空间映射到1维空间,找到一个最合适的投影轴,使两类样本(细菌性和病毒性)在该轴上投影的交迭部分最少,从而使分类效果为最佳。当维数和样本数都比较大时(比如题中维数=20,样本数=100),可以采用贝叶斯决策规则,从而获得一种在一维空间的“最优”分类器。模型二:利用支持向量机(SVM)的方法。支持向量机是基于机器学习理论的一种新型的模式识别方法。在模式识别等领域获得了广泛的应用。其主要思想是

3、:找到一个超平面,使得它能够尽可能多的将两类数据点正确地分开,同时使分开的两类数据点距离分类面最远(如图1.1.1)。我们采用该模型对问题进行建模。图1.1.1最佳超平面示意图2 .模型建立记n(这里n=100)个已知观测样本为(LgJG,g2),.,(tn,gn),其中twR20,gi=-1为细菌性。wTx+b=0,其中即为问题分析中的Xj,为了不混淆改用t。gi=1为病毒性,当样本线性或者非线性可分时,我们要找一个最优分类面w,xWR20,bWR,w、b待定,满足如下条件rt.Jwti+b至1,gi=1wti+b1,i=1,2,.,n求得最优值对应的w、b,可得分类函数*T*、g(x):s

4、gn(wxb)模型I是一个二次规划模型。下面把模型I化为其对偶问题。定义广义拉格朗日函数12/L(w,二)w叱.2id二j|1-giwTtib其中ot=(%0(,ano.之0。1,2,.,n,i由Karush-Kuhn-Tucker互补条件,通过对w和b求偏导可得自nw-%:igitii1n:gi=oi1代入原始拉格朗日函数得n1nnl=:-:jggj(tK)i12i4jJ其中(xi的)表小向量的内积。于是模型I可以化为模型IIn1nnmax二i、二jggj(ti4j)i12i=1jn,、igi=0s.t.y0:i,i=1,2.nn解此二次规划彳#到最优解a*,从而得权重向量w*=%*giti

5、。iW由KKT互补条件知*%1-gi(w团)+b)j=0这意味着仅仅是支持向量(距离分类超平面为1)的输入点ti,使得%*为正,所有其它样本对应的%均为00选择口的一个正分量、,并以此计算b造gJititi=1最终的分类函数表达式如下:Tg(x):sgn(wxb)实际上,模型II中的(ti%)是核函数的线性形式。核函数可以将原样本空间线性不可分的向量转化到高维特征空间中线性可分的向量。将模型II换成一般的核函数K(x,y),可得一般的模型:模型IIIn1nnmaxy:i-x、:i:jgigjK(ti,tj)i42i_ij4n,、:-gi=0s.t.坦、0Pn(S),则判定该序列为编码区域,否则

6、为非编码区域。3 .模型测试基因编码区域片段为:AUGGGCAAAUAGCAUGGAUAGCGCAAGCGCAAGAAUGUAAGCGCAAGAAUGUUAGCGCAAGAAUG待判断的序列片段为::GAAUGUAGCGCAA基因非编码区域片段为:CUCUCUCACACGUCACACGUCUCUCUCACACGUCUCUCUCACACUCUGUCUCGUCUCACACCUCU8:CUCUCUCACACGU编码区A、U、G、C出现的频数为碱基AUGC频数25102010总数为65,得编码区初始转移概率Pc。为碱基AUGC概率0.38460.15380.30770.1538非编码区A、U、G、C出

7、现的频数为碱基AUGC频数10205307得非编码区初始转移概率Pno为碱基AUGC概率0.15380.30770.07690.4615UPc=G0.39130.44440.21050.30430.10530.30430.55560.15790.5263编码区一阶马氏链的概率转移矩阵为0.4444J0.5556非编码区一阶马氏链的概率转移矩阵为1.00000.06250.93751.0000-0.34880.51720.10340.0345本题中,n=13。将、&分别代入两个公式,得nPc(G)=Pco(A)“P(A|AmSC)i=2=0.3077*0.2105*0.3913*0.3043*0

8、.5556*0.1053*0.4444*0.3043*0.5263*0.4444*0.5263*0.5556*0.3913=1.6329e-06=1.6329106nPn(Si)=Pno(A)LIp(AiIAaSwN)=0(因为连乘中有0,故结果为0)i=2nPc(S2)=PC0(A)np(A|AWC)二O(因为连乘中有0,故结果为0)i=2nPn(S2)=Pno(A)HP(A|Ai_,SN)i=2=0.1538*0.5172*0.9375*0.5172*0.9375*0.5172*0.9375*0.3488*1.0000*0.3488*1.0000*0.1034*1.0000=2.2056e

9、-04_4=2.205610因为Pc(G)Pn(G),Pc(S2)Pn(S2),所以我们判定S序列属于编码区,&序列属于非编码区四、课堂内容回顾和建议本学期我选修了生物信息基础这门课。这门课以分子生物学为背景,以信息和计算机技术为手段,研究生物学信息的组织、传递和表达规律等问题,并从中发现生物遗传、变异、进化等规律。首先,老师先对生物方面的基本知识进行了讲解,主要是遗传方面的知识。比如DNA转录成为mRNA,mRNA翻译成为蛋白质,以及有关DNA、RNA、蛋白质序列的一些问题。这些基础的问题我们在高中阶段已经有所涉及,相当于借此复习一遍,为后续的课程打下基础。之后的课上,老师介绍了一些常用的生

10、物数据库。这些数据库包括基因组数据库、核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库等。我们可以从这些数据库中找到各种生物的原始数据。接下来便自然想到要对这些数据进行分析。由于生物遗传信息一般存在于DNA、RNA、蛋白质序列中,所以对序列进行分析便是这门课的重点之一。在序列分析中,经常需要判断序列的相似性,所以,对序列进行比对便是最基本的操作。一般来说,序列是由碱基构成的。序列比对时,可以通过字符匹配、替换、插入、删除字符等操作,使两序列长度相等,便于对比出碱基的异同之处,从而分析生物学信息。为了判断比对的效果,还引入了打分函数和打分矩阵机制。除了两两比对,我们还可以进行多序列比对,以便于

11、判断某个序列是否属于某一族,这在实际的生物学中有很高的应用价值。序列比对的方法也有很多种,这里就涉及到算法的问题。老师向我们介绍了很多序列比对的算法,如BLAST搜索算法、FASTA算法等。这使我了解到不同学科之间可以存在这种交叉现象,计算机学科的算法可以应用到生物学中帮助分析遗传信息序列。序列分析之后的另一个重点是基因组与基因识别问题。首先,老师介绍了原核生物和真核生物的基因组相关知识。之后提出了一个实际问题:我们经常需要分析某一个基因是属于功能区还是非功能区、编码区还是非编码区。这其实是一种模式识别问题。也就是说,我们需要根据已知样本做出一个分类器,来对新的样本进行分类判别。老师在课堂上提

12、出了基于贝叶斯判别的朴素贝叶斯方法和马尔科夫链两种模型,并介绍了它们的优缺点。这使我了解到,在面对具体的生物学问题时,应选择合适的方法进行分析,这样才能达到比较好的效果。除了刚才的两种模型外,在基因识别问题中还有一个常用的模型一一隐马尔科夫模型,它用来描述一个含有隐含未知参数的马尔可夫过程。这种模型可以方便地对DNA的编码区和非编码区建模,分析进化和发育问题,或者对蛋白质结构进行预测。最后,老师简要介绍了系统生物学的一些内容和相关算法,包括如何构建进化树,以及对进化树进行置信检验的方法。还介绍了基因表达数据的相关概念,以及一些重要的算法一一k均值聚类算法、最近邻法、主成分分析法等,这些都算模式

13、识别中重要的算法。我本人对各种模式识别的算法比较感兴趣,而这门课讲的许多算法,如动态规划、马尔科夫链、隐马尔科夫模型、聚类算法、主成分分析法等,都属于模式识别的范畴,只不过是应用在了生物信息的分析中。这些算法在建模中有重要的意义,是数学方法应用在具体问题中的典范。这门课使得我了解了许多算法的基本原理和操作步骤,以及它们的应用范畴。由于各种算法本质上来说仍属于数学的范畴,所以本身具有一定的难度,有时会觉得没有头绪、难以理解,然后就容易听不下去了,这对于我们的学习是不利的。所以我希望老师在解释这些算法的时候,可以加入一些演示和提问的环节,充分与学生互动,让学生亲自到黑板上操作,参与到过程中来,这样更利于我们掌握课堂知识。总的来说,我在这门课上收获颇

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论