数学建模培训市公开课一等奖百校联赛特等奖课件_第1页
数学建模培训市公开课一等奖百校联赛特等奖课件_第2页
数学建模培训市公开课一等奖百校联赛特等奖课件_第3页
数学建模培训市公开课一等奖百校联赛特等奖课件_第4页
数学建模培训市公开课一等奖百校联赛特等奖课件_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数学建模培训第十章多元统计分析

第十章多元统计分析主讲:孙中奎第1页1.问题引入2.思绪点拨3.判别分析方法4.DNA序列分类问题求解5.参考文件目录第2页首先,我们来考虑一下“网易杯”全国大学生数学建模竞赛A题是关于“DNA序列分类”问题1.问题引入第3页

人类基因组中DNA全序列是由4个碱基A,T,C,G按一定次序排成长约30亿序列,毫无疑问,这是一本统计着人类本身生老病死及遗传进化全部信息“天书”。不过,除了这四种碱基外,人们对它所包含内容知之甚少,怎样破译这部“天书”是二十一世纪最主要任务之一。在这个目标中,研究DNA全序列含有什么结构,由这4个字符排成看似随机序列中隐藏着什么规律,又是解读这部天书基础,是生物信息学(Bioinformatics)最主要课题之一。

第4页即使人类对这部“天书”知之甚少,但也发觉了DNA序列中一些规律性和结构。比如,在全序列中有一些是用于编码蛋白质序列片段,即由这4个字符组成64种不一样3字符串,其中大多数用于编码组成蛋白质20种氨基酸。又比如,在不用于编码蛋白质序列片段中,A和T含量尤其多些,于是以一些碱基尤其丰富作为特征去研究DNA序列结构也取得了一些结果。另外,利用统计方法还发觉序列一些片段之间含有相关性,等等。这些发觉让人们相信,DNA序列中存在着局部和全局性结构,充分发掘序列结构对了解DNA全序列是十分有意义。

第5页作为研究DNA序列结构尝试,试对以下序列进行分类:问题一:下面有20个已知类别人工制造序列(见附件1),其中序列标号1—10为A类,11-20为B类。请从中提取特征,结构分类方法,并用这些已知类别序列,衡量你方法是否足够好。然后用你认为满意方法,对另外20个未标明类别人工序列(标号21—40)进行分类,把结果用序号(按从小到大次序)标明它们类别(无法分类不写入):A类

;B类

。第6页问题二:请对182个自然DNA序列(/mcm00/problems.htm)进行分类。它们都较长。用你分类方法对它们进行分类,并给出分类结果。

看了这道题,我们应该从何处入手呢,我们应该怎样进行分析呢……第7页2.思绪点拨细读全题对未知事物进行分类

问题本质对另外20个未标明类别DNA序列进行分类依据所给20个已知类别DNA序列所提供信息

对182个自然DNA序列进行分类第8页假如将每一个DNA序列都看作样本,那么该问题就深入提炼成一个纯粹数学问题:设有两个总体(类)和,其分布特征(来自各个总体样本)已知,对给定新品,我们需要判断其属于哪个总体(类)。对于上面数学问题,能够用很多成熟方法来处理,比如:(1)BP神经网络;(2)聚类分析;(3)判别分析;等等。

第9页

怎样选取方法是建模过程中需要处理另外一个问题:BP神经网络是人工神经网络一个,它经过对训练样本学习,提取样本隐含信息,进而对新样本类别进行预测。BP神经网络能够用以处理上面DNA序列分类问题,不过,怎样提取特征、怎样提升网络训练效率、怎样提升网络容错能力、怎样建立网络结构是能否成功处理DNA序列分类问题关键所在;聚类分析和判别分析都是多元统计分析中经典方法,都能够用来将对象(或观察值)分成不一样集合或类别,不过,聚类分析更侧重于“探索”对象(或观察值)自然分组方式,而判别分析则侧重于将未知类别对象(或观察值)“归结”(或者说,分配)到已知类别中。显然,判别分析更适适用来处理上面DNA序列分类问题。第10页3.判别分析方法

判别分析是用于判别样品所属类别一个多元统计分析方法。判别分析问题都能够这么描述:设有个维总体,其分布特征已知(如已知分布函数分别为或者已知来自各个总体样本),对给定一个新样品,我们需要判断其属于哪个总体。普通来说,依据判别规则不一样,能够得到不一样判别方法,比如,距离判别、贝叶斯(Bayes)判别、费希尔(Fisher)判别、逐步判别、序贯判别等。这里,我们简单介绍三个惯用判别方法:距离判别、贝叶斯(Bayes)判别和费希尔(Fisher)判别。

第11页判别分析方法1.距离判别2.贝叶斯(Bayes)判别3.费希尔(Fisher)判别4.判别分析模型显著性检验

第12页3.1距离判别距离判别基本思想:样品X离哪个总体距离最近,就判断X属于哪个总体。

这里“距离”是通常意义下距离(欧几里得距离:在m维欧几里得空间R中,两点与欧几里得距离,也就是通常我们所说距离为)吗?带着这个疑问,我们来考虑这么一个问题:第13页设有两个正态总体,和,现在有一个新样品位于A处(参见图1)从图中不难看出:,是否A处样品属于总体呢?图1第14页显然不是,因为从概率角度来看,总体样本比较分散,而总体样本则非常集中,所以处样品属于总体概率显著大于属于总体概率,也就是说,处样品属于总体“可能性”显著大于属于总体“可能性”!这也说明了用欧几里得距离来度量样品到总体距离不足。所以,需要引入新距离概念——这就是下面给出马氏距离。第15页定义1(马氏距离):设总体G

为m

维总体(m个原因或指标),其均值向量为(这里T表示转置),协方差阵为,则样品到总体G马氏距离定义为第16页3.1.1两总体距离判别先考虑两个总体()情况。设有两个总体和,和分别是和协方差阵,和分别是和均值。对于新样品,需要判断它来自那个总体。设来自()训练样本为其中表示来自哪个总体,表示来自总体样本量。第17页要判断新样品来自哪个总体,普通想法是分别计算新样品到两个总体马氏距离和:

假如则判定;反之,假如则判定:即

……(1)

A.时判别方法第18页其中,,

记为了得到更简单判别规则,我们下面计算新样品到两个总体马氏距离和差第19页显然,判别规则(1)式等价于……

(2)通常,称为判别系数向量称为线性判别函数。注意判别准则(1)式或者(2)式将维空间划分成两部分:和也即。距离判别实质就是:给出空间一个划分和,假如样品落入之中,则判定;假如样品落入之中,则判定。第20页当时,依据判别准则(1)式,我们一样给出判别函数为对应判别规则为……(3)B.时判别方法第21页在实际应用中,总体均值和协方差阵普通是未知,我们所知道仅仅是一组样本或者观察值,在这种情况下,就需要利用数理统计知识,对进行预计。利用已知样本,易得无偏预计分别为C.预计

第22页对于多个总体情况,能够类似于两个总体处理过程,我们给出以下步骤:

第一步:计算样品到每个总体马氏距离;第二步:比较大小,将样品判为距离最小那个总体。假如均值为:和协方差:未知,能够类似两个总体情形利用训练样原来进行预计。这里不再赘述。

3.1.2多总体距离判别第23页3.1.3距离判别不足距离判别方法简单实用,轻易实现,而且结论意义明确。不过,距离判别没有考虑:(1)各总体本身出现可能性在距离判别中没有考虑;(2)错判造成损失在距离判别中也没有考虑。在很多情况下,不考虑上面两种原因是不合理。贝叶斯(Bayes)判别方法克服了距离判别不足。第24页与前面距离判别方法不一样是:所谓贝叶斯(Bayes)判别,就是在考虑各总体先验概率和错判损失情况下,给出空间一个划分:,使得利用此划分来判别归类时,所带来平均错判损失最小。3.2贝叶斯判别第25页贝叶斯(Bayes)判别问题数学描述为:设有个维总体,其密度函数分别为,若已知这个总体各自出现概率(先验概率)为(,且),假设已知将原来属于总体样品错判为总体所造成损失为。在这么情形下,对于新样品,需要判断它来自那个总体。为了给出贝叶斯(Bayes)判别准则,我们从下面几个方面来讨论:第26页先验概率表示对各总体先知认识,或者说,事先对所研究问题所含有认识。普通来说,先验概率并不轻易取得,其更多来自于长久累积经验。先验概率能够经过下面几个赋值方法得到:基于经验或者历史资料进行预计;利用训练样本中各种样品所占百分比作为值。其中表示第类总体样品数,是总训练样本数,该方法要求训练样本是经过随机抽样得到;3.假定。A.确定先验概率第27页这里用表示将原来属于总体样品错判为总体概率,即误判概率,显然,依据概率定义,易得:()……(4)实际上,(4)式几何意义是很显著,见图2。

B.确定错判概率

图2表示是两个正态总体误判概率示意图。第28页误判概率预计方法有以下几个:(1)利用训练样本为检验集,用判别方法对训练样本进行判断,统计误判样本个数,计算误判样本占总样本百分比,并作为误判概率预计值;(2)当训练样本足够大时,从训练样本中预留一部分作为检验集,并统计判错比率,作为误判概率预计值;(3)利用舍一法:每次预留一个样原来检验,用剩下样本建立判别准则,循环检验完全部训练样本,统计判错比率,以此作为误判概率预计值。第29页C.确定错判损失错判必定带来损失。现实中,错判损失普通来说极难定量给出。不过能够利用赋值法来确定:(1)依据经验或者实际问题特征人为确定;(2)假设各种误判损失都相等。第30页基于前面讨论,利用概率知识:判别法将原来属于总体样本错判给其它总体平均损失为那么,关于先验概率平均错判损失为……(5)假如能找到使得平均损失到达最小,那么就称为贝叶斯(Bayes)判别解。

D.确定平均损失第31页定理1:设有个总体:,已知联合密度函数为,先验概率为,错判损失为,则贝叶斯(Bayes)判别解为

其中……(6)下面给出贝叶斯(Bayes)判别解主要结论

:第32页3.3费希尔判别费希尔判别基本思想:借助于方差分析思想,利用投影将元数据投影到某一个方向,使得投影后组与组之间差异尽可能大,然后依据一定判别规则对新样本类别进行判断。首先结构一个线性判别函数……(7)可见上面函数将元数据投影到了一个方向,系数确实定标准是使得总体间差异最大,总体内部离差最小。第33页A.确定线性判别函数设有个元总体:,它们均值为:;协方差为:。在条件下,有

令 这里确定,使得个总体间差异最大,总体内部离差最小,则应该到达最大。第34页为了确保唯一性,不妨设。所以,问题转化为:在条件约束下,求使得式到达最大——这是大家非常熟悉条件极值问题。依据拉格朗日乘子法:求解得……(8)由方程(8)第一式知,是特征根,是对应特征向量。能够证实(大小能够衡量判别函数判别效果,故称为判别效率)。设非零特征根为,对应满足约束条件特征向量为,显然,取时到达最大。第35页B.确定判别规则

假设系数已经求出,那么线性判别函数就完全确定下来,对于一个新样品,能够结构下面判别规则:

……(9)

第36页3.4判别分析模型显著性检验建立了判别分析模型以后还需要对模型进行评价,这就需要对判别分析模型显著性进行检验,主要包含两个方面:判别效果检验和各变量判别能力检验[1,2]。所谓判别效果检验就是检验k个总体均值是否有显著差异,反应了采取判别分析模型有效性问题;各变量判别能力检验反应是各指标(原因)对判别分类所起作用时候显著。详细检验方法因为过于复杂,这里不再赘述。需要说明是,作为多元统计分析中经典方法,判别分析在许多关于多元统计分析教材中都有详细而深刻叙述。第37页4.DNA序列分类问题求解关于DNA序列分类问题讨论和分析,我们在第1部分和第2部分已经作了详细分析和讨论。这里,我们将依据多元统计分析知识建立判别分析模型来求解DNA序列分类问题(这里只求解问题一)。首先,需要提取每条序列所蕴含特征——因为将序列全部信息都作为指标(原因)来建立判别模型是不可能。第38页A.特征提取DNA序列中所蕴含信息是非常丰富,所以,怎样提取特征、提取什么特征是一个非常困难问题——这个问题包括到生物学知识,此处将不深入展开讨论。我们考虑采取序列中4个碱基A,T,C,G含量百分比作为DNA序列特征。为了便于讨论,我们用表示碱基A在序列中所占百分比;表示碱基T在序列中所占百分比;表示碱基C在序列中所占百分比;表示碱基G在序列中所占百分比。因为,+++=1,所以、、和中只有三个变量是独立,不失普通性,我们选取、和为指标,以表示第个DNA序列特征向量,换句话说,“完全”代表第个DNA序列。第39页正如前面第2部分中所分析:在此DNA序列分类问题中,共有两个已知总体(类)(A类)和(B类),而且,训练样本共有个,其中,前10个样本(记为)属于总体(类);后10个样本(记为)属于总体(类)。需要处理问题是:对给定新样品,我们需要判断其属于哪个总体(类)。第40页B.建立判别模型

这里分别建立距离判别和费希尔(Fisher)判别模型。(1)距离判别模型在距离判别模型中,首先需要预计总体(类)和均值和协方差阵,利用前面3.1.1小节公式,能够得到均值和协方差阵无偏预计。然后,计算样本到总体(类)和马氏距离;依据判别准则(1),可得:若,则判定为A类;若,则判定为B类。

第41页(2)费希尔判别模型

首先,确定判别函数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论