版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、判别分析方法(Discriminant analysis)判别分析fisher判别等第1页Discriminant analysis判别分析 用于判别样本所属类型统计分析方法 基因识别:依据某一DNA序列核苷酸组分、信号特征等指标,判别是否编码蛋白序列? 医学诊疗:某一病人肺部存在阴影,判别: 肺结核?良性肿瘤?肺癌? 人类考古学:依据头盖骨特征,判别:民族、性别、生活年代? 股票分析预测: 气象分析预测: 自然灾害分析预测: 判别分析fisher判别等第2页Discriminant analysis判别分析问题 设有k个m维总体G1, G2, , Gk, (1). 它们分布特征已知,能够表示
2、为F1(x), F2(x), , Fk(x) (2). 或者知道来自各个总体样本(训练样本)。 对于给定一个未知样本X(检测样本),判别X属于哪个总体。多元、复杂、高度综合统计分析问题判别分析fisher判别等第3页Discriminant analysis Fisher判别法 距离判别法 Bayes判别法 逐步判别法 训练样本训练集检测样本检测集判别准则判别效率学习检测评价判别分析fisher判别等第4页距离判别法距离判别基本思想样本与哪一类总体距离最近,就判别它属于哪一类总体。Discriminant analysis判别分析fisher判别等第5页马氏(Mahalanobis)距离定义:
3、Mahalanobis距离设总体G为n维变量,即含有n个属性指标(x1, x2, , xn)。已知总体G中 t个样本Xk (xk1, xk2, , xkn),k=1, 2, , t。总体均值可用样本均值预计:则对于任一点X(x1, x2, , xn) ,定义它与总体GMahalanobis距离为:Discriminant analysis判别分析fisher判别等第6页其中,矩阵S(sij)nn为:矩阵S称为协方差矩阵(covariance matrix),反应属性指标中第i个分量与第j个分量相关性。尤其地,当n=1时, Mahalanobis距离为:Discriminant analysis
4、判别分析fisher判别等第7页xp(x)xp(x)|x-|G1:N(,1)G2:N(,2)Discriminant analysis判别分析fisher判别等第8页两类总体距离判别已知:考虑含有n个属性两类总体G1、G2, 已知G1p个训练样本, G2q个训练样本:问题:对于未知样本点X(x1, x2, , xn),判别其类型?Discriminant analysis判别分析fisher判别等第9页G1、G2总体均值依据样本均值预计得到:分别求出总体G1、G2协方差矩阵S(1)、S(2):Discriminant analysis判别分析fisher判别等第10页对于任一新样本X(x1,
5、x2, , xn),分别计算它到总体G1、G2Mahalanobis距离:Discriminant analysis判别分析fisher判别等第11页结构判别函数W(X):判别准则为:Discriminant analysis判别分析fisher判别等第12页特例:考虑n=1两类正态总体:G1:N(1, 1)G2:N(2, 2)p(x)xG1:N(1,1)G2:N(2,2)12Discriminant analysis判别分析fisher判别等第13页不妨设2 1 , 2 1 ,且检测值满足2 x 1 ,则:其中于是,判别准则为:Discriminant analysis判别分析fisher判
6、别等第14页p(x)xG1:N(1,1)G2:N(2,2)12*Discriminant analysis判别分析fisher判别等第15页已知:考虑含有n个属性m类总体Gl ( l = 1, 2, , m) ,每类总体已知tl (l=1, 2, , m)个训练样本:问题:对于未知样本点X(x1, x2, , xn),判别其类型?多类总体距离判别Discriminant analysis判别分析fisher判别等第16页类似地,分别计算点X(x1, x2, , xn)到每一类GlMahalanobis距离d2(X, Gl )。其中Discriminant analysis判别分析fisher判
7、别等第17页比较找到其中最小距离:点X(x1, x2, , xn)到类Gi距离d2(X, Gi )最小,最终判别点X(x1, x2, , xn)属于第 i 类。Discriminant analysis判别分析fisher判别等第18页Discriminant analysisBayes判别法Bayes判别基本思想 在p维空间中找出一个分法,使得平均损失最小D1D2DjG1, G2 Gk判别分析fisher判别等第19页Discriminant analysis目标函数(平均损失)假定属于第i类,把它判为第j类造成损失为造成这一损失概率为D1D2DjG1, G2 Gk判别分析fisher判别等
8、第20页Discriminant analysis判别准则假如取能使平均损失到达最小判别函数D1D2DjG1, G2 Gk判别分析fisher判别等第21页Discriminant analysisFisher线性判别法Fisher判别基本思想 将 m组n维数据投影到某一个方向,使得投影后组与组之间尽可能地分开。判别分析fisher判别等第22页平面上两类数据训练样本散点图(两组数据样本在平面上存在一个合理分界限L)x1x2L: c1x1+c2x2c=0令:F(x1,x2)=c1x1+c2x2 F(x1,x2): 判别函数 c:判别值G1G2Fisher线性判别法判别分析fisher判别等第2
9、3页Discriminant analysis已知:数据属性有n个,每个数据点为n维向量X:已知总体数据分为两类: G1和G2 ,总体G1有p个样本点,总体G2有q个样本点。属 性 (分量)12n总体G1(i=1, , p)1 X1(1)x11(1)x12(1)x1n(1)i Xi(1)xi1(1)xi2(1)xin(1)p Xp(1)xp1(1)xp2(1)xpn(1)总体G2 (i=1, , q)1 X1(2)x11(2)x12(2)x1n(2)i Xi(2)xi1(2)xi2(2)xin(2)q Xq(2)xq1(2)xq2(2)xqn(2)目标:求解在n维空间中总体G1和总体G2最优分
10、界平面。判别分析fisher判别等第24页Discriminant analysis定义线性判别函数为:其中Ci (i = 1, 2, , n)为常数(待定系数)。若判别值为 C , 对于任何未知数据点X(x1, x2, , xn),代入判别函数,依据F (x1, x2, , xn)与C值比较,能够判别点X属于哪一类。1、确定待定系数Ci (i = 1, 2, , n)2、确定判别值C判别分析fisher判别等第25页Discriminant analysis将类G1p个点、类G2q个点分别代入判别函数:其中,确定待定系数Ci判别分析fisher判别等第26页Discriminant anal
11、ysis令:A与G1和G2两类点几何中心距离相关。显然,判别函数F (x1, x2, , xn)应该使A值越大越好。令:B与G1和G2两类点相对于各自几何中心离差相关。显然,判别函数F (x1, x2, , xn)应该使B值越小越好。判别分析fisher判别等第27页Discriminant analysis结构函数I:选择适当待定系数Ci (i = 1, 2, , n),使得函数I(C1, C2, , Cn)到达极大值。判别分析fisher判别等第28页Discriminant analysis判别分析fisher判别等第29页Discriminant analysis判别分析fisher判
12、别等第30页Discriminant analysis消去非零因子,得到求解待定系数(C1, C2, , Cn)线性方程组:判别分析fisher判别等第31页Discriminant analysis确定判别值C判别函数已知,不妨写成:将G1p个点、 G2q个点分别代入判别函数:判别分析fisher判别等第32页对G1、G2(p+q)个点判别函数值取总体平均值:显然,值是两类点判别函数值加权平均,处于两类判别函数平均值之间,也等价于两类点总体几何中心判别函数值。所以,将判别值C取为值:Discriminant analysis判别分析fisher判别等第33页Fisher线性判别基本步骤属 性
13、 (分量)12nG1(i=1, , p)1 X1(1)x11(1)x12(1)x1n(1)i Xi(1)xi1(1)xi2(1)xin(1)p Xp(1)xp1(1)xp2(1)xpn(1)G2(i=1, , q)1 X1(2)x11(2)x12(2)x1n(2)i Xi(2)xi1(2)xi2(2)xin(2)q Xq(2)xq1(2)xq2(2)xqn(2)问 题已知数据样本点分为两类: G1和G2 , G1有p个点, G2有q个点。求出判别函数F (x1, x2, , xn)和判别值C 。对于任何未知数据点X(x1, x2, , xn),依据F (x1, x2, , xn)与C值比较,判
14、别点X属于哪一类。Discriminant analysis判别分析fisher判别等第34页STEP 1先对样本点数据Xi(1)(xi1 (1), xi2 (1), , xin (1)( i=1, , p)、 Xi(2)(xi1 (2), xi2 (2), , xin (2)( i=1, , q)分别计算以下求和以及平均值:Discriminant analysis判别分析fisher判别等第35页STEP 2计算di和Sij,注意对称性Sij = Sji :Discriminant analysis判别分析fisher判别等第36页STEP 3解线性代数方程组:若方程有解,得到判别函数F:
15、Discriminant analysis判别分析fisher判别等第37页STEP 4将平均值代入判别函数,然后计算判别值C:Discriminant analysis判别分析fisher判别等第38页STEP 5对未知数据X(x1, x2, , xn)进行判别:将数据X(x1, x2, , xn)代入判别函数F,与判别值进行比较,判别其属于哪一类。Discriminant analysis判别分析fisher判别等第39页Fisher线性判别应用举例x1x2样本序号x1x2类别157124323782486253616251766189629542Discriminant analysis
16、判别分析fisher判别等第40页Discriminant analysis判别分析fisher判别等第41页Discriminant analysis判别分析fisher判别等第42页Discriminant analysis判别分析fisher判别等第43页Fisher判别法小结 本质上基于微分寻优方法 局限 1、可能陷入局部最优判别结果; 2、对数据属性各变量要求较为苛刻,如正态性、相互独立性等; Discriminant analysis判别分析fisher判别等第44页判别效果评价错判损失错判率N(G1|G2)N(G2|G1)Discriminant analysis判别分析fish
17、er判别等第45页p(x)xG1:N(1,1)G2:N(2,2)12*P(G1|G2)P(G2|G1)Discriminant analysis判别分析fisher判别等第46页检验判别效果方法训练集回判 训练集(Learning set):训练样本集检测集(Test set):检测样本集(类别未知)利用训练集作为检测集:用判别方法对已知类型样本进行回判,统计判错个数以及占样本总数百分比,作为错判率预计。特点:轻易低估错判率。 Discriminant analysis判别分析fisher判别等第47页从训练集中结构检测集已知数据集训练集检测集判别准则判别效率5050学习检测评价Discriminant analysis判别分析fisher判别等第48页刀切法(Jack-knife Method)“舍一法(Leaveone-out)”“Lachenbruch删除法”“交叉确认法(Cross-validation)”基本思想:(1). 每次从训练样本集中剔除1个样本X ;(2). 利用其余样本(数量为pq1)作为训练集来训练得到判别准则;(3). 依据判别准则对样本X 进行判别;(4). 对训练样本中每个样本依次重复进行,统计判别对错个数;(5). 计算错判率。D
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 九年级物理上册 第二章 改变世界的热机 第3节热机效率教案(新版)教科版
- 八年级地理上册 第三章 第二节 土地资源教学设计 新人教版
- 2024大数据中心运营管理合同
- 2024商标许可使用合同商标使用范围限定
- 2024充电设备回收与再利用合同
- 04年LED显示屏消防设施安装合同
- 2024体育用品品牌代言合同
- (2024版)境外投资项目合作协议
- 2024健身服务合同标的为健身房会员服务
- 2024年小额贷款合同书
- 公安派出所建设标准
- 小学开展仪式教育的策略研究
- 股骨颈骨折一病一品课件
- 小教文小学语文课堂导入存在问题及对策研究
- 教育部产学合作协同育人项目师资培训项目申报书模板(校企合作背景下软件开发类课程师资队伍建设)
- 美容院顾客管理档案表
- 锦鲤的繁殖与选优技术
- 四年级数学家长会课件
- 华北理工《社会医学》讲义11健康危险因素评价
- 透析饮食课件
- 妊娠期高血压护理查房医学课件
评论
0/150
提交评论