




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数学实验判别分析第1页,课件共31页,创作于2023年2月§3.1判别分析
(discriminantanalysis)
某些昆虫的性别只有通过解剖才能够判别但雄性和雌性昆虫在若干体表度量上有些综合的差异。人们就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并以此标准来判别其他未知性别的昆虫。这样虽非100%准确的判别至少大部分是对的,而且用不着杀生。此即判别分析。第2页,课件共31页,创作于2023年2月判别分析(discriminantanalysis)
判别分析和聚类分析有何异同?判别分析和聚类分析都是分类.但判别分析是在已知对象有若干类型和一批已知样品的观测数据(训练样本)后的基础上根据某些准则建立判别式.在聚类分析中,人们一般事先并不知道应该分成几类及哪几类,全根据数据确定。可以先聚类以得知类型,再进行判别.第3页,课件共31页,创作于2023年2月判别分析例子数据disc.txt:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。指标有:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等.另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。第4页,课件共31页,创作于2023年2月希望根据这些企业的上述变量的打分及其已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对尚未被分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。判别分析例子第5页,课件共31页,创作于2023年2月Disc.sav数据
第6页,课件共31页,创作于2023年2月1.根据距离判别的思想Disc.txt数据有8个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据在8维空间有90个点,由于已知所有点的类别,可以求得每个类型的中心。这样只要定义了距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。第7页,课件共31页,创作于2023年2月最简单的办法就是:某点离哪个中心距离最近,就属于哪一类。一个常用距离是Mahalanobis距离。用来比较到各个中心距离的数学函数称为判别函数(discriminantfunction).这种根据远近判别的思想,原理简单,直观易懂。为判别分析的基础1.根据距离判别的思想第8页,课件共31页,创作于2023年2月距离判别法假设有两个总体G1和G2,如果能够定义点x到它们的距离D(x,G1)和D(x,G2),则如果D(x,G1)<D(x,G2)则x∈G1如果D(x,G2)<D(x,G1)则x∈G2如果D(x,G1)=D(x,G2)则待判1.根据距离判别的思想第9页,课件共31页,创作于2023年2月Mahalanobis距离假设m(1),m(2),S(1),S(2)分别为G1和G2的均值向量和协差阵,则点x到Gi的马氏距离定义为
D2(x,Gi)=(x-m(i))’(S(i))-1(x-m(i))
其他一些距离为马氏距离的特殊情况,因此我们着重讨论马氏距离.马氏距离的好处是可以克服变量之间的相关性干扰,并且消除各变量量纲的影响.第10页,课件共31页,创作于2023年2月线性判别函数:当S(1)=S(2)=S时记如果W(x)>0即D(x,G1)<D(x,G2)则x∈G1如果W(x)<0即D(x,G1)>D(x,G2)则x∈G2如果W(x)=0即D(x,G1)=D(x,G2)则待判第11页,课件共31页,创作于2023年2月当m(1),m(2),S已知时,令a=S-1(m(1)-m(2))≡(a1,…,ap)’,则显然W(x)为x1,…,xp的线性函数,称为线性判别函数;a称为判别系数.第12页,课件共31页,创作于2023年2月当m(1),m(2),S未知时,可通过样本来估计:判别函数为为来自Gi的样本为(i=1,2)第13页,课件共31页,创作于2023年2月非线性判别函数:当S(1)≠S(2)时这是x的一个二次函数,按照距离最近原则,判别准则仍然为如果W(x)>0即D(x,G1)<D(x,G2)则x∈G1如果W(x)<0即D(x,G1)>D(x,G2)则x∈G2如果W(x)=0即D(x,G1)=D(x,G2)则待判第14页,课件共31页,创作于2023年2月多总体时的线性判别函数:当S(1)=…=S(k)=S时记相应的准则为:如果对一切j≠i,Wij(x)<0,则x∈Gi如果有某一个Wij(x)=0,则待判第15页,课件共31页,创作于2023年2月非线性判别函数:当S(1),…,S(k)不等时相应的准则为:如果对一切j≠i,Wij(x)>0,则x∈Gi如果有某一个Wij(x)=0,则待判.当m(i),S(i)
未知时,可通过样本来估计第16页,课件共31页,创作于2023年2月2.Fisher判别法(先进行投影)Fisher判别法是一种先投影的方法。考虑只有两个(预测)变量的判别问题。假定只有两类。数据中的每个观测值是二维空间的一个点。见下页图。这里只有两种已知类型的训练样本。一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按原来变量(横坐标和纵坐标),很难将这两种点分开。第17页,课件共31页,创作于2023年2月-4-20246-4-3-2-10123第18页,课件共31页,创作于2023年2月于是就寻找一个方向,下页图上的虚线方向,沿该方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。有了投影之后,再用前面讲到的距离远近的方法得到判别准则。这种先投影的判别方法就是Fisher判别法。
2.Fisher判别法(先进行投影)第19页,课件共31页,创作于2023年2月Fisher判别法的数学第20页,课件共31页,创作于2023年2月练习:中小企业的破产问题研究为了研究中小企业的破产模型,选定4个经济指标:
X1总负债率(现金收益/总负债)
X2收益性指标(纯收入/总财产)
X3短期支付能力(流动资产/流动负债)
X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料:第21页,课件共31页,创作于2023年2月总负债率收益性指标短期支付能力生产效率指标类别-.45-.411.09.451-.56-.311.51.161.06.021.01.401-.07-.091.45.261-.10-.091.56.671-.14-.07.71.281-.23-.30.22.181.07.021.31.251.01.002.15.701-.28-.231.19.661.15.051.88.271.37.111.99.381-.08-.081.51.421.05.031.68.951.01.001.26.601.12.111.14.171-.28-.271.27.511.51.102.49.542.08.022.01.532第22页,课件共31页,创作于2023年2月.38.113.27.552.19.052.25.332.32.074.24.632.31.054.45.692.12.052.52.692-.02.022.05.352.22.082.35.402.17.071.80.522.15.052.17.552-.10-1.012.50.582.14-.03.46.262.14.072.61.522-.33-.093.01.472.48.091.24.182.56.114.29.452.20.081.99.302.47.142.92.452.17.042.45.142.58.045.06.132.04.011.50.71待判-.06-.061.37.40待判第23页,课件共31页,创作于2023年2月§3.2判别分析要注意的问题训练样本中必须包含所有要判别的类型,分类必须清楚,不能有混杂。
要选择好可能用于判别的预测变量。这是最重要的。当然,在应用中,选择余地不见得有多大。
判别分析是为了正确地分类,但同时也要注意对未知样本的判定不一定总会得到正确的结果。所以我们需要对错判率进行进一步的思考和研究。第24页,课件共31页,创作于2023年2月判别分析的Matlab命令:calssify第25页,课件共31页,创作于2023年2月附录第26页,课件共31页,创作于2023年2月费歇(Fisher)判别法并未要求总体分布类型工作原理就是对原数据系统进行坐标变换,寻求能够将总体尽可能分开的方向.点x在以a为法方向的投影为a’x各组数据的投影为
第27页,课件共31页,创作于2023年2月将Gm组中数据投影的均值记为有记k组数据投影的总均值为有第28页,课件共31页,创作于2023年2月组间离差平方和为:这里组内离差平方和为:这里第29页,课件共31页,创作于2023年2月希望寻找a使得SSG尽可能大而SSE尽可能小,即记方程|
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安徽汽车职业技术学院单招职业适应性考试题库学生专用
- 沧州航空职业学院《论文写作学术交流和规范》2023-2024学年第二学期期末试卷
- 天津滨海职业学院《西方文化入门》2023-2024学年第一学期期末试卷
- 南京航空航天大学金城学院《全口义齿修复学》2023-2024学年第一学期期末试卷
- 云南林业职业技术学院《谱学基础》2023-2024学年第二学期期末试卷
- 解除劳动关系协议书
- 集合篇-2024年单招数学专项复习试题答案和解析
- 专升本思政理论考查试题及答案详解
- (高清版)DB12∕T 696-2016 天津市名牌产品评价准则
- 教研组活动总结08
- 年产10万吨聚氯乙烯生产工艺设计毕业设计
- 高中18岁成人仪式主题活动设计
- 《婚姻家庭纠纷调解》课件
- 高中数学培优讲义练习(必修二):专题8.1 基本立体图形(重难点题型精讲)(教师版)
- 兵团红色经典文化在新疆高校思想政治教育中的运用研究
- 《珠穆琅玛峰》课件
- 注塑机定期保养记录表2016
- 3.28百万农奴解放纪念日演讲稿
- 全科医学科疾病诊疗指南全集诊疗规范
- 安全教育教程大学生安全教育PPT完整全套教学课件
- 2023年东方航空技术应用研发中心有限公司招聘笔试题库含答案解析
评论
0/150
提交评论