版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
判别分析实例1:某医院对若干个健康人和心肌梗塞病人的心电图作了对比分析,结合专业知识,找出了区分两者的一些指标(X1、X2、X3)。随机抽取10名健康人和6名病人(作为例子,仅抽取了16个样品)。目的:通过心电图指标,判断某个体归属于健康人还是心肌梗塞病人实例1资料(g=1:健康人,g=2:病人gkx1x2x311436.7049.592.3212290.6730.022.46………19292.5626.072.16110276.8416.602.9121510.4767.641.7322510.4162.711.58……………26515.7084.591.75判别分析实例P51例1:根据X1-X7值判别某病人疾病类型:卡他性?蜂窝组织炎?坏疽性?腹膜炎?判别分析概念有N个分别属于1、2、…G的不同类别样品,每个样品具有X1、X2、…Xm个指标,按照一定原则,拟合判别函数,用以判别新样品的类别的多元统计分析方法。1936年R.A.Fisher首次提出,随着计算机的发展而被广泛应用。判别分析遵循的原则随机化对每一待判的个体X,建立一组概率函数,λ1(X),λ2(X),…λg(X),λi(X)≥0,且∑λi(X)=1。将具有观测值X(x1,x2,…xm)的个体以概率λi(X)化归到第i个总体。非随机化由个体X的一切可能值构成样本空间S,将S划分为g个互相排斥的区域ω1、ω2…ωg,若某个体观测值X(X1、X2、…Xm)落在ωi中,则将该个体判属第i总体判别分析分类按个体属性(归属类别)数量:两类判别多类判别按判别指标(X)性质计数资料判别计量资料判别:一般判别逐步判别判别分析资料预处理对于计量资料判别,需对少数计数资料进行量化。对于计数资料判别,需对少数计量资料转换成等级资料判别分析本教学讲解内容计数资料最大似然法判别分析计量资料两类Fisher判别分析计量资料多类Bayes判别分析计数资料最大似然法判别分析资料要求判别指标全部或大部分是定性和(或)等级指标,如有少量定量指标,则转换成等级指标。M个判别指标X1、X2、…Xm彼此独立。计数资料最大似然法判别分析步骤收集具有明确归属类别个体的一批判别指标,X1、X2…Xmg,判别指标符合最大似然法资料要求;求各个类别下各判别指标出现各种表现的条件概率,以相应频率估计;建立似然函数,判断个体所属类别(P513.1)判别效果评价计数资料最大似然法判别分析实例P51例1计数资料最大似然法判别分析注意事项最大似然法建立在独立事件的概率乘法定理基础上,各判别指标间必须相互独立;归属类别g(1,2…g)间必须互斥;用频率估计条件概率,因此,样本量要足够大;对归属类别的判断具有相对性,当两似然函数Li与Lj接近,结论需慎重。计量资料两类Fisher判别分析设有N个样品,分别归属于2个类别,N=n1+n2,m个判别指标为X1、X2…Xm,据此,按一定原则建立线性判别函数,并对新样品进行判别的多元统计分析方法。判别函数:Z=C1X1+C2X2+…+CmXm,Ci:判别系数,反映Xi对判别分类作用的方向和大小,Xi变化1个单位,Z变化Ci
个单位,Ci>0,Xi增加,Z增加,Ci<0,Xi增加,Z减少。计量资料两类Fisher判别分析Fisher准则求Fisher判别函数的判别系数Vi的方法称Fisher准则,即:
2个总体中每个个体的Z值在Z轴上相应于1点(也可理解为,X1、X2…Xm的m维空间中的1点,把它们投影到1个方向Z轴上),要使2个Z总体均数的差别尽可能大,而各Z总体内的方差尽可能小,即不同总体的Z值点尽可能分开,相同总体的Z值点尽可能靠近。计量资料两类Fisher判别分析内容由n1个第1类样品与n2个第2类样品的m个判别指标的观测值拟合Fisher判别函数;确定第1类与第2类分界值Z分界;对拟合的Fisher判别函数进行假设检验;对于有统计学意义的判别函数,计算各判别指标Xi对判别函数的贡献率,计算标准化判别系数并对其进行假设检验。计量资料两类Fisher判别分析---实例实例1资料(g=1:健康人,g=2:病人gkx1x2x311436.7049.592.3212290.6730.022.46………19292.5626.072.16110276.8416.602.9121510.4767.641.7322510.4162.711.58……………26515.7084.591.75第一步---求WijX1、X2、X3的类内离均差平方和或积和
X1的类内离均差平方为w11,X1与X2的类内离均差积和为w12j=1J=2J=3i=139003.20757259.4848-91.3392i=21865.5859-17.9574i=30.6604第二步-----求判别系数∑mj=1.wijCj
=(N-2)(xi1-xi2)i=1,2,…m39003.2075C1+7259.4848C2-91.3392C3=(16-2)(337.0820-464.5117)7259.4848C1+1865.5859C2-17.9574C3=(16-2)(34.7990-60.1617)-91.3392C1-17.9574C2+0.6604C3=(16-2)(2.3860-1.7883)第二步-----求判别系数C1=-0.0188,C2=-0.0274,C3=9.3252判别函数为:
Z=-0.0188X1-0.0274X2+9.3252X3第二步-----2类的分界值
1、2类的均值分别为:Zg=∑mi=1CiXig,g=1,2Z1=-0.0188*337.0820-0.0274*34.7990+9.3252*2.3860=14.9593Z2=-0.0188*464.5117-0.0274*60.1617+9.3252*1.7883=6.2950第二步----2类的分界值
2、Z分界=(Z1+Z2)/2=(14.9593+6.2950)/2=10.6272Z分界可根据事前概率、据研究目的确定的两类错判的损失比值进行调整。调整的Z分界=(Z1+Z2)/2+ln(p1/p2)
Z2
Z分界Z1第三步----Fisher判别函数的F检验前提条件:2个总体符合多元正态分布且协方差相等H0:2个总体相同H1:2个总体不相同F~F(m,N-m-1)F>F0.05(3,12),P<0.05,所拟合的判别函数有统计学意义。第三步----Fisher判别函数的F检验
第三步----Fisher判别函数的F检验F~F(m,n1+n2-m-1)本例D2=8.6643,F=9.28F>F0.05(3,12),P<0.05,所拟合的判别函数有统计学意义。第四步各判别指标对判别函数的贡献率Xi的贡献率=Ci(Xi1-Xi2)/D2*100%x1的贡献率=-0.0188(337.0820-464.5117)/8.6643*100%=27.65%x2的贡献率=8.02%x3的贡献率=64.33%第四步求标准化判别系数:Ci‘=CiSiSi2:2类合并方差,
Si2=wii/(N-2),i=1,2,…,mC1‘=C1S1=-0.0188*39003.2075/14=-0.9923C2‘=-0.3163C3‘=2.0254第五步---检验判别函数的实际判别效果
回代检验交叉检验刀切法检验第五步---检验判别函数的实际判别效果回代检验:将拟合判别函数的所有样品(训练样品)值代入判别函数,得Z值,通过Z与Z分界比较判别样品所属类别;
Z2
Z分界Z1第五步---检验判别函数的实际判别效果Z≥Z分界,判为第1类Z<Z分界,判为第2类判别类别实际类别121ab2cd第五步---检验判别函数的实际判别效果回代检验缺点回代检验是针对训练样本进行的检验,因此,样本的2个两类错判率是相应总体率的偏低估计。第五步---检验判别函数的实际判别效果交叉检验将收集的样品随机分成2份(2份样品数最好相等),一份作训练样本用以拟合判别函数;另一份作为检验判别效果的样品。
2个两类错判率是相应总体率的无偏估计缺点:要求样本含量大。第五步---检验判别函数的实际判别效果刀切法检验:也称舍一法检验。当样本含量小时,将N个训练样品编号1、2…N,按序号从1到N每次去掉一个样品,以其余N-1个样品拟和判别函数,用以判别所去掉的那个样品的类别。2个两类错判率是相应总体率的近似无偏估计第五步---判别新样品类别预报新样品类别将不知类别的新样品X(X1、X2…Xm)代入判别函数,求Z,Z≥Z分界,判为第1类Z<Z分界,判为第2类此外还可计算样品X归属于第1类与第2类的概率。P(1/X)=1/(1+exp(z+z分界))P(2/X)=1-P(1/X)Fisher判别小结---关于总体分布的假设关于总体分布的假设:Fisher在1936年导出两类判别函数时,对总体分布未作任何假设,因此就拟合Fisher判别函数、定分界值和判别分类,总体分布可任意。后来,发展到对Fisher判别函数作F检验,理论上导出样品归属2类的概率,和总体的2个两类错判率,这就要求2个总体符合多元正态分布,且协方差矩阵相同。Fisher判别小结---判别函数与回归方程应变量不同:回归方程中Y是一个实测的正态随机变量,判别函数中Z是m个判别指标Xi加权的综合判别指标计量资料多类Bayes判别分析基本原理按非随机化判别准则,由个体X的一切可能值构成样本空间S,将S划分为g个互相排斥的区域ω1、ω2…ωg,若某个体观测值X(X1、X2、…Xm)落在ωi中,则将该个体判属第i总体计量资料多类Bayes判别分析判别原则错分损失尽可能小计量资料多类Bayes判别分析判别函数Z(1)=C0(1)+C1(1)X1+C2(1)X2+…+Cm(1)XmZ(2)=C0(2)+C1(2)X1+C2(2)X2+…+Cm(2)Xm…………………..Z(g)=C0(g)+C1(g)X1+C2(g)X2+…+Cm(g)Xm将待判样品X1、X2、…Xm带入求出Z(1)、Z(2)、…Z(m),,,如Z(i)最大,则将新样品判为第i类Bayes判别分析步骤计算类内离差阵Wij:与Fisher判别类似计算类内离差阵的逆矩阵Wij-1求解判别系数:公式见教材P55--3.7、3.8判别函数的假设检验判别效果检验:回代、交叉、刀切新样品类别判定Bayes判别分析步骤---判别函数的假设检验多个分类函数对多类判别效果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 八下期中(高频论述题50题)(测试范围:第1-11课)(解析版)
- 员工试用期转正的申请书范文500字
- 网格布局创新-洞察分析
- 营养干预与慢性病防控-洞察分析
- 营销自动化应用-洞察分析
- 医疗器械品牌国际化路径-洞察分析
- 胸腺五肽与免疫调节蛋白研究-洞察分析
- 荨麻疹与炎症性疾病关联-洞察分析
- 太阳翼空间姿态控制-洞察分析
- 外观模式数据处理-洞察分析
- 2023年江苏省五年制专转本英语统考真题(试卷+答案)
- 贵州省贵阳市英语小学六年级上学期试卷及答案指导(2024年)
- 2024年轻质隔墙板采购安装合同
- Unit 8 The Spring Festival Part A (教学设计)-2024-2025学年闽教版英语四年级上册
- 部编新人教版小学语文6六年级上册(全册)教案设计
- 山东省济南市2023-2024学年高二年级上册1月期末英语试题(解析版)
- 初中体育教案【完整版】七年级
- 2024-2030年中国城市供热行业市场前景预测及发展趋势预判报告
- 人教版七年级上册《生物》期末试卷(完整)
- 福建中考英语作文15分评分标准
- 智慧磐石工程建设方案
评论
0/150
提交评论