




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1
第十八章判别分析
(DiscriminantAnalysis)
分类学是人类认识世界的基础科学。判别分析是研究事物分类的基本方法,广泛应用于自然和社会科学各个领域。2
判别分析内容
*
第一节Fisher判别第二节最大似然判别法第三节Bayes公式判别法*第四节Bayes判别*第五节逐步判别*第六节判别分析中应注意的问题
(补充:SPSS统计软件的操作和结果)*重点:判别分析概念、应用、结果解释、注意的问题。3
概述
对事物分类,以便给予不同的处理。但事物的分类常需要多个指标,判别分析是通过多变量对事物进行分类方法。
医学中的分类问题:疾病的预测
预测病人的预后(好或差),提出早期治疗方法,降低严重后果。
4例:
新生儿缺氧缺血性脑病(HIE)预后(山东某医院,2004年)
判别指标:
生后1分钟阿氏评分(X1)、窒息复苏时间(X2)、惊厥持续天数(X3)、急性期CT改变(X4)及治疗3天后原始反射情况(X5).求得判别值Z=77,以Z>77作为预后不良的标准.不良预后:①脑性瘫痪,②严重智能低下5疾病诊断:对疾病的诊断,确定进一步的治疗。
例:判别分析在糖尿病周围神经病变早期诊断中的应用(广州南方医院内分泌科,2004年)
管理和经济学上分类:对研究单位分类,判别所属类别,为管理者制定政策提供依据。例:根据经济指标,人均收入、人均工农产值、人均消费水平等判断不同地区经济发展程度类型。6
事物分类的统计方法
主要有判别分析和聚类分析判别分析:事物的分类是清楚的,目的是通过已知分类建立判别函数,预测新的观察对象所属类别。聚类分析:事物分类不清楚,分几类不清楚,目的希望将事物进行分类(探索性研究)。7判别分析的特点用途:通过数据建立判别方程,对研究事物进行分类和预测。对资料要求:要求建立方程的观察对象分类(y)已经明确(用金标准确定),收集建模对象(训练样本)的m个变量(x)建立判别方程。8判别分析建模的方法根据自变量(x)资料性质:自变量(x)为计量数据:
Fisher判别、Bayes判别(SPSS、SAS统计软件可实现)。自变量(x)为定性数据:最大似然判别法、Bayes公式判别(统计软件不能自动实现)。9
1.建立判别函数(方程)
2.规定判别(分类)准则
判别新个体为某类
3.评价判别方程的效果
判别分析方法的基本步骤10
第一节Fisher判别
一、两类判别Fisher判别(典则判别
canonicaldiscriminant)
用已知类别(A或B)研究对象的x1,x2……
xm指标,建立判别方程(z):
方程中系数c为判别系数,c1,c2……
cm,(18-1)11Fisher判别的原理正常人冠心病人z1z2Z12Fisher方差分析的思想
准则:寻找组间变异(类间均数)/组内变异的比值最大化.
英国统计学家FisherRA爵士(1890~1962)13
通过解下列距阵得到判别系数(c)(18-3)Sij为第i指标和第j个指标的合并协方差类间均数差值14
2.建立判别规则和判别值(Zc)
(18-5)判为A类判为B类判为任意一类15例:讲义表18-1
两类疾病22例患者三项指标观察结果编号类别(y)x1x2x31A23802A-19-23A-105013B9-5114B2-1-115B17-6-116计算步骤:1.计算各类均数和合并(A、B)的协方差距阵(S)17变量的合并方差和协方差182.解正规方程得出判别系数C类间均数差值193.计算判别界值Zc
将各类每个个体的变量值代入判别方程,得到zi,得到zA和zB的均数.预测:
某病人测定了x1、x2、x3值,代入方程z,计算的z>-0.004,为A类。20例:表18-1
两类疾病22例患者三项指标预测结果类别x1x2x3z值判别结果A23800.19AA-19-22.73AA-10501.83AB9-51-2.07BB2-1-1-0.05AB17-6-1-2.22Bz>-0.004,为A类21二、判别效果的评价用误判率评价:22表18-1资料回顾性判别效果评价原分类判别分类
AB合计A10212B2810合计121022第A类误判率=2/12=16.6%第B类误判率=2/10=20.0%方程总误判率=4/22=18.2%231.确定研究的目的:
收集指标与建立判别分析目的一致(从专业考虑)2.统计检验建模数据的要求:
检验判别变量的区别能力数据满足正态和协方差齐性3.建立判别方程,评价判别效果。4.模型结果解释和预测。SPSS统计软件的判别分析与结果
(Fisher判别或典则判别)24讲义18-1实例2526
讲义18-1实例分析
SPSS统计软件结果
变量判别能力的考察和统计描述表127各变量在类间的单因素统计检验
(F检验)单变量检验提示:
X2和x3在区别不同类别人群有统计学意义。表228检验建模数据变量的变异在类间是否齐性?协方差的Box‘sM检验本例p>0.05,满足齐性条件.表329
两总体方差不齐距离示意z1z230
建立判别规则和判别值(Zc)
(18-5)判为A类判为B类判为任意一类31
表4和表5反映建立判别方程提取信息量.和有无统计意义表4表532
典型判别函数
(canonicaldiscriminantfunction)根据表6系数建立判别方程表633表7提供了各变量对判别分类的重要性。
表7系数的绝对值反映重要性34
评价判别效果表8灵敏度特异度35
软件给出判别结果和判别值36目前判别分析效果评价方法
1.回顾性评价:
将原始数据带入判别方程得误判率评价.2.前瞻性:
将原始数据分为0.85(训练样本)建立判别方程和0.15(验证样本).计算误判率(要求例数较多)。3.误判率总误判率低于0.2,认为判别函数可用.37
例:世界经济统计研究(1995年)人文指数
反映国家综合水平国家类别期望寿命识字率GDP美国1.0076.0099.005374.00日本1.0079.5099.005359.00训练样本瑞士1.0078.0099.005372.00阿根廷1.0072.1095.905242.00阿联酋1.0073.8077.705370.00保加利亚2.0071.2093.004250.00古巴2.0075.3094.903412.00巴拉圭2.0070.0091.203390.00格鲁吉亚2.0072.8099.002300.00南非2.0062.9080.603799.00中国2.0068.5079.301950.00待判样本罗马尼亚2.0069.9096.902840.00希腊1.0077.6093.805233.00哥伦比亚1.0069.3090.305158.0038
第二节最大似然法判别适用于定性指标的两类和多类判别.似然函数方程:
Xm:x1,x2….m个判别变量.Yk:y1,y2….k个类型例数.S:个体为某种状态(条件).(18-7)P=个体在某状态的条件概率392.判别规则:
原理:
根据独立事件概率乘法原理进行判别。
在计算个体k个似然函数,其中概率最大的p,判个体为第k类。例18-2:见讲义388-389页有人用7个指标对4种类型阑尾炎的鉴别诊断,收集5668例确诊的病史数据(见表18-3).
40表18-35668例不同型阑尾炎症状发生频率%变量症状卡他性蜂窝炎坏疽腹膜炎
SlY1Y2Y3Y4X1右下57343521腹痛下腹15131227部位上腹12353534
脐周121096
全腹48912X2
恶心(-)(-)7333813呕吐(+)(-)16303722(+)11375565100%41例:对某个新个体做判别(讲义388页)症状与体征变量某病例的症状腹疼部位x1右下腹呕吐x2有排便x3正常腹部压痛x4右下部腹部肌防御x5有体温x636.6℃白细胞x723.7(单位)42某病例根据最大似然法和判别规则该病例预测为第3类-坏疽型该法主要得到表18-3条件概率,要求例数较多.43
第三节Bayes公式判别法
Bayes基本思想:是利用已知先验概率,去推证将要发生的后验概率。Bayes公式::第K类的先验概率,在事件中的比例.44表18-35668例不同型阑尾炎
不同型所占各类先验概率阑尾炎构成%估计卡他性2020
蜂窝炎5050
坏疽2525
腹膜炎55
合计10010045
判别规则:
计算个体a在Sij的条件下,属于k类的后验概率,其中概率最大的p,判个体为第k类。例:18-2见讲义390页结果与前法相同46
第四节Bayes判别
主要计量数据的两类或多类判别.bayes判别的思想:
基于bayes准则,假定已知各类出现的先验概率P(Yk),且各类变量近似服从多元正态分布,获得bayes判别函数。计算各个体出现的后验概率进行判别。47
Bayes判别方程假如要判别G类,其判别方程为:48如先验概率未知,假定:建立各类的判别方程yG(18-9)其中C为判别系数。系数c的与fisher计算相同.49Bayes判别规则预测方法:1.将个体判为YG值中最大的类.2.计算个体各类后验概率,判为概率最大类.两方法结果等价(公式18-13)50Bayes判别对数据的要求1.各类建立方程的m个自变量(指标)近似服从正态分布、各类协方差距阵相同。2.最好有各类别的先验概率.无可用各类样本的频率代替.51例表18-43个疾病分类的4个指标数据x1x2x3x4
原分类6-11.519901-11-18.525-36390.2-171732-4-15135410-14203520.5-11.519373-10-1921-4230-235-35120-228-203-100-21.47-151-100-21.515-40213-17.21822521、计算各指标的均数和合并协方差阵
X1X2X3X42.按讲义公式18-11计算出各系数C533.按讲义公式18-12计算常数项C0
先验概率假定:54例18-4Bayes判别方程应用:
将个体的m个变量值代入上面3个判别式,个体归为最大y值类.见表18-4.55表18-43个疾病分类数据与判别结果后验概率X1X2X3X4原分类1类2类3类判别结果6.0-11.519901.981.018.0001-11.0-18.525-363.000.140.860390.2-17.01732.002.547.4512-4.0-15.013541.969.030.0011.0-14.020352.097.667.2352.5-11.519373.003.413.5843-10.0-19.021-423.000.151.8493.0-23.05-351.427.519.053220.0-22.08-203.505.458.037110.0-18.014501.998.002.000156表18-6回顾性判别效果评价原分类判别分类
123合计161072040431056合计75517第1类误判率=1/7=14.2%第3类误判率=1/6=16.7%方程总误判率=2/17=11.76%57
第五节逐步判别该方法目的:选取具有判别效能的指标建立判别函数,使判别函数简洁,判别效果稳定。基本步骤:与多元回归相似.58
逐步判别方法的思想
通过类内离均差平方和(W)与总离差平方和(T)比值(Wilks统计量)筛选具有判别效能的指标建立判别方程.
(18-14)r指变量个数59步骤与方法1.设定变量选入方程和剔除方程的界值进入界值Fα,常用α=0.05,0.1,0.2
剔除界值Fβ,常用β=2α2.筛选步骤(见讲义395页)本例:α=0.2,β=0.3结果见讲义60见395页的W和T距阵61第一步X3选入第二步,X4选入,F=5.714第三步,X2选入,F=2.192第四步,X3剔除,F=0.1174.方程内选入X4、X2,建立方程结果见396页.62SPSS统计软件的逐步判别分析与结果
(Bayes判别法)63逐步判别分析64选入和剔除方程的概率用0.2和0.3为Bayes判别65Bayes逐步判别部分结果变量在方程内的情况66Bayes判别函数方程67表18-7
在只有x2、x4判别函数的回顾性效果评价总正确率=94.1%684个变量判别方程回顾性判别效果评价原分类判别分类
123合计1610720
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 注会考试中的综合素质提升与试题及答案
- 财务报表分析在2025年考试中的重要性试题及答案
- 行政管理师现阶段趋势试题及答案
- 项目管理沟通技巧试题及答案
- 职教高考课题申报书
- 课题申报书+任务分工
- 微生物检验的重要性及影响试题及答案
- 重要时刻2025年证券从业资格证试题及答案
- 注会考试成功路径与备考分享试题及答案
- 2025年金融监管政策的证券试题及答案
- iata第 66版危险货物规则(dgr 66th)
- 国家安全教育智慧树知到答案章节测试2023年临沂职业学院
- (完整版)人教版小学阶段英语单词默写表
- 2023版浙江评审卫生高级专业技术资格医学卫生刊物名录
- GB/T 16866-2006铜及铜合金无缝管材外形尺寸及允许偏差
- GB/T 16823.3-2010紧固件扭矩-夹紧力试验
- FZ/T 81010-2018风衣
- 语言学-Chapter-4-Syntax复习进程
- 系统生物学-第三讲-转录组学课件
- 2023年中荆投资控股集团有限公司招聘笔试模拟试题及答案解析
- 护士节趣味运动会主持词
评论
0/150
提交评论