ch18-20判别 聚类 主成分 因子课件_第1页
ch18-20判别 聚类 主成分 因子课件_第2页
ch18-20判别 聚类 主成分 因子课件_第3页
ch18-20判别 聚类 主成分 因子课件_第4页
ch18-20判别 聚类 主成分 因子课件_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1医学统计学ch1820:判别分析聚类分析主成分分析与因子分析2判别分析Discriminant analysis3知识发现/ 数据挖掘Data Mining4Question 如何根据某病人的多种症状(体温、白血球、恶心、呕吐、腹部压疼感等)判别此人患何种类型阑尾炎(急性、慢性、有无穿孔等)?5判别分析的基本概念Robert. Ledley 根据判别对象若干观测指标的结果判定其属于哪一类。例:对急腹症患者,临床医师需要根据主诉、体征及检查结果判断患者患的是阑尾炎、肠梗阻还是别的疾病。若诊断为阑尾炎,则又需要诊断出是什么类型的,是否有并发腹膜炎、是否穿孔等,以便确定治疗方案。 临床辅助鉴别诊断

2、计量诊断学7Fisher线性判别训练样本判别函数 Step 1预测分类 Step 2Fisher准则Ci : 判别系数类间差异尽可能大类内差异尽可能小判别规则 又称为典则判别(canonical discriminant),主要用于两类判别。判别规则例18-1 收集了22例某病患者的三个指标(X1,X2,X3)的资料列于表18-1,其中前期患者(A类)12例,晚期患者(B)类10例。试作判别分析。10SPSS软件结果判别函数11预测分类SPSS软件结果预测分类12一般,误判概率小于0.1或0.2才有应用价值。1.回顾性(夸大判别效果) 用建立判别函数的样本回代,进行判别。2.前瞻性(比较客观,

3、但未充分利用样本信息) 样本量的85%作为训练样本,15%作为验证样本。误判概率: P=P(A|B)+P(B|A)3.刀切法Jackknife;交叉验证 cross validation(客观,充分利用样本信息) (1)顺序剔除一个样品,用余下N-1个样品建立判别函数; (2)用判别函数判断所剔除的样品所属的类别; (3)重复上两步N次。二、判别效果的评价14判别函数的应用输入新患者的指标观测值,分类变量为“.”预测分类151. 训练样本足够大,代表性好; 原始分类正确;用于判别的观测指标选择恰当。2. 各类先验概率(用于Bayes判别): (1)各类构成比(样本量大且无选择性偏倚) (2)等

4、概率:P(Yk)=1/g g为分类数等概率各类构成比三、判别分析的注意事项17logistic判别,属于A类(如病例),属于B类(如对照),判为A类,判为B类判别规则18例:为了在不手术的情况下推测前列腺癌淋巴结的转移情况,某研究者收集了53例患者的资料,记录了患者的年龄(AGE)、酸性磷酸酯酶(ACID)、X射线(X_RAY)、术前活检病理分级(GRADE)、直肠指检肿瘤的大小与位置(STAGE)等。后3个变量为两分类变量,按0、1赋值,1表示阳性或较严重情况,0表示阴性或较轻情况。并以手术检查结果NODES为结局变量,1表示有淋巴结转移,0表示无淋巴结转移。19Variables in t

5、he EquationBS.E.WalddfSig.Exp(B)95.0% C.I.for EXP(B)LowerUpperStep 1 X_RAY2.182.6979.7831.0028.8612.25834.770Constant-1.170.3829.4031.002.310Step 2bX_RAY2.119.7478.0541.0058.3261.92635.989STAGE1.588.7005.1481.0234.8951.24119.304Constant-2.045.61011.2361.001.129该研究者用SPSS软件进行了Logistic逐步回归分析(入选剔除0.05),

6、得到结果如下。20判别结果:该病人发生了淋巴结转移。 现有一位50岁的前列腺癌病人,其X射线检查为阳性(X_RAY=1),直肠指检肿瘤的大小与位置较严重(STAGE=1),试根据研究结果判断该病人是否发生淋巴结转移。21Question形状?形状+颜色?22聚类分析Clustering analysis24判别分析与聚类分析判别分析supervised analysis聚类分析unsupervised analysis聚类分析:不知道应分多少类的情况下,进行探索性分析,对观察对象依据某些数量特征适当分类。251.指标聚类(R型聚类):将m个指标,即变量(variables)归类,目的是将性质相

7、近的变量聚为同一个类,从中找出代表变量,从而减少变量个数,达到降维的效果。常用于变量数目比较多、且相关性比较强的情况。2.样品聚类(Q型聚类):将n个样品,即观测记录(cases)归类,目的是找出样品间的共性,把性质相似的样品分在同一个类,性质差异较大的样品分在不同的类。聚类分析的分类目的27系统聚类Hierarchical clustering1. 开始时,各样品或指标单独为一类;2. 计算各类间的相似性;3. 将相似性最大的两类合并成新类;4. 计算新类与其余各类间的相似性;5. 重复第3、4步,直至全部样品或指标并为一类。281. 指标聚类: 简单相关系数的绝对值(定量): 列联系数(定

8、性):RC表Pearson2,0C Classify Hierarchical cluster观测指标聚类目的选择样品38SPSS定义相似系数与类间相似系数的计算方法39SPSS类平均法欧氏距离40SPSS软件结果系统聚类图结合专业研究,该类为癌症高危人群41二、聚类分析的注意事项-11. 相似系数及类间相似系数的定义不同,系统聚类结果有所差异。2. 在变量较多时聚类结果的差异愈加明显,在聚类分析前尽可能选择有效变量,剔除无效变量(变量值变化很小)、缺失值过多的变量(如基因表达数据缺失值20%)。欧氏距离、类平均法(样品聚类)、最大/最小相似系数法(指标聚类)42二、聚类分析的注意事项-23.

9、 结合专业知识,尝试多种聚类方法,详细解读聚类图。最大相似系数法 最小相似系数法43二、聚类分析的注意事项-34. 样品聚类原则:类内差异小,类间差异大。样品聚类效果的评价: 单变量:ANOVA 多变量:多元ANOVA 以类别为不同的组别,类与类之间的差别应具有统计学意义。44Question45如何利用这些指标对每一儿童的生长发育情况作出正确评价?仅用单一指标: 结论片面; 没有充分利用原有数据信息。利用所有指标: 各指标评价的结论可能不一致,使综合 评价困难。能否利用少数独立的综合指标反映多个相关的原始指标的信息?46主 成 分 分 析Principal Components Analys

10、is因子分析Factor Analysis47一、主成分分析(PCA)(一)基本思想 将多个相互关联的指标转化为少数几个互不相关的综合指标,即用较少的指标代替和反映原始指标的主要信息。 这些综合后的指标称为原来多个指标的主成分(principal component)。 各主成分提供的“信息”量大小用其方差来衡量,一项综合指标在个体间的变异越大,提供的信息量越多。48(二)主成分分析的简单例子 通过儿童的年龄(X1)与身高(X2),综合评价儿童的生长发育情况:X1X20正相关49X1X2Z1Z2050Z1Z20n个点的分布不再呈线性相关,Z1、Z2相互独立。First Principal Co

11、mponentSecond Principal Component51m个观测的情况第一主成分第二主成分第m主成分在所有Var(Zi)中最大;在所有Var(Zi) 中第2大 无关,互相垂直;52(1)各主成分互不相关,彼此独立 (三)主成分的性质532. 主成分的贡献率与累积贡献率(指标个数)单个主成分的贡献率前k个主成分的累积贡献率(三)主成分的性质各指标间相关矩阵的特征值(eigenvalue)i=Var(Zi)标准化后方差为“1”54(三)主成分的选取1. 根据累计贡献率:当前k个主成分的累积贡献率达到某一特定值(70%),则保留前k个主成分。2. 根据特征根:若主成分Zi的特征值i1,

12、则保留Zi,否则就去掉该主成分。保留的主成分较多保留的主成分数应小于原始指标数(k Data Reduction Factor观测指标60SPSS软件结果主成分的选取选取原则:结合1与累积贡献率选择主成分。特征值主成分累积贡献率贡献率61(因子载荷矩阵)综合 语言文字 抽象思维SPSS软件结果主成分与原始指标的关系62SPSS软件结果利用主成分对样品进行综合评价样品的主成分得分综合得分原始总分 f 的平均值为0,fi0表示高于平均水平。63二、因子分析(一)基本思想 从分析多个可观测的原始指标(如门诊人数、出院人数、诊断符合率、治愈率、病死率等)的相关关系入手,找到支配这种相关关系的有限个不可观测的潜在变量(如医疗工作质量)。并探讨潜在变量如何对原始变量起支配作用。641. 两者分析的重点不同 Z=AX主成分Z为原始变量X的线性组合,重点在综合原始变量信息。 X=AF+e原始变量X为公因子F与特殊因子e的线性组合,公因子F重点反映支配原始变量的不可观测的潜在因素。三、因子分析与主成分分析的关系652. 两者之间有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论