版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、( (应用统计学经济与管理中的数据分析应用统计学经济与管理中的数据分析) )第十二章聚类分析和判别分析第十二章聚类分析和判别分析2第十二章 聚类分析和判别分析【本章导读及学习目标】【本章导读及学习目标】聚类分析和判别分析是重要的多元统计分析方法。聚类分析是研究样品或指标分类问题的一种多元统计方法,判别分析是判别样品所属类型的一种统计方法。这两种方法在国民经济许多领域中有着广泛的应用,并取得了许多卓有成效的成果。本章主要介绍聚类分析和判别分析这两种多元统计分析的重要方法。通过学习主要掌握聚类分析的主要分析方法系统聚类法和K-均值聚类法。其中,系统聚类法主要包括最短距离法、最长距离法、中间距离法、
2、重心法、类平均法和离差平方和法。掌握判别分析的主要方法距离判别法、Bayes判别法和Fisher判别法,会利用SPSS软件在实际问题中进行聚类和判别分析。3第一节第一节 聚聚 类类 分分 析析一、聚类分析概述一、聚类分析概述聚类分析的主要功能是建立一种分类方法,将一批聚类分析的主要功能是建立一种分类方法,将一批样品或变量,按照它们在性质上的亲疏、相似程度样品或变量,按照它们在性质上的亲疏、相似程度进行分类。根据分类对象的不同又分为进行分类。根据分类对象的不同又分为R型聚类型聚类(R-type cluster)和和Q型聚类型聚类(Q-type cluster)两大类,两大类,R型聚类是对变量型聚
3、类是对变量(指标指标)进行分类,进行分类,Q型聚类是对样型聚类是对样品进行分类。品进行分类。聚类分析给人们提供了丰富多彩的分类方法,最常聚类分析给人们提供了丰富多彩的分类方法,最常用的聚类方法是系统聚类法和用的聚类方法是系统聚类法和K-均值聚类法,这两均值聚类法,这两种方法的根本思想如下。种方法的根本思想如下。(1) 系统聚类法。系统聚类法。(2) K-均值聚类法。均值聚类法。此外,还有模糊聚类法、有序样品聚类法、分解法此外,还有模糊聚类法、有序样品聚类法、分解法和参加法等。本节重点介绍在实际问题中应用最广和参加法等。本节重点介绍在实际问题中应用最广泛的系统聚类法和泛的系统聚类法和K-均值聚类
4、法,且主要讨论均值聚类法,且主要讨论Q型型聚类分析问题。聚类分析问题。4一、聚类分析概述聚类分析是将一批样品或变量按照它们在性质上的亲疏程度聚类分析是将一批样品或变量按照它们在性质上的亲疏程度或相似程度来进行分类。那么如何度量样品间的亲疏程度呢或相似程度来进行分类。那么如何度量样品间的亲疏程度呢?研究样品或变量的亲疏程度的数量指标有两种,一种叫距?研究样品或变量的亲疏程度的数量指标有两种,一种叫距离,它是将每一个样品看作离,它是将每一个样品看作p维空间的一个点,并用某种度维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的点归为一类,距离较量测量点与点之间的距离,距离较近的点归为一类,
5、距离较远的点应属于不同的类;另一种叫相似系数,性质越接近的远的点应属于不同的类;另一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于变量或样品,它们的相似系数越接近于1或或-l,而彼此无关,而彼此无关的变量或样品,它们的相似系数那么越接近于的变量或样品,它们的相似系数那么越接近于0,相似的为,相似的为一类,不相似的为不同类。一类,不相似的为不同类。样品之间的聚类,常用距离来测度样品之间的亲疏程度。而样品之间的聚类,常用距离来测度样品之间的亲疏程度。而变量之间的聚类,常用相似系数来测度变量之间的亲疏程度变量之间的聚类,常用相似系数来测度变量之间的亲疏程度。5二、距离和相似系数二、距离
6、和相似系数(一一)数据的变换处理数据的变换处理1中心化变换中心化变换2极差规格化变换极差规格化变换3标准化变换标准化变换(二二)定义距离的准那么定义距离的准那么(三三)常用的距离常用的距离1闵可夫斯基距离闵可夫斯基距离2马氏距离马氏距离3兰氏距离兰氏距离(四四)相似系数相似系数1相关系数相关系数2夹角余弦夹角余弦6三、系统聚类法三、系统聚类法(一一)最短距离法最短距离法(二二)最长距离法最长距离法(三三)中间距离法中间距离法(四四)重心法重心法(五五)类平均法类平均法(六六)可变类平均法可变类平均法(七七)可变法可变法(八八)离差平方和法离差平方和法(九九)系统聚类方法的统一系统聚类方法的统一
7、7四、动态聚类法四、动态聚类法(一一)动态聚类的根本思想动态聚类的根本思想(二二)凝聚点的选择凝聚点的选择(三三)K-均值聚类方法均值聚类方法8第二节第二节 判判 别别 分分 析析一、判别分析概述一、判别分析概述判别分析判别分析(discriminant analysis)是用于判断样品所属类型的一是用于判断样品所属类型的一种统计分析方法,其特点是根据已掌握的、历史上每个类别的假种统计分析方法,其特点是根据已掌握的、历史上每个类别的假设干样本的数据信息,总结出客观事物分类的规律性,建立判别设干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准那么,在遇到新的样本点时,只要根据总结
8、出来的公式和判别准那么,在遇到新的样本点时,只要根据总结出来的判别公式和判别准那么,就能判别该样本点所属的类别。判别公式和判别准那么,就能判别该样本点所属的类别。在生产、科研和日常生活中经常遇到需要判别的问题,例如,医在生产、科研和日常生活中经常遇到需要判别的问题,例如,医院存有局部肝炎、肺炎、冠心病、糖尿病等病人的资料,几类每院存有局部肝炎、肺炎、冠心病、糖尿病等病人的资料,几类每个患者假设干项病症指标数据,利用现有的这些资料可以建立判个患者假设干项病症指标数据,利用现有的这些资料可以建立判别的准那么和方法,进而对一个新病人的数据进行判定,判定其别的准那么和方法,进而对一个新病人的数据进行判
9、定,判定其患有哪种疾病。有一些昆虫的性别很难看出,只有通过解剖才能患有哪种疾病。有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在假设干体表度量上有些综合的差够判别;但是雄性和雌性昆虫在假设干体表度量上有些综合的差异,于是统计学家就根据雌雄的昆虫体表度量得到一个标准,并异,于是统计学家就根据雌雄的昆虫体表度量得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大局部判别都是对的,而且不用杀能保证百分之百准确,但至少大局部判别都是对的,而且不用杀死昆虫来进行判别了。在市场预测
10、中,根据以往调查所得的种种死昆虫来进行判别了。在市场预测中,根据以往调查所得的种种指标,判别季度产品是畅销、平常或者滞销。在天气预报中,我指标,判别季度产品是畅销、平常或者滞销。在天气预报中,我们有一段较长时间关于某地区每天气象的记录资料,包括湿度、们有一段较长时间关于某地区每天气象的记录资料,包括湿度、温度、气压等,可以建立一种方法,通过连续五天的气象资料来温度、气压等,可以建立一种方法,通过连续五天的气象资料来预报第六天的天气。预报第六天的天气。9一、判别分析概述10二、距离判别法二、距离判别法(一一)距离判别法的根本思想距离判别法的根本思想(二二)两总体的距离判别两总体的距离判别1. 时
11、的判别时的判别2. 时的判别时的判别(三三)多个总体的距离判别多个总体的距离判别12 12 11三、三、Bayes判别法判别法(一一)最大后验概率准那么最大后验概率准那么(二二)最小平均误判损失准那么最小平均误判损失准那么12四、四、Fisher判别法判别法(一一)Fisher判别的根本思想判别的根本思想(二二)Fisher判别准那么判别准那么(三三)Fisher线性判别函数确实定线性判别函数确实定13第三节第三节 统计软件应用统计软件应用在用在用SPSS统计软件进行聚类分析和判别分析时,统计软件进行聚类分析和判别分析时,一般不用太关心点间距离和类间距离的计算方法以一般不用太关心点间距离和类间
12、距离的计算方法以及判别函数的计算方法,计算时机很容易完成这一及判别函数的计算方法,计算时机很容易完成这一繁杂的任务。对多数使用者而言,重要的不是计算繁杂的任务。对多数使用者而言,重要的不是计算问题,而是理解聚类和判别分析的思想和原理,懂问题,而是理解聚类和判别分析的思想和原理,懂得统计软件输出的结果,并对这些结果做出合理的得统计软件输出的结果,并对这些结果做出合理的解释和分析。解释和分析。本节主要讲述利用本节主要讲述利用SPSS统计软件进行聚类和判别统计软件进行聚类和判别分析的方法,从实例出发分别阐述聚类分析和判别分析的方法,从实例出发分别阐述聚类分析和判别分析在实际中的应用。分析在实际中的应
13、用。14一、聚类分析一、聚类分析(一一)利用利用SPSS进行系统聚类进行系统聚类(二二)利用利用SPSS进行进行K-均值聚类均值聚类15二、判别分析二、判别分析利用利用SPSS软件进行判别分析的具体操作步骤如下。软件进行判别分析的具体操作步骤如下。(1) 新建或翻开新建或翻开SPSS数据文件。将要分析的数据输入到数据文件。将要分析的数据输入到SPSS数据文件数据文件中,或翻开已有的中,或翻开已有的SPSS数据文件。数据文件。(2) 在在SPSS窗口中选择窗口中选择Analyze | Classify | Discriminant命令,调出命令,调出判别分析的主界面,将左边的要分析的变量移入到自
14、变量中,并将分类判别分析的主界面,将左边的要分析的变量移入到自变量中,并将分类变量移入到分组变量当中。选中变量移入到分组变量当中。选中Enter independents together单项选单项选择按钮,表示使用所有自变量进行判别分析。择按钮,表示使用所有自变量进行判别分析。(3) 单击单击Define Range按钮,定义分组变量的取值范围,在分类变量的按钮,定义分组变量的取值范围,在分类变量的范围中输入最小值和最大值,单击范围中输入最小值和最大值,单击Continue按钮,返回主界面。按钮,返回主界面。(4) 单击单击Statistics按钮,指定输出的描述统计量和判别函数系数。选中按
15、钮,指定输出的描述统计量和判别函数系数。选中Functions Coefficients栏中的栏中的Fishers和和Unstandardized复选框。这复选框。这两个选项的含义如下。两个选项的含义如下。Fishers:给出:给出Bayes判别函数的系数判别函数的系数(注意:这个选项不是要给出注意:这个选项不是要给出Fisher判别函数的系数。这个复选框的名字之所以为判别函数的系数。这个复选框的名字之所以为Fishers,是因为,是因为按判别函数值最大的一组进行归类这种思想是由按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里提出来的。这里极易混淆,请注意区分极易混淆,请注
16、意区分)。Unstandardized:给出未标准化的:给出未标准化的Fisher判别函数判别函数(即典型判别函数即典型判别函数)的的系数系数(SPSS默认给出标准化的默认给出标准化的Fisher判别函数系数判别函数系数)。(5) 单击单击Classify按钮,定义判别分组参数和选择输出结果。其中可以按钮,定义判别分组参数和选择输出结果。其中可以选择选择Display中的中的Casewise results,表示输出一个判别结果表,包含,表示输出一个判别结果表,包含每一个样品的判别分数、后验概率、实际组和预测组的编号等。每一个样品的判别分数、后验概率、实际组和预测组的编号等。(6) 单击单击S
17、ave按钮,可以选择存放预测的分类、判别得分以及所属类别按钮,可以选择存放预测的分类、判别得分以及所属类别的概率。的概率。16本本 章章 小小 结结(1) 聚类分析主要是建立一种分类方法,将一批样品或变量,按照它们在性质上的亲疏、聚类分析主要是建立一种分类方法,将一批样品或变量,按照它们在性质上的亲疏、相似程度进行分类。本章主要用距离来度量样本或变量之间的亲疏和相似程度,并介绍相似程度进行分类。本章主要用距离来度量样本或变量之间的亲疏和相似程度,并介绍聚类分析的主要分析方法聚类分析的主要分析方法系统聚类法和系统聚类法和K-均值聚类法。其中,讲解了系统聚类的八均值聚类法。其中,讲解了系统聚类的八
18、种方法:最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、种方法:最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。可变法和离差平方和法。(2) 判别分析是用于判断样品所属类型的一种统计分析方法,其特点是根据已掌握的每个判别分析是用于判断样品所属类型的一种统计分析方法,其特点是根据已掌握的每个类别的假设干样本的数据信息,建立判别公式和判别准那么,在遇到新的样本点时,只类别的假设干样本的数据信息,建立判别公式和判别准那么,在遇到新的样本点时,只要根据总结出来的判别公式和判别准那么,就能判别该样本点所属的类别。本章重点讲要根据总结出来的判别
19、公式和判别准那么,就能判别该样本点所属的类别。本章重点讲述距离判别、述距离判别、Bayes判别、判别、Fisher判别的判别公式和判别准那么的建立,并举例说明判别判别的判别公式和判别准那么的建立,并举例说明判别分析的主要步骤。分析的主要步骤。(3) 在距离判别中,判别的规那么是按给定个体在距离判别中,判别的规那么是按给定个体X距总体的距离最小来判别个体的类别。距总体的距离最小来判别个体的类别。距离判别法简单、结论明确,是很实用的方法。距离判别法简单、结论明确,是很实用的方法。(4) 距离判别法存在判别方法与各总体出现的概率无关,而且与错判之后所造成的损失无距离判别法存在判别方法与各总体出现的概率无关,而且与错判之后所造成的损失无关的缺点。关的缺点。Bayes判别法正是为解决这两方面问题而提出的判别方法,主要有两种判别准判别法正是为解决这两方面问题而提出的判别方法,主要有两种判别准那么:最大后验概率准那么和最小平均误判损失准那么。最大后验概率准那么的根本思那么:最大后验概率准那么和最小平均误判损失准那么。最大后验概率准那么的根本思想是将样品判别到后验概率最大的那一类,最小平均误判损失准那么的根本思想是选择想是将样品判别到后验概率最大的那一类,最小平均误判损失准那么的根本思想是选择判别准那么使平均误判损失到达最小。判别准那么
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 综合制剂车间课程设计
- 中西医助理医师考试中医内科学总结要点大全
- 自然大调音阶的课程设计
- 中考英语各种题材阅读理解强化训练(附详解)
- 学年论文和课程设计
- (CFG及真空联合堆载预压)软基处理施工方案
- 《机械通气的应用》课件
- 油库课程设计书封面图案
- 模拟电子琴设计课程设计
- 知识产权活动课程设计
- 【MOOC期末】《电子技术实习SPOC》(北京科技大学)期末慕课答案
- 新媒体技术基础知识单选题100道及答案解析
- 2025蛇年带横批春联对联200副带横批
- 互联网+创新商业模式考核试卷
- 江苏省扬州市梅岭中学2023-2024学年七年级上学期期末地理试题(含答案)
- 克罗恩病病例分析
- 《冠心病》课件(完整版)
- DB43T 1694-2019 集体建设用地定级与基准地价评估技术规范
- 高级技师电工培训
- DZ/T 0462.3-2023 矿产资源“三率”指标要求 第3部分:铁、锰、铬、钒、钛(正式版)
- Lesson-1.-spring-festival(双语课件-春节)
评论
0/150
提交评论