SAS软件应用之聚类分析.ppt_第1页
SAS软件应用之聚类分析.ppt_第2页
SAS软件应用之聚类分析.ppt_第3页
SAS软件应用之聚类分析.ppt_第4页
SAS软件应用之聚类分析.ppt_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第18章 聚类分析,中国疾病预防控制中心,学习目标,了解聚类分析的基本思想; 了解聚类分析的一些常见统计量; 掌握聚类分析的基本方法; 通过实例练习掌握聚类分析的SAS过程步。,概述,聚类分析是将随机现象归类的统计学方法,已广泛应用于医学科学研究之中。聚类分析也称群分析、点群分析,他是研究分类的一种多元统计方法。 例如,我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;国家之间根据其发展水平可以划分为发达国家、发展中国家;,概述,这些问题的本质就是希望能找到一种合理的方法将一批研究对象按其所属特性分门别类。统计学上用于解决这种分类问题的主要方法是聚类分析法和判别分析法。

2、这一章主要讨论聚类分析。,聚类分析的基本思想,聚类分析是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。,聚类分析的基本思想,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。由此得知,聚类分析的任务有两个,第一就是寻找

3、合理的度量事物相似性的统计量;第二是寻找合理的分类方法。,聚类分析的基本思想,在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理,又称为样本聚类分析;R型聚类分析是对指标进行分类处理,称为指标聚类分析。对样品进行聚类的目的是将分类不明确的样品按性质相似程度分为若干组,从而发现同类样品的共性和不同样品间的差异。对指标进行聚类的目的是将分类不明确的指标按性质相似程度分成若干组,从而在尽量不损失信息的条件下,用一组少量的指标来代替原来的多个指标。,聚类分析的基本思想,R型聚类分析的主要作用是:不但可以了解个别变量之间的关系的亲疏程度,而且

4、可以了解各个指标组合之间的亲疏程度;根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q型聚类分析。 Q型聚类分析的作用是:可以综合利用多个变量的信息对样本进行分类;分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;聚类分析所得到的结果比传统分类方法更细致、全面、合理。,聚类分析的基本思想,例如在医生医疗质量研究中,有N个医生参加医疗质量评比,每一个医生有K个医疗质量指标被记录。利用聚类分析可以将N个医生按其医疗质量的优劣分成几类,或者把K个医疗质量指标所反映的问题侧重点不同分成几类。前者是聚类分析中的样品聚类,后者是指标聚类。,聚类分析的统计量,无论是R型聚类或是Q

5、型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性度量的统计量。 聚类分析中用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的,前者用的统计量是距离系数,后者用的统计量是相似系数。距离系数的定义有很多,如欧式距离、极端距离、绝对距离等。相似系数的定义也很多,如相关系数、列联系数等。下面给出它们的计算公式。,距离,明氏距离 马氏距离 兰氏距离 类间距离,类间距离,最短距离法 最长距离法 重心距离法 平均距离法 中间距离法 Ward离均差平方和法,相关系数,相关系数是最容易理解的一种统计量,它就是统计中经常用的

6、两变量之间的简单相关系数。在聚类分析中,相关系数用来描述两个指标之间的相似程度。 是第s个指标变量, 是第t个指标变量,,相关系数,两个指标变量和之间的相关系数是: 这是一个无量纲统计量。在指标聚类分析中,两个指标变量之间的相关系数越大,说明这两个指标变量的性质越相似。,类间相似系数,夹角余弦 相关系数,聚类分析的方法,聚类分析的方法很多,本章仅介绍常用的系统聚类法和逐步聚类法。系统聚类法适用于小样本的样本聚类或指标聚类。逐步聚类法适用于大样本的样本聚类。对于小样本的样本聚类,如果采用逐步聚类法,聚类结果将与样本的顺序有关。,聚类指标,一般用系统聚类法来聚类指标,它的基本思想是先把k个指标看成

7、一类;然后用主成分分析法将它分解成若干类,分类的原则是使得每一类的类内指标总变异尽可能多地被该类的类成分所解释;如果每一类的类内指标总变异被类成分所解释的比例满足事先给出的要求,则聚类停止;否则,对比例小的类再继续进行分解,直到所有类的类内指标总变异被类成分所解释的比例都满足事先给出的要求为止。,聚类指标,系统聚类法对k个指标进行聚类的具体步骤如下: 确定每一类的类内指标总变异被类成分所解释的最低比例P; 把所有指标看成一类,计算类内指标总变异被类成分所解释的比例,如果所解释的比例大于或等于P,则聚类停止;否则进行;,聚类指标,将这个类分解成两个类,分类原则是使得每一类内的指标总变异尽可能地被

8、该类的类成分所解释且类间相关系数达到最小,计算每一类的类内指标总变异被类成分所解释的比例,如果所解释的比例大于或等于P,则聚类停止;否则进行; 最解释比例最小的一类在继续进行分解; 重复以上步骤,直到所有类的类内指标总变异被类成分所解释的比例都大于或等于P为止。,系统聚类法聚类样本,用系统聚类法聚类样本 用系统聚类法聚类样本的基本思想是先把n个聚类样本看成n类,然后按类间距离将相似程度最大的两个类合并为一类,再将所有的类(包括合并形成的新类)中相似程度最大的两个类合并为一类。重复此过程,直到所有的类间距离达到一定的要求为止,或直至所有的样本被合并为一类为止,然后根据类间距离的要求以及实际意义选

9、择一个适当的分类。,系统聚类法聚类样本,用系统聚类法对样本进行聚类的具体方法步骤如下: 把n个样本看成n类,类的个数g=n; 计算两两类间距离,并将类间距离最小的两个合并为一类,则g=n-1; 继续计算两两类间距离,并将类间距离最小的两个合并为一类,则g=n-2; 重复上述步骤,直到类间距离达到一定的要求为止,或所有的样本被合并为一类为止; 根据类间距离的要求以及实际意义选择一个适当的分类。,逐步聚类法聚类样本,用逐步聚类法聚类样本的基本思想是先选择若干个初始凝聚点,这些凝聚点可以是所有样本中的任意几个样本,也可以是随意确定的几个新样本观察值。然后把每一个样本按距离大小归入到与该样本最近的凝聚

10、点所代表的初始类中,再以这些初始类的“重心”(类内各样本观察值的平均值)作为新的凝聚点重新将样本归类。重复以上步骤,直到分成的类再没有什么变化为止。,逐步聚类法聚类样本,用逐步聚类法对样本进行聚类的具体方法步骤如下: 确定初始凝聚点; 计算样本与每一个初始凝聚点的距离,并将每一个样本归入到与该样本最近的凝聚点所代表的初始类中; 计算上述初始类的新凝聚点,等于类内各样本观察值的平均值; 计算样本与上述新凝聚点的距离,并将每一个样本归入到与该样本最近的新凝聚点所代表的类中; 重复上述步骤,直到新分成的类再没有什么变化为止。,VARCLUS过程,SAS系统中利用VARCLUS过程步进行指标聚类。 V

11、ARCLUS过程的语法格式如下: PROC VARCLUS DATA= OUTTREE= PROPORTION= MAXEIGEN= MAXC= MINC= 选项; VAR 变量/选项; RUN; PROC TREE DATA= HORIZONTAL= PAGE= SPACE= ; ID _NAME_ ; RUN;,VARCLUS过程,DATA语句指定要分析的数据集名及一些选项,它可以是原SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。 OUTTREE选择项用来保存用于绘制树状图的聚类信息。 PROPORTION选择项用来指定所有类中指标变量的总变异至少应被类成分解释的比例

12、。等号后面可以给出介于0和1之间的小数,也可以给出介于1和100之间的正数,PROPORTION=75和PROPORTION=0.75是等价的,表示聚类的结果必须满足所有类中指标变量的变异至少75%被类成分所解释,如果一个类的比例小于此值,就要将它继续分解为两类。,VARCLUS过程,MAXEIGEN选择项用来指定所有类中第二特征值的最大允许值,超过此值就要分割为两类。 MAXC选择项用来指定允许的最大类别数。 MINC选择项用来指定允许的最小类别数。,VARCLUS过程,第二个过程步用第一个过程步得到的结果绘制树状图,其中: DATA语句使用的是VARCLUS过程步的输出数据集,即由OUTT

13、REE输出的数据集。 HORIZONTAL选择项表示指令树状图的枝干绘制成水平的。 PAGE选择项指定树状图所需的页数。 SPACE选择项指定指标变量之间的间距(行数或列数)。 ID语句给出的变量名用来作为树干刻度的标记,这个变量名是系统定义的,由指标变量名构成。,CLUSTER过程,SAS系统中利用CLUSTER过程步进行小样本聚类。 CLUSTER过程的语法格式如下: PROC CLUSTER DATA= OUTTREE= METHOD= STANDARD NONORM RSQUARE 选项; VAR 指标变量/选项; ID 样本序号变量 ; RUN; PROC TREE DATA= HO

14、RIZONTAL= PAGE= SPACE= ; ID样本序号变量 ; RUN;,CLUSTER过程,第一个过程步用于聚类样本中,其中 DATA语句指定要分析的数据集名及一些选项,它可以是原SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。 OUTTREE选择项用来保存用于绘制树状图的聚类信息。 METHOD选择项用于确定聚类的方法,选择的方法有single、complete、centroid、average、median、ward,其中single表示最短距离法,complete表示最长距离法,centroid表示重心距离平均法,average表示平均距离平方法,media

15、n表示中间距离平均法,ward表示最小离均差平方和法。,CLUSTER过程,STANDARD指令系统将原始数据标准化。 NONORM表示类间距离不进行标准化。 RSQUARE表述输出每一种聚类的复相关系数的平方和半偏复相关系数的平方,每一种聚类的复相关系数的平方等于总体变异被聚类成分所解释的比例,半偏复相关系数的平方等于由合并两个类引起的复相关系数平方的减少量。 VAR语句给出用来聚类样本的指标变量。 ID语句给出样本序号变量名。,CLUSTER过程,第二个过程步用第一个过程步得到的结果绘制树状图,其中: DATA语句使用的是VARCLUS过程步的输出数据集,即由OUTTREE输出的数据集。

16、HORIZONTAL选择项表示指令树状图的枝干绘制成水平的。 PAGE选择项指定树状图所需的页数。 SPACE选择项指定指标变量之间的间距(行数或列数)。 ID语句给出的变量名也是用来作为树干刻度的标记,但这个变量名由样本序号构成。,FASTCLUS过程,用于大样本样品聚类的FASTCLUS过程步使用的是逐步聚类法,其聚类原则是使得类间距离最小。 和CLUSTER过程步相比,FASTCLUS过程步的缺点是: 没有将原始数据标准化的功能; 不能自动确定类别数; 需要确定初始凝聚点; 不能输出作树状图的聚类信息。,FASTCLUS过程,因此,在使用FASTCLUS过程步前,要用STANDARD过程

17、步将原始数据标准化,即将原始数据化为均值为0,标准差为1的标准化数据;要根据经验确定类别数;要根据经验选取凝聚点,或者在确定类别数的基础上指令系统自动选取初始凝聚点。,FASTCLUS过程,FASTCLUS过程步的优点是能快速地对大样本进行样本聚类,且聚类后输出类内指标的均值,用于比较类间的差异,找出每一类的特性。 SAS系统中利用FASTCLUS过程步进行大样本聚类。 FASTCLUS过程的语法格式如下: PROC STANDARD DATA= OUT= MEAN=0 STD=1; VAR 指标变量; RUN; PROC FASTCLUS DATA= MAXC= RADIUS= MAXITE

18、R= LIST DISTANCE OUT= OUTSTAT= VARDEF= 选项; VAR 指标变量; RUN;,FASTCLUS过程,各语句选项说明如下: 第一个过程步用于将数据标准化,标准化的数据存在新数据集中。 OUT选择项给出含有标准化数据的新数据集名。 MEAN选择项给出标准化数据的均值,一般取MEAN=0。 STD选择项给出标准化数据的标准差,一般取STD=1。 VAR语句给出需要标准化的变量。,FASTCLUS过程,第二个过程用来聚类样本,使用的数据是上面过程步得到的标准化变量。 DATA语句给出上面过程步得到的含有标准化变量的新数据集。 MAXC选择项用来指定允许的最大类别数

19、。 RADIUS给出确定新凝聚点的准则r,即只有当一个点在以原凝聚点为中心,以r为半径的圆外时,才能被选为新的凝聚点。如果这样的点不存在,则聚类停止。 MAXITER给出递推运算的次数。 LIST表明列出每一个样品的归类结果。 DISTANCE表明输出类内样品均值间的距离。,本章小节,聚类分析是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。聚类分析的任务有两个,第一就是寻找合理的度量事物相似性的统计量;第二是寻找合理的分类方法。 在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理,又称为样本聚类分析;R型聚类分析是对

20、指标进行分类处理,称为指标聚类分析。,本章小节,聚类分析中用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的,前者用的统计量是距离系数,后者用的统计量是相似系数。距离系数的定义有很多,如欧式距离、极端距离、绝对距离等。相似系数的定义也很多,如相关系数、列联系数等。,本章小节,聚类分析的方法很多,本章仅介绍常用的系统聚类法和逐步聚类法。系统聚类法适用于小样本的样本聚类或指标聚类。逐步聚类法适用于大样本的样本聚类。本章详细介绍了各种聚类方法的分析步骤。 通过实例介绍了聚类分析的常用四种SAS过程步(VARCLUS、CLUSTER、FASTCLUS和ACECL

21、US过程步)。在学习的过程中掌握这些SAS过程步的语法格式并会灵活运用。,第19章 判别分析,学习目标,了解判别分析的基本思想; 熟悉Bayes判别分析法和Fisher判别分析法; 掌握BAYES参数分析法的判别准则效能的评估; 掌握判别分析的SAS过程步:DISCRIM、CANDISC和STEPDISC过程步。,概述,在医学研究和疾病防治工作中,经常会遇到需要根据观测到的资料对所研究的对象进行分类的问题。例如,需要根据就诊者的各项症状、体征及化验指标,作出就诊者是否患有某种疾病或某种疾病的哪一类型的诊断;又如,在环境监测中,根据对某地区的环境污染的综合测定结果判断该地区属于哪一种污染类型等。

22、,概述,判别分析的任务是根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体。判别分析是对样本个体进行分类的另一种统计分析方法,它和聚类分析一样,都可以将样本个体按其具有的特性进行分类。,概述,聚类分析和判别分析有很大的区别,判别分析是根据一批分类明确的样本在若干指标上的观察值,建立一个判别函数和判别准则,然后以此准则对新的样本进行分类。由此可知,这两种分类方法有着本质的不同:聚类分析可以对样本进行分类,也可以对指标进行分类;而判别分析只能对样本进行分类;聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知

23、道分几类;聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类。,判别分析,判别分析是一种根据观测变量判断研究样本如何分类的多变量统计方法,它对于需要根据对样本中每个个案的观测来建立一个分组预测模式的情况是非常适用的。分析过程基于对预测变量的线性组合产生一系列判别函数,但是这些预测变量应该能够充分地体现各个类别之间的差异。判别函数是从一个每个个案所属的类别已经确定的样本中拟合出来的,并且生成的函数能够运用于同样进行了预测变量观测的新的样本点,以判断其类别归属。,判别分析,判别分析的基本原理可以表述为:在一个P维空间R中,有K个已知

24、的总体G1,G2,G3,GK,同时有样本点X(X1,X2,X3,XP),它属于且仅属于这K个总体中的一个,判别分析所要解决的问题是确定这个样本点X具体应该属于那一个G总体。实际上判别分析的过程分为两个部分,首先是依据已知样本及其预测变量建立起一系列分类规则或判别规则,其次是运用这一规则对样本的原有分类进行检验以确定原有分类错判率。同时如果原有分类具有较低的错判率,则建立起来的分类规则可以应用于实际工作中。,判别分析,判别分析的基本思想是根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的判别函数和判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,并且根据回代判别的准确率评估

25、它的实用性。例如,以一批正常和一批已确诊的病人为样本,收集他们的各项指标,如化验指标、X线、心脑电图、超声波等诊断指标,然后利用这批分类明确的样本在这些指标上的观察值,建立一个关于指标的判别函数和判别准则(区分正常人和病人的方法),使得按此准则来判断这批样本归属的正确率达到最高。它有着广泛的应用价值,尤其在计算机疾病辅助诊断等医学科学研究中起了重要作用。,判别分析,判别函数是一个关于指标变量的函数。每一个样本在指标变量上的观察值代入判别函数后可以得到一确定的函数值,将所有样本按其函数值的大小和事先规定的判别原则分到不同的组里,并使得分组结果与原样本归属最吻合。这就是判别分析方法的基本过程。进行

26、判别分析的目的是根据样本建立判别函数和判别准则,用以对新的样本进行归类。不同判别分析方法的区别在于其建立判别函数的方法和判别准则的规定是不同的。,判别分析,判别分析的方法中较常使用的有Bayes判别分析法和Fisher判别分析法。Fisher判别分析法是以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类;而Bayes判别分析法是以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类。前者仅适用于两类判别,后者适用于多类判别。 对判别分析结果的优劣评价明确尚无系统的检验理论,只能通过错判率和事后概率错误率的估计来评估判别分类的有效性。,FISHER判别分析法,假设A和B为分类明

27、确的两类症状。在总体A中观察了p例,在总体B中观察了q例,每一例记录了k个指标,它们是 。令y是这k个指标的一个线性函数,即: 其中, 是待估计的未知系数。称上述线性函数是FISHER判别分析法的判别函数。如果a是总体A中的一个样本,b是总体B中的一个样本,这y (a)和y (b)分别是这两个样本的判别函数值。 FISHER判别分析法的基本原理是选择一组适当的系数,使得类间差异最大且类内差异最小。,FISHER判别分析法,根据FISHER判别分析法的基本原理,就是要选择一组适当的系数,使得类间差异最大且类内差异最小,即使得下式的Q值达到最大。 使得Q值达到最大就是Q的一阶偏导函数等于0的方程组

28、的解,由,FISHER判别分析法,可以得到: 其中,,FISHER判别分析法,令上述方程的解是 ,那么FISHER判别函数估计式是: 因此,对于任意一个样本在k个指标上的观察值,都可以计算出对应的判别函数值,令判别临界点是:,FISHER判别分析法,那么,FISHER判别准则是: 时,该样本属于B类; 时,该样本属于A类; 各项指标在判别分析中所起的作用是不同的。贡献率的大小由下式决定:,BAYES判别分析法,BAYES判别分析法是以概率为判别准则使得每一类中的每一个样本都以最大概率进入该类。BAYES判别是一种概率型的判别分析,在分析过程开始时需要获得各个类别的分布密度函数,同时也需要知道样

29、本点属于各个类别的先验概率,以建立一个合适的判别规则;而分析过程结束时则计算每个样本点归属于某个类别的最大概率或最小错判损失,以确定各个样本点的预测类别归属。,BAYES判别分析法,BAYES判别分析法在理论和处理方法上都比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,使得判别分析的效能得到较大的提高。SAS软件的判别分析过程是以BAYES判别分析法为理论基础的。,BAYES判别分析法,BAYES判别法的判别准则是,将每一个点x判别到事后概率最大的类中。利用已知的数据以及求极小值的方法,可以估计出的系数,从而可以得到判别函数的系数估计值,这些估

30、计出的系数使得每一个样本x属于某个类的事后概率达到最大。,判别分析,判别分析的结果对应着分析的不同步骤过程,也就包括了分类规则和分类结果两个部分。在分类规则中应该包括典型判别函数、衡量预测变量与判别函数之间关系的结构矩阵以及Fisher线性分类函数。典型判别函数是基于BAYES判别思想建立起来的,主要用途在于对参与分析的各个类别、各个预测变量、各个类别中的各个样本点及其相互关系进行考察。,判别分析,要将典型判别函数应用于大量的实践操作中是不现实的,因为这涉及到对被分类的样本计算各种概率,十分繁琐不利用操作。而FISHER线性分类函数则是针对每个类别分别建立起来的,可以直接应用实践操作中对新的样

31、本进行分类。在分类结果部分则依据已经建立起来的分类规则对参与分析的各个样本点重新进行分类,并通过与原有分类进行比较来确定原有分类的判对率。,判别函数中判别能力检验,一个判别函数判别样本归类的功能强弱很大程度上取决与指标的选取。如果判别函数中特异性强的指标越多,则判别函数的判别功能也就越强。相反,不重要的指标越多,判别函数就越不稳定,其判别效果非但得不到改善,甚至会适得其反。因此,要建立一个有效的判别函数,指标的选取很重要,过多过少都不一定合适。一方面要根据专业知识和经验来筛选指标,另一方面要借助统计分析方法检验指标的性能。,判别函数中判别能力检验,在一个判别函数中,每一个指标变量对判别函数的判

32、别能力都有所贡献。贡献的大小可以用一元方差分析和多元方差分析来检验。一元方差分析可以检验每一个指标是否对判别函数的判别能力有显著性意义,统计检验的无效假设是:单一指标对判别函数的作用不显著。多元方差分析可以检验所有指标是否联合对判别函数的判别能力有显著性意义,统计检验的无效假设是:所有指标对判别函数的联合作用不显著。,BAYES参数分析法的判别准则效能评估,对于BAYES参数分析法的判别准则效能的评估,常用的是两个错误率估计指标。一个为错判率估计,另一个为事后概率错误率估计。 错误率估计是从回代过程得到的结果,类内错判率等于类内被错判的样本数所占的比例。例如,原数据中第一类有n1个样本,用判别

33、函数判别后,有m1个被判到其它类中,那么第一类的错判率等于m1/ n1。总体错判率等于总体被错判的样本数所占的比例。例如,原数据有两类,第一类有n1个样本,第二类有n2个样本,用判别函数判别后,第一类有m1个被判到其它类中,第二类有m2个样本被判到其它类中,那么总体的错判率等于(m1m2)/(n1n2)。,BAYES参数分析法的判别准则效能评估,在回代过程和判别新的样本时,都可以估计事后概率错判率。令x属于类t的事前概率为pt,事后概率为,样本总数为n,类t的样本数为nt,类t的事后概率错判率为Et,总体事后概率错判率为E,其估计公式是:,BAYES参数分析法的判别准则效能评估,其中,第一个公

34、式表示从所有类中被判别到类t的所有x的事后概率之和,称为无分层概率之和。第二个公式表示从类i中被判别到类t的所有x的事后概率之和,称为无分层概率之和。第一个公式定义的错误率为无分层事后概率错误率,第二个公式定义的错误率为分层事后概率错误率。当事前概率和类内样本数成比例时,这两个错误率相等。,BAYES参数分析法的判别准则效能评估,对于一个估计的BAYES判别准则,错判率和事后概率错误率越小,判别准则越准确可靠。当被判别的新样本与样本独立时,这两种错误率估计是非偏的。但是,当新样本数很小时,可能会产生很大的变异,这时,事后概率错误率估计值有时会小于0。因此,为了得到一个有效的错误率估计,被判别的数据中样本数不应当太小,且类内样本数比例应当接近类内事前概率。,BAYES参数分析法的判别准则效能评估,总之,评估一个判别函数的判别效能,涉及到以下几方面

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论