SAS讲义 第三十八课判别分析_第1页
SAS讲义 第三十八课判别分析_第2页
SAS讲义 第三十八课判别分析_第3页
SAS讲义 第三十八课判别分析_第4页
SAS讲义 第三十八课判别分析_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第38课判别分析判别分析方法的任务是根据已掌握的一批分类良好的样本建立一个较好的判别函数,以使判别函数用于判别时的错案数最小化,然后判别函数可用于判别给定新样本来自哪个群体。判别分析是一种统计方法,用于区分个人所属的类别。它诞生于20世纪30年代,近年来被广泛应用于现代自然科学和技术部门的许多分支。判别分析方法通常给出具有判别指数的判别函数,并指定判别规则。让我们介绍:l距离判别分析方法费希尔线性函数判别法。一、距离判别分析如果每组中的分布假设为多元正态分布,则基于多元正态分布理论的参数方法将导出线性或二次距离判别函数。否则,将采用不基于任何分布假设的非参数方法。1.贝叶斯理论距离判别分析使用

2、贝叶斯理论来计算属于某个组的样本的后验概率,此时属于每个组的样本的前验概率是已知的,并且可以估计该位置处的组密度。存在组,并且组的概率密度是,并且来自组的样本的先验概率是令人满意的,那么根据贝叶斯理论,样本属于组的后验概率是:(38.1)如果假设每个组中的维度样本的分布是亚正态的,则存在(38.2)和分别是第一组的均值和协方差矩阵。此时,该组样本的概率密度函数为:(38.3)其中,的几何意义是到群平均值的平方距离。将等式(38.3)代入等式(38.1)得出:(38.4)其中,(38.5)是从样本到第一组的广义平方距离。这里(38.6)(38.7)样本被分配到第一组,因为该组中样本的后验概率最大

3、,或者从该样本到第一组的广义平方距离最小。判断哪个样本属于哪个组的标准称为最大后验概率标准。如果最大后验概率小于指定阈值,则样本被分配给该组以外的组。2.线性判别分析为了简单起见,我们只考虑两种一般情况。有两个协方差相同的正态总体和,它们的分布分别是和。现在对于一个新的样本,我们必须判断它来自哪个群体。最直观的方法是计算两个种群之间的距离之和,并根据以下规则进行判断:如果是,那么;如果是,那么。那么这里的关键问题是如何选择距离函数。多元统计分析中最著名的距离是由马氏提出的,通常称为马氏距离。到父对象的距离定义为(38.8)然后(38.9)如果订购(38.10)上述辨别规则可以写成如下:当时,那

4、时候,如果、和已知,则它们是线性函数,称为线性判别函数。3.非线性判别分析如果协方差不同,即两个正态总体的和分别服从和。现在对于一个新的样本,我们必须判断它来自哪个群体。我们仍然根据离父母最近的距离对样本进行分类。也就是说,标准是:如果是,那么;如果是,那么。其间(38.11)然后(38.12)这是一个二次判别函数。这样,标准就变成了判断公式(38.12)是正还是负的问题。可以看出,当我们得到线性判别函数时,我们用线性判别函数来判别。当时,我们得到了二次判别函数,所以我们用二次判别函数来判别。在正常情况下,我们不知道这两个种群的特征,即,和,是未知的,只有从这两个种群中提取的样本,假设和样本是

5、从这两个种群的每一个中提取的;判别分析是使用线性判别函数还是二次判别函数取决于两个总体的方差。如果是,线性判别函数用于判别分析;否则,二次判别函数用于判别分析(38.15)如果是这样的话,拒绝H0的原始假设,接受H1意义上的A级替代假设;相反,如果有的话,H0最初的假设在意义层面上是被接受的在接受原始假设H0的条件下,方程(38.10)的线性判别函数用于判别分析。线性判别函数的和可以分别用它们的无偏估计来代替:(38.16)其中,(38.17)(38.18)(38.19)在接受假设H1的条件下,利用二次判别函数进行判别分析。二次判别函数中的和和可以分别由它们的无偏估计代替:(38.20)(38

6、.21)(38.22)(38.23)事实上,距离歧视很容易扩展到多个人群。4.多级歧视对于两种类型的线性判别和非线性判别,得到一个判别函数。对于任何一组样本(或待鉴别的样本),将其代入鉴别函数以获得鉴别分数,然后根据鉴别分界点确定其属于哪种类型。然而,许多实际问题可能是多级歧视问题。有类(),每个类中有、个样本组,每个样本组有p个索引,并记录它们。假设每组样本都是独立的正态随机变量,即(38.24)其中是k类p变量的数学期望(向量),该矩阵是对应于k类p变量的协方差矩阵,假设该协方差矩阵是相同的,即我们需要区分要判断的一组样本应该属于G类中的哪一类。计算与每一类的重心(平均向量)之间的马氏距离

7、与两类判别相同(38.25)如果有最小的量,它被分类为j类。这里的平均向量的估计公式是(38.26)协方差矩阵估计为(38.27)其中。距离的估计可以表示为(38.28)判别标准:对于任何一组待判断的样本,使用公式(38.28)进行计算和记录(38.29)如果它是最小的,样本被判断为属于类别。有两点值得注意:我们这里的判别函数和规则不涉及分布的类型,只要第二个矩存在;(2)该判别规则符合习惯,但不可能完全准确判别,会出现误判。5.误判的概率让我们以正常人群为例来讨论误判的可能性。具有相同协方差的两个正态总体的和的分布分别是和。如果一个样本来自,但实际上在的右边,那么它将根据判别函数和判别规则被

8、判断为来自,然后就会发生误判。参见图381。图381两种类型的判别误判概率图所谓误判概率问题是:定义误判概率,即原始样本为第一类,误判为第二类的概率;表示样本最初属于第二种类型但被误判为第一种类型的概率。误判的概率是图形中阴影部分的面积。他们是(38.30)这是正态分布的累积分布函数。如果使用上述标准来区分所有n1 n2个样本,则记录第一类别中的样本,并且m1个样本被分类为第二类别;如果第二类中有m2被判断为第一类,则误判的概率可以表示为:(38.31)第二,费希尔线性函数判别分类判别的关键问题之一是找到合适的判别函数。如果判别函数比较复杂,在实际使用中就很不方便。因此,为了方便起见,有时需要

9、找到某种意义上最佳的线性判别函数。在判别分析中,Fisher准则下的线性判别函数是一个判别函数,它只能通过使用总体的一阶和二阶矩来获得。假设观测数据是一个维向量。设置代表第一组()中第一个特征()的第一个观察值()。因此,()相当于第一组中第一次观察测量的特征。同样,我们以两个群体为例,引入Fisher准则下的线性判别函数,即。船方不负担装货费用参见图382所示的情况,这是一个简单的情况,只有两组,每组只有两个特征,并且可以在平面上示出。符号“*”代表一个组,而符号“”代表另一个组。一个简单的想法是:我们不妨在这个平面上画一条直线,我们可以尽可能地把两组分开。一组是这条直线的一边,另一组是这条

10、直线的另一边。如果有一个新的点,我们将在地图上画出这个点,看看它是更接近“*”号还是更接近“*”号。如果我们找到了最有鉴别力的直线,我们只需要看看新的点是在直线的这一边还是另一边,就可以确定我们属于哪一组。这实际上是费希尔线性判别分析的主要思想。技术部分是找出最有鉴别力的线性判别函数。如果是这样,我们可以得到如下的线性方程:(38.32)问题的关键是如何找到最有鉴别力的线性判别函数。显然,我们需要通过观测数据来训练这种判别线性判别函数。那就准备好。将每个观测数据代入线性函数以获得变量值:(38.33)本质上,这是将维度数据投射到特定的方向。因此,第一组的维度观察数据成为投影点数据。我们考虑所有

11、数据点的总方差和(方差):(38.34)其中是所有组的总平均值,即方差的平方和分解为组内方差和组间方差,如下所示:(38.35)其中,指示第一组的平均值,即组内平均值。组间方差代表由系统因素引起的变异,而组内方差代表由随机因素引起的变异。因此,我们应该选择哪一个可以做(38.36)达到最大值。其中,它是第一组的平均值,所有组的平均值,以及第一组的协方差矩阵。也就是说,与组内随机因素引起的变化相比,组间系统因素引起的变化达到最大值,然后不同组之间的区分可以最大化。让我们看看如何在判别函数中找到系数。同样,我们仍然以两个总体为例来求解系数。让两个总体的平均值相加,协方差矩阵相加。从等式(38.36

12、),我们可以得到:(38.37)事实上,我们只需要考虑二次型(38.38)因此(38.39)当且仅当,等号成立。然后(38.39)当且仅当(38.37)达到最大值时(38.40)因为它是任何实数,你都可以做。所以我们得到的判别函数如下(38.41)给出判别函数后,我们还将给出判别准则。取各群体平均值的加权平均值作为比较值,即(38.42)相应的部门是(38.43)如果你不知道这两个总体的特征,即总和是未知的,并且你只知道总和样本取自这两个总体中的每一个,那么线性判别函数中的总和可以分别由它的无偏估计代替:(38.44)其间(38.45)(38.46)(38.47)(38.48)相应的标准是:采

13、取(38.49)相应的划分是:(38.50)同样,费希尔线性函数判别法可以推广到多种群的情况,即典型判别分析。三、应注意的几个问题L判别分析法首先根据已知组的样本给出判别函数,并制定判别规则,然后判断每个新样本应该属于哪个组。常见的判别方法包括距离判别法、贝叶斯判别法、典型判别法等。从马哈拉诺比斯距离的观点来看,l统计是直观的。例如,为了检验假设,检验结果取决于从干样本平均值到总体的平方马氏距离。距离越小,就越倾向于接受这个假设。相反,距离越大,它越倾向于拒绝。在判别分析中,各种误判的后果可以被认为是相同的,而在假设检验中,产生两类错误的后果通常是不同的,而产生第一类错误的后果通常更为严重。4

14、.Discrim判别分析过程对于观察数据集,每个观察包含一个或多个定量变量和定义观察组的分类变量,discrim过程确定将每个观察分成一个组的标准。从数据集导出的判别标准可以在discrim过程的相同执行期间应用于第二数据集。用于获得鉴别标准的数据集被称为训练数据集或校准数据集。Discrim程序通常由以下语句控制:继续discrim选项列表;类变量;按变量表;Freq变量。Id变量。先验概率表;Testclass变量;Testfreq变量。测试变量;Var变量表;重量变量;快跑。1.proc discrim语句选项列表。它主要分为与输入和输出数据集相关的两种类型的选项。1)输入数据集选项:L

15、 data=数据集名称指定要分析的数据集。数据集可以是一个通用的SAS数据集,也可以是由SAS/STAT过程生成的几个特殊结构的数据集。L testdata=数据集名称指定要分类以进行观察的通用SAS数据集。数据集中定量变量的名称必须与数据指定的数据集相匹配。当指定testdata选项时,也可以使用testclass、testfreq和testid语句。使用测试数据时,输出数据集选项testout和TestOut可用于为测试数据集中的观察结果生成分类结果和组密度估计。2)输出数据集选项:l外围站=数据集名称生成一个包含各种统计数据(如均值、标准差和相关性)的输出SAS数据集。当输入数据集是一般

16、的SAS数据集或类型=corr、类型=cov、类型=csscp或类型=sscp时,此选项可用于生成判别统计。当规范选项被指定时,规范相关性、规范结构、规范系数和每个类的规范变量的平均值被包括在数据集中。输出=数据集名称生成一个输出SAS数据集,包括来自数据指定数据集的所有数据、后验概率以及每个观察值通过重新替换而划分的类别。当指定规范选项时,数据集还包含对典型变量进行评分的新变量。L outcross=数据集名称生成一个输出SAS数据集,包括来自数据指定数据集的所有数据、后验概率和通过交叉验证将每个观察分类的类别。当指定规范选项时,数据集还包含对典型变量进行评分的新变量。Outd=数据集名称生成一个输出SAS数据集,其中包含来自数据指定数据集的所有数据,以及每个观察的组密度估计值。数据集名称生成一个输出的SAS数据集。包含来自指定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论