


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十二章非参数判别分析与非参数聚类第一节非参数判别分析一、引言关于判别分析的一般概念我们在多元统计分析中已经详细的讨论,在那里我们采用了距离判别、贝叶斯判别和典型判别法。这些判别法都需要估计总体的参数,而贝叶斯判别时, 我们还指定了总体服从正态分布。在非参数统计中,不对变量的分布做任何假设,这里主要有两种方法,BAYES方法和近邻方法进行非参数判别分析。设有M个类,用Y记一具体的对象所属的类,Y可能的取值为1,2, ,M .设有了 n个经过明确判定的样本,第i个样本的指标为 Xi,所属的类为Y, 1,2, ,n),n个样本记 Zn X1, , X2,Y. , , Xn,Yn ,,常称为“训练样
2、本”。这一名称的来由使因为日后 进行的判别工作依赖,因此可以说它们“训练了”人们如何取进行判别。非参数方法是基于组概率密度函数的非参数估计每组的非参数密度估计核产生的分类准则采用核方法或 k最近邻方法。马氏距离或欧氏距离用来确定样品的接近程度。二、核方法1、Bayes方法概念设有M个总体G1, ,Gm分别具有概率分布密度 £(x), f|M (x),出现M个总体的先 验概率分别为P1, , PM, Pi 0, P1Pm1 o贝叶斯判别的规则将样品判给P(Gk|x0)Pkfk(X0)最大的类,即Pjfj(X。)如果 Pifi(x) max Pj f j (x) -判 Y Gl2、Bay
3、es方法和密度函数估计的联系在非参数判别中,通常fj(x),j 1,2,3, ,M完全未知,有时Pi, , Pk未知。一个直观的想法是直接估计 fj(x), j 1,2,3, ,M和p, , pm ,然后将得到的估计代入判别规则 中进行计算。,M)密度函数的一个核估计h为窗宽,总体Gj(j 1,2,3,具体的步骤是:如果已知某事物可分为M个总体:GG2,Gm,该事物的特性P个指标描述,在进行分析之前,已观察到在各个总体的样本(1)X11x;2)x1p(k)X11X(2k)(k)X1p(1)X21x22)xrp(k)X21? ? ?x22)(k)X2p(1)Xg1xn12xn?p(k)Xnk1(
4、k)XnkPK (x)为p维密度函数,可以表示为1 nj x X i?(x)而(十)(j心,M) ?j其中(j 1,2,3, ,M), n m rhg将估计出的先验概率和密度函数代入判别规则中,得到后验概率,进行比较。使用该估计需要一个前提,即全部训练样本是从大的总体中随机抽样取得的,否则便没有意义了。现设当y i时,X的条件分布有概率密度函数fi(x)(i 1,2,n) , P(Y i) Pi ,M则X的边缘分布为f (x) pi fi (x)。已知Xi 1x时,丫 i)的条件概率为Pi (x)Pi fi (x)/ f (x)判别规则为Pifi(x) max Pj f j(x),判 x Gl
5、pl ?(x)nj 1 max 一 1 j M n njh.nji 1Gi三、K近邻方法1、概念记样本ZnXi,¥ , X2,% , , Xn,Yn ,,要由样品指标x去判别其所属的类 Y,Y可能的取值为1,2, ,M 。将Xi,X2, ,Xn按其与X的距离排列,如Xri x Xr2 xXRn x,距离相等时,按足标小的在前的原则处理 指定一个介于1到n之间的自然数k,挑出最接近 X 的k个,即Xkl,Xk2, ,Xkk ,与他们匹配的Y是Yki ,Yk2, ,Ykk。定义:以li记为丫叫,爼,丫kk中等于i的个数(i 1,2,M)。定义判别函数nk (x) nk (x, Zn)如下
6、:若l j是li2, ,l M中的唯一最大者,则定义nk (x) j ;若l1,l2, ,lM中有若干个同时达到最大者,比方说是lji,lj2, ,ljc ,则再按等概率在 l j1 ,l j2 , , l jc 中确定一个为 nk (x)。2、近邻方法 与概率密度的最近邻估计的关系用近邻方法估计估计密度函数的方法是,先固定一个介于1到n之间的自然数kn,对任何x,计算Xr,x| X R2x|XRnx|,然后fj(x), j 1,2,3, ,M的密度函数估计和先验概率的估计为 :?(x)-.?jnj2山|xXRk 1n判别规则为:? ?(x) max -njlj1-,判 xGi1 j Mn 2
7、nj|x X?l f? (x)ljmax ;1 j M 2n|x Xr1等价的判别函数h max,则判x gi四、SAS/DISCRIM 过程中的非参数判别的选项非参数判别方法是基于组概率密度的非参数估计。每组的非参数密度估计和产生的分 类准则采用核方法和 K 最近邻方法得到 .马氏和欧氏距离能够用来确定接近的程度.采用 k 最近邻方法时 ,马氏距离基于合并协方差阵;采用核方法时,马氏距离基于单个组那方差矩阵或合并协方差阵。实际上某个检验样品的归类基于由训练集得到的估计组密度。从估计密度, x 术语各组的喉炎概率得到评估。观测 x 盼归第 t 组是因为 p(t/x )最大。METHOD=NPA
8、R- 采用非参数判别方法。K k-为k最近邻方法指定一个 k值。观测x分如一个组基于从 x的k个最劲力得到的信息 .R r 为核密度估计指定一个半径 r。注意,不能同时选用 K=选项与R =选项。KERNEL=BIWEIGHTBIW 或 EPANECHNIKOVEPA 或 TRIWEIGHTTRI 或UNIFORMUNI- 为估计组密度指定一个核密度,缺省为 KERNEL=UNIFORMUNI 。METRIC=DIAGONAL|FULL IDENTITY 为平方距离的计算指定度量缺省为METRIC= FULL 。第二节 非参数聚类分析非参数聚类过程利用某种基于非参数密度估计的算法对观测得到的数
9、据进行分类。Sas的 modeclus 模块产生的数据集包括密度估计和聚类的结果,一系列的统计量,其中包括 近似的 p 值,以及用不同的算法,不同的光滑参数和不同的显著性水平得到的结果。我们知道,密度最大的数是众数 ,及 mode 。非参数聚类方法,类是由概率密度函数的 众数定义的,一个类大致可以定义为概率密度函数的一个局部最大点附近的区域给定一个足够大的样本,非参数分析方法可以不同大小,不同分散程度和形状极不规则的类。非参数 聚类分析方法对找出具有相同大小和分散程度的类效果也好。一、问题的引入如下虚构的数据进行分类data a ;inout x y ;cards;18 18 20 22 21
10、 20 12 23 17 12 23 25 25 2016 27 20 13 28 22 80 20 75 19 77 23 81 2655 21 64 24 72 26 70 35 75 30 78 42 18 5227 57 41 61 48 64 59 72 69 72 80 80 31 5351 69 72 81Joption ps=35 ls=78;proc plot ;plot y*x/hpos=52 vaxis=0 to 80 by 20run;80 _70 -60 -50 .40 -30 -20 -丫 10102030405060708090X从散点图上看有三类,其中,左下角的
11、类最紧,右下角的类要分散些,上边的类拉得很长,如果我们进行系统聚类,很难把它们聚为一类。二、密度估计为了方便起见,可以把以观测点Xi为中心的球称为 Xi的邻域,在Xi的邻域内的观测点称为xi的近邻点。Xi :第i个p维的观测点;d(x, y): x和y的距离;n :样本容量;ni :在 xi的邻域内的观测点数(含xi本身);ni :在Xi的邻域内的观测点数(不含 Xi本身);Ni :在Xi的邻域内的观测的指标集(含Xi本身);Ni :在Xi的邻域内的观测的指标集(不含 Xi本身);i : Xi的近邻的体积;f?:在Xi处的密度估计值;?:在Xi处的交叉确认密度估计值;Ck :被分配到类k的观测
12、点的指标集p:变量的维数;Si :第I个变量的方差;Xi的密度的估计值为:?-n i即以该点为中心的球内的所含观测个数ni与样本容量n的比值乘以球的体积。非参数密度估计使用球均匀核,球半径是固定的,也可以是可变的。在某点的密度估计值是以该点为中心的球内所含观测值除以样本量和球的体积。球的大小由光滑参数确定,光滑参数自定,通常要试几个光滑参数.三、SAS的非参数聚类过程类的个数是光滑参数的函数,在光滑参数增大时,类的个数由减小的趋势,但不是严格单调下降的一般来说应该指定几个不同的光滑参数,看看类的个数的变化。SAS的MODECLUS 过程使用的聚类方法采用固定的或可变半径的球型核进行密度估计相似
13、。对固定半径邻域,用选项。只=或R =指定半径值作为欧氏距离对可变半径邻域,用 选项CK =或K =指定在球内要求的相邻点数。METHOD = n参考SAS/STAT软件使用手册P.681是为了指定使用哪种聚类分析方法。共有7种,0 6种。多数情况下选择 METHOD = 1 和 METHOD = 6.1、METHOD=0最初把每个观测当作一个单独的类。如果一个类中有一个观测是另一个中某个观测的 相邻点,则把两个类合并。该方法没有用密度估计对固定的类半径,这些类可以通过最短距离的树状图在指定的半径上切割。METHOD = 1。最初把每个观测当作一个单独的类。对每一个观测点,找估计密度较大的最近
14、的相邻点如果这样的相邻点存在,则把观测值点所属的类和指定的相邻点所属的类合并接着考虑这样一些观测点, 其估计密度等于某些相邻点的估计密度但不小于任何相邻点的估计密度,然后合并含有这样观测的类:每个类含有该观测的一个相邻点,使得在这类内最大密度估计等于在那个观测上的密度估计;这个类包含观测的相邻点,使得这类内的最大密度估计超过在这观测上的密度估计METHOD = 2。最初把每个观测当作一个单独的类。对每一个观测点,找估计密度最大的且超过该观测点其密度估计的最近的相邻点。如果这样的相邻点存在,则把观测值点所属的类和指定的相邻点所属的类合并。接着考虑这样一些观测点,其估计密度等于某些相邻点的估计密度
15、但不小于任何相邻点的估计密度,然后合并含有这样观测的类。METHOD = 3。最初把每个观测当作一个单独的类。对于观测点Xj,找出相邻点Xj ,? ?使得一j-达到最大值。如果斜率是正的,则合并观测Xi所属的类和观测Xj所属的类。d(Xj,Xj)然后考虑这样一些观测点,其估计密度等于某些相邻点的估计密度但不小于任何相邻点的估计密度,与METHOD=1 相同的处理方法。METHOD = 4。等价于两阶段密度估计法。METHOD = 5等价于两阶段密度估计法METHOD = 6开始时所有观测都没有分类。第一步:找到一些种子,每个种子是一个单独的观测点,在,在这一点的密度估计不小于它的任何相邻点的密
16、度估计。如果规定选项MAXCLUSTERS=n,则只保留n个密度估计最大的种子。第二步:以密度估计由大到小的顺序逐个考虑每个种子:1) 如果当前这个种子已被分配 ,则考虑下一个种子。否则形成一个包含当前这个种子 的新类。2) 如果有某个未被分配的种子是这个类中一个成员的相邻点,或者与某个成员有共同的相邻点,则把这个种子加入这个类;重复这个步骤直到没有未被分配的种子满足这个条件为止3) 如果一些种子属于这个类,则把这些种子的所有相邻点加入这个类4)考虑每个没有被分配的观测点。计算属于当前类的相邻点的密度估计的p 1次幕的和与它的所有相邻点密度估计的 p 1次幕的和的比率,其中 P是由选项POWER =指 定的值,缺省是为2。设为是当前观测点,K是当前类的指标,计算比值?p 1fjj Ni Ckik?P 1fjj叫如果这个比值超过 0.5,而且超过THRESHOLD =指定的值,则个观测值归到到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 鱼塘承包合同范本简易4
- 会计经验:无偿划拨土地合作建房的账务处理
- 技术员年终工作总结
- 长江工程职业技术学院《计算机绘图基础》2023-2024学年第二学期期末试卷
- 大连民族大学《3D图形程序设计》2023-2024学年第二学期期末试卷
- 河南财政金融学院《老年社区工作》2023-2024学年第二学期期末试卷
- 公司注册房屋合同范例
- 滇西科技师范学院《教育评价学》2023-2024学年第二学期期末试卷
- 湘西民族职业技术学院《机械制造装备》2023-2024学年第二学期期末试卷
- 新疆艺术学院《渗流力学》2023-2024学年第二学期期末试卷
- TSG ZF001-2006《安全阀安全技术监察规程》
- 2024年卫生专业技术资格考试康复医学治疗技术(初级(师)209)专业知识试题及答案指导
- 13《少年中国说》课件
- 2024版小学英语新课程标准测试题及答案
- 《学前儿童艺术教育活动指导》第7章
- 2025年驾驶证资格考试科目一必刷题库及答案(共300题)
- 南京医科大学科技成果转移转化管理办法-资产管理处
- AQ 1110-2014 煤矿带式输送机用盘式制动装置安全检验规范(正式版)
- 10KV电力工程施工组织设计
- JT-T-905.4-2014出租汽车服务管理信息系统第4部分:数据交换与共享
- QCT1182-2023汽车空调铝合金板式换热器
评论
0/150
提交评论