版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1页,课件共97页,创作于2023年2月第10讲特征的选择与提取(2)第2页,课件共97页,创作于2023年2月本节课主要内容1类别可分离性判据2特征提取3特征选择第3页,课件共97页,创作于2023年2月§3特征选择1最优搜索算法2次优搜索法3可分性判据的递推计算4.特征选择的几种新方法第4页,课件共97页,创作于2023年2月
特征选择的任务是从一组数量为D的特征中选择出数量为d(D>d)的一组最优特征来.
利用穷举法总可以找出最优的特征集,但计算量太大.从D个特征中选取d个,共
种组合。如:若D=20,d=10,则从D个特征中选取d个特征的组合数q=184756,对每一种组合需要计算判据值J(x)最优特征的选择,要解决两个问题:选择的标准,这可以用类可分离性判据.确定一个较好的算法,以便找出最优的特征集.第5页,课件共97页,创作于2023年2月本节主要讨论第二个问题,简单介绍几种优化算法.自下而上法
特征数从0逐步增加到d用优化算法进行特征选择的两种策略:自上而下法
从特征数从D开始逐步减少到d第6页,课件共97页,创作于2023年2月1.最优搜索算法到目前为止唯一能获得最优结果的搜索方法是“分支定界”算法,它是一种“自上而下”的方法,但具有回溯功能,可使所有可能的特征组合都被考虑到。由于合理的组织搜索过程,使得有可能避免计算某些特征组合而不影响结果为最优。整个搜索过程可用树来表示树的根结点表示原始特征集,其他结点表示从其父结点所代表的特征子集中去掉某一特征后所得到的特征子集,结点上的标号是去掉的特征的编号.第7页,课件共97页,创作于2023年2月分支定界法的搜索树示意图(D=6,d=2)X根结点:原始特征集结点标号:去掉的特征3564566542534666545566665345544321每一结点表示去掉若干特征后得到的子集.从左到右同一级结点对应的特征子集的类可分性判据值递增.说明第8页,课件共97页,创作于2023年2月分支定界法之所以有效,这主要是利用了可分离性判据的单调性,即对有包含关系的特征组Ak,k=1,2,……,I,即有:可分性判据满足:第9页,课件共97页,创作于2023年2月2.次优搜索法最优搜索法在有些情况下计算量太大而难以实现,这时不得不放弃最优解而采取计算量较小的次优搜索方法。下面我们介绍一些不同的算法,面对实际问题时可灵活选择。(1)单独最优特征组合最简单的方法是计算各特征单独使用时的判据值并加以排队,取前d个作为选择结果。但我们需要注意的是,即使各特征是统计独立的,这一结果也不一定就是最优结果。只有当可分性判据J可写为如下两种形式时,这种方法才能选出一组最优的特征来:第10页,课件共97页,创作于2023年2月(2)顺序前进法(SFS)这是最简单的“自下而上”的搜索方法。每次从未入选的特征中选择一个特征,使得它与已入选的特征组合在一起时所得判据J值为最大,直到特征数增加到d为止第11页,课件共97页,创作于2023年2月(3)顺序后退法(SBS)它与顺序前进法的思路刚好相反。这是一种“自上而下”的方法,从全体特征开始每次剔除一个,所剔除的特征应使仍然保留的特征组的判据J值最大,直到特征数减少到d为止。和顺序前进法比较,该方法用两个特点:一是在计算过程中可以估计每去掉一个特征所造成可分性的降低;二是由于它的计算是在高维空间中进行的,所以计算量比较大。第12页,课件共97页,创作于2023年2月比方说,在第k步可先用SFS法一个个加入特征到k+l个,然后再用SBS法一个个剔去r个特征,我们把这样一种算法叫增l减r法(l–r法)(4)增l减r法(l–r法)这种方法是基于前两种算法的特点提出的.为了避免前面方法的一旦被选入(或剔除)就不能再剔除(或选入)的缺点可在选择过程中加入局部回溯过程。第13页,课件共97页,创作于2023年2月3.可分性判据的递推计算所有上述搜索算法都有一个共同点,即第k
步特征组是在第k–1步特征组上加入或剔除某些特征来构成的,因此我们可以分析一下,是否有可能从k–1步的判据值J(k-1)推算出J(k),而不必完全重新计算.事实上,对于有些情况,对于这些判据递推关系是存在的,即求J(k)时可在J(k-1)的基础上把新加入(或剔除)特征的影响加进去即可,不必从头算起,这样就大大简化了计算工作.第14页,课件共97页,创作于2023年2月我们注意到在进行特征选择时需要以可分性判据来度量特征选择的好坏.特征选择是一个组合优化问题,因此可以使用解决优化问题的方法来解决特征选择问题.优化问题是很多研究人员关注的一个热点问题,近年来出现了一些有特色的解决方法,如:1)模拟退火算法2)遗传算法3)Tabu搜索算法4.特征选择的几种新方法第15页,课件共97页,创作于2023年2月来源于统计力学。材料粒子从高温开始,非常缓慢地降温(退火),粒子就可在每个温度下达到热平衡。假设材料在状态i的能量为
E(i),那么材料在温度
T时从状态i进入状态j遵循如下规律1)模拟退火算法如果
E(j)≤E(i),接受该状态被转换。如果
E(j)>E(i),则状态转换以如下概率被接受:第16页,课件共97页,创作于2023年2月1)模拟退火算法模拟退火优化法:f
:x→R+,其中x∈S,表示优化问题的一个可行解。N(x)≤S
表示x的一个邻域集合。第17页,课件共97页,创作于2023年2月首先给定初始温度T0和初始解
x(0),以概率P生成下一个新解x’1)模拟退火算法对于温度Ti和该优化问题的解x(k),可以生成新解x’经过多次转换,降低温度得到
T
i+1<
Ti。在Ti+1下重复上述过程,最终的解是对该问题寻优的结果。第18页,课件共97页,创作于2023年2月1)模拟退火算法:步骤Step1:
令i=0,k=0,给出初始温度T0和初始特征组合x(0)。Step2:
在x(k)的邻域N(x(k))中选择一个状态x’,即新特征组合。计算其可分性判据J(x’),并按概率P接受x(k+1)=x’。Step3:
如果在Ti下还未达到平衡,则转到Step2。Step4:
如果Ti已经足够低,则结束,当时的特征组合即为算法的结果。否则继续。Step5:
根据温度下降方法计算新的温度Ti+1。转到Step2。第19页,课件共97页,创作于2023年2月第20页,课件共97页,创作于2023年2月该算法受进化论启迪,根据“物竞天择,适者生存”这一规则演变.2)遗传算法基因链码:使用遗传算法时要把问题的每个解编码成一个基因链码。比如要从D个特征中挑选d个,就用一个D位的0或1组成的字符串表示一种特征组合。1表示该特征被选中,每个基因链码代表一个解,称作一个“个体”,其中的每一位看作一个“基因”群体:若干个体的集合,也就是一些解的集合第21页,课件共97页,创作于2023年2月交叉:选择群体中的两个个体,以这两个个体为双亲作基因链码的交叉,从而产生两个新的个体,作为后代。2)遗传算法变异:对某个体,随机选取其中一位,将其翻转适应度:对每个解,以给定的优化准则来评价其性能的优劣,作为其适应度,即函数fi的值,个体xi越好,fi越大。新一代群体对环境的平均适应度比父代高第22页,课件共97页,创作于2023年2月Step1:令进化代数t=0。Step2:给出初始化群体P(t),令xg为任一个体。Step3:对P(t)中每个个体估值,并将群体中最优解x’
与xg比较,如果x’的性能优于xg,则xg=x’Step4:如果终止条件满足,则算法结束,xg为算法的结果。否则继续。Step5:从P(t)中选择个体并进行交叉和变异操作,得到新一代群体P(t+1)。令t=t+1,转到Step3。2)遗传算法:步骤第23页,课件共97页,创作于2023年2月关于遗传算法的说明:由步骤3保证了最终解是所搜索过的最优解常用的终止条件是群体的世代数超过一个给定值,或连续数个世代都没有得到更优解群体的大小和演化代数是值得重视的参数。在一定范围内,这两个参数大些能得到更好的解对交叉的亲本选择可采用如下规则:个体的性能越好,被选中的可能性也越大第24页,课件共97页,创作于2023年2月第25页,课件共97页,创作于2023年2月3)Tabu搜索算法自学…第26页,课件共97页,创作于2023年2月本节课结束谢谢大家!第27页,课件共97页,创作于2023年2月经过有限次转换,在温度Ti下的平衡态xi的分布为1)模拟退火算法当温度T降为0时,xi的分布为第28页,课件共97页,创作于2023年2月模式识别
授课教师薛耀红xueyh@第29页,课件共97页,创作于2023年2月第9讲特征的选择与提取(1)第30页,课件共97页,创作于2023年2月本节课主要内容1类别可分离性判据2特征提取3特征选择第31页,课件共97页,创作于2023年2月
特征提取与选择的基本任务是研究如何从众多特征中求出那些对分类识别最有效的特征,从而实现特征空间维数的压缩,即获取一组“少而精”且分类错误概率小的分类待征.
可以把特征分为三类1物理的;2结构的:易于为人的直觉感知,但有时难于定量描述,因而不易用于机器判别3数学的:易于用机器定量描述和判别,如基于统计的特征第32页,课件共97页,创作于2023年2月x1x2x3..xd对象模式的特征的有效性直接影响分类器的设计和性能.由信息获取部分获得的原始数据量一般是相当大的.为了有效地实现分类识别,要对原始数据进行选择或变换,得到最能反应分类本质的待征,构成特征向量.这就是特征抽取与选择的过程.传感器y1y2y3..ym学习.训练选择.提取分类器第33页,课件共97页,创作于2023年2月特征选择:从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的,这个过程叫特征选择。特征提取:在原始特征的维数很高的情况下,通过映射(或变换)的方法用低维空间来表示样本,这个过程叫特征提取,映射后的特征称作二次特征。
特征形成:
根据被识别的对象产生出一组基本特征(也可称为原始特征),它可以是计算出来的,也可以是用仪表或传感器测量出来的,称作原始特征。第34页,课件共97页,创作于2023年2月
有时特征提取和选择并不是截然分开的。例如,可以先将原始特征空间映射到维数较低的空间,在这个空间中再进行选择以进一步降低维数;也可以先经过选择去掉那些明显没有分类信息的特征,再进行映射以降低维数。本讲讨论特征的选择与提取方法.特征提取特征选择第35页,课件共97页,创作于2023年2月细胞自动识别:原始测量:(正常与异常)细胞的数字图像原始特征(特征的形成,找到一组代表细胞性质的特征):细胞面积,胞核面积,形状系数,光密度,核内纹理,核浆比压缩特征:原始特征的维数仍很高,需压缩以便于分类(2种方式)1.特征提取:用映射(或称变换)的方法把原始特征变换为较少的新特征2.特征选择:从原始特征中去挑选出一些最有代表性的特征特征的选择与提取举例1第36页,课件共97页,创作于2023年2月特征的选择与提取举例2特征提取和选择:对单个鱼的信息进行特征选择,从而通过测量某些特征来减少信息量长度亮度宽度鱼翅的数量和形状嘴的位置,等等…分类决策:把特征送入决策分类器第37页,课件共97页,创作于2023年2月特征的选择与提取举例第38页,课件共97页,创作于2023年2月特征的选择与提取举例第39页,课件共97页,创作于2023年2月特征的选择与提取举例第40页,课件共97页,创作于2023年2月特征的选择与提取举例第41页,课件共97页,创作于2023年2月§1类别可分离性判据1.准则函数-判据2.基于类间距离的可分性判据3.基于概率分布的可分性判据4.基于熵函数的可分性判据第42页,课件共97页,创作于2023年2月1.准则函数特征选择与提取的任务:求出一组对分类最有效的特征。类别可分离性判据:衡量不同特征及其组合对分类是否有效的定量准则理想准则:某组特征使分类器错误概率最小常用类别可分离性判据:基于距离、概率分布、熵函数第43页,课件共97页,创作于2023年2月类别可分离性判据
我们可以依据某种准则进行特征提取和选择,为此,应当首先构造这样的准则——类别可分离性判据。这些判据应能反映各类在特征空间中的分布情况,应能刻画各特征分量在分类识别中的重要性或贡献。1类别可分离性判据满足的要求(1)与错误概率(或其的上下界)有单调关系;(2)当特征独立时有可加性第44页,课件共97页,创作于2023年2月(3)具有“距离”的某些特性,即(4)对特征数目是单调不减,即加入新的特征后,判据值不减。
这里指出,所构造的可分离性判据并不一定同时具有上述的四个性质,但这并不影响它在实际使用中的性质。下面对几种常用的判据进行讨论。第45页,课件共97页,创作于2023年2月2.类内类间距离各类样本可以分开是因为它们位于特征空间的不同区域,显然这些区域之间距离越大,类别可分性就越大。如何表示两个类之间的距离?第46页,课件共97页,创作于2023年2月2.类内类间距离点到点的距离点到点集的均方欧式距离类内均值向量样本总均值向量各类均值向量Pi
先验概率第47页,课件共97页,创作于2023年2月2.类内类间距离类内均方欧式距离类内离差矩阵类内离差矩阵SWi的迹等于类内均方欧式距离两类之间的均方距离第48页,课件共97页,创作于2023年2月C类特征向量之间的平均距离为:2.类内类间距离(8-5)类内平均距离类间距离(8-6)(8-1)第49页,课件共97页,创作于2023年2月2.类内类间距离基于距离的准则概念直观,计算方便,但与错误率没有直接联系样本类间
离散度矩阵样本类内
离散度矩阵类间可分离性判据第50页,课件共97页,创作于2023年2月1)基于类内类间距离的可分离性判据是一种常用的判据,它实际上是各类向量之间的平均距离。2)具体而言,即J(x)表示各类特征向量之间的平均距离,我们通常认为J(x)越大,可分离性越好。
3)这种判据优点是计算简单;缺点是当类间距离较小,类内距离较大时,判据仍有可能取得较大的值,而此时的可分离性并不大。2.类内类间距离第51页,课件共97页,创作于2023年2月3.基于概率分布的可分性判据上面介绍的距离准则是直接从各类样本间的距离算出的,没有考虑各类的概率分布,不能确切表明各类交叠的情况,因此与错误概率没有直接联系,下面提出一些基于概率分布的可分性判据.两个分布密度函数之间的距离
任何函数J,如果满足下述条件,都可用来作为类分离性的概率距离度量。1)J具有非负性2)当两类完全不交叠时,J取最大值3)当两类分布密度相同时,J应为0第52页,课件共97页,创作于2023年2月如图所示,图1表示两类为完全可分的情况,而图2则表示两类完全不可分的。P(x∣ω1)=P(x∣ω2)图2图1P(x∣ω1)P(x∣ω2)=0第53页,课件共97页,创作于2023年2月(1)Bhattacharyya距离注:s是在[0,1]区间取值的一个参数,当s=0.5时,上述二者相等(2)Chernoff距离第54页,课件共97页,创作于2023年2月定义散度等于各类平均可分信息之和:(3)散度对数似然比提供ω1类对ω2类的可分性信息ω1类对ω2类的平均可分性信息为第55页,课件共97页,创作于2023年2月4.基于熵函数的可分性判据
最佳分类器由后验概率确定,所以可由特征的后验概率分布来衡量它对分类的有效性。两种特殊情形下最佳分类器的错误率:1)
各类后验概率是相等错误率错误率可见后验概率越集中,错误概率就越小.后验概率分布越平缓(接近均匀分布),则分类错误概率就越大.第56页,课件共97页,创作于2023年2月
设ω为可能取值为ωi,(i=1,2,…,c)的一个随机变量,
它的取值依赖于分布密度为p(x)的随机向量x(特征向量),即给定x后ω的概率为p(ω/x).
为了衡量后验概率分布的集中程度,需要规定一个定量准则.我们可以借助于信息论中关于熵的概念.
我们想知道的是:给定某一x后,我们从观察得到的结
果中得到了多少信息?或者说ω的不确定性减少了多少?
从特征提取的角度看,显然用具有最小不确定性的那些特征进行分类是有利的。在信息论中用“熵”作为不确定性的度量.4.基于熵函数的可分性判据第57页,课件共97页,创作于2023年2月ωiωjωi
ωj
重叠程度越大熵函数值越大4.基于熵函数的可分性判据第58页,课件共97页,创作于2023年2月1)广义熵α为大于1的正数2)Shannon熵4.基于熵函数的可分性判据第59页,课件共97页,创作于2023年2月3)平方熵为了对所提取的特征进行评价,我们要计算空间每一点的熵函数.在熵函数取值较大的那一部分空间,不同类的样本必然在较大的程度上互相重叠.可以表征类别的分离程度,它可用来作为所提取特征的分类性能的准则函数.因此熵函数的期望值4.基于熵函数的可分性判据第60页,课件共97页,创作于2023年2月§2特征提取1按欧氏距离度量的特征提取方法2基于判别熵最小化的特征提取3两维显示第61页,课件共97页,创作于2023年2月y1y2y3yDox1x2xdo特征提取D>dY空间
D维原始特征集Y空间
d维新特征集变换确定变换的依据:类别可分性判据目标:
在新的特征空间中,各类之间容易区分.§2特征提取第62页,课件共97页,创作于2023年2月
根据前面提到的类别可分离性判据。我们可以依据这些判据进行特征的提取。
设原特征向量,对作线性变换,产生d维向量,,即
矩阵称为特征提取矩阵或变换矩阵,称为二次特征。第63页,课件共97页,创作于2023年2月①s阶Minkowski度量多维空间中两个向量之间有多种距离度量②欧氏距离在Minkowski度量中,令s=2,得到常用的欧氏距离:1.按欧氏距离度量的特征提取方法第64页,课件共97页,创作于2023年2月③Chebychev距离:棋盘距离④Mahalanobis距离:式中Q是给定的正定标尺矩阵第65页,课件共97页,创作于2023年2月在实际应用中,在计算的复杂性方面,在是否便于进行解析分析以及用它进行特征提取的效果方面都各不相同。由于欧氏距离在很多情况下便于分析和计算.前面已经推导出了基于欧氏距离的一种度量函数,其中Sb为类间离散度矩阵,Sw为类内离散度矩阵.同样的,我们还可以提出下面各种判据:第66页,课件共97页,创作于2023年2月以J2为例,特征提取的步骤如下①
作线性映射:其中Y为D维原始特征向量;X为d维压缩后的特征向量②
令其中Sw,Sb为原空间(即Y的)离散度矩阵,S*w,S*b为映射后(即X的)离散度矩阵。第67页,课件共97页,创作于2023年2月③J2的表达式为:④求变换矩阵W,使
J2(W)最大将上式对W的各分量求偏导数并令其为零,可以确定一个W,从而得到使判据达最大的变换W⑤新特征集为其中Y为原始特征集(D维),X为新特征集(d维)第68页,课件共97页,创作于2023年2月注:W的计算(适用于J2—J5判据):则选前d个特征值对应的特征向量作为W,即:
W=[u1,u2,……,ud
]此时第69页,课件共97页,创作于2023年2月2.基于判别熵最小化的特征提取上节中讨论了用熵作为不确定性的一种度量的表达式,这里我们引入判别熵W(p,q)来表征两类分布p(xi)和q(xj)差别大小,令:对于特征提取来说,我们应该求得一组特征,它使上述判别熵最小。第70页,课件共97页,创作于2023年2月计算步骤如下:①A=G1-G2,G1,G2分别是第一类样本集和第二类样本集的协方差矩阵Y为所要求的一组特征,它使得判别熵最小③新特征集为②将矩阵A的特征值进行排序选取前d个特征值对应的特征向量构成变换矩阵W=[U1,U2,……,Ud]第71页,课件共97页,创作于2023年2月3.两维显示
人的经验和直观对分类有很大作用,如果能将各样本在特征空间的分布情况显示出来,我们可以直接观察哪些样本聚集在一起,因而可能属于一类。最好能把原来的高维特征空间映射到二维平面上显示出来,这一映射要尽可能的保持原来样本的分布情况,或者尽量使各样本间相互距离关系保持不变.
上述所讨论的各种变换方法有利于我们解决这样一种两维显示的任务.第72页,课件共97页,创作于2023年2月①线性映射两维显示只不过是前面所涉及的各种映射(线性)的一种特殊情况,即d=2②非线性映射对一些比较复杂的样本,线性映射常不能满足上面所提的保持分布不变的要求,可以用非线性映射替代第73页,课件共97页,创作于2023年2月设映射前两点间距离为D,映射后该两点间距离为D*.希望映射后D*尽可能等于D.令e=D–D*为任意两点映射前后距离之差,我们要选择映射函数f使e的函数值达最小.由于非线性映射比较复杂,一般情况下是用迭代算法。即选一个x的初值,再逐步调整(每次调整的方向应使误差减小),直到满足一个停止准则(例如,误差小于给定值,迭代次数超过预定次数,或显示结果已满足观察者要求为止).第74页,课件共97页,创作于2023年2月本节课结束谢谢大家!第75页,课件共97页,创作于2023年2月1设有两类三维样本,都服从正态分布,且样本均值和协方差矩阵分别为:1).计算其类可分性散度判据JD的值2).利用基于类内类间距离的判据
进行最优特征提取。第76页,课件共97页,创作于2023年2月2设样本均值为(1,2),样本的协方差矩阵和相关矩阵分别为:计算分别用Σ和R计算得到的主成分,并说明其差异。第77页,课件共97页,创作于2023年2月4.基于主成分变换的特征提取方法在实际问题中,研究多变量问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性。由于指标较多,再加上指标之间有一定的相关性,势必增加了分析问题的复杂性.主成分分析就是设法将原来指标重新组合成一组新的相互无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数相互无关的综合指标的统计方法叫做主成分分析(PrincipalComponentAnalysis).第78页,课件共97页,创作于2023年2月某人要做一件上衣要测量很多尺寸,如身长、袖长等十几项指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多,而是从多种指标中综合成几个少数的综合指标,作为分类的型号,如下图:4基于主成分变换的特征提取方法第79页,课件共97页,创作于2023年2月4基于主成分变换的特征提取方法主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列互不相关的新信息,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能.当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量.省份GDPX1居民消费水平X2固定资产投资X3职工平均工资X4货物周转量X5居民消费价格指数X6商品零售价格指数X7工业总产值X8第80页,课件共97页,创作于2023年2月如图,设二维样本集呈现扁椭圆分布.x1x2u将二维样本Xi向长轴方向投影,可得到一维样本Yi设u为长轴方向的单位向量,则有XiYi一般如何求“最好”的方向u?4基于主成分变换的特征提取方法第81页,课件共97页,创作于2023年2月(1)数学模型设X1,X2,…,Xp为某实际问题所涉及的p个随机变量.记X=(X1,X2,…,Xp)T,其协方差矩阵为设li=(l1i,l2i,…,lpi)T(i=1,2,…,p)为p个常数向量,考虑如下线性组合:第82页,课件共97页,创作于2023年2月我们希望用Y1代替原来p个变量,这就要求Y1尽可能的反映原p个变量的信息,即Var(Y1)越大.为此,我们对li做如下限制,否则Var(Y1)无界,即:因此,我们希望在约束条件l1Tl1=1
之下,求l1使达到最大,由此l1所确定的随机变量Y1=l1TX
称为X1,X2,…,Xp的第一主成分.第83页,课件共97页,创作于2023年2月如果第一主成分Y1还不足以反映原变量的信息,考虑采用Y2.但要求Y1与Y2不相关,即于是,在约束条件及之下,求l2
使Var(Y2)达到最大,由此l2所确定的随机变量Y2=l2TX称为X1,X2,…,Xp的第二主成分.一般,在约束条件及(k=1,2,…,i-1)之下,求li
使Var(Yi)达到最大,由此li所确定的随机变量Yi=liTX称为X1,X2,…,Xp的第i个主成分.第84页,课件共97页,创作于2023年2月并且有:定理1
设∑是X=(X1,X2,…,Xp)T的协方差矩阵,∑的特征值及其相应的正交单位特征向量分别为及e1,e2,…,ep,则X的第i个主成分为第85页,课件共97页,创作于2023年2月下面进一步讨论X1,X2,…,Xp的方差与各主成分的方差之间的关系,以确定各主成分所包含的信息占总信息的份额.易证下面结果:定理2设Yi=eiTX(i=1,2,…,p)为X的p各主成分,则:当时,达到最大值第86页,课件共97页,创作于2023年2月定义第k个主成分Yk的贡献率为:前m个主成分Y1,Y2,…,Ym的累计贡献率为:在实际应用中,通常选取m<p,使前m个累计贡献率达到一定的比例(80%~90%).这样用前m
个主成分代替原来的变量X1,X2,…,Xp而不至于损失太多的信息,从而到达减少变量个数的目的.第87页,课件共97页,创作于2023年2月在实际问题中,一般∑(或ρ)是未知的,需要通过样本来估计.设其中(2)主成分的计算方法第88页,课件共97页,创作于2023年2月分别以S和R作为∑和ρ的估计,按前面所述的方法求得的主成分称为样本主成分.具体有如下结论:其中x=(x1,x2,…,xp)T为X的任一观测值.当依次代入X的n个观测值xk=(x1k,x2k,…,xpk)T
时,便得到第i个样本主成分yi的n个观测值yik(k=1,2,…,n).设S=(sij)p×p是样本协方差矩阵,其特征值为
,相应的正交单位化特征向量为
,则第i个样本主成分为:第89页,课件共97页,创作于2023年2月这时
第i个样本主成分的贡献率为:
前m个样本主成分的累计贡献率为:第90页,课件共97页,创作于2023年2月为了消除量纲的影响,我们可以对样本进行标准化,即令则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵R.由R出发所求得的样本主成分称为标准化样本主成分.只要求出R的特征值及相应的正交单位化特征向量,类似上述结果可求得标准化样本主成分.这时标准化样本的样本总方差为p.第91页,课件共97页,创作于2023年2月3)主成分解释从代数观点看主成分就是p个变量X1,X2,…,Xp的一些特殊的线性组合.在几何上这些线性组合正是把X1,X2,…,Xp构成的坐标系旋转产生新坐标系,新坐标系轴使之通过样本变差最大的方向(或说具有最大的样本方差).以最简单的二元正态变量来说明主成分的几何意义.设有n个样本,每个样本有p个变量记为X1,X2,…,Xp,它们的综合变量记为Y1,Y2,…,Yp.当p=2时,原变量是X1,X2,设X=(X1,X2)’~N2(μ
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025蔬菜买卖合同范文
- 2024年度天津市公共营养师之三级营养师通关题库(附答案)
- 2024年度天津市公共营养师之二级营养师练习题及答案
- 河北成立腌酱菜生产加工公司可行性分析报告
- 2024年度四川省公共营养师之三级营养师能力测试试卷B卷附答案
- 建筑再生利用可行性报告
- 2025现代挖机个人买卖合同
- 2025年电焊机电缆项目可行性研究报告
- 2025正规商品买卖合同(版)
- 甲状腺检测系统行业市场发展及发展趋势与投资战略研究报告
- 楚雄师范学院-18级-葡萄酒专业-葡萄酒工艺学复习题及答案
- 高速公路机电工程标准化施工管理质量控制
- 助产士的述职报告
- 医保缴费问题排查整改报告
- 2024年黑龙江高中学业水平合格性考试数学试卷试题(含答案详解)
- 2024年度医院财务部述职报告课件
- 浙江省杭州市余杭区2023-2024学年五年级上学期1月期末道德与法治试题
- 工程管理培训教案
- agv无人运输车维修保养合同
- 2023-2024学年二年级数学上册期末乐考非纸笔测试题(一)苏教版
- 学生信息技术应用实践
评论
0/150
提交评论