模式识别第讲精品课件_第1页
模式识别第讲精品课件_第2页
模式识别第讲精品课件_第3页
模式识别第讲精品课件_第4页
模式识别第讲精品课件_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、模式识别第讲第1页,共34页,2022年,5月20日,6点29分,星期四第3次课程概要模式判别PCA特征评价维数比率问题第2页,共34页,2022年,5月20日,6点29分,星期四PCAPrincipal component analysis主元分析 或 主成分分析功能:简化复杂数据到低维空间,从而发现数据中隐藏的简单结构。原始数据源(生数据)通常有冗余,包含噪声PCA的目标:去除冗余,并发现重要特征PCA特征评价维数比率问题第3页,共34页,2022年,5月20日,6点29分,星期四PCA的大致思路认为原始数据X是复杂的(有噪声有冗余),要对X重新表示重新表示后数据的维度即为隐藏于X中的简单

2、结构PCA特征评价维数比率问题第4页,共34页,2022年,5月20日,6点29分,星期四PCA怎么做? 技术路线利用线性代数为工具,用另一组基去重新描述数据空间新的基能够最好地表示原数据X原有的基是什么样的形式呢?Nave basis:目标:找到另一组基,能最好表达数据集,这个新的基是原有基的线性组合PCA特征评价维数比率问题采用该方法就隐含了一个假设:线性。数据限制在一个向量空间里,能被一组基表示第5页,共34页,2022年,5月20日,6点29分,星期四基变换n个样本每个样本m个特征构成mn的矩阵XP是从X到Y的转换矩阵几何上,Y由对X旋转拉伸得到P的行向量构成一组新的基,而Y是在这组基

3、下对X的重新表示PCA特征评价维数比率问题第6页,共34页,2022年,5月20日,6点29分,星期四在线性的假设条件下,要解答要寻求一组变换后的基,也就是P的行向量p1, pm这组基就是X的主元要解答的问题1 我们要将X转换成为的Y是个什么样子?2 对应于Y,如何求解P?PCA特征评价维数比率问题第7页,共34页,2022年,5月20日,6点29分,星期四我们要将X转换成为的Y是个什么样子?回顾一下PCA要解决的问题,数据复杂混乱噪声冗余PCA特征评价维数比率问题第8页,共34页,2022年,5月20日,6点29分,星期四重要特征和噪声的数学描述信噪比要使得信噪比大,信号的方差大,噪声的方差

4、小假设:变化较大的信息认为是信号,变化较小的则是噪声PCA特征评价维数比率问题第9页,共34页,2022年,5月20日,6点29分,星期四冗余的数学描述该变量可以用其它变量表示,因此造成了信息冗余PCA特征评价维数比率问题协方差矩阵可以反映数据的噪声和冗余的程度第10页,共34页,2022年,5月20日,6点29分,星期四PCA的目标及它基于的假设PCA特征评价维数比率问题通过基变换,对协方差矩阵进行优化,即使得变换后的数据集Y,其协方差矩阵为对角阵。线性假设:PCA内部模型是线性的,是基于原始特征的线性变换。(如果原始数据存在非线性属性,则经PCA分析后将不再反映这种非线性属性)方差越大,特

5、征越重要。(有些对整体方差贡献不大的主成分,有可能在样本分类方面起至关重要的作用)冗余用相关性表示。(数据的概率分布需要满足高斯分布或是指数型的概率分布)主元正交,即转换基是一组标准正交基。该假设的作用是方便求解第11页,共34页,2022年,5月20日,6点29分,星期四PCA求解:特征根分解(1)PCA特征评价维数比率问题寻找一组正交基组成的矩阵P,有Y=PX,使得CY是对角阵,则P的行向量,就是数据X的主元向量。D是一个对角阵E是对称阵A的特征根排成的矩阵解题技巧,令PET第12页,共34页,2022年,5月20日,6点29分,星期四PCA求解:特征根分解(2)PCA特征评价维数比率问题

6、第13页,共34页,2022年,5月20日,6点29分,星期四PCA算法的一般求解步骤由以上推导,PCA算法的一般求解步骤如下1 采集数据,形成mn的矩阵,m为特征个数,n为样本数。2 矩阵中的每个元素减去该维的均值,得到X3 求XX的特征根PCA特征评价维数比率问题第14页,共34页,2022年,5月20日,6点29分,星期四将PCA用于降维由PCA线性变换后得到的数据集,可认为是没有冗余的。在此结构下,可以讨论样本中的哪些属性(特征)比较重要。按方差由大到小排序,但丢弃的准则是什么?PCA特征评价维数比率问题方法一:Kaiser准则 丢弃那些低于1的特征值方法二:观察特征值的图,通过斜率检

7、测,即从图中曲线开始变平缓的点开始,丢弃后面的全部特征值。第15页,共34页,2022年,5月20日,6点29分,星期四有关PCA需要注意的一个问题原始数据集里,每个特征是有意义的。比如图像中一个对象的形状、颜色等。但是线性变换后,语义信息丢失了。这对我们解释识别过程带来一定的问题。PCA特征评价维数比率问题第16页,共34页,2022年,5月20日,6点29分,星期四特征评价对于特征分类能力的评价(1)图形考察:盒状图 分布图(2)分布模型评价(3)统计推论检测这些评价方法可为我们观察某些特征集合下的数据分布提供直观的指导信息PCA特征评价维数比率问题第17页,共34页,2022年,5月20

8、日,6点29分,星期四盒状图怎么画(1)回顾:盒状图应用在此的目的是:评价特征用于分类的能力因此,我们用来画盒状图的数据是 样本集中一个维度(特征)的数据绘制步骤:1)将n个数据由小到大排序。(由大到小也可以)2)计算3个四分位数。 a. 中位数(第2个四分位数,Q2) 如果n为奇数,则排序后,第(n+1)/2位是中位数。 如果n为偶数,则排序后,第n/2与第(n+1)/2位数的平均值, 为中位数。 b. 不计Q2,计算前半个数据集的中位数Q1。 c. 不计Q2,计算后半个数据集的中位数Q3。3)3个四分位数、最小值、最大值共5个数字就可以绘制盒状图了。PCA特征评价维数比率问题第18页,共3

9、4页,2022年,5月20日,6点29分,星期四盒状图怎么画(2)PCA特征评价维数比率问题将成绩排序班级某科某次测试成绩如下:第19页,共34页,2022年,5月20日,6点29分,星期四盒状图怎么画(3)PCA特征评价维数比率问题最小值:27最大值:97Q2:第(39+1)/2=20位的值 60Q1:第(19+1)/2=10位的值 45Q3:第(21+39)/2=30位的值 70排序后的成绩第20页,共34页,2022年,5月20日,6点29分,星期四盒状图怎么画(4)PCA特征评价维数比率问题有一半人及格;1/4学生70分以上;1/4学生45分以下;另外,还体现了分数是集中还是分散全距最

10、小值:27最大值:97Q2:60Q1:45Q3:70四分位距第21页,共34页,2022年,5月20日,6点29分,星期四如何用盒状图观察特征的分类能力软木塞数据集,三个类别在两个特征上的盒状图PCA特征评价维数比率问题特征PRT 特征PRTG第22页,共34页,2022年,5月20日,6点29分,星期四分布图数据在特征空间分布上存在大量重叠,会对分类造成困难分布图描绘了数据类别的拓扑结构,可直观获取特征间分布重叠状况PCA特征评价维数比率问题第23页,共34页,2022年,5月20日,6点29分,星期四分布模型评价给定数据集(特征向量的集合),其分布是否与给定的分布模型吻合用适当的分布模型描

11、述数据集,就可以根据已知样本集为分布模型估计参数,确定后的模型可用作分类或聚类。PCA特征评价维数比率问题第24页,共34页,2022年,5月20日,6点29分,星期四Kolmogorov-Smirnov检测K-S检验(1)经验分布函数给定N个由小到大排序的数据X1.XN其中n(i)是小于等于Xi的对象个数PCA特征评价维数比率问题(1,2,2,2,3,3,3,4)第25页,共34页,2022年,5月20日,6点29分,星期四Kolmogorov-Smirnov检测K-S检验(2)PCA特征评价维数比率问题给定一个经验分布函数FX和一个理论累积分布函数FYD=maxD+, D-两个经验分布函数

12、第26页,共34页,2022年,5月20日,6点29分,星期四Kolmogorov-Smirnov检测K-S检验(3)PCA特征评价维数比率问题K-S检验的基本思路就是根据这两根曲线的最大间距判断是否为同一分布给定一个正态分布下产生的100个随机数,下图绘制了这100个随机数的经验分布函数 以及正态累积分布函数第27页,共34页,2022年,5月20日,6点29分,星期四统计推论检测量化特征的分类能力常用的统计推论检验法对于服从正态分布的特征t-student检验 Anova统计检验有时候,在样本有限的情况下,避免对特征的分布模型进行假设Kruskal-Wallis检验 (K-W检验,又称H检

13、验)PCA特征评价维数比率问题第28页,共34页,2022年,5月20日,6点29分,星期四Kruskal-Wallis检验给定有类别标签的一个样本集,检验其中一个特征的分类能力,需要挑出该特征下的数据,形成由n个数据组成的集合X(1)对X由小到大排序,每一个数据对应的序号称作秩次(2)求评价值H ni:第i类的样本数 Ri:第i类中所有样本的秩次和(3)一般认为,具有较高H值的特征有较强分类能力PCA特征评价维数比率问题第29页,共34页,2022年,5月20日,6点29分,星期四Kruskal-Wallis检验一个例子包含3个类别的样本集,取其中一个特征得到数据集如下:类别1:279;33

14、8;334;198;303类别2:229;274;310 类别3:210;285;117PCA特征评价维数比率问题n=11;n1=5;n2=3;n3=3;R1=37;R2=18;R3=11;第30页,共34页,2022年,5月20日,6点29分,星期四Kruskal-Wallis检验软木塞数据的检验结果PCA特征评价维数比率问题第31页,共34页,2022年,5月20日,6点29分,星期四回顾:决策面在一个低维空间里,决策面很复杂,投射到高维空间中,可以找到一个线性的决策面但是在实际应用中,无限制地向高维投射,会存在“维数灾难”问题PCA特征评价维数比率问题第32页,共34页,2022年,5月20日,6点29分,星期四数据不断增加时的两类分布图这三个图想要给我们一个直观的印象:当维数比率较低时,由训练集合学习得到的分类器将会是错误的。维数比率较低对应着数据分布稀疏的状况。PCA特征评价

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论