免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
改进主成分分柝(PCA)鲁棒性的算法比较 叶明喜,黄钰,蒋昊 (兰州商学院,甘肃兰州730101) 摘要:与传统的PCA算法相比较,基于分布特征算法的主成分分析,由于量测的不精确使特性或参数的实际值会偏离它标称值,另一个是受环境因素影响而引起特性或参数的缓慢漂移,这样得到的分析结果在很大程度上受到异常值的干扰.本文通过对比几种算法,提出改善主成分分析(PCA)算法鲁棒性的一种实现途径,去除或者减少异常点影响,以提高PCA的精度. 关键词:主成分分析;pca鲁棒性;标称值;异常点;马氏距离 :TP391:A:1673-260X(xx)07-0017-03 1PCA的原理和鲁棒性 传统PCA算法是一种基于空间坐标的降维技术,将高维数据按照线性投影的方式投影到低维空间,在保留过程变量间关系结构的同时,去除了噪声以及变量之间的相关性,但传统主成分基于特征值分解的PCA方法存在严重鲁棒性问题,这大大影响了PCA的运算精度.如PCA算法给出ai在随机向量x的第i主方向,根据尽可能地靠近原始数据x,则所有的ai都应该调整大道MSE,则有下列公式: 协方差矩阵: 矩阵A为构造的正交阵,传统PCA算法是对随机向量x的协方差阵进行特征值分解来获得x的协方差矩阵var(F),其为一对角矩阵,而对角元素恰好是原始数据集相关矩阵的特征值.其中样本数据集协方差阵的估计值: 但现在从主成分分析数学模型需要满足的条件出发(Fi,Fj互不相关),为了改善PCA算法精度,对PCA鲁棒性改善需要从两个角度出发:一是如何能够达到输出的各主成分之间互不相关,上面的PCA算法获得的各主成分互不相关当且仅当输入x服从零均值、协方差为n维高斯分布,当不服从此条件下高斯分布,相关文献提出了独立成分分析(ICA)来解决此问题1. 另外,传统PCA算法基于协方差阵的二阶方面考虑,因此得到的主成分只能做到互不相关,而不能做到相互独立.为提高PCA算法的鲁棒性,必须去除或者减少异常点样本污染对算法的影响.异常点的产生原因是多方面的,例如突发的随机噪声,测量或者记录的偶尔出错等等.很自然地要考虑如何找出样本集中的异常点样本,在求解协方差矩阵时将其排除在外.因此首先需要确定异常点样本的判据,下文的三种算法判别异常点样本将作比较介绍. 算法二:是开始设定一个可能的参考异常值,初始化时将第一个点和第二点之间的马氏距离作为标称值,将所有点计算出到均值点的马氏距离,计算出样本点中大于参考标称值点所占的比例,如果大于参考标称值的比例比初设异常值在样本数据中比例大,则需要将标称值减少一个比例系数,最终使得在一个事先设置的的精度范围内.则让程序对较大数据点进行排序,剔除较大的数据点之后,同时重新计算协方差阵和新的样本容量,使得留下的点都是非离群点,如果剔除的比例和自设的初识异常值比例近似相等,则中止该过程.然而,经过模拟之后发现算法二比算法一改进很多,但仍不理想,表现出算法对于异常值样本比较敏感. 算法三:是引入参数作为统计距离的测度,而该参数取自相关系数Rij,它度量变量之间的线性相关性.这样通过对原始数据的标准化处理后,相关系数阵的变换使得在不同维度之间变量大小具有了可比性,经过这样一个过程处理,最终还原为原始的变量.算法三比起算法二在鲁棒性上有改进. 2改进鲁棒性PCA算法 2.1判别异常点样本的理论基础 基于误差最小准则是判别异常点样本的理论基础,在剔除异常点样本中应用较为广泛.故令e=x-u为误差,定义误差平和函数的估计表达式: 2.2鲁棒PCA算法描述 期初给出W的估计值就是因为实际很难做到精确,以估计值来剔除异常点,从而达到精确W估计值,再剔除异常点,这样循环下去. 根据上面得到的PCA变换矩阵,利用式(3)计算原始样本集E中每个样本xi在本步k的误差,迭代步数k+1,设样本集中异常点样本数L(k+1)=L(k)+1,也就是从样本集中删除上一步重构误差最大的L(k+1)个样本,并由剩下的样本构成新的待处理样本集;判断w(k+1)是否满足收敛条件,若满足则迭代结束,否则转第2步.使得所有的样本点马氏距离都在给定的标称值?着范围内,并且无论怎样循环下去,现有的样本点不再被剔除,则中止循环. 3仿真实验和结果分析 3.1仿真实验 传统PCA算法和修正后的鲁棒PCA算法,对不含异常点和包含异常点的样本集进行主成分分析.在这里考虑输入为2维样本,提取其最大主成分,即n=2,m=1.随机均匀产生500个含有异常点的二维样本集,记为样本集x(如下图所示);传统的PCA算法对样本集x分别进行统计主成分分析,得到的主方向为Fx=0.9020,0.4317T.可以看出传统PCA对于无异常点的样本集计算精度还是很高的,Fx基本等于实际主方向.但是鲁棒性很差,只要样本集中存在少量的异常点样本,主方向计算结果误差非常大. 以下三个算法基于R软件绘制如下,具体为算法一:是在我们会发现,如果d太小,变换后的信息有所失,如果d太大,变换后的数据收到异常点改变其稳定的与坐标轴平行垂直椭圆形状.旋转角度后在57范围内较为稳定(如图1). 算法二:取异常值的比例为0.10.9变化后绘制其主成分变换后的图像,发现不是一个与坐标轴垂直平行的椭球体,因为使用的是数据集的协方差阵,没有采用相关系数阵(如图2). 算法三:剔除了较多的异常点数据点后,使得数据具有较强的鲁棒性,具备改善PCA算法鲁棒性和高效的数据压缩特性,使得算法三在与以上两种算法上比较上,采取相关系数构造标称值,较为理想(如图3). 3.2结论分析 理想的PCA算法,应先计算相关系数矩阵,而不是协方差阵进行统计距离度量.单从数据的鲁棒性角度出发,可以采用相关系数矩阵进行统计距离度量作PCA,然而考虑到数据点异常点的去除,采用算法三的算法可以对原始数据的特征进行高效的转换,且PCA鲁棒性也比其他两种算法较好,另外该算法对于初始的异常点比例的预测也无联系.但PCA鲁棒性改善不仅仅是单纯从剔除数据异常点一种方式而得到改善,本文仅从算法上比较得出改善之举,难免有不妥之处. 参考文献: (1)ComonP.Independentponentanalysis,anewconcept?.SignalProcessing,1994,36(3):287-314.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024的广东省室内环境质量保证合同C款(家具购买)
- 2024建筑合同法全文
- 钢结构施工承包合同范本
- 2024个人住房装修合同书协议
- 收藏品赠送合同范本
- 面包店转让协议书模板
- 建筑工程监理服务合同
- 建筑设备出租合同范本
- 普通合伙人合同协议书范文
- 证券交易云平台运营协议
- 期刊编辑的学术期刊内容审核标准考核试卷
- DB42∕T 2241-2024 鱼腥草生产技术规程
- 第二单元 成长的时空(单元教学设计)-【大单元教学】2024-2025学年六年级道德与法治全一册同步备课系列(统编版2024·五四学制)
- 2024至2030年中国内燃机制造行业发展形势及未来趋势展望研究报告
- 尿素中含氮量的测定
- 生态环境执法大练兵比武竞赛理论备赛试题库(浓缩500题)
- 普法课件:统计法培训
- 《我和鸟类做朋友》(教学设计)-2023-2024学年五年级上册综合实践活动粤教版
- DL∕T 516-2017 电力调度自动化运行管理规程
- 关于合同违约扣款的函件
- NB-T33004-2013电动汽车充换电设施工程施工和竣工验收规范
评论
0/150
提交评论