




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主成分分析法 什么事主成分分析法 什么事主成分分析法 主成分分析 主成分分析 principalprincipal componentscomponents analysisanalysis PCAPCA 又称 主分主分 量分析 主成分回归分析法量分析 主成分回归分析法 主成分分析也称主分量分析主分量分析 旨在利用降维的思想 把多指标转化 为少数几个综合指标 在统计学中 主成分分析 principal components analysis PCA 是一种简化数据集的技术 它是一个线性变换 这 个变换把数据变换到一个新的坐标系统中 使得任何数据投影的第 一大方差在第一个坐标 称为第一主成分 上 第二大方差在第二个 坐标 第二主成分 上 依次类推 主成分分析经常用减少数据集的 维数 同时保持数据集的对方差贡献最大的特征 这是通过保留低 阶主成分 忽略高阶主成分做到的 这样低阶成分往往能够保留住 数据的最重要方面 但是 这也不是一定的 要视具体应用而定 主成分分析的基本思想 在实证问题研究中 为了全面 系统地分析问题 我们必须考虑众 多影响因素 这些涉及的因素一般称为指标 在多元统计分析中也 称为变量 因为每个变量都在不同程度上反映了所研究问题的某些 信息 并且指标之间彼此有一定的相关性 因而所得的统计数据反 映的信息在一定程度上有重叠 在用统计方法研究多变量问题时 变量太多会增加计算量和增加分析问题的复杂性 人们希望在进行 定量分析的过程中 涉及的变量较少 得到的信息量较多 主成分 分析正是适应这一要求产生的 是解决这类题的理想工具 同样 在科普效果评估的过程中也存在着这样的问题 科普效 果是很难具体量化的 在实际评估工作中 我们常常会选用几个有 代表性的综合指标 采用打分的方法来进行评估 故综合指标的选 取是个重点和难点 如上所述 主成分分析法正是解决这一问题的 理想工具 因为评估所涉及的众多变量之间既然有一定的相关性 就必然存在着起支配作用的因素 根据这一点 通过对原始变量相 关矩阵内部结构 的关系研究 找出影响科普效果某一要素的几个综 合指标 使综合指标为原来变量的线性拟合 这样 综合指标不仅 保留了原始变量的主要信息 且彼此间不相关 又比原始变量具有 某些更优越的性质 就使我们在研究复杂的科普效果评估问题时 容易抓住主要矛盾 上述想法可进一步概述为 设某科普效果评估 要素涉及个指标 这指标构成的维随机向量为 对作正交变换 令 其中为正交阵的各分量是不相关的 使得的各分量在某个评估要素 中的作用容易解释 这就使得我们有可能从主分量中选择主要成分 削除对这一要素影响微弱的部分 通过对主分量的重点分析 达到 对原始变量进行分析的目的 各分量是原始变量线性组合 不同的 分量表示原始变量之间不同的影响关系 由于这些基本关系很可能 与特定的作用过程相联系 主成分分析使我们能从错综复杂的科普 评估要素的众多指标中 找出一些主要成分 以便有效地利用大量 统计数据 进行科普效果评估分析 使我们在研究科普效果评估问 题中 可能得到深层次的一些启发 把科普效果评估研究引向深入 例如 在对科普产品开发和利用这一要素的评估中 涉及科普 创作人数百万人 科 普作品发行量百万人 科普产业化 科普示范 基地数百万人 等多项指标 经过主成分分析计算 最后确定个或 个主成分作为综合评价科普产品利用和开发的综合指标 变量数减 少 并达到一定的可信度 就容易进行科普效果的评估 主成分分析法的基本原理 主成分分析法是一种降维的统计方法 它借助于一个正交变换 将 其分量相关的原随机向量转化成其分量不相关的新随机向量 这在 代数上表现为将原随机向量的协方差阵变换成对角形阵 在几何上 表现为将原坐标系变换成新的正交坐标系 使之指向样本点散布最 开的 p 个正交方向 然后对多维变量系统进行降维处理 使之能以 一个较高的精度转换成低维变量系统 再通过构造适当的价值函数 进一步把低维系统转化成一维系统 主成分分析的原理是设法将原来变量重新组合成一组新的相互 无关的几个综合变量 同时根据实际需要从中可以取出几个较少的 总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分 析或称主分量分析 也是数学上处理降维的一种方法 主成分分析 是设法将原来众多具有一定相关性 比如 P 个指标 重新组合成 一组新的互相无关的综合指标来代替原来的指标 通常数学上的处 理就是将原来 P 个指标作线性组合 作为新的综合指标 最经典的 做法就是用 F1 选取的第一个线性组合 即第一个综合指标 的方 差来表达 即 Va rF1 越大 表示 F1 包含的信息越多 因此在所 有的线性组合中选取的 F1 应该是方差最大的 故称 F1 为第一主成 分 如果第一主成分不足以代表原来 P 个指标的信息 再考虑选取 F2 即选第二个线性组合 为了有效地反映原来信息 F1 已有的信息 就不需要再出现再 F2 中 用数学语言表达就是要求 Cov F1 F2 0 则称 F2 为第二主成分 依此类推可以构造出第三 第四 第 P 个主成分 1 主成分分析的主要作用 概括起来说 主成分分析主要由以下几个方面的作用 1 主成分分析能降低所研究的数据空间的维数 即用研究 m 维 的 Y 空间代替 p 维的 X 空间 m p 而低维的 Y 空间代替 高维的 x 空间所损失的信息很少 即 使只有一个主成分Yl 即 m 1 时 这 个Yl仍是使用全部 X 变量 p 个 得到的 例如要计算 Yl 的均值也得 使用全部 x 的均值 在所选的前 m 个主成分中 如果某个Xi的系数 全部近似于零的话 就可以把这个Xi删除 这也是一种删除多余变 量的方法 2 有时可通过因子负荷aij的结论 弄清 X 变量间的某些关系 3 多维数据的一种图形表示方法 我们知道当维数大于 3 时便 不能画出几何图形 多元统计研究的问题大都多于 3 个变量 要把 研究的问题用图形表示出来是不可能的 然而 经过主成分分析后 我们可以选取前两个主成分或其中某两个主成分 根据主成分的得 分 画出 n 个样品在二维平面上的分布况 由图形可直观地看出各 样品在主分量中的地位 进而还可以对样本进行分类处理 可以由 图形发现远离大多数样本点的离群点 4 由主成分分析法构造回归模型 即把各主成分作为新自变量 代替原来自变量 x 做回归分析 5 用主成分分析筛选回归变量 回归变量的选择有着重的实际 意义 为了使模型本身易于做结构分析 控制和预报 好从原始变 量所构成的子集合中选择最佳变量 构成最佳变量集合 用主成分 分析筛选变量 可以用较少的计算量来选择量 获得选择最佳变量 子集合的效果 主成分分析法的计算步骤 1 原始指标数据的标准化采集 p 维随机向量x x1 X2 Xp T n 个样品 xi xi1 xi2 xip T i 1 2 n n p 构造样本阵 对样本阵元进行如下标准化变换 其中 得标准化阵 Z 2 对标准化阵 Z 求相关系数矩阵 其中 3 解样本相关矩阵 R 的特征方程得 p 个特征根 确定主成分 按 确定 m 值 使信息的利用率达 85 以上 对 每个 j j 1 2 m 解方程组Rb jb得单位特征向量 4 将标准化后的指标变量转换为主成分 U1称为第一主成分 U2 称为第二主成分 Up 称为第 p 主成分 5 对 m 个主成分进行综合评价 对 m 个主成分进行加权求和 即得最终评价值 权数为每个主 成分的方差贡献率 主成分分析法的优缺点 优点优点 可消除评估指标之间的相关影响 因为主成分分析法在对原 始数据指标变量进行变换后形成了彼此相互独立的主成分 而且实 践证明指标间相关程度越高 主成分分析效果越好 可减少指标选择的工作量 对于其他评估方法 由于难以消 除评估指标间的相关影响 所以选择指标时要花费不少精力 而主 成分分析法由于可以消除这种相关影响 所以在指标选择上相对容 易些 主成分分析中各主成分是按方差大小依次排列顺序的 在分 析问题时 可以舍弃一部分主成分 只取前面方差较大的几个主成 分来代表原变量 从而减少了计算工作量 用主成分分析法作综合 评估时 由于选择的原则是累计贡献率 85 不至于因为节省了工 作量却把关键指标漏掉而影响评估结果 缺点缺点 在主成分分析中 我们首先应保证所提取的前几个主成分的 累计贡献率达到一个较高的水平 即变量降维后的信息量须保持在 一个较高水平上 其次对这些被提取的主成分必须都能够给出符 合实际背景
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 内蒙古开鲁县高中政治 1.1 生活处处有哲学教学设计 新人教版必修4
- 郗公吐哺-【2022年暑假预习】云名著《世说新语》之“德行”卷
- 七年级生物下册 第4单元 环境中生物的统一性 第8章 生物体有相同的基本结构 第2节 细胞的分裂和分化教学设计设计(新版)苏科版
- 人教部编版四年级下册6 飞向蓝天的恐龙教案及反思
- 2024中广核新能源春季校园招聘笔试参考题库附带答案详解
- 发电厂集控运行培训课件
- 初中英语Lesson 26 Our River一等奖教学设计
- 2024中国能源建设集团全球春季校园招聘正式启动笔试参考题库附带答案详解
- 2024中国联合网络通信有限公司六盘水市分公司员工招募14人笔试参考题库附带答案详解
- 今天天气怎么样(教学设计)-2023-2024学年苏教版(2017)-科学二年级上册
- 崇尚科学反邪教主题教育PPT反对邪教主题教育宣讲课件
- 三防漆外观检验重点标准
- 国家义务教育质量监测学生相关因素调查问卷
- 宾客期望的酒店管理
- 经典知识产权培训课件
- 小学阶段数学术语英文词汇表-横版打印
- 餐饮食材原材料验收标准(完整版)
- 站务一号线low培训
- 锅炉安装检验资料:水冷壁安装检查记录
- 矿浆比重与矿浆浓度对照换算表 (1)
- 植物生理学第一章水分代谢
评论
0/150
提交评论