典型相关分析PPT课件.ppt_第1页
典型相关分析PPT课件.ppt_第2页
典型相关分析PPT课件.ppt_第3页
典型相关分析PPT课件.ppt_第4页
典型相关分析PPT课件.ppt_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

典型相关分析 研究多个变量与多个变量之间的相关性 CanonicalCorrelation 2020 1 7 1 2 要点 典型相关分析的数学表达方式 约束条件 典型相关系数的数学含义 典型变量的数学含义 典型相关系数的显著性检验 冗余分析 典型相关的应用 2020 1 7 3 第一节典型相关分析的基本思想 当研究两个变量x与y之间的相关关系时 相关系数是最常用的度量 如何研究两组变量之间的相关关系呢 如何进一步确定两组变量在整体上的相关程度呢 2020 1 7 通常情况下 为了研究两组变量的相关关系 可以用最原始的方法 分别计算两组变量之间的全部相关系数 一共有pq个简单相关系数 这样既烦琐又不能抓住问题的本质 如果能够采用类似于主成分的思想 分别找出两组变量的各自的某个线性组合 讨论线性组合之间的相关关系 则更简捷 2020 1 7 4 典型相关分析 CanonicalCorrelation 是研究两组变量之间相关关系的一种多元统计方法 它能够揭示出两组变量之间的内在联系 5 2020 1 7 6 基本概念 AnalyzetherelationshipsbetweentwosetsofvariablesCanonicalcorrelation rc Correlationbetweentwocompositionofvariables X1 X2 X3 X4 X5 Y1 Y2 Y3 Y4 Y5 rc Rxx Ryy Ryx Rxy 2020 1 7 7 1936年霍特林 Hotelling 最早就 大学表现 和 入学前成绩 的关系 政府政策变量与经济目标变量的关系等问题进行了研究 提出了典型相关分析技术 之后 Cooley和Hohnes 1971 Tatsuoka 1971 及Mardia Kent和Bibby 1979 等人对典型相关分析的应用进行了讨论 Kshirsagar 1972 则从理论上给出了最好的分析 2020 1 7 在解决实际问题中 这种方法有广泛的应用 如居民生活环境与健康状况的关系 考察一些与财政政策有关的指标 财政支出总额增长率 财政赤字增长率 税率降低 与经济发展的一系列指标如GDP增长率 就业增长率 物价上涨率等 来研究扩张性财政政策实施后对宏观经济发展的影响 这些多变量间的相关性如何分析 2020 1 7 8 9 典型相关分析的目的是识别并量化两组变量之间的联系 将两组变量相关关系的分析 转化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析 目前 典型相关分析已被应用于心理学 市场营销等领域 如用于研究个人性格与职业兴趣的关系 市场促销活动与消费者响应之间的关系等问题的分析研究 2020 1 7 10 利用主成分分析的思想 可以把多个变量与多个变量之间的相关转化为两个变量之间的相关 主成分 综合变量 找出系数和使得新变量 和 之间有最大可能的相关系数 典型相关系数 即使 2020 1 7 例家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系 调查了70个家庭的下面两组变量 分析两组变量之间的关系 2020 1 7 11 12 变量间的相关系数矩阵 2020 1 7 y2 y3 y1 x2 x1 2020 1 7 13 典型相关分析的思想 首先分别在每组变量中找出第一对线性组合 使其具有最大相关性 2020 1 7 14 15 然后再在每组变量中找出第二对线性组合 使其分别与本组内的第一线性组合不相关 第二对本身具有次大的相关性 u2和v2与u1和v1相互独立 但u2和v2相关 如此继续下去 直至进行到r步 两组变量的相关性被提取完为止 r min p q 可以得到r组变量 2020 1 7 二 典型相关的数学描述 考虑两组变量的向量 其协方差阵为 一 想法 其中 11是第一组变量的协方差矩阵 22是第二组变量的协方差矩阵 是X和Y的协方差矩阵 2020 1 7 16 如果我们记两组变量的第一对线性组合为 其中 所以 典型相关分析就是求a1和b1 使 uv达到最大 2020 1 7 17 二 典型相关系数和典型变量的求法 在约束条件 下 求a1和b1 使 uv达到最大 令 2020 1 7 18 19 根据数学分析中条件极值的求法 引入Lagrange乘数 求极值问题 则可以转化为求 的极大值 其中 和 是Lagrange乘数 2020 1 7 将上面的3式分别左乘和 2020 1 7 20 将左乘 3 的第二式 得 并将第一式代入 得 的特征根是 相应的特征向量为 2020 1 7 21 将左乘 3 的第一式 并将第二式代入 得 的特征根是 相应的特征向量为 2020 1 7 22 结论 既是M1又是M2的特征根 和是相应于M1和M2的特征向量 至此 典型相关分析转化为求M1和M2特征根和特征向量的问题 第一对典型变量提取了原始变量X与Y之间相关的主要部分 如果这部分还不能足以解释原始变量 可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数 2020 1 7 23 在剩余的相关中再求出第二对典型变量和他们的典型相关系数 设第二对典型变量为 在约束条件 求使达到最大的和 2020 1 7 24 25 例家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系 调查了70个家庭的下面两组变量 分析两组变量之间的关系 2020 1 7 变量间的相关系数矩阵 2020 1 7 26 2020 1 7 27 2020 1 7 28 三 典型变量的性质 1 同一组变量的典型变量之间互不相关 X组的典型变量之间是相互独立的 Y组的典型变量之间是相互独立的 因为特征向量之间是正交的 故 2020 1 7 29 2 不同组变量的典型变量之间的相关性 不同组内一对典型变量之间的相关系数为 同对相关系数为 不同对则为零 2020 1 7 30 3 原始变量与典型变量之间的相关系数 典型载荷分析 原始变量相关系数矩阵 X典型变量系数矩阵 2020 1 7 31 y典型变量系数矩阵 2020 1 7 32 2020 1 7 33 34 2020 1 7 2020 1 7 35 36 2020 1 7 37 例家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系 调查了70个家庭的下面两组变量 分析两组变量之间的关系 2020 1 7 38 变量间的相关系数矩阵 2020 1 7 2020 1 7 39 2020 1 7 40 典型载荷分析 2020 1 7 41 2020 1 7 42 Crossloadings 2020 1 7 43 44 两个反映消费的指标与第一对典型变量中u1的相关系数分别为0 9866和0 8872 可以看出u1可以作为消费特性的指标 第一对典型变量中v1与Y2之间的相关系数为0 9822 可见典型变量v1主要代表了了家庭收入 u1和v1的相关系数为0 6879 这就说明家庭的消费与家庭的收入之间其关系是很密切的 2020 1 7 第二对典型变量中u2与x2的相关系数为0 4614 可以看出u2可以作为文化消费特性的指标 第二对典型变量中v2与Y1和Y3之间的分别相关系数为0 8464和0 3013 可见典型变量v2主要代表了家庭成员的年龄特征和教育程度 u2和v2的相关系数为0 1869 说明文化消费与年龄和受教育程度之间的相关性 2020 1 7 45 46 4 各组原始变量被典型变量所解释的方差 典型冗余分析 X组原始变量被ui解释的方差比例 X组原始变量被vi解释的方差比例 y组原始变量被ui解释的方差比例 y组原始变量被vi解释的方差比例 2020 1 7 2020 1 7 47 2020 1 7 48 49 五 样本典型相关系数 在实际应用中 总体的协方差矩阵常常是未知的 类似于其他的统计分析方法 需要从总体中抽出一个样本 根据样本对总体的协方差或相关系数矩阵进行估计 然后利用估计得到的协方差或相关系数矩阵进行分析 2020 1 7 50 1 假设有X组和Y组变量 样本容量为n 假设 X1 Y1 X2 Y2 Xn Yn 观测值矩阵为 2020 1 7 51 2 计算特征根和特征向量求M1和M2的特征根 对应的特征向量 则特征向量构成典型变量的系数 特征根为典型变量相关系数的平方 2020 1 7 52 职业满意度典型相关分析 某调查公司从一个大型零售公司随机调查了784人 测量了5个职业特性指标和7个职业满意度变量 讨论两组指标之间是否相联系 X组 Y组 X1 用户反馈Y1 主管满意度X2 任务重要性Y2 事业前景满意度X3 任务多样性Y3 财政满意度X4 任务特殊性Y4 工作强度满意度X5 自主权Y5 公司地位满意度Y6 工作满意度Y7 总体满意度 2020 1 7 53 2020 1 7 54 CanonicalCorrelationAnalysis 2020 1 7 55 X组的典型变量 2020 1 7 56 Y组的典型变量 2020 1 7 57 原始变量与本组典型变量之间的相关系数 2020 1 7 58 原始变量与对应组典型变量之间的相关系数 2020 1 7 59 可以看出 所有五个表示职业特性的变量与u1有大致相同的相关系数 u1视为形容职业特性的指标 第一对典型变量的第二个变量v1与Y1 Y2 Y5 Y6有较大的相关系数 说明v1主要代表了主管满意度 事业前景满意度 公司地位满意度和工种满意度 而u1和v1之间的相关系数0 5537 2020 1 7 60 CanonicalRedundancyAnalysisRawVarianceofthe VAR VariablesExplainedbyTheirOwnTheOppositeCanonicalVariablesCanonicalVariablesCumulativeCumulativeProportionProportionProportionProportion10 58180 58180 17840 178420 10800 68980 00600 184430 09600 78580 00140 185840 12230 90810 00060 186450 09191 00000 00030 1867RawVarianceofthe WITH VariablesExplainedbyTheirOwnTheOppositeCanonicalVariablesCanonicalVariablesCumulativeCumulativeProportionProportionProportionProportion10 37210 37210 11410 114120 12220 49430 00680 120930 07400 56830 00110 122040 12890 69720 00070 122650 10580 80300 00030 1230 2020 1 7 61 u1和v1解释的本组原始变量的比率 X组的原始变量被u1到u5解释了100 Y组的原始变量被v1到v5解释了80 3 X组的原始变量被u1到u4解释了90 81 Y组的原始变量被v1到v4解释了69 72 2020 1 7 六 典型相关系数的显著性检验 在进行典型相关分析时 对于两随机向量 X Y 我们可以提取min p q 对典型变量 问题是进行典型相关分析的目的就是要减少分析变量 简化两组变量间关系分析 提取min p q 对变量是否必要 我们如何确定保留多少对典型变量 2020 1 7 62 2020 1 7 63 2020 1 7 64 2020 1 7 65 2020 1 7 66 例10 1康复俱乐部对20名中年人测量了三个生理指标 体重 x1 腰围 x2 脉搏 x3 三个训练指标 引体向上次数 y1 起坐次数 y2 跳跃次数 y3 分析生理指标与训练指标的相关性 表康复俱乐部数据 2020 1 7 67 2020 1 7 68 2020 1 7 69 2020 1 7 70 2020 1 7 71 2020 1 7 72 2020 1 7 73 2020 1 7 74 2020 1 7 75 2020 1 7 76 从相关矩阵出发计算典型相关 为消除量纲影响 对数据先做标准化变换 然后再做典型相关分析 显然 经标准化变换之后的协差阵就是相关系数矩阵 因而 也即通常应从相关矩阵出发进行典型相关分析 2020 1 7 77 对于例10 1从相关系数矩阵出发进行典型相关分析 2020 1 7 78 2020 1 7 79 2020 1 7 80 81 Pathdiagramforcanonicalanalysis ProportionofvarianceextractedbyXpv 742 792 2 58 58 byYpv 442 882 2 48 48 ProportionofvarianceextractedbyXpv 682 622 2 42 42 byYpv 902 482 2 5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论