数据分析与数据挖掘课件 【ch07】空间降维技术_第1页
数据分析与数据挖掘课件 【ch07】空间降维技术_第2页
数据分析与数据挖掘课件 【ch07】空间降维技术_第3页
数据分析与数据挖掘课件 【ch07】空间降维技术_第4页
数据分析与数据挖掘课件 【ch07】空间降维技术_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章空间降维技术数据分析与数据挖掘01主成分分析主成分分析描述主成分分析(PrincipalComponentsAnalysis,PCA)是一种空间降维的统计方法。通过正交变换将一组可能存在相关性的变量(属性)映射为一组线性不相关的变量(属性),转换后的这组变量(属性)称为主成分。主成分分析描述PCA将原始数据向量映射到新的正交空间,并且新正交空间中选择最有利于描述向量信息的特征轴。图7.2(a)用投影空间描述了图7.1(a)中的12个向量信息。图7.2(b)展示了将图7.2(a)的2维描述压缩为1维描述,其中,X的信息描述能力比Y要更强。主成分分析分为基于协方差矩阵计算和基于相关系数矩阵计算两种方式,而后者是前者的特例。基于协方差矩阵的主成分分析基于相关系数矩阵的主成分分析由第4章式(4.43)可知,相关系数的计算是在两个属性变量协方差的基础上再除以这两个属性变量的标准差,换个角度,就相当于对原始数据矩阵X的每个列计算标准分(Z-Score)。基于相关系数矩阵的PCA与7.1.2节的协方差方法计算PCA存在两处不同:①将计算协方差矩阵CM改为相关系数矩阵RM;②计算新样本评分时也需对式(7.8)除以标准差进行标准化。因子分析法的基本思想是将原始数据进行分类,将相关性较高,即联系比较紧密的变量分在同一类,使不同类变量之间的相关性较低。主成分分析与因子分析的联系主成分分析的作用主成分分析是进行空间的线性投影,在投影空间中的向量各取值为原始属性变量的线性组合。主成分分析在数据分析与数据挖掘中的主要作用包括:(1)形成新的正交属性变量,将对象映射到新的正交空间。PCA后在投影空间中各个属性变量是正交的,各属性变量之间不再关联。(2)可通过设定阈值等方法,只保留投影空间的贡献较大的属性变量,实现降维。一种方式是计算投影空间中各属性变量的贡献值及相应的累积概率,设定保留原始信息量的阈值;另一种方式是预先设定保留的主成分数量。(3)可适当去除噪声。如果原始数据中存在噪声,则通过少量降维方法可以适当克服噪声,但如果过度降维,则又可能会因为丢失有用信息而降低了模型性能。(4)可通过降维到1维、2维或3维,分别在直线、平面或立体空间中近似地描述原始数据点,有利于直观地观察原始数据的分布情况。例如,可以将式(7.13)计算出的score绘制在平面上,来分析原始数据上样本的分布情况、聚集情况等,如图7.3(a)所示。(5)应用主成分分析法可构造回归模型。该方法是把各主成分作为新自变量代替原来的自变量x做回归分析。主成分分析的作用(6)用主成分分析筛选回归变量。回归变量的选择有着重要的实际意义,为了使模型本身易于做结构分析、控制和预报,以便从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。(7)主成分分析的结果可用于分类、聚类等问题的研究,实现特征的抽取和降维功能;可以将样本在投影后的属性变量值视作数据集,用于分类模型或聚类模型。主成分分析的作用02因子分析案例研究20%30%40%50%本案例以某知识付费平台网(简称KATA网)为研究对象,利用统计分析建模的相关方法构建模型。

探索知识付费平台上答主的参与度、成就、影响力和咨询价格对咨询量的影响,在知识付费的商业模式下,知识作为一种商品,咨询价格会对咨询量有怎样的影响,为以KATA网为代表的知识付费平台发展提供可行性建议,促进平台的合理设计建设,提高平台的运营效率。研究的目的与内容(1)咨询量:指每个答主在KATA网付费咨询模块中累积被咨询的数量。(2)咨询价格:指答主在KATA网付费咨询模块中设定的咨询价格。(3)信息认证:平台中用户个人信息页呈现用户的教育经历、职业经历等信息。用户还可以向平台申请对个人信息进行认证,认证通过后,将获得平台的认证标签。用户未申请或未通过认证则不会获得认证标签。认证用户一般被认为更具有权威性。变量选取与数据来源变量选取与数据来源(4)被关注数:平台中用户允许关注其他用户。通过关注其他用户,可以及时获取被关注者的动态信息。被关注数指每个答主被关注的数量。(5)赞同数:指每个答主在KATA网的普通问答模块中参与回答和发表文章时获得的其他用户赞同的数量。(6)感谢数:指每个答主在KATA网的普通问答模块中参与回答时获得的其他用户感谢的数量。(7)收藏数:指每个答主在KATA网的普通问答模块中参与回答和发表文章时被其他用户收藏的数量。(8)听得值数:在KATA网的付费咨询模块,用户可以搜索相关问题进行1元付费“偷听”,“偷听”后可以对答案是否值得听进行评价。变量选取与数据来源(9)回答数:指每个答主在KATA网的普通问答模块中参与回答的数量。(10)文章数:指每个答主在KATA网的普通问答模块中发表文章的数量。因子分析过程前面已经提到,在进行主成分(因子)分析前,要进行KMO检验和Bartlett's球度检验。其中,KMO用于测度原始变量属于一个整体的程度,可以说明主成分(因子)分析是否有意义;Bartlett's球度检验则用于检验相关阵中各变量间的相关性。具体地,KMO的取值为0~1,KMO值越接近1,变量间的相关性越强,进行主成分(因子)分析的意义就越强。在实际分析中,当KMO值在0.7以上时,效果会很好;当KMO值在0.5以下时,则不适宜应用主成分(因子)分析法。根据研究内容建立回归模型,其中,因变量为“咨询量”,自变量为“参与度”“成就”“信息认证”“被关注数”和“咨询价格”。具体的回归模型如式(7.16)所示。因子回归分析案例研究结论实证分析的结果表明,在KATA网中,答主在社区内的参与度、成就、影响力和咨询价格对咨询量均有显著正向影响。研究结果对以KATA网为代表的知识付费平台的建设发展及答主的参与具有一定的指导意义。从答主的角度看,答主在参与网站的付费咨询时,应该注重自身参与度的积累,通过积极回答自己擅长领域的问题,发表相应的见闻,向其他用户传递自己乐于与大家分享交流自己的知识见解的信号。03奇异值分解SVD的协同过滤推荐

奇异值分解(SVD)方法是一种数学矩阵分解操作,用于发现向量中的潜在因子。1965年Golub和Kahan等人研究SVD方法[18],证明了给定矩阵A可以分解成3个矩阵的乘积,如式(7.17)所示。

SVD可用于协同过滤推荐预测评分。在应用SVD前,为了去除用户评分的个性化差异,对矩阵A中每个用户的评分去除该用户的平均分生成矩阵A'。由于一般原始评分矩阵A是数据稀疏的,存在数据缺失问题,所以需要进行数据填充。SVD在协同过滤中的应用存在四种常见数据填充方法:①利用用户平均分填充用户的缺失值;②利用物品的平均分填充物品的缺失值;③利用基于用户的协同过滤进行缺失值预测并填充;④利用基于物品的协同过滤进行缺失值预测并填充。对于矩阵因子化方法的增量式处理,首先对原始打分矩阵A去除用户打分整体偏好差异化,然后按照某种数据填充策略进行数据填充,接着对填充后的打分矩阵进行SVD分解,即R=U;S,VT,之后再将新增加的用户或项投影到以U,或V,为基的低维空间,构成新的数据阵。SVD增量式协同过滤方法04主成分回归与逐步回归多重共线性是指线性回归模型中的自变量之间由于存在高度相关关系而使模型估计失真或难以估计准确。如果每个属性完全是线性相关的,则称为完全共线性。解释变量之间的多重共线性可以通过多种方式度量,常见的有三种方式:①使用方差膨胀因子(VIF);②使用解释变量之间的相关系数;③使用特征值分析。残差分析主成分回归

主成分回归分析(PrincipleComponentRegression,PCR),是以主成分为自变量进行的回归分析。先对原有解释变量数据进行主成分分析,可以设置累积贡献度阈值进行适当降维,再将主成分分析输出的新变量用作回归自变量。回归中利用到主成分分析,其作用通常包括:①可以降低数据的维度;②消除变量之间的共线性。

逐步回归(Stepwiseregression)是一种常用的解释变量挑选方式,注重挑选一组重要且共线性较弱的变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论