版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、因子分析复习题1. 试述因子分析与主成分分析的联系与区别。区别主成分分析:以原变量的线性组合将原变量组合成少数几个主成分。因子分析:将原变量分解成几个公因子的线性组合,从而更好地理解原变量的内在关系。两者的分析重点不一致 C=AX主成分为原始变量线性组合,重点在综合原始变量信息。 X=LF+e原始变量为公因子与特殊因子线性组合,公因子重点反映支配原始变量的不可观测的潜在因素。联系主成分分析:数据降维(多项变少项)因子分析是通过主成分推导而来。两者的分析重点不一致 C=AX主成分为原始变量线性组合,重点在综合原始变量信息。 X=LF+e原始变量为公因子与特殊因子线性组合,公因子重点反映支配原始变
2、量的不可观测的潜在因素。2. 因子分析主要可应用于哪些方面?因子分析:将原变量分解成几个公因子的线性组合,从而更好地理解原变量的内在关系。用途:心理学、社会学和经济学。作用:分类、从显在变量里探索不可直接观察的公共因子3. 简述因子模型中载荷矩阵的统计意义。4. 在进行因子分析时,为什么要进行因子旋转?正交旋转(最大方差因子旋转)的基本思路是什么?因子旋转 使得每一个变量在某一个因子上负荷尽量大而在其他因子上负荷尽量小varimax! 所有因子保持不相关互相垂直 旋转后共性方差不变5. 设某客观现象可用X=(X1,X2,X3)来描述, 在因子分析时,从约相关阵出发计算出特征值为1=1.754,
3、2=1,3=0.255. 由于1+2/(1+2+3)85%,所以找前两个特征值所对应的公共因子即可, 又知1,2对应的正则化特征向量分别为(0.707,-0.316,0.632)及(0,0.899,0.4470),要求:(1)计算因子载荷矩阵A,并建立因子模型。(2)计算共同度hi2(i=1,2,3)。(3)计算第一公因子对X 的“贡献”。6.评价我国35个中心城市的综合发展水平,选取反映城市综合发展水平的12个指标如下:非农业人口数(万人)、工业总产值(万元)、货运总量(万吨)、批发零售住宿餐饮业从业人数(万人)、地方政府预算内收入(万元)、城乡居民年底储蓄余额(万元)、在岗职工人数(万人)
4、、在岗职工工资总额(万元)、人均居住面积(平方米)、每万人拥有公共汽车数(辆)、人均拥有铺装道路面积(平方米)、人均公共绿地面积(平方米)。下面基于相关矩阵对所得数据进行因子分析,结果如下。表1 Descriptive StatisticsMeanStd. Deviation非农业人口数(万人)308.3489219.83902工业总产值(万元)16696857.142919893326.55344货运总量(万吨)14748.768012724.72601批发零售住宿餐饮业从业人数(万人)11.715721.31643地方政府预算内收入(万元)1217117.28571739133.06001
5、城乡居民年底储蓄余额(万元)12872780.400014217851.30101在岗职工人数(万人)100.153780.80586在岗职工工资总额(万元)1872194.11432146354.32611人均居住面积(平方米)17.08571.91544每万人拥有公共汽车数(辆)13.392618.09189人均拥有铺装道路面积(平方米)9.11347.20129人均公共绿地面积(平方米)37.778342.98659表2 KMO and Bartlett's TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.723Bartle
6、tt's Test of SphericityApprox. Chi-Square678.796df66Sig.000表3 Rotated Component MatrixComponent123非农业人口数(万人).929-.183.039工业总产值(万元).806.309.344货运总量(万吨).870-.147.253批发零售住宿餐饮业从业人数(万人).791.091-.437地方政府预算内收入(万元).934.194.155城乡居民年底储蓄余额(万元).970.174-.053在岗职工人数(万人).947.030-.191在岗职工工资总额(万元).952.199-.155人均居
7、住面积(平方米).010.205.840每万人拥有公共汽车数(辆).034.914.175人均拥有铺装道路面积(平方米).068.921.259人均公共绿地面积(平方米).092.809-.106求:1、 写出正交因子模型;2、根据上述运算结果,试填写下表(3分)3、解释共同度及累积贡献率的含义,并计算前三个公因子的累积贡献率;4、请说明表2的作用,并对结果做出评价;5、请解释三个旋转公因子的含义。判别分析1、 试述判别分析的实质。判别分析是用于判别样品所属类型的一种统计分析方法, 是在已知历史上的某些方法已把研究对象分成若干类的情况下,根据判别函数对未知所属类别的事物进行分类的一种分析方法。
8、2、 简述贝叶斯判别法的基本思想和方法。基本思想(错分率*损失)假定:g个总体服从多元正态分布。 错分概率:j类个体被分到i类记为P(i,j), 损失:错分造成的损失C(ij)。方法:(g个类别,p个指标) Bayes判别准则:平均而言,总的错分损失最小。3、 简述费希尔判别法的基本思想和方法。基本思想:(使组间方差比组内方差最大化)即重叠部分最小方法:两类组间判别:多类组间判别找一个方向(变量的线性组合),使得多组个体在此方向上投影之间的重叠部分尽可能少。 变量数目g个,可以有g-1个判别函数 阈值:根据专业知识确定 与两组判别相比,多组之间的判别常常效率不高。4、 试析贝叶斯判别法和费希尔
9、判别法的异同。Fisher 判别的分数是尽可能拉开各组个体间的相对距离,贝叶斯判别是比较属于各类的概率,按照最大的概率来做判断。对于两类间判别,费雪判别和贝叶斯判别是等价的,两个贝叶斯分类函数之差与得费雪判别函数相当。5、 收集了22例某病患者的三个指标(X1,X2,X3)的资料列于下表,其中前期患者(A)类12例,晚期患者(B)类10例。试作判别分析。(1) 计算变量的类均数及类间均值差Dj,计算结果列于表2。表2 变量的均数及类间均值差(2) 计算合并协方差矩阵:6、 观察131例糖尿病患者,要求其患眼无其他明显眼前段疾患, 眼底无明显其他视网膜 疾病和视神经、葡萄膜等疾患,测定了他们的以
10、上各指标值,并根据统一标准诊断其疾患类型,记分类指标名为group。(表中仅列出前5例)。试以此为训练样本, 仅取age,vision,at,bv和qpv 5项指标, 求分类函数, 并根据王××的信息: 38岁, 视力1.0, 视网膜电图at=14.25, bv=383.39, qpv=43.18判断其视网膜病变属于哪一型。131例糖尿病患者各指标实测记录(前5例)解 假定样本系从总体中随机抽取,则样本中三种疾患类型的样本量可近似地反映先验概率, 利用SAS的Discrim过程可得分类函数以王××的观察值代入分类函数, 得Y1=-181.447+0.47
11、3×38+60.369×1.0+17.708×14.25 +0.048×383.39+0.364×43.18=183.36同样可算得: Y2180.58, Y3179.66其中最大者为Y1, 故判断为轻度病变。由上例见, Y1, Y2, Y3的数值相差不多,单纯凭分类函数值的大小作决策有时易出偏差。这时, 分别估计该个体属于各总体的概率却能客观地反映该个体的各种可能归属, 而避免武断。令Y*=180, 从而有类似地, 可得 P(Y2X1,X2,X5)0.0571 P(Y3X1,X2,X5)0.0227 由此可见王××为轻度病
12、变的概率为0.9202,因此把他判断为轻度病变可靠性较大。7、上机 聚类分析1、 判别分析和聚类分析有何区别?区别:判别分析:必须事先知道需要判别的类型和数目,并且要有一批来自已知类型的样品(训练样本),才能建立判别式(判别函数),然后对新样品进行判别归类(带有“预测”的意义)。聚类分析:一批给定样品划分的类型和数目事先都不知道,完全根据一批样品的数据特征用某种方法对样品进行合理的分类,使得同一类的事物比较接近,把不相似的事物分在不同类中(只是描述性的统计)。联系:聚类分析和判别分析有相似之处,即两者都是研究分类问题;在实际中两者往往结合起来使用,样品聚类是进行判别分析之前的必要工作,根据样品
13、聚类的结果进行判别分析。 2、 试述系统聚类的基本思想。首先,将n个样品看成n类(一类包含一个样品),然后将性质接近的两类合并成一个新类,得到n-1类,再从中找出最接近的两类加以合并变成n-2类,如此下去,最后所有的样品均在一类,将上述并类过程化成一张图(聚类图)便可决定分多少类,每类各有哪些样品。3、 在进行系统聚类时,不同类间距离计算方法有何区别?最近距离:类别Gq的每一个体与类别Gp 的每一个体都有欧式距离,将其中最短的距离定义为两个类别间的距离。Gq和Gp间距离=点2和点4间距离最远距离:将其中最长的距离定义为两个类别间的距离 Gq和Gp间距离=点2和点3间距离类平均距离:它等于类Gp
14、与类Gq中任意两个样品距离的平均,式中的L和K分别为Gp和Gq中的样品数。该准则下类的合并过程在下图中概要说明。重心法(centroid method) 将两个类别的中心或均数间距离定义为两类别的距离。先求出各类的重心点,以重心点的距离作为类间相似性的测度。要求样品间距离为欧氏距离平方。4、 试述K均值法与系统聚类有何区别?K均值聚类:事先确定分为K类,然后随机分为K类,计算每一类的均值,再计算某个变量到K个类别的欧式距离,比较欧式距离大小,若前小于后,则不用重新分类,若后小于前,则将这个变量归为后一类,重新计算均值,和另一个变量到k个类的欧式距离,反复循环。系统聚类:根据标准化欧式距离,先找出距离最小的两个变量,然后再根据不同的距离计算方法得出不同的分类。5、 两个例题各样品到类均值的距离主成分分析1、 试述主成分分析的基本思想。 2、 主成分分析的作用体现在何处?主成分有助于重新组织原变量,高度相关的变量往往会构成同一个主成分,不同主成分之间不相关。 将主成分作为自变量,就没有自变量之间相关的问题了。综合评价,得到主成分的表达式并计算得分,画图。市场研究定内类分析问题得分排名3、 简述主成分分析中累积贡献率的具体含义。P个原变量,则有p个特征值 得到p个向量,每个均为(ai1,ai2,aip) 把1改为i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自无证建房出售合同(2篇)
- 粘土冰淇淋课件
- 语文单据 课件
- 专题01 字音字形词语(考点串讲)-七年级语文上学期期末考点大串讲(统编版2024·五四学制)
- 第一讲 成长趣事(看图写话教学)-二年级语文上册(统编版)
- 第七讲 做手工(看图写话教学)-二年级语文上册(统编版)
- 西京学院《应用统计学》2021-2022学年第一学期期末试卷
- 西京学院《数字电子技术》2021-2022学年期末试卷
- 西京学院《机械工程测试技术》2021-2022学年第一学期期末试卷
- 冲突 作文 课件
- GB/T 12497-2006三相异步电动机经济运行
- GB/T 12402-2000经济类型分类与代码
- GA 1551.5-2019石油石化系统治安反恐防范要求第5部分:运输企业
- 电气接地电阻测试记录(通用)
- 气液两相流-第1章-绪论课件
- 2022-2023学年人教版高中地理选择性必修一课件:2.3 河流地貌的发育 (35张)
- 兰州大学地理信息系统考研真题及答案
- 三年级小学作文教学讲座
- 航天科工第二研究院数字化工艺设计软件技术方案
- 氟硅酸化学品安全技术说明书MSDS
- 单县烟草专卖局QC课题:多维度降低行政处罚文书出错率课件
评论
0/150
提交评论