版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章统计分析与SPSS软件概述习题与思考题(一)填空题1.定性数据,定序数据,定距数据,定比数据2.主成分分析,因子分析,聚类分析,判别分析,对应分析等3.数据清理,数据转换,缺失数据插补,数据的合并汇总拆分4.完全窗口菜单运行方式,程序运行方式5.SPSSBase(二)选择BADAD(三)判断√√×√×(四)简答题1.目前常用的统计分析工具或软件有哪些?你使用过哪些?它们之间的区别在哪里?解:常用的统计分析工具有SPSS、SAS、STATA、Python等。2.试检查自己的SPSS软件共有几个模块,其中包括了哪些基本功能,并思考平时的统计分析需要哪些模块才能满足需要。解:SPSS软件共有11个模块,分别是SPSSBase、SPSSAdvance、SPSSCategories、SPSSComplexSample、SPSSConjoint、SPSSExactTest、SPSSMaps、SPSSMissingValueAnalysis、SPSSRegression、SPSSTables和SPSSTrends。其中SPSSBase是必需的,SPSS的整体框架、基本数据的获取、数据准备和整理等基本功能都集中在这一模块上,其他模块必须在该模块的基础上才能工作。3.阐述定性、定序、定距、定比数据,并各举1例。解:定性变量又称为名义变量。这是一种测量精度最低、最粗略的基于“质”因素的变量,它的取值只代表观测对象的不同类别,如“班级”。定序变量又称为有序变量、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量,如“满意度”。定距变量又称为间隔变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小,如“重量”。定比变量又称为比率变量,它与定距变量意义相近,差别在于定距变量中的“0”值只表示某一取值,定比数据变量表示“没有”,如“年龄”。4..sav,.spv,.sps分别是spss哪类文件的扩展名?解:“.sav”是SPSS的数据文件的扩展名,“.spv”是SPSS的结果输出文件扩展名,“.sps”是SPSS的程序文件扩展名。5.简述统计分析基本流程。任何一个数据分析项目,都要经过项目计划、数据获取与准备、概括性描述统计分析、探索性统计推断、统计模型精准分析和结果报告6个阶段。(1)项目计划的内容包括确定研究问题和研究对象、样本抽取方法、样本量、数据搜集方式、数据分析方法和分析工具、项目预算等内容。(2)按照项目计划搜集数据。(3)概括性描述统计分析阶段是对数据进行的初步探讨,是通过参数估计输出相关统计量,并辅以统计表或统计图,从而对数据的集中趋势、离散趋势、分布特征等信息有详细的了解。(4)探索性统计推断阶段,主要对数据进行深层次的分析尝试,通过探索分析、方差分析,相关分析等方法,对不同变量数据的内在联系进行探讨,为后续的精准模型分析奠定基础。(5)统计模型精准分析阶段,选择最优的统计模型,寻求变量间数据信息的完美呈现和解释。(6)统计报告阶段将整个数据分析项目的结果以合适的方式表达出来,从而使得决策者或者读者快速理解和掌握核心内容,并能据此做出科学决策。第2章数据的获取与管理习题与思考题(一)填空题1.查找和替换2.拆入变量3.计算变量4.原始数据组织方式,频数数据组织方式5.指定加权变量(二)选择题DDCDC(三)判断×√√××(四)简答题1.试述“个案排序”和“个案排秩”两种排序操作的区别。解:“个案排序”操作会改变原有样本的排列顺序。“个案排秩”会在原有数据的基础上形成一个新的变量,用于存储样本的秩序号。2.如何进行变量集的定义和使用?解:变量集的定义在“实用程序”菜单中的“定义变量集”命令。变量集定义之后,在“实用程序”菜单中选择的“使用变量集”命令,在“选择要应用的变量集”框中选择想要使用的变量集。3.简述数据排序在数据分析过程中的目的。解:数据排序是数据整理的关键步骤,在很多的统计分析过程中,如数据文件的合并等,都需要先对原始数据按照一定的规则进行排序。排序后的数据文件更便于进行相关的统计分析。4.对于缺失值,如何利用SPSS进行科学替代?解:SPSS提供了5种缺失值的替代方式:序列平均值:用该变量的所有非缺失值的均数作替代。临近点的平均值:用缺失值相邻点的非缺失值的均数作替代,取多少个相邻点可任意定义。临近点的中间值:用缺失值相邻点的非缺失值的中位数作替代,取多少个相邻点可任意定义。线性插值:用缺失值相邻两点的非缺失值的中点值作替代。临近点的线性趋势:用线性拟合方式确定替代值。5.在计算数据的加权平均数时,如何对变量进行加权?解:数据的加权在“数据”菜单中的“个案加权”命令,其中,“不对个案加权”项表示不作加权,是SPSS系统默认选项,也可用于取消加权操作;“个案加权依据”项表示选择一个变量作加权变量。案例分析题1.根据下述调查问卷中的题目,完成变量的设置和编码。“4.请问您的家庭月收入:a.3000以下b.3000~4999c.5000~6999d.7000~9999e.10000以上”2.请根据下列数据建立SPSS数据文件,并完成相关数据操作。表2-2数据ID年龄体重(公斤)性别12569.0男22768.5男31948.3女42951.6女51945.9女62270.5男72348.6女82266.7男92467.3男102650.2女(1)请采用多种方法根据体重指标值对样本进行排序(升序排列)。升序排列方式1:方式2:(2)对“性别”变量设置变量值标签,使其对应0和1值。3.现有自由格式的文本文件,其中包含4个样本,每个样本为一行,每个样本测度6个指标,如下所示,请将文本文件数据信息导入到SPSS软件中,并对数据文件进行保存。23;45;3;46;65;1246;89;56;12;4;1355;1;23;61;41;2041;20;61;20;1;30第3章描述统计分析及SPSS实现习题与思考题(一)填空题1.探索分析2.分析-描述统计-描述3.离散程度4.均值、中位数、众数5.备选选择项,答案(二)选择题CACBD(三)判断题××√√×(四)简答题1.探索性统计分析主要目的有哪些?解:探索分析的目的主要有三个:检查数据是否有错误;获得数据分布基本特征;对数据规律进行初步观察。2.什么是峰度和偏度?解:偏度是描述某变量取值分布对称性的统计量。具体的计算公式如下:这个统计量是与正态分布相比较的量,偏度为0表示其数据分布形态与正态分布偏度x相同;偏度大于0表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边;偏度小于0表示负偏差数值大,为负偏或左偏,有一条长尾拖在左边。而偏度的绝对值数值越大。峰度是描述某变量所有取值分布形态陡缓程度的统计量。这个统计量是与正态分布相比较的量,峰度为0表示其数据分布与正态分布的陡缓程度相同;峰度大于0表示比正态分布高峰要更加陡峭,为尖顶峰;峰度小于0表示比正态分布的高峰要平坦,为平顶峰。具体的计算公式如下:表示分布形态的偏斜程度越大。3.简述SPSS对数据进行统计分析刻画集中趋势以及离散程度的描述统计量。解:对数据集中趋势刻画的描述统计量包括:均值、中位数、众数、总和等。对数据离散趋势刻画的描述统计量包括:方差、标准差、极差、标准误等。4.简述交叉列联表分析主要内容。解:交叉列联表分析主要包括两部分的内容:第一是输出交叉分组下的频数分布状态表;二是分析交叉分类的两个变量之间是否具有独立性,并判断他们之间的相关性的大小。5.对于多项选择问题,分解(编码方案)的方法主要有哪两种,请简要说明。解:多项选择问题的编码方式有两种:一种是二分法,一种是多分法。多选项二分法将每个可能的答案设置为一个SPSS变量,变量的取值为0或1,0表示没选中,1表示选中。多选项分类法首先估计多选项问题可能出现的答案个数。比如,一个多选题,如果最多有3个答案,那么就设置3个SPSS变量,分别用来存放3个可能的答案。SPSS变量的取值为备选答案的代码,常用数字1,2,3…表示不同的备选答案。案例分析题1.某学校科研团队进行库区移民生存状态调查,经过抽样,抽取20名库区移民,对其生存状态进行调查,部分指标见表3-2.表3-2库区移民生存状况调查部分指标样本ID性别年龄家庭年收入家庭食品烟酒支出单位—岁元元01男55850842800002女381030352900003女36850352200004男611078553850005女44849642560006女36790353870007男55877733570008男54877863040009男53789953280010女411387644360011男45830352080012男521033202380013男32494352160014男341020243680015男63427461700016男311210172000017女61842352000018女59899802000019女481090803000020男439067832000请分析:数据状态:1.样本在性别与年龄上分布状态。年龄*性别交叉表计数性别总计男女年龄3110132101341013602238011410114310144011451014801152101531015410155202590116111263101总计12820男性样本与女性样本的对比关系为12:8。描述统计N最小值最大值均值标准偏差偏度峰度统计统计统计统计统计统计标准错误统计标准错误年龄20316347.0510.435-.034.512-1.359.992样本的平均年龄为47.05岁,峰度为-1.359,与正态分布相比较为平缓,偏度为-0.034,轻微的左偏。2.受访样本的家庭年收入是否符合正态分布正态性检验柯尔莫戈洛夫-斯米诺夫(V)a夏皮洛-威尔克统计自由度显著性统计自由度显著性家庭年收入.19320.049.93120.159a.里利氏显著性修正从正态性分布检验结果和Q-Q图可以看出,夏皮洛-威尔克检验接受了原假设,即数据符合正态分布特征,Q-Q图也基本呈现较为一致的特征。柯尔莫戈洛夫-斯米诺夫呈轻微的拒绝原假设状态,可认为接受正态分布的假设。3.不同性别的受访群体的食品烟酒消费支出方差是否相等。个案处理摘要性别个案有效缺失总计N百分比N百分比N百分比烟酒食品支出男12100.0%00.0%12100.0%女8100.0%00.0%8100.0%方差齐性检验莱文统计自由度1自由度2显著性烟酒食品支出基于平均值.064118.803基于中位数.059118.811基于中位数并具有调整后自由度.059115.599.812基于剪除后平均值.064118.803不同性别受访者食品烟酒消费的方差是相等的,四种莱文检验的结果均接受原假设,即不同组别因变量的方差是相等的。2.调查得到甲乙两班学生的上网状况,调查结果如表3-3所示,请根据下列数据分析班级与上网状况是否存在相关关系。表3-3甲乙两班上网状况
班级每天上网经常上网偶尔上网从不上网合计甲班49926541247乙班621136742284合计11120513283531采用交叉列联分析:卡方检验值自由度渐进显著性(双侧)皮尔逊卡方1.143a3.767似然比1.1433.767有效个案数531a.0个单元格(0.0%)的期望计数小于5。最小期望计数为38.61。对称测量c值渐进显著性名义到名义列联系数.046.767有效个案数531c.相关性统计仅适用于数字数据。卡方检验的结果接受原假设,即上网状态与班级之间是相互独立的。3.先得到某超市9月份每一天的商品销售总额数据,如下表所示。表3-4超市商品销售总额257269268301336365298562289306290249316296311369403569416279510410368356413426369376406456(1)计算该超市日销售额的均值、中位数;(2)判断该超市日销售额数据的偏度和峰度状况。应用基本描述统计分析方法:统计销售额个案数有效30缺失0平均值361.30中位数360.50偏度.933偏度标准误差.427峰度.499峰度标准误差.833第4章参数检验与SPSS实现习题与思考题(一)填空题1.总体均值和指定检验值之间不存在显著差异2.两独立样本组的均值比较,两配对样本组的均值比较3.拒绝4.T统计量5.两样本群的方差是否相等(二)选择题BDCBB(三)判断题√√×√√(四)简答题1.什么是配对样本?请举例解释。解:常见的配对样本情况有4种:①同一研究对象分别给予两种不同处理的效果比较;②两配对对象分别给予两种不同处理的效果比较;③同一研究对象处理前后的效果比较;④两配对对象(一个接受处理,一个不接受处理)的效果比较。①和②推断两种效果有无差别,③和④推断某种处理是否有效。比如一组高血压患者在服药前和服药一段时间后对于舒张压和收缩压测量结果就形成了配对样本。2.两独立样本群的均值比较分析的流程是怎样的?解:在具体的计算中需要通过两步来完成:第一,利用F检验判断两总体的方差是否相同;第二,根据第一步的结果,决定T统计量和自由度计算公式,进而对T检验的结论作出判断。3.什么是独立样本,请举例说明。解:独立样本是指两个样本之间彼此独立没有任何关联,两个独立样本各自接受相同的测量,研究者的主要目的是了解两个样本之间是否有显著差异存在。比如生产同一类产品的不同国家的厂商,若彼此之间在生产链条上无任何相关性,则其生产产品的抽取样本即构成了独立样本。4.对两配对样本进行T检验的前提要求是?解:两配对样本T检验的前提要求如下。(1)两个样本应是配对的。在应用领域中,主要的配对资料包括具有年龄、性别、体重、病况等非处理因素相同或相似者。首先两个样本的观察数目相同,其次两样本的观察值顺序不能随意改变。(2)样本出自的两个总体应服从正态分布。5.如何检验某一样本某变量的总体均值和指定值之间是否存在显著差异?解:检验某一样本某变量的总体均值和指定值之间是否存在显著差异用到的是单一样本的均值比较。单样本T检验的零假设(H0)为:总体均值和指定检验值之间不存在显著差异。采用T统计量,计算公式为式中,是样本均值和检验值的差。因为总体方差未知,所以用样本方差S代替总体方差。n为样本数。SPSS将自动计算t值,由于该统计量服从n−1个自由度的T分布,SPSS将根据T分布表给出t值对应的相伴概率值。如果相伴概率值小于或等于用户设想的显著性水平,则拒绝H0,认为总体均值和检验值之间存在显著差异。相反,相伴概率大于显著性水平,则接受H0,可以认为总体均值和检验值之间不存在显著差异。案例分析题1.从小学二年级某班抽取10名男生,分别测得他们的身高,是否可以认为该班男生的平均身高为1.35米?1.291.361.391.271.351.301.361.261.311.24单一样本T检验的伴随概率为0.044,因此拒绝原假设,即该班男生的平均身高与1.35有显著性差异。2.用某药治疗6位高血压病人,对每一位病人治疗前、后的舒张压进行了测量,结果如表5-4所示。表4-4治疗前后的舒张压测量表病例编号123456用药前120127141107115138用药后123108120107102152(1)治疗前后这6位病人的均值和方差有何不同?(2)治疗前后病人的血压是否有显著的变化?样本用药后舒张压均值比用药前有所降低,标准差和方差有所上升。用药前后舒张压均值的配对样本比较分析结果表明:T统计量伴随概率为0.337,大于0.05,故接受原假设,即配对样本的均值没有显著性差异,用药前后患者的舒张压均值无区别。3.某学校要对两位老师的教学质量进行评价,这两位老师分别教甲班和乙班,这两班数学课的成绩如表4-5所示,这两个班的成绩是否存在差异?表4-5甲、乙两班数学考试成绩甲班9093828885808785749088838285738677946882乙班7675737598629075836665788068877464687280采用两独立样本均值比较分析方法:可以看到,两位老师的教评平均值差异较大,分别为83.60和75.45分,采用两独立样本均值比较方法,对两位老师的教评差异进行统计推断,首先看出两样本组的方差是相等的(伴随概率为0.299,接受方差相等的原假设)。因此采用第一行的T统计量来进行统计推断,推断结果表示,伴随概率为0.003,拒绝原假设,原假设为两样本组的均值是相等的。因此可以得出,两位老师的教评结果存在显著性的差异。第5章方差分析及SPSS实现习题与思考题(一)填空题1.随机性、独立性、正态分布、方差齐性2.F统计量,控制变量不同水平下各总体均值没有显著差异3.续数值型,多个协变量间互相独立,且与控制变量之间也没有交互影响。4.交互效应5.主效应部分,交互效应部分,随机变量部分(二)选择题BDBBD(三)判断题×√√√√(四)简答题1.什么是协方差分析?什么情况适于使用协方差分析?解:协方差分析是将那些很难控制的因素作为协变量,在排除协变量影响的条件下,分析控制变量对观察变量的影响,从而更加准确地对控制因素进行评价。无论是单因素方差分析还是多因素方差分析,它们都有一些可以人为控制的控制变量。在实际问题中,有些随机因素是很难人为控制的,但它们又会对结果产生显著的影响,为了更加准确地研究控制变量不同水平对结果的影响,应该尽量排除其他因素对分析结果的影响,这时就需要应用协方差分析。2.如何检验两个及两个以上样本均值之间是否存在显著性差异?解:检验两个及两个以上样本均值之间差异显著性的方法是方差分析。方差分析的基本思想是:通过分析研究不同变量的变异对总变异的贡献大小,确定控制变量对研究结果影响力的大小。通过方差分析,分析不同水平的控制变量是否对结果产生了显著影响。如果控制变量的不同水平对结果产生了显著影响,那么它和随机变量共同作用,必然使结果有显著的变化;如果控制变量的不同水平对结果没有显著的影响,那么结果的变化主要由随机变量起作用,和控制变量关系不大。3.方差分析包括哪些类型,他们有何区别?解:根据人为施加的可控因素(即控制变量)的数量多少,可分为单因素方法分析和多因素方差分析方法。单因素方差分析适用于只有一个控制变量的情况,它的实质是统计推断。它的研究目的在于推断该控制变量的不同水平是否给观察变量造成了显著差异和变动。单因素方差分析具有有一个比较严格的前提条件,包括:①控制变量不同水平下的样本是随机的。②控制变量不同水平下的样本是相互独立的。③控制变量不同水平下的样本来自正态分布的总体,否则采用非参数方法进行多组别的均值比较。④控制变量不同水平下的样本方差相同。在满足该前提的基础下,方差分析问题就转换成研究不同水平下各个总体的均值是否有显著差异的问题。多因素方差分析是指当存在多个控制变量的前提下,分析多个控制变量的作用、多个控制变量的交互作用以及其他随机变量对结果是否产生显著影响的统计推断方法。多因素方差分析适用于存在两个或两个以上控制变量的情况。多因素方差分析对各个总体的方差相等的前提假设是放松的,但是一般要求多控制变量交叉作用下的单元格内至少有3个观测值。4.简述方差分析的基本思想和操作步骤。方差分析的基本思想是:通过分析研究不同变量的变异对总变异的贡献大小,确定控制变量对研究结果影响力的大小。通过方差分析,分析不同水平的控制变量是否对结果产生了显著影响。如果控制变量的不同水平对结果产生了显著影响,那么它和随机变量共同作用,必然使结果有显著的变化;如果控制变量的不同水平对结果没有显著的影响,那么结果的变化主要由随机变量起作用,和控制变量关系不大。5.方差分析有哪些基本假定?解:单因素方差分析具有有比较严格的前提条件,包括:①控制变量不同水平下的样本是随机的。②控制变量不同水平下的样本是相互独立的。③控制变量不同水平下的样本来自正态分布的总体,否则采用非参数方法进行多组别的均值比较。④控制变量不同水平下的样本方差相同。多因素方差分析对各个总体的方差相等的前提假设是放松的,但是一般要求多控制变量交叉作用下的单元格内至少有3个观测值。案例分析题1.一家耳机生产厂商设计了四种不同类型的耳机,并计划与传统耳机形成对比。先从四种类型的耳机中随机抽取6只样品,同时再抽取6只传统耳机样品,在相同的实验条件下,测试它们的使用寿命(单位:月),结果如表5-1所示。表5-1耳机样品使用寿命耳机类型测试寿命传统耳机20.219.819.620.321.320.5型号123.621.719.820..521.522.1型号215.219.116.817.616.520.3型号335.836.233.834.235.334.8型号419.822.624.221.019.823.4试分析各种型号耳机间使用寿命是否有区别。数据整理结果见下图:因为只有一个控制变量,所以采用单因素方差分析方法。SPSS输出结果如下。方差齐性检验结果显示,基于中位数的莱文检验支持方差齐性的结果,基于平均值的检验虽然拒绝了原假设,但是偏离并不严重,所以可以认为该数据适合进行单因素方差分析。方差分析构造的F统计量及检验结果拒绝了原假设,即说明5个不同类型的耳机中,至少有两种类型耳机的平均寿命是不一样的。S-N-K多重比较的验证结果说明,类型2的耳机,类型3的耳机,传统耳机和类型1和4的耳机构成了三组,组与组之间均值存在显著差异,组内的各类型耳机均值无差异。LSD的多重比较方法结果验证,0与2,0与3,1与2,1与3,2与4,3与4之间的耳机平均寿命存在差异。2.为了验证四种不同安眠药的药效,选取24只兔子,公兔子和母兔子各12只,随机分为四组,每组兔子服用一种安眠药,并记录它们的睡眠时间,如表5-2所示。表5-2兔子安眠药实验数据兔子编号睡眠时间安眠药种类性别016.21公026.11母036.01公046.31公056.11母065.91母076.32母086.52公096.72母106.62母117.12公126.42母136.83公147.13公156.63公166.83母176.93母186.63母195.44公206.44公216.24母226.34母236.04公245.94公数据处理和输入的结果如下:这里有两个控制变量,一个是安眠药种类,一个是性别,因此采用多因素方差分析方法。两个控制变量交叉分类下的数据基本信息见第一张输出表格。第二张输出表格是方差齐性检验的结果,四种不同统计量都拒绝了方差相等的原假设。但是多因素方差分析对方差齐性的前提是放松的,不满足也没有特别严重的后果。多因素方差分析的结果显示,安眠药种类对睡眠时间是有显著性影响的,但是第二个控制变量性别对实验对象的睡眠时间并未产生显著影响,同时安眠药种类和性别之间也并不存在显著地交叉效用。具体而言,安眠药的种类中,1与2,1与3,2与4,3与4之间是存在差异的,1与4之间是不存在效果的差异的。3.学校为了改善教师生活水平,试行某种新政策,政策实施前,以及实施半年后分别对教师的待遇状况进行调查,工资待遇分为10级,分值越高代表待遇越好,调查结果以及教授级别详见表5-3。表5-3政策实施教师待遇原工资现工资教师级别452341343242552363481672672573243673981561772试分析政策实施后,不同类型的教师彼此间工资待遇是否存在差异。待分析数据结果如下图所示:其中,现工资是因变量,教师级别是控制变量,原工资是协变量。采用协方差分析的方法来验证教师级别对工资的影响。协方差分析的结果显示,协变量原工资对教师的现工资具有显著的影响,剔除了原工资影响后,教师级别对教师工资不具有显著影响,即剔除了原工资的影响后,不同级别的教师平均工资之间是没有区别的。第6章非参数检验及SPSS实现习题与思考题(一)填空题1.样本来自的两独立总体均值没有显著差异。2.卡方统计量。3.两样本是配对的。4.二值数据(0-1数据)。5.大(二)选择题BCDAA(三)判断题√√×√√(四)简答题1.在熟悉假设检验的思想的基础上,比较参数检验与非参数检验的适用条件。解:参数检验:已知分布类型,对未知参数如均值方差等进行统计推断,依赖于特定分布类型,比较的是参数。非参统计:对总体的分布类型不作任何要求,不受总体参数的影响,比较分布或分布位置2.多独立样本和多配对样本非参数检验的区别和联系是什么?解:适用范围不同:多独立样本数据的来源的是独立的样本,如3个班的成绩是否存在差异;而多配对样本是对多个匹配样本的总体分布是否存在显著性差异做统计分析如测验多个学生在报补习班前后成绩有无发生显著的变化。数据性质不同:多独立样本检验中的个实验处理组之间毫无相关存在,即为独立样本;而多配对样本的数据组成的样本为相关样本。非参数检验方法不同:多独立样本非参数检验方法有:(1)中位数检验(2)克鲁斯卡尔-沃利斯H检验(3)约克海尔-塔帕斯特拉J检验;多配对样本的非参数检验方法有:(1)傅莱德曼检验(2)肯德尔协同系数检验。3.简要回答进行非参数统计检验的适用条件。解:非参数检验(Nonparametrictests)是统计分析方法的重要组成部分,它与参数检验共同构成统计推断的基本内容。参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。但是,在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。4.你学过哪些涉及秩和检验,各有什么用途?解:(1)符号秩和检验适用于配对比较(2)威尔科克森秩和检验适合于两样本成组资料的比较应用(3)克鲁斯卡尔-沃利斯法适用于多个样本比较。5.试写出非参数统计方法的主要优缺点。解:优点:①非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。②多数非参数统计方法要求的运算比较简单,可以迅速完成计算取得结果,因而比较节约时间。③大多数非参数统计方法在直观上比较容易理解,不需要太多的数学基础知识和统计学知识。④大多数非参数统计方法可用来分析如象由等级构成的数据资料,而对计量水准较低的数据资料,参数统计方法却不适用。⑤当推论多达3个以上时,非参数统计方法尤具优越性。缺点:①由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。②对于大样本,如不采用适当的近似,计算可能变得十分复杂。案例分析题1.在关于听助眠音乐对老人入睡所需时间的研究中,抽取了15名老人组成样本。表6-3给出了15名实验对象在听音乐和不听音乐的情况下入睡所需时间(分钟)。事根据数据得出你的结论。表6-3助眠音乐实验数据实验对象不听音乐听音乐实验对象不听音乐听音乐1161199621210101073191211262048812161451210131096761455798157881411161112第一步:在“分析”菜单的“非参数检验”子菜单中选择“旧对话框”的“2个相关样本”命令。第二步:首先将“听音乐”和“不听音乐”作为选作一对配变量。这里选择“威尔科克森”(威尔科克森符号平均秩检验)和“符号”(符号检验)进行检验。点击“选项”按钮,在弹出的“双关联样本”对话框中选中“按检验排除个案”,在“统计”选项中选择“描述”项,计算均数、标准差等指标,点击“继续”按钮。结果与分析:本例使用了2种配对样本非参数检验方法”。其中描述性统计结果可以得出,听音乐时入睡均值为11.9375,方差为5.30997,最小值为5,最大值为26.不听音乐时入睡均值为9.8125,方差为3.69177,最小值为5,最大值为20.通过威尔科克森检验结果可以看出,负秩为12,正秩为2,Ties为9,表示16个人中,12个人不听音乐入睡时间变短,2个变长,2个人入睡时长保持不变,平均秩分别为8.25和3.从“检验统计”表中可以看出,Z统计量为-2.939,相伴概率为0.003,小于显著性水平0.05,因此拒绝原假设,认为听音乐前后人们入睡时长有显著差异。通过符号检验可以看出正负平均秩的值与威尔科克森检验一样,从“检验统计”表中可以看出相伴概率为0.013小于0.05,因此拒绝原假设,认为音乐前后人们入睡时长有显著差异。表明听音乐会对增加入睡时长。2.在做某项关于股票市场的研究时,搜集到8个时间点上四家公司股票的收盘价格,如表6-4所示。表6-5三家公司股票收盘价格公司110.2610.3611.209.9910.5610.3411.0310.59公司27.897.638.266.986.967.327.998.01公司320.1620.3619.9819.9620.3218.6919.2219.56公司415.9614.3616.2312.0315.8915.4615.2115.03试分析四家公司的股票价格水平是否相同。为了分析四家公司股票价格水平是否相同,使用多配对样本非参数检验。第一步:在“分析”菜单的“非参数检验”子菜单中选择“旧对话框”的“K个相关样本”命令。第二步:将变量选入“检验变量”中,在“检验类型”中选择“肯德尔”(肯德尔协同系数检验)。在“统计”选项中选择“描述”项,计算均数、标准差等指标,点击“继续”按钮。结果与分析:描述性统计结果可以看出4个公司收盘价格平均值、方差、最小值和最大值。从“Ranks”表格中可以得到平均秩,可以看出公司2的平均秩最小,反映出平均收盘价最低,可以看出公司3的平均秩最大,反映出平均收盘价最高。从“TestStatistics”表格中得到卡方统计量为24,相伴概率远小于0.05,因此拒绝原假设,说明8个时间点上四家公司股票的收盘价格有显著差异。3.某超市统计了12月份和6月份各10天洗衣液的销售额(元),如表6-6所示。12月156.6143.0160.0155.3132.6160.3144.9150.0113.6122.96月203.6198.6236.5210.0260.8190.6184.5189.6170.5249.8请判断该超市洗衣液12月和6月的销售额数据间是否存在显著差异。第一步:在“分析”菜单的“非参数检验”子菜单中选择“旧对话框”的“2个独立样本”命令。将数据传入,选择“曼-惠特尼U”、“科尔其戈洛夫-斯米诺夫Z”、“莫斯极端反应”曼-惠特尼U检验结果表明6月的平均秩次为15.5,12月的平均秩次为5.5,相伴概率小于0.05,拒绝原假设,认为两个月份销售额数据有显著差异。两独立样本的极端反应检验中可以看出,跨度为10,截头跨度为8,两个相伴概率均小于0.05,因此拒绝原假设,认为两个月份销售额数据分布有显著差异。两独立样本的科尔其戈洛夫-斯米诺夫检验,可以计算得到科尔其戈洛夫-斯米诺夫Z值为2.236.相伴概率远小于0.05,因此拒绝原假设,两个月份销售额数据分布有显著差异。第7章相关分析及SPSS实现习题与思考题(一)填空题1.定距变量,定序变量2.Pearson3.斯皮尔曼等级相关系数,肯德尔tua-b等级相关系数4.偏相关系数5.总体相关系数,样本相关系数(二)选择题BBADC(三)判断题×√××√(四)简答题1.试述偏相关与二元定距变量相关的区别?解:二元定距变量相关分析通常采用皮尔逊简单相关系数用来衡量定距变量间的线性关系。并利用T检验对对皮尔逊简单相关系数显著性进行推断。二元定距变量相关分析是对两个变量之间综合相关程度进行的判定。当多变量之间存在复杂多重相关性时,二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系,这时就可采用偏相关分析方法进行处理。偏相关分析是指当两个变量同时与其他变量相关时,将其他变量的影响剔除,只分析另外两个变量之间相关程度的过程,所采用的分析工具是偏相关系数。2.试述统计关系与函数关系的区别?解:任何事物的变化都与其他事物是相互联系和相互影响的,用于描述事物数量特征的变量之间自然也存在一定的关系。变量之间的关系归纳起来可以分为两种类型,即函数关系和统计关系。函数关系是一一对应的确定性关系,当一个变量的值不能由另一个变量的值惟一确定时,这种关系即为统计关系。3.如何利用相关系数来判别现象之间的相关关系?解:相关系数是衡量变量之间相关程度的一个量值。在说明变量之间线性相关程度时,根据经验可将相关程度分为以下几种情况:时,视为高度相关;时,视为中度相关;时,视为低度相关;时,说明变量之间的相关程度极弱,可视为不相关。为了判断r对的代表性大小,需要对相关系数进行假设检验。(1)首先,假设总体相关性为零,即H0:两总体无显著的线性相关关系,即。(2)其次,计算相应的统计量,并得到对应的相伴概率值。如果相伴概率值小于或等于指定的显著性水平,则拒绝H0,认为两总体存在显著的线性相关关系;如果相相伴概率值大于指定的显著性水平,则不能拒绝H0,认为两总体不存在显著的线性相关关系。4.什么是相关关系?相关分析和回归分析的主要内容有哪些?相关关系是统计关系的一种。是指变量之间的一种非确定的相互依存关系,即一个变量的每一个取值下,由于受随机因素影响,另一个变量与其所对应的数值是非确定性的。在统计关系研究中,测度变量之间线性相关程度的强弱并用适当的统计指标表示出来,这个过程就是相关分析。回归分析是在明确自变量和因变量的基础上,利用回归模型的方式探讨自变量对因变量的作用的分析方法。5.举例说明什么是正相关、负相关?解:正相关关系是指两个变量之间存在统计相关关系时,当一个变量的数值增大时,另一个变量的数值也随之增加。负相关是指两个变量之间存在统计相关关系时,当一个变量的数值增大时,另一个变量的数值也随之减小。比如微观经济学模型中,产品的市场价格上升,需求减小,产出增加,则需求与价格就是负相关关系,需求与产出就是正相关关系。案例分析题1.表7-1搜集了某次试验中白鼠的某种饲料进食量和体重增量(g)的关系的原始数据,试判断两者之间有无直线相关关系。表7-1进食量和体重增量数据白鼠编号01020304050607080910进食量820780890845869876836812865851体重增量196154165125158149169171149156SPSS软件的数据结构如下:二元定距变量相关分析结果:进食量和体重增量两个变量之间的皮尔逊相关系数检验接受了原假设,即两个变量之间并不存在线性相关关系,则皮尔逊相关系数不具有实际意义。2.表7-2调查了10家奶茶销售店铺奶茶的日销售额与奶茶平均价格的数据,试判断平均价格与销售额之间有无线性相关关系存在。表7-2奶茶价格与销售量数据奶茶店编号01020304050607080910销售量230.6395.3196.5200.8350.6387.6395.5400.5275.6295.0平均价格10.613.69.89.819.615.616.817.510.612.5SPSS数据结构如下:二元定距变量相关分析结果:二元定距变量相关分析的结果表明,销售量和平均价格之间具有显著的正线性相关关系,相关系数T检验的伴随概率为0.003,拒绝原假设。两个变量之间的相关系数数值为0.834,具有较强的线性相关性。3.某项关于婴儿出生体重和双顶径的数量关系的研究中,收集了15名婴儿的出生体重(克)和双顶径(毫米)数据,如表7-3所示,请分析两者之间是否具有显著的线性关系。表7-3婴儿出生体重与双顶径体重273299226315294260383273234329302357396368372双顶径948891999387949381949491958589软件数据结构为:二元定居变量相关分析结果如下:相关分析的结果表明,体重和双顶径之间并不存在显著的线性相关关系。第8章回归分析及SPSS实现习题与思考题(一)填空题1.2.甲模型3.残差4.自变量,因变量5.拟合优度(二)选择题ABDBC(三)判断题×××××(四)简答题1.简述回归分析的全流程。解:回归分析的基本流程为:(1)确定自变量与因变量之间的关系,即判定回归模型的数学形式;(2)参数估计。(3)模型的统计检验(4)模型优化,确定最终模型。2.简述回归分析的概念、基本功能和应用范围。解:线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析自变量是如何影响因变量的过程。根据自变量的个数可以分为一元线性回归分析和多元线性回归分析。回归分析是在相关分析的基础上,进一步探讨自变量对因变量的作用方式和作用强度的方法。3.简述相关分析与回归分析的区别与联系。解:相关分析是对两个或两组变量之间相关关系的测度,相关分析采用相关系数作为测度工具,待分析的变量的地位是平等的。回归分析采用回归模型来度量变量间的作用关系,相关分析中变量的地位是不平等的,自变量是解释变量,用来说明因变量,也即是被解释变量。4.试说明二阶段最小二乘法、加权最小二乘法和普通最小二乘法的关系。解:三种方法都是参数估计的常用方法。二阶段最小二乘法简称2SLS,是一种计量经济学方法,是通过工具变量来实现参数估计,该方法对变量的分布没有限制,变量无论是否正态分布,都可使用。加权最小二乘法是对原模型进行加权,使之成为一个新的不存在异方差性的模型,然后再采用普通最小二乘法估计参数,其是应对异方差问题的数学优化技术。普通最小二乘法是应用最为广泛的一种参数估计方法,其使用需要满足一系列的前提假设,当假设被违背时,就可采用二阶段最小二乘法、加权最小二乘方法或其他方法进行优化和改进。5.什么是多重共线性,它的不良后果是什么,有什么解决方案。解:线性回归模型中的解释变量之间可能存在精确相关关系或高度相关关系,从而使模型估计失真或难以估计准确,这就是多重共线性问题。多重共线性是一个容忍度的问题,当多重共线性比较严重时,会引起模型的参数估计结果异常,或是模型的形式异常等问题,这时就需要做相应的处理。若诊断出引起多重共线性问题的自变量后,可采用直接删除该自变量,或对自变量进行形态转变等方法来消除共线性问题。案例分析题1.调查得到某市出租车使用年限x与当年维修费用y(万元)的数据,如下表所示。试拟合合适的回归模型,用以发现维修费用与使用年限之间的关系。表8-1案例分析1数据使用年限1234567维修费用1.62.23.85.56.57.07.5SPSS数据结构如下:先进行相关分析,根据皮尔逊相关分析的结果看,两个变量之间存在显著的线性相关关系,可以使用线性回归分析方法。以维修费用为因变量,以使用年限为自变量,进行回归分析,结果如下:模型的拟合优度为0.980,调整后拟合优度为0.952,说明线性回归直线对真实数据有较好的拟合性。模型整体线性的F检验结果显示,模型的线性是显著的。参数估计的结果显示,使用年限对维修费用具有显著的正向作用。参数估计结果为1.071,即当其他因素保持不变时,使用年限每增加一个单位,维修费用增加1.071个单位。2.一家皮鞋零售店将其连续18个月的广告投入费用(万元)、销售额(万元)、员工薪酬总额(万元)指标数据进行汇总,如表8-2所示。请根据这些数据建立回归模型,尝试找到销售额与广告投入费用和员工薪酬总额之间的关系。表8-2案例分析2数据月份广告投入销售额员工薪酬总额130.61090.421.1231.3113321.4333.91242.122.9429.61003.221.4532.51283.221.5627.91012.221.7724.81098.821.5823.6826.321933.91003.322.41027.71554.624.71145.5119923.21242.61483.124.313401407.123.11445.81551.329.11551.71601.224.61667.22311.727.517652126.726.51865.42256.526.8输入软件的数据结构如下:判断自变量与因变量之间的线性关系:因变量与自变量之间具有显著的线性相关关系,可以构建线性回归模型。模型的拟合优度为0.852,F统计量为50.022,通过了显著性检验。线性回归模型整体线性性显著,直线对数据的拟合较好。回归参数的T检验结果显示,截距项和薪酬总额的参数没有通过显著性检验,配合着多重共线性的检验结果,薪酬总额可能是引起多重共线性的主要原因,因此将薪酬总额删除,重新构建线性回归模型,得到:广告投入的回归参数为28.513,即广告投入每变化一个单位,可以引起销售额变化28个单位。而薪酬总额对销售额没有显著的作用。另外,由于该题中样本量偏小,当增加样本量后,回归模型对现实的解释会更为精准。3.在一次关于公用交通的社会调查中,收集到28名受访者的信息,包括是否上下班乘坐的交通工具,y=1表示主要乘坐公交车上下班,y=0表示主要骑自行车上下班,此外还获得了受访者的年龄、月收入、性别(1代表男性,2代表女性)。试建立y与自变量的Logistic回归模型。表8-3案例分析3数据序号上下班交通工具年龄月收入性别10188500202186003123150004130180005128150006031850071361500081421850091461950010026100001115518000121562100013023120001401810001150201000116025120011715015001180288501191391800120029100012102895012202910001230381100124022120012514520001260321000127152150012815618001软件输入的数据结构如下:采用二元Logistic回归模型,结果如下:从模型参数估计的结果看,只有性别的参数通过了显著性检验,从模型最终的预测效果看,正确率达到了67.9。第9章聚类分析、判别分析及SPSS实现习题与思考题(一)填空题1.样本,变量2.最近邻元素法、最远邻元素法、组间链接法、组内链接法、质心聚类法、瓦尔德法、中位数聚类3.4.5.类别数(二)选择题DCBDD(三)判断题√×√√√(四)简答题1.简述快速聚类的基本思想和主要步骤。解:快速聚类分析是一个不断迭代的过程,其基本原理和迭代步骤如下:(1)首先需要用户指定聚类成多少类(比如k类)。(2)然后SPSS确定k个类的初始类中心点。SPSS会根据样本数据的实际情况,选择k个由代表性的样本数据作为初始类中心。初始类中心也可以由用户自行指定,需要指定K组样本数据作为初始类中心点。(3)计算所有样本数据点到k个类中心点的欧氏距离。SPSS按照距k个类中心点距离最短原则,把所有样本分派到各中心点所在的类中,形成一个新的k类,完成一次迭代过程。(4)SPSS重新确定k个类的中心点。SPSS计算每个类中各个变量的变量值均值,并以均值点作为新的类中心点。(5)重复上面的两步计算过程,直到达到指定的迭代次数或终止迭代的判断要求为止。2.试分析聚类判别法、贝叶斯判别法和费希尔判别法的异同。解:聚类判别法是统计分组的一种方法,作用在于将社会经济现象总体按照研究目的区分为性质不同的各个组成部分,因此分组时要有一个确定组数和组限的问题。聚类判别法分为三个步骤:在数轴上描点聚类,判断孤立点的归宿,确定各组组限。贝叶斯判别法是根据最小风险代价判决或最大似然比判决,是根据贝叶斯准则进行判别分析的一种多元统计分析方法,该方法在已知先验概率和密度函数的情况下,用贝叶斯公式计算样本来自某个总体的后验概率。费希尔判别法(典型判别)的基本思想是投影,用p维向量的少数几个线性组合来代替原始的p个变量,以达到降维的目的,这些线性组合就称为费希尔判别函数或典型变量。3.什么是判别分析?在分析的各阶段应把握的原则有哪些?解:判别分析是一种比较常用的分类分析方法,它先根据已知类别的事物的性质,利用某种技术建立函数式,然后对未知类别的新事物进行判断以将之归入已知的类别。判别分析的用处很广,除了对个案进行已有类别的归类判断外,还可利用判别分析来对聚类分析结果的准确性进行检验。在分析的各个阶段应把握如下的原则。①事前组别(类)的分类标准(作为判别分析的因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析的效果。②所分析的自变量应是因变量的重要影响因素,应该挑选既有重要特性又有区别能力的变量,达到以最少变量而有高辨别能力的目标。③初始分析的数目不能太少。4.在SPSS中怎样观察输出的冰状图和聚类树形图?解:谱系图以树的形式展现聚类分析的每一次合并过程,可以粗略地表现聚类的过程。SPSS首先将各类之间的距离重新转换到0~25之间,然后再近似地表示在图上。冰柱图通过表格中的“X”符号显示,其样子很像冬天房屋下的冰柱。SPSS默认输出聚类全过程的冰柱图。冰柱图一般从表格的最下一行开始观察。若样本i和j之间的列是最长的,表示第一步这两个样本聚成一类。然后再往上推进一行,做相应判断。5.试说明聚类分析与判别分析的区别与联系。解:聚类分析聚类分析的实质是建立一种分类方法,它能够将一批样本数据按照它们在性质上的亲密程度在没有先验知识的情况下自动进行分类。根据分类对象不同,分为对样本的聚类(Q型聚类)和对变量的聚类(R型聚类)。判别分析是指先根据已知类别的事物的性质,建立函数式,对事物进行判断以将之归入已知的类别中。判别分析的模型按照判别的不同准则可以分为典型判别分析、贝叶斯判别分析、非参数判别分析等不同模型。判别分析既可以对未知类别的样本进行类别判断,也可以用于对已有类别的准确性就行判断。案例分析题1.对市面上售卖的9种酸奶饮品的满意度进行市场调查,分别从甜度、容量、包装、价格、广告五个方面进行满意度评价(采用10分制,分值越高满意度越高),现汇总了受访者对9种品牌5个方面的满意度平均值,如表9-2所示,请根据这些信息将这9种酸奶饮品划分为3类。表9-2酸奶满意度指标品牌甜度容量包装价格广告品牌165948品牌285692品牌376555品牌467944品牌558636品牌696455品牌785864品牌848578品牌997656软件所用数据如下:对样本进行聚类,结果如下:将9个样本聚成三类,第一类包括品牌1、品牌3、品牌4、品牌6、品牌7和品牌9;第二类包括品牌2;第三类包括品牌5和品牌8。聚类结果的谱系图和冰状图均显示如下:2.为了明确诊断出小儿肺炎三种类型,某研究机构得到10名结核性、10名化脓性和10名细菌性肺炎共60名患儿的7项生理、生化指标,其中肺炎类型1代表结核性肺炎,2代表化脓性肺炎,3代表细菌性肺炎。详见下表,若此时得到一位未知类别的患儿,他的7项指标分为为:4.0、1.0、0、0、0、7.0、4.571,请利用判别分析方法判断该名患儿的肺炎类别。表9-3三种类型小儿肺炎7项生理、生化指标样本IDX1X2X3X4X5X6X7肺炎类型13.000127.00.683127.0000046.02.857133.010018.00.667148.0100150.04.5001514.0001191.52.1501613.0101115.08.5001724.0101212.07.600184.010127.01.625192.0001120.09.2501106.0001142.06.071111144.0000043.00.50021284.0101148.01.70021330.0120121.01.84021496.0000130.011.333215132.0100175.55.57121696.0000148.07.00021796.0120073.04.556218120.0100141.04.11121960.0000277.51.42922024.0120022.53.100221108.000006.017.2003223.0100068.03.50032336.0100070.010.6673243.0100125.02.22232512.0100023.04.16732624.0100178.03.41732736.0000043.010.53332824.0000053.024.00032912.0110078.013.667330120.0000025.05.6673应用判别分析方法验证第31个患儿的肺炎类型。数据如下所示,第31名患者信息录入,但是肺炎类型不知,最终给出预测值。应用判别分析,结果如下:判别函数1和判别函数2都能够很好的进行样本类别的判定。典则判别函数的系数矩阵和结构矩阵显示,第一判别函数主要反应X1,X3的信息,第二判别函数反应剩下变量的信息。如果应用fish判别函数,函数参数矩阵如下。因为各种肺炎类型的样本量相等,因此采用各类别先验概率相等的假设。在原始数据保存判别函数下判断的样本类型归属,由此可以看出第31名患儿的肺炎类型为第3种。3.在某大型化工厂的厂区及邻近地区挑选10个有代表性的大气抽样点,每日4次同时抽取大气样品,测定其中含有的5种气体的浓度,前后共测量5天,计算各取样点每种气体的平均浓度,得到如表9-4所示的数据。试用聚类分析法对大气污染区域进行分类。表9-45种气体的相关数据抽样点氯气硫化氢二氧化碳环氧氯丙烷环乙烷10.0570.0410.1130.0150.05820.0330.0610.0560.0190.02630.0250.0240.0470.0120.01740.0230.0360.0480.0120.01450.0280.0270.0610.0120.02360.0310.0310.0800.0120.02770.0270.0220.0790.0080.02680.0260.0270.0560.0110.02590.0800.0300.1770.0100.055100.0590.0390.1010.0150.023数据结构如下:应用系统聚类方法对该10个抽样点进行类别划分,选择平方欧式距离作为测度样本之间距离的方式,选择组内链接法作为小类与小类距离的测算方法,聚类结果如下:从谱系图的结果可以得到,若将所有抽样点分为三个类别的话,9号测试点和1号测试点各种为一个类别,其他8个点为第三个类别。第10章因子分析及SPSS实现习题与思考题(一)填空题1.第i个原始变量和第j个因子变量的相关系数,即在第j个公共因子变量上的相对重要性2.第i个公共因子的重要程度。3.第i行元素的平方和,第j列元素的平方和4.特征值>1,累计方差贡献率>85%5.旋转(二)选择题CDDBA(三)判断题√×√××(四)简答题1.因子分析与主成分的关系如何?解:因子分析是用少量几个因子来描述许多指标或因素之间的联系,以较少的几个因子反应原资料的大部分信息的统计方法。因子分析有两个核心问题:一是如何构造因子变量;二是如何对因子变量进行命名解释。在构造因子变量的时候有很多可供选择的方法,主成分分析方法只是其中的一种方法。2.简述因子分析的主要步骤。解:因子分析有下面4个基本步骤:(1)确定待分析的原有若干变量是否适合于因子分析。(2)构造因子变量。(3)利用旋转使得因子变量更具有可解释性。(4)计算因子变量的得分。3.KMO与巴特利球形检验在因子分析中的功能是什么?解:KMO和巴特利特球形度检验都是用于判断原始变量是否适于作因子分析。原始变量之间存在高度相关性是进行因子分析的前提。4.在因子分析中,为什么要进行因子旋转?最大方差因子旋转的基本思路是什么?解:经过计算直接得到的因子载荷矩阵,其载荷数值彼此相差不大,这样不利于提取公共因子的具体含义。因此可以通过因子载荷矩阵旋转,使得因子载荷的数值向0或1两级分化,以便于快速识别到公共因子主要反映的原始变量的综合含义。最大因子方差旋转法又称正交旋转法,是使各因子仍然保持正交的状态,但尽量使得各因子的方差差异达到最大化,即相对的载荷平方和达到最大,从而方便对因子的解释。5.试说明因子分析模型与线性回归模型的区别与联系。解:因子分析模型的主要目的是通过公共因子的获取来实现数据的降维。在模型中,所有变量的地位是相等的,模型的目的是公共因子的构建和解释,因此因子分析模型并不用来预测。线性回归模型的变量地位不同,所有的自变量都是用来解释和预测因变量的,并且自变量与因变量之间一定存在显著的线性相关关系。案例分析题1.某医院要对医院工作情况进行评估,搜集了近2年各月的门诊人次、出院人数、病床利用率、病床周转次数、平均住院天数、病死率、治愈好转率扥7个指标。请采用因子分析方法,分析评价指标体系。表10-1某医院工作情况评价指标日期门诊人次出院人数病床利用率病床周转次数平均住院天数病死率治愈好转率2019014.3420997.551.2625.632.9293.152019023.4542562.181.2129.301.9992.562019034.3845882.370.3626.542.7396.362019044.1851492.990.9824.893.0994.232019054.5749079.661.2526.954.2198.232019064.0634490.981.0625.101.6996.452019074.4350892.591.3622.305.0399.012019083.5354095.100.9629.103.6595.312019094.1645393.170.6924.063.1494.032019104.8651584.381.3625.892.7796.122019114.0355272.961.5226.362.9697.362019123.9559
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护工和病人协议合同书(2篇)
- 2025年孝感b2货运资格证多少道题
- 2024年物业电梯紧急救援协议3篇
- 2025年临沂货运资格证考试题库
- 2024年度精准岗位聘任合同范本2篇
- 2025年延边下载货运从业资格证模拟考试
- 2025年西宁货运从业资格证网上考试
- 2025年运城货运从业资格证网上考试答案
- 2025年深圳货运从业资格证考试模拟
- 《轮胎生产流程》课件
- 制作同轴电缆接头的方法课件
- 完整版钢箱梁安装及叠合梁施工
- 长亚自动定位打孔机使用说明书
- 第六章、船舶通信设备
- 造价咨询归档清单
- 浅谈如何抓好重点项目前期工作
- 智慧树知到《配位化学本科生版》章节测试答案
- 捐赠合同协议书范本 红十字会
- 4.机电安装项目质量目标与控制措施
- 内蒙古呼和浩特市中小学生家长营养知识现状调查
- 盐碱地改良标准及方法
评论
0/150
提交评论