![第四章数据特征的描述统计_第1页](http://file4.renrendoc.com/view/5991f07effc9fee76c75df91ac52e405/5991f07effc9fee76c75df91ac52e4051.gif)
![第四章数据特征的描述统计_第2页](http://file4.renrendoc.com/view/5991f07effc9fee76c75df91ac52e405/5991f07effc9fee76c75df91ac52e4052.gif)
![第四章数据特征的描述统计_第3页](http://file4.renrendoc.com/view/5991f07effc9fee76c75df91ac52e405/5991f07effc9fee76c75df91ac52e4053.gif)
![第四章数据特征的描述统计_第4页](http://file4.renrendoc.com/view/5991f07effc9fee76c75df91ac52e405/5991f07effc9fee76c75df91ac52e4054.gif)
![第四章数据特征的描述统计_第5页](http://file4.renrendoc.com/view/5991f07effc9fee76c75df91ac52e405/5991f07effc9fee76c75df91ac52e4055.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章数据特征的描述统计分析2/6/20231SPSS的主要分析工具——Analyze菜单报告--Reports描述性统计分析--DescriptiveStatistics菜单表格--Tables均值间的比较--CompareMeans菜单一般线性模型――GeneralLinearModel菜单相关分析――Correlate菜单多元线性回归与曲线拟合――Regression菜单对数线性模型——Loglinear菜单聚类分析与判别分析——Classify菜单因子分析与对应分析——DataReduction菜单信度分析与多维尺度分析——Scale菜单非参数检验――NonparametricTests菜单时间序列分析--Timeseries
2/6/20232
描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在DescriptiveStatistics菜单中,包括:Frequencies:频数分析过程,特色是产生频数表(主要针对分类变量)Descriptives:数据描述过程,进行一般性的统计描述(主要针对数值型变量)Explore:数据探察过程,用于对数据概况不清时的探索性分析Crosstabs:多维频数分布交叉表分析(列联表分析)Ratiostatistics:比率分析2/6/20233第一节报告分析(Report)第二节描述性统计分析第三节比率分析第四节Means过程第五节多选项分析主要内容2/6/20234第一节报告分析(Report)1、OLAP在线分析处理过程2、CaseSummaries个案汇总分析过程3、报告摘要分析过程ReportSummariesinRows行形式摘要报告ReportSummariesinColumns
列形式摘要报告2/6/20235按Analyze—Reports—OLAPCubes顺序单击打开如下对话框:摘要变量框:进入此框变量为数值型变量分层变量框:进入此框变量为数值型或字符型变量1、OLAP(在线分析处理过程)2/6/20236可选择的统计量:Sum总和NumberofCases个案数目Mean均值StandardDeviation标准差PercentofTotalSum占总和的百分比PercentofTotalN占观察量总数的百分比Median中位数GroupingMedian分组中位数Std.ErrorofMean均值标准误Minimum最小值Maximum最大值Range极差First首值Last尾值Variance方差Skewness偏度Std.ErrorofSkewness偏度的标准误Kurtosis峰度Std.ErrorofKurtosis峰度的标准误HarmonicMean调和平均数GeometricMean几何平均数2/6/20237标题对话框输入统计量的标题
输入注解,这些注解将显示在统计量输出栏的下面04-1下面举例说明2/6/2023830名少儿身高数据表4-12/6/20239(1)操作步骤:1)按Analyze—Reports—OLAPCubes顺序单击打开OLAPCubes对话框2)打开数据文件“少儿身高.sav”,将height变量选入SummaryVariable框中,将sex变量作为分组变量选入GroupingVariable框中;3)单击Statistics按钮,在Statistics框中选择Sum、Mean、Median项作为要输出的统计量;4)单击Title按钮,在Title框中输入“少儿身高分层报告”,单击Continue返回;单击OK2/6/2023102/6/202311表4-3个案处理摘要
表4-2说明个案的一些基本情况,包括总个数、有效值个数和缺省值个数。表4-3是分层报告,输出了总和、均值和中位数。表4-2(2)输出结果及分析2/6/2023122、个案汇总分析过程Ⅰ、主要功能
计算指定变量的分组统计量,分组变量可能是一个,也可以有多个。如是多个,则将所有水平进行交叉分组。每个组中,变量值可以显示或不显示。Ⅱ、个案汇总分析按Analyze—Reports—CaseSummaries顺序单击打开CaseSummaries对话框。2/6/202313可在参数框中输入数值,该数值表示分析过程只对前几个个案进行带有缺省值的个案不被显示在列出个案的同时,显示个案的序号分组变量:可选择一个或多个待分析变量:数值型或字符型变量。SummarizeCases对话框见下图2/6/202314输入脚注在输出结果中显示各分组统计量的标题在分析过程中剔除带有缺失值的个案键入一个字符以便在输出结果中标记缺失值输入标题Ⅲ、例题分析:
对表4-1资料(数据文件为“04-1少儿身高.sav”)进行个案汇总分析。Options对话框2/6/202315
1)打开数据文件“04-1少儿身高.sav”2)打开CaseSummaries对话框,将height选入Variables框中,作为汇总分析的变量,将sex和grade选入GroupingVariables框中作为分组变量。3)清除Displaycases复选框。4)单击Statistics按钮,在Statistics框中选择Numberofcases、Mean、Median项作为要输出的统计量;单击Continue返回。5)单击OK(1)操作步骤2/6/2023162/6/202317表4-4个案处理摘要
表4-4说明个案的总个数、有效值个数和缺省值个数以及各占的百分比。(2)输出结果及分析2/6/202318分组统计量
表4-5分三部分,1、男生身高的基本统计量,2、女生身高的基本统计量,3、全部身高的基本统计量。在每部分中又包括分年级进行的统计和总的统计,这就是交叉分组。表4-52/6/202319Ⅰ、主要功能把个案的统计结果用一种简单扼要的表格输出,有助于更好地把握数据的分布特征。Ⅱ、行形式报告摘要按Analyze—Reports—ReportSummariesinRows顺序,打开SummariesinRows对话框。3、报告摘要分析过程2/6/2023202/6/202321输入变量的列标题,不输入则将输出变量的标签或名称选择列标题对齐的方式选择变量值所处的位置以缩进的形式输出,可输入缩进数值;变量值位于列中央键入列宽数值,如不设列宽,则:如输出数值标签,则列宽为数值标签中的最长者;如输出变量值,则列宽为变量所定义的宽度;如设置了列标题,则列宽为标题的最长者;如未设置列标题,则列宽为输出的变量标签的最长者。选择输出的内容:将输出变量值将输出变量标签Format对话框2/6/202322输出列变量之和。输出列变量的均值。输出列变量中的最小值。输出列变量中的最大值。输出列变量中个案的数目。输出列变量中高于Value框中设定值的个案占总数的百分比输出列变量中低于Value框中设定值的个案占总数的百分比输出列变量中位于Low和Hight框中设定值之间的个案占总数的百分比输出标准差。输出输出峰度。输出方差。输出偏度。Summary对话框2/6/202323Report栏的Option对话框进行缺失值和输出页码的设置:剔除带有缺失值的观测量输入一个代表系统的和用户的缺失值字符设置报告的起始页码可进行页面设置:可输入分组变量间的间距行数(不超过20)每个分组变量都在新的一页输出在新的一页输出下一个分组变量,并接着上一页的页码输出下一页的页码输入设置分组标题和报告内容之间的间距,最多可插入20行空白BreakColumn中的Options对话框2/6/202324所输数值表示报告的每一页输出从第几行开始所输数值表示报告的每一页输出在第几行结束规定每一页输出的左边间距规定每一页输出的右边间距选择报告输出内容的对齐方式设置页面的标题、脚注和页面的距离:设置标题与报告的距离设置注脚与报告的距离决定分组变量显示的位置:所有的分组变量值均位于第一列,激活Indentaneachbreak参数框在此框中设置分类变量值缩进的位置。默认为2空格设置列标题的输出格式:在标题下添加下划线设置列标题下的空白行(默认为2)选择列标题的对齐方式设置分组变量的显示位置:显示在统计量的上一行显示于统计量的同一行,并覆盖统计量标题设置分组变量与统计量之间的空白行数Report栏的Layout对话框2/6/202325按Next进入下一行的设置,按Previous返回上一行对齐方式选择特殊变量的值作为标题与注脚在此对话框可规定标题与注脚的输出内容和格式,最多可设置10行Report栏的Titles对话框2/6/202326Ⅲ、列形式报告摘要列形式报告摘要与行形式报告摘要不同之处在于:行形式报告摘要中汇总统计量位于行上,而列形式报告摘要中汇总统计量位于列上。按Analyze—Reports—ReportSummariesinColumns
顺序,打开SummariesinColumns对话框。2/6/202327SummariesinColumns对话框
将要分析的变量选入此框,每选一个变量进入框内,可以单击Format按钮,打开Format对话框(与前同),设置该变量输出格式(其他方面设置见下图)。2/6/2023281、DataColumns栏1)Summary对话框与行形式基本同,不同是只能选择一个统计量2)Format对话框与行形式同
3)
InsertTotal按钮按Summary按钮,出现Summary对话框(如右)InsertTotal按钮的Summary对话框至少挑选2个参与计算合计的变量,并将其移入右边变量框。在SummariesinColumns对话框中单击InsertTotal按钮,新增Total变量2/6/202329
1)Options对话框(见下图)2)Format对话框与“行形式”同3)SortSequence栏:确定分组变量升降排序规则4)Dataarealreadysorted复选框,已将分组变量排序2、BreakColumns栏显示每一类分组变量小计结果,在Label框中键入分组变量的标签在此栏中设置页面:分组变量间的间距行数,输入值不超过20每个分组变量都在新的一页输出在新的一页输出下一个分组变量,并接着上一页顺序编写页码在此栏中设置小计前的空白行数2/6/2023303、Preview复选框:只输出报告的第一页,便于用户预览4、Report栏
Options如下图
Layout对话框与“行形式”同
Titles对话框与“行形式”同Options对话框在每一页的底部显示该列的总和,在Label框中键入标签剔除带有缺失值的个案输入一个代表系统和用户的缺失值的字符设置报告的起始页2/6/202331将表4-1资料(数据文件“04-1少儿身高.sav”)进行分析:先做行形式报告输出,再做列形式报告输出。(1)单个分组变量的行形式报告按Analyze—Reports—ReportSummariesinRows顺序,打开SummariesinRows对话框。挑height变量进入Data框,grade变量进入Break框。单击BreakColumns栏的Summary按钮,打开SummaryLinesforgrade对话框,选中MeanofValues、NumberofCases复选框,再按Continue返回SummariesinRows对话框。选中Displaycases复选框。单击Titles按钮,打开Titles对话框,在标题栏的Center框中输入标题“少儿身高分组统计”,再按返回。单击“OK”完成,输出结果见表4—6。Ⅳ、例题分析2/6/2023322/6/202333个案分组报告少儿身高分组统计年级身高----------------------四年级121.40134.10135.80135.50133.40140.30120.90141.40Mean132.85N8五年级131.50132.60140.40137.40128.20129.00129.30132.70130.10139.70133.00124.00138.80138.60MEAN133.24N14六年级129.20136.00132.20140.90136.70137.50125.40137.50Mean134.42N8列出了个案按年级分组后的汇总表表4-62/6/202334打开SummariesinRows对话框,挑选height变量进入Data框,sex、grade变量进入Break框。单击Summary按钮,选中Standarddeviation、Kurtosis、Skewness等。选中Break栏中的sex变量,单击
Summary按钮,选中MeanofValues、NumberofCases、MinimumValue和MaximumValue,再按Continue返回。选中Break栏中的grade变量,单击Summary按钮,选中MeanofValues、NumberofCases复选框,再按Continue返回。单击“OK”完成,输出结果见表4-7。(2)两个分组变量的行形式报告2/6/2023352/6/202336
少儿身高分组统计性别年级身高-------------------------男四年级Mean131.70N4五年级Mean132.63N7六年级Mean134.57N4Mean132.90Minimum121.40Maximum140.90N15女四年级Mean134.00N4五年级Mean133.84N7六年级Mean134.27N4Mean134.00Minimum129.90Maximum141.40N15GrandTotalStd.Dev5.70Kurtosis-.29Skewness-.63表分为3部分:1.男生统计量表:各年级的均值和个数,全体男生的均值、个数、最大值和最小值;2.女生统计量表:各年级的均值和个数,全体女生的均值、个数、最大值和最小值;3.全体的统计量:标准差、偏度和峰度。
两个分组变量的行形式报告表4-72/6/202337(3)两个分组变量的列形式报告打开SummariesinColumns对话框,挑height变量进入Data框;单击Report栏中的Options对话框,选中Displaygrandtotal复选框,再按Continue返回;单击
Summary按钮,选中MeanofValues,再按Continue返回。先后挑选sex、grade变量进入Break框。单击Titles按钮,打开Titles对话框,在标题栏的Center框中输入标题“少儿身高分组统计”,再按Continue返回。单击“OK”完成,输出结果见表4-8。2/6/2023382/6/202339
少儿身高分组统计身高性别年级Mean________________________男4133.45131.36134.6女5134.0GrandTotal133.5表分为3部分:1.男生的均值表,按各年级算出均值;2.女生的均值表,按各年级算出均值;3.全体的均值。两个分组变量的列形式报告表4-82/6/202340第二节描述性统计分析(DescriptiveStatistics)1、Frequencies频数分析表2、Descriptive描述性统计分析过程3、Explore探索分析过程4、Crosstabs列联表分析过程2/6/2023411、频数分析表Ⅰ、主要功能可对数据按组进行归类整理,形成变量不同水平的频数分布表和图形,对数据的分布趋势进行初步分析。Ⅱ、频数分析按Analyze-DescriptiveStatistics-Frequencies顺序,打开Frequencies对话框。2/6/202342将一个或多个变量向右移入Variable(s)框。按Statistics按钮,打开Statistics对话框显示频数分布表按Chart按钮,打开Chart对话框按Format按钮,打开Format对话框Frequences主对话框2/6/202343
输出百分位数:输出四分位数,显示25%、50%、75%的百分位数;将数据平均分为所设定的相等等份,可输入2—100的整数,如键入4则输出第25、50、75百分位数自定义百分位数,可输入0—100的整数。输入值后:按Add:输入值后按此键,可反复操作键入多个百分位数;按Remove:删除已键入的数值按Change:重新输入新数离散趋势栏分布形状栏在计算百分位数值和中位数时,假设数据已分组,且用各组的组中值代替各组数据集中趋势栏输出统计量对话框2/6/202344Chart对话框不输出任何图形,为默认输出条形图,各条高度代表变量各分类的频数输出圆图,圆图中各块的数值表示各分类变量的频数输出直方图,此图仅适用于区间型数值变量。选择此项后,还可选择Withnormalcurve,画出的直方图带有正态曲线只有选择了条形图和圆图项才有效,决定纵轴表示的统计量纵轴表示频数纵轴表示百分比2/6/202345Format对话框控制频数表输出的分类数量,默认为10。多变量框中可设定多变量表格输出的格式设置频数表输出的格式选择频数表中排列顺序按变量升序排列,此为默认按变量降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列2/6/202346表4—9100名大学生血清蛋白含量(%)Ⅲ、例题分析04-2对某高校100名大学生血清蛋白含量(g%)做频数分析,数据如表4—92/6/202347(1)具体步骤打开数据文件“大学生血清.sav”,按Analyze—DescriptiveStatistic—Frequencies顺序,打开Frequencies对话框。将变量xdh移入Variable(s)框,选中Displayfrequencytables复选框,要求输出频数分布表。单击Statistics按钮,选择要输出的统计量。单击Chart按钮,选择Histogram项,输出直方图,并选择Withnormalcurve复选框,输出正态曲线。单击Format按钮,选Ascending项。单击“OK”完成。2/6/202348血清蛋白含量的直方图
血清蛋白含量的统计表(2)输出结果及分析2/6/202349血清蛋白含量的频数分布表2/6/202350Ⅰ、主要功能调用此过程对变量进行描述性统计分析,计算均值、标准差、全距和标准误差等,并可将原始数据转换成Z分数。Ⅱ、描述统计量分析按Analyze/DescriptiveStatistics/Descriptives顺序单击,打开Descriptives主对话框。如图在左边框中选一个或多个变量移入如选中此框,将对Variables框中选择的变量进行标准化,产生相应的Z分数,并作为新变量保存到数据窗口,其变量名在原变量名前加z。Descriptives对话框
2、描述性统计分析过程2/6/202351Options对话框
基本统计量当Variables框中有多个变量时,此框确定其输出顺序:按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列分布Ⅲ、例题分析
04-3已知20个初生婴儿的体重数据如下表,对其进行描述统计分析。2/6/2023522770291527952995286029703087312631254654227235034218341839212669370723102573388120个初生婴儿的体重(g)(1)操作步骤:打开数据文件“婴儿体重.sav”。打开Descriptives主对话框,选定变量t进入Variable(s)栏中。选中Savestandardizedvaluesasvariables复选框,要求计算变量的z值,并保存结果到当前数据集中。单击Options按钮,选中Mean、Std.Deviation、Minimum、Maximum、Variance项。(2)输出结果及分析2/6/202353婴儿体重的描述统计量这时打开原数据集,可看到多了一列zt,这是t的z分数,如下图所示:保存了z分数的数据集2/6/202354Ⅰ、主要功能调用此过程可检查数据是否有错误、考察样本分布特征及对样本分布规律作初步考察,剔除奇异值和错误数据。探索分析过程将提供在分组或不分组的情况下常用的统计量与图形。Ⅱ、探索分析按Analyze--DescriptiveStatistics--Explore顺序单击,打开Explore主对话框,如下图:3、探索分析过程2/6/202355选择一个或多个变量进入Dependent框作为因变量,单击OK可获得因变量的一系列基本统计量和图形。此作为分组变量,可以是字符变量,对因变量的分析将按该变量的观测值进行分组分析。可有多个分组变量,这时会按多个变量的交叉组合进行分组。该框中的变量作为标识符,在输出诸如异常值时,用该变量进行标识,只允许有一个标识符。可同时输出基本统计量和图形只输出基本统计量只输出图形Explore主对话框2/6/202356输出基本统计量均值的置信区间,可键入1—99%的任意值,根据该值算出置信区间的上下限。给出中心趋势的最大似然比的稳健估计量,当数据分布均匀,且两尾较长,或当数据中存在极端值时,可给出比均值或中位数更合理的估计。输出最大和最小的5个数,且在输出窗口中加以标明。输出5%、10%、25%、50%、75%、90%和95%的百分位数。Statistics对话框2/6/202357只有指定分组变量才有效,可输出分布—水平图,同时输出回归直线斜率以及对方差的Levene’s检验不输出分布—水平图对每组数据产生一个中位数与四分位数范围的自然对数散点图,同时在满足每组数据方差相等的条件下对数据进行幂变换的估计。根据在Power参数框中指定的变换对原始数据进行变换。不对数据进行转换Explore栏中Plots对话框在此对话框中可选择要输出的统计图形及其参数。Boxplots栏只有在主对话框中指定了一个以上变量时,才有效。在该栏选择箱线图的输出方式:每一个因变量生成一个箱线图所有因变量生成一个箱线图不显示任何箱线图生成茎叶图(默认)生成直方图输出正态概率和离散正态概率图,同时输出K-S统计量中的Lilliefors显著水平检验,如果观测数不超过20,将用W-S统计量代替K-S统计量。2/6/202358确定缺失值的处置:因变量或分组变量中带有缺失值的观测量都将在分析过程中被剔除。在分析过程中根据分组变量产生的组中带缺失值的观测量都将被剔除。分组变量的缺失值被单独分为一组,输出频数时将标出缺失组。Explore栏中Options对话框Ⅲ、例:04-4下表为30名10岁少儿的身高(cm)数据,对其进行探索分析编号身高编号身高编号身高男女男女男女1131.5132.76135.5137.511132.2124.02137.4133.07121.4141.412129.0140.33128.2139.78129.2138.813132.6130.14136.0125.49135.4120.914140.9133.45140.4138.610135.8137.515129.3136.72/6/202359(1)操作步骤打开数据文件“04-4Explore分析.sav”,打开Explore主对话框,选变量height进入DependentList栏中,选sex变量进入FactorList栏中;在Display栏中选择Both项;打开Statistics对话框,选中Descriptives、M-estimation、Outliers复选项,单击Continue返回;打开Plots对话框,选择Boxplots栏中的Factorlevelstogether项,选择Descriptives栏内的Stem-and-leaf复选项,选择SpreadvslevelwithleveneTest栏中的Powerestimation项,单击Continue返回。单击OK。(2)输出结果及分析
2/6/202360个案摘要表M估计量表表4-13表4-142/6/202361少儿身高的分组描述统计量表4-152/6/202362少儿身高的极端值方差一致性检验表4-16表4-172/6/202363HIGHTStem-and-LeafPlotforSEX=1FrequencyStem&Leaf1.0012.14.0012.89993.0013.1225.0013.555672.0014.00Stemwidth:10.00Eachleaf:1case(s)少儿身高的茎叶图少儿身高的箱线图2/6/202364
结果分析表4-13摘要性地说明了数据的基本情况,包括总数、有效值数目和缺失值数。表4-14是按性别分组后的统计量表,上半部分是男生,下半部分是女生的。表4-15下面的a、b、c、d分别表示四种加权常数,此表的结果是使用四种不同的方法计算出的M估计量的结果。表4-16显示分组后少儿身高的极端值分布,最大值和最小值各取5个。表4-17是方差的一致性检验,零假设是分组后的方差为相等的。表中四行是依据不同的统计量得到的检验,分别是基于均值、基于中位数、基于中位数与调整后的自由度和基于调整后的均值。由于其P值均大于0.05,不能否定零假设,即可以认为男生和女生的身高的方差是无差异的。2/6/202365茎叶图从左到右分为三部分:频数、茎和叶、茎是整数部分,叶是小数部分,Stemwidth表示茎宽。每行的茎和叶组成的数字再乘以茎宽,即得到实际数据的近似值,实际数据中与该近似值靠近的值的个数即为频数表示的个数。箱线图各部分的含义:方箱是箱线图的主体,上下边为四分位数,中间粗线为中位数,变量的50%的观测值落在这一区域中。方箱上下两条纵向直线是触须线,触须线外的两端线为本体的最大值和最小值。本体指除奇异值外的变量值。奇异值用“o”表出,本例中无奇异值。2/6/202366
4、列联表分析过程Ⅰ、主要功能
调用列联表分析过程可进行计数资料和某些等级资料的列联表分析,一个行变量和一个列变量可组成一个二维列联表,如再加一个控制变量则可组成一个三维列联表。而多个行、列、控制变量就可组成一个复杂的多维列联表。在分析中可对二维和多维列联表资料进行统计描述和χ2检验,并计算相应的百分数指标。此外,还可计算四格表确切概率(Fisher’sExactTest),且有单双侧(One-Tail、Two-Tail)、对数似然比检验(LikelihoodRatio)以及线性关系的Mantel-Haenszelχ2检验。2/6/202367交叉列联表分析统计学上的定义和计算公式定义:前面的分析都是对单个变量的数据分布情况进行分析。但在实际分析中,还需要掌握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系,这种分析就称为交叉列联表分析。2/6/202368
交叉列联表分析除了列出交叉分组下的频数分布外,还需要分析两个变量之间是否具有独立性或一定的相关性。要获得变量之间的相关性,仅仅靠频数分布的数据是不够的,还需要借助一些变量间相关程度的统计量和一些非参数检验的方法。2/6/202369常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行列变量往往不是连续变量,不符合计算简单相关系数的前提条件。因此需要根据变量的性质,选择其他的相关系数,如Kendall等级相关系数、Eta值等。2/6/202370SPSS提供了多种适用于品质变量数据的相关系数,这些检验的零假设是:行和列变量之间彼此独立,不存在显著的相关关系。SPSS将自动给出检验的相伴概率,如果相伴概率小于显著性水平0.05,那么应拒绝零假设,认为行列变量之间彼此相关。2/6/202371计算公式如下(1)卡方统计量检验是常用的检验行列变量之间是否相关的方法。交叉列联表的卡方检验零假设是:行列变量之间独立,计算公式为注:其自由度为(行数−1)×(列数−1)。2/6/202372(2)Contingencycoefficient:列联系数。用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,公式为其中,N为有效个案数。(3)Phi相关系数:2/6/202373
(4)Gramer’sV:V系数。用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,公式为数值界于0~1之间,其中K为行数和列数较小的实际数。2/6/202374列联表分析过程Ⅱ、列联表分析程序
按Analyze--DescriptiveStatistics--Crosstabs顺序打开Crosstabs主对话框,见下页:2/6/202375该框中的变量作为分布表中的行(列)变量,必须是数值型或字符型分类变量。该框中的变量作为控制变量,决定频数分布表中的层,可有多个控制变量,如要增加新的控制变量,按Next键,要修改以前的变量按Previous键显示每一组中各变量的分类条形图只输出统计量,不输出多维列联表。Crosstabs对话框2/6/202376行和列变量相互独立的假设检验,有多种检验法。进行相关系数的检验,有两项结果显示:Pearson相关系数和Spearman相关系数适用于定类变量的统计量:基于卡方检验基础上对相关性的检验用来描述相关性当用自变量预测因变量时,此系数反映这种预测降低错误的比率。显示不确定系数,表示用一个变量来预测其他变量时降低错误的比率适用于定序变量:Gamma系数反映两个有序变量间的对称相关性。是Gamma检验的非对称推广。对有序变量和秩变量相关性的非参数检验。与Kendall’stau-c相似适用于定序变量:用于检验相关性用于检验两个评估人对同一对象的评估是否具有一致系。检验某事件发生和某因子之间的关系进行两个相关的二值变量的非参数检验进行一个二值因素变量和一个二值响应变量的独立性检验。Crosstabs的Statistics对话框2/6/202377Crosstabs的CellDisplay对话框选择在列联表中输出的统计量,包括观测量数、百分比、残差输出观测值的实际数量如果行和列变量在统计上是独立的或不相关的,那么会在单元格中输出期望的观测值的数量。输出单元格中观测量的数目占整行全部观测量数目的百分比输出单元格中观测值的数目占整列全部观测量数目的百分比输出单元格中观测量的数目占全部观测量数目的百分比计算非标准化残差计算标准化残差计算调整后残差2/6/202378TableFormat对话框决定各行的排列顺序:各行的排列按升序各行的排列按降序Ⅲ、例题
04-5为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况如下:吸烟和慢性支气管炎调查表患慢性支气管炎未患慢性支气管炎吸烟43162不吸烟131212/6/202379输入数据:变量n为采得的数据;变量x为是否吸烟:1为吸烟,2为不吸烟;变量h为是否患病:1为患病,2为不患病。数据文件名为“Crosstab.sav”。在Data菜单中选WeightCases…项,打开WeightCases对话框。
WeightCasesby,再将变量n选入FrequenceVariable框,单击OK完成加权。按Analyze--DescriptiveStatistics--Crosstabs
顺序打开Crosstabs主对话框。将x变量选入Row框作为行变量,将h变量选入Column框作为列变量。打开Statistics对话框,选中Chi-square\Contingencycoefficient和PhiandCramer’sV复选框,单击Continue返回。单击Cell按钮,打开Celldisplay对话框,选中observed和Expected复选框,单击Continue返回;单击OK。(1)操作步骤2/6/202380统计摘要表,列出观测量有效值个数、缺失值个数和总的个数。从下页的列联表中可看出,吸烟人中患病者有43人,比期望值33.9大,不吸烟人中患病者只有13人,比期望值22.1小。(2)输出结果及分析
输出结果如表:吸烟与患病统计摘要表2/6/202381吸烟与患病列联表卡方检验2/6/202382卡方检验表,从表中可看出,Chi-Square值为7.469,P值为0.006<0.05,应否定零假设,即认为吸烟与患慢性支气管炎是不独立的。由于使用卡方检验要求每个单元格频数不少于5,当条件不满足时,还可用Fisher精确检验,其双侧检验P值为0.007。列联表中变量之间相关程度测量,主要通过计算品质相关系数进行检验。品质相关系数检验表2/6/202383第三节比率分析1.比率分析的目的和主要指标比率分析用于对两变量间变量值比率变化的描述分析,适用于数值型变量。例如根据[04-6]各地区保险业务保费收入的数据,分析各地区财产保险业务的保费收入占全部业务保费收入的比例情况。2/6/202384
通常的分析可以生成各个地区财产保险业务的保费收入占全部业务保费收入的比率变量,然后对该比率变量计算基本描述统计量(如均值、中位数、标准差、全距等),进而刻画比率变量的集中趋势和离散程度。SPSS的比率分析除能够完成上述分析外,还提供了其他相对比描述指标,大致也属于集中趋势描述指标和离散程度描述指标的范畴,具体包括:2/6/202385(1)加权比率均值(Weightedmean):两变量均值的比,属集中趋势描述指标。(2)AAD(AverageAbsoluteDeviation)平均绝对离差:是对比率变量离散程度的描述,计算公式为:其中,是比率数,M是比率变量的中位数,N为样本数2/6/202386(3)COD(CoefficientofDispersion)离散系数:也是对比率变量离散程度的描述,计算公式为:(4)PRD(Price-relatedDifferential)相关价格微分:是比率均值与加权比率均值的比,也是比率变量离散程度的描述。2/6/202387(5)COV变异系数:用于对比率变量离散程度的描述,分为基于均值的变异系数(MeancenteredCOV)和中位数的变异系数(MediancenteredCOV)。前者是通常意义下的变异系数,是标准差除以均值;后者定义为:2/6/2023882.比率分析的基本步骤(1)选择菜单Analyze-DescriptiveStatistics-Ratio,出现如下窗口2/6/202389(2)将比率变量的分子选择到Numerator框中,将比率变量的分母选到Denominator框中。(3)如果做不同组间的比率比较,则将分组变量选择到GroupVariable框中。(4)单击Statistics按钮指定输出哪些关于比率的描述统计量,出现如下窗口:至此,SPSS将自动计算比率变量,并将相关指标输出到输出窗口中。2/6/202390第四节Means过程一、Means过程
该过程实际上更倾向于对样本进行描述,可以对需要比较的各组数据计算描述指标,包括均值、标准差、总和、观测量数、方差等一系列单变量统计量。二、完全窗口分析
按Analyze—CompareMeans—Means顺序,打开Means主对话框(如图4-1)。2/6/202391图4—1Means主对话框该框的变量为因变量,即用于分析的变量。该框的变量为自变量,必须至少有一个变量单击此按钮,进入下一层,返回则按Previous按钮。见图4—22/6/202392Statistics框:供选择的统计量StatisticsforFirstLayer复选框:Anovatableandeta:进行分组变量的单因素方差分析并计算eta统计量。Testforlinearity:产生因变量与第一层自变量的R和R2。
图4—2Options对话框CellStatistics框:
选入的描述统计量,默认为均值、样本数、标准差。2/6/202393三、[04-7]例题分析
某医生测得如下血红蛋白值(g%),用Means过程对其做基本的描述统计分析。表5-1血红蛋白值(g%)编号性别年龄血红蛋白值hb编号性别年龄血红蛋白值hb编号性别年龄血红蛋白值hb111813.661511610.88291167.88211810.57161189.653011812.35311612.56172168.363111613.6542179.871811811.66322169.8752178.99192188.543321810.09621711.35202177.783421812.55711714.562121611.363511816.04811612.402211612.783611813.7892168.052311815.093711711.671011814.03242188.673811710.981121812.83252178.56392168.781211615.502621812.564011611.351321812.252721711.561421710.062811614.672/6/2023941、操作步骤
1)打开数据文件“血红蛋白.sav”。2)按顺序AnalyzeCompareMeansMeans打开主对话框(设置见图4-3)。3)单击Option,打开Options对话框,选择统计量(设置见图4-5)。4)单击OK完成。2/6/202395选hb选sex按Next,进入layer2of2,选age图4—3在主对话框选送变量图4—4第二层变量框2/6/202396选择统计量按此按钮复选此2项,对第一层次分组数据进行方差分析和线性检验图4—5Options对话框2/6/202397表4—18个案概要表
表4—18是个案概要表,个案总个数为40,其中有效值为40个、无效值为0。2.结果及分析2/6/202398表4—19分组描述统计量
表4—19分三部分:第一、二部分先按性别分组,再按年龄分组计算观测值合计、均数、标准差、方差和个数;第三部分只按年龄分组,最后一行为合计。2/6/202399表4—21按年龄分组的描述统计量表4—20按性别分组的描述性统计量
血红蛋白*性别
血红蛋白*年龄
表4—20、21是将sex和age一起放在layer1of1中,分别计算男、女(不作年龄分组)。年龄分三组(不作性别分组)的观测值合计、均数、标准差、方差和个数。2/6/2023100表4—22方差分析表
表4—22是方差分析表,共6列:第一列方差来源:组间的、组内的、总的方差;第二列为平方和;第三列为自由度;第四列为均方;第五列为F值;第六列为F统计量的P值,P值小于0.05,所以性别对血红蛋白值有显著影响。2/6/2023101表4—23eta统计量
表4—23是eta统计量表,η统计量表明因变量和自变量之间联系的强度,0.567的值处于中等水平,η2是因变量中不同组间差异所解释的方差比,是组间平方和与总平方和之比,即由64.5256除以200.787得到。2/6/2023102表4—24按年龄分组的方差分析表
表4—24是将年龄作为第一层自变量得到的方差分析表,Linearity是假设因变量均值是第一层自变量值的线性函数,DeviationfromLinearity是不能由线性模型解释的部分。2/6/2023103表4—25按年龄分组的eta统计量表4—25是将年龄作为第一层自变量得到的eta统计量表,R和R2测度线性拟合优度,R是观测值与预测值之间的相关系数。2/6/2023104第五节多选项分析(频数分析和交叉分析)多选项问题的概念:多选项问题是根据实际调查的需要,要求被调查者从问卷给出的若干个可选答案中选择一个以上的答案。目前,市场研究或许多领域对某事物评价的研究中常常遇到这样的问题。可以选多个,分为限选和不限选:限选:如在11种工作种类中,选你喜欢的,最多可选4种(Var1-Var4);求所有人喜欢各种工作的频数或频率。不限选:如在所列的20种电器中,你家所拥有的电器,不限选(Var1-Var20),求所有被调查家庭拥有各种电器的频数或频率。2/6/20231051.多选项问题的分解多选项问题的分解通常有两种方法:多选项二分法;多选项分类法。多选项二分法及其编码(multipledichotomiesmethod):多选项二分法是将多选项问题中的每一个答案设为一个SPSS变量,每个变量值有0或1两个取值,分别表示选择该答案和不选择该答案。如对下面问题有9个可能的答案,每个可选择的答案由一个变量表示,每个变量的值只有表明“是”和“否”的两个代码0或1。编号调查内容选
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 跨国专有技术买卖合同书
- 公共服务领域清洁卫生合同
- 高尔夫球场租赁合同
- 2022火电厂铁路专用线安全管理标准
- 第十六章 区域发展 第2讲 产业转型地区的结构优化高考地理第一轮复习课件
- (高清版)DB11∕T 2385-2024 外保温复合装饰线应用技术规程
- 《信号调制解调》课件
- 2025至2031年中国抽油机专用皮带转离合器行业投资前景及策略咨询研究报告
- 《频度副词讲解》课件
- 2025至2031年中国TPE密封条行业投资前景及策略咨询研究报告
- 初二上劳动技术课件电子版
- 创业计划书模板-创业计划书-商业计划书模板-项目计划书模板-商业计划书30
- 医院护理带教老师竞聘课件
- DB23T 3539-2023 金属非金属矿山采掘施工企业安全生产标准化评定规范
- 四川虹科创新科技有限公司高强超薄耐摔玻璃智能制造产业化项目环境影响报告
- 多联机空调系统设计课件
- 烛之武退秦师 全市一等奖
- 提高高中教学质量的几点建议
- 地形图林地的勘界及面积测量-林地实地勘界与勾绘(森林调查技术)
- 技术规范书柴油发电机组
- 新华字典第12版电子版
评论
0/150
提交评论