版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(优选)第五基本统计分析现在是1页\一共有122页\编辑于星期五内容提要1、频数分析(重点:统计量含义、相互联系)2、描述统计3、列联表分析(掌握分析适用条件、作用、结果判定)4、多选项问题多选问题赋值方法(重点掌握)定义多选变量集合(重点掌握)多选变量的频次分析(重点掌握)多选变量的列联表分析(重点掌握)5、探索分析(了解分析工作的作用、掌握假设检验的判断/认识茎叶图)6、比率分析(了解)现在是2页\一共有122页\编辑于星期五SPSS的主要分析工具——Analyze菜单报告--Rports描述性统计分析--DescriptiveStatistics菜单表格--Tables均数间的比较--CompareMeans菜单一般线性模型――GeneralLinearModel菜单相关分析――Correlate菜单多元线性回归与曲线拟合――Regression菜单对数线性模型——Loglinear菜单聚类分析与判别分析——Classify菜单因子分析与对应分析——DataReduction菜单信度分析与多维尺度分析——Scale菜单非参数检验――NonparametricTests菜单时间序列分析--Timeseries
现在是3页\一共有122页\编辑于星期五
SPSS基本统计分析(描述性统计分析)的作用:分析数据的基本统计特征(如集中度、离散度等);分析数据的总体分布情况;是下一步的建模和进行正确统计推断的先决条件。现在是4页\一共有122页\编辑于星期五SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在DescriptiveStatistics菜单中,包括:Frequencies:频数分析过程,特色是产生频数表(主要针对分类变量)Descriptives:数据描述过程,进行一般性的统计描述(主要针对定距型变量)Explore:数据探察过程,用于对数据概况不清时的探索性分析Crosstabs:多维频数分布交叉表分析(列联表分析)Ratiostatistics:比率分析,用于两个定距型变量间变量值比率变化分析。现在是5页\一共有122页\编辑于星期五5.1频数分析5.1.1频数分析的目的和基本任务
1、目的:基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。(如:样本是否有代表性、抽样是否存在系统性偏差等)
适用对象:主要是定序或分类变量现在是6页\一共有122页\编辑于星期五
2、基本任务(1)频数分析的第一个基本任务是编制频数分布表(可选项)。频数(Frequency):即变量值落在某个区间(或某个类别)中的次数百分比(Percent):即各频数占总样本数的百分比有效百分比(ValidPercent):即各频数占有效样本数的百分比,这里有效样本数=总样本-缺失样本数累计百分比(CumulativePercent):即各百分比逐级累加起来的结果。最终取值为100。现在是7页\一共有122页\编辑于星期五
(2)频数分析的第二个任务是绘制统计图条形图(BarChart):用宽度相同的条形的高度或长短来表示频数分布(或百分比)变化的图形,适用于定序和定类变量的分析。饼图(PieChart):用圆形及圆内扇形的面积来表示频数(或百分比)变化的图形,以利于研究事物内在结构组成等问题。直方图(Histograms):用矩形的面积来表示频数分布变化的图形,适用于定距型变量的分析。现在是8页\一共有122页\编辑于星期五5.1.2频数分析的基本操作(1)选择菜单Analyze—DescriptiveStatistics—Frequencies。(2)将若干频数分析变量选择到Variable(s)框中。(3)单击Chart按钮选择绘制统计图形,在ChartValues框中选择条形图中纵坐标(或饼图中扇形面积)的含义,其中Frequencies表示频数;Percentages表示百分比。
现在是9页\一共有122页\编辑于星期五5.1.3SPSS频数分析的扩展功能
1、计算分位数(PercentileValues)分位数是变量在不同分位点上的取值。分位点在0-100之间。一般使用较多的是四分位点(Quartiles),即将所有数据按升序排序后平均等分成四份,各分位点依次是25%,50%,75%。于是四分位数便分别是25%,50%,75%点所对应的变量值。此外,还有八分位数、十六分位数等。
SPSS提供了计算任意分位数的功能,用户可以指定将数据等分为n份(Cutpointsfornequalgroups)。还可以直接指定分位点(Percentile)。现在是10页\一共有122页\编辑于星期五
输出百分位数:输出四分位数,显示25%、50%、75%的百分位数;将数据平均分为所设定的相等等份,可输入2—100的整数,如键入4则输出第25、50、75百分位数自定义百分位数,可输入0—100的整数。离散趋势分布形态栏集中趋势栏输出统计量对话框现在是11页\一共有122页\编辑于星期五
2、计算其他基本描述统计量
SPSS频数分析还能够计算其他基本统计量,其中包括描述集中趋势(CentralTendency)的基本统计量、描述离散程度(Dispersion)的基本统计量、描述分布形态(Distribution)的基本统计量等。现在是12页\一共有122页\编辑于星期五Format对话框控制频数表输出的分类数量。默认为10多变量框中可设定多变量表格输出的格式设置频数表输出的格式选择频数表中排列顺序按变量升序排列,此为默认按变量降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列现在是13页\一共有122页\编辑于星期五
(2)multiplevariables单选框组:如果选择了两个以上变量作频数表,则comparevariables可以将所有变量的结果在同一个频数表过程输出结果中显示,便于互相比较;organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示,每一个变量一张表。现在是14页\一共有122页\编辑于星期五3、频数分布表格式(Format)的定义(1)调整频数分布表中数据的输出顺序(Orderby):频数分布表中的内容的输出顺序可以按变量值的升序输出(Ascendingvalues)按变量值的降序输出(Descendingvalues)(以上两类适合分类数量较少的情形)按频数的升序输出(
Ascendingcounts)按频数的降序输出(
Descendingcounts)(以上两类适合分类数量较多的情形)现在是15页\一共有122页\编辑于星期五
(3)压缩频数分布表(Suppresstableswithmorethanncategories)如果变量取值的个数或取值区间的个数太多,频数分布表将很庞大,此时可以压缩它。SPSS默认,如果变量取值的个数或取值区间的个数大于10,则不输出相应的频数分布表。应用中可以修改该值。现在是16页\一共有122页\编辑于星期五5.1.4频数分析的应用举例利用居民储蓄调查数据进行频数分析,有以下两个分析目标:目标一:分析储户的户口和职业的基本情况。目标二:分析储户存取款金额的分布,并对城镇储户和农村储户进行比较。现在是17页\一共有122页\编辑于星期五现在是18页\一共有122页\编辑于星期五目标二:分析储户存款金额的分布,并对城镇储户和农村储户进行比较。1、分析思路:(1)由于存(取)款金额数据为定距型变量,直接采用频数分析不利于对其分布形态的把握,因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表。(recode,frequency)(2)进行数据拆分,并分别计算城镇储户和农村储户的一次存(取)款金额的四分位数,并通过四分位数比较两者分布上的差异。现在是19页\一共有122页\编辑于星期五2、分析过程:(1)数据分组,将存(取)款金额重新分成五组,五组区间分布为,少于500元,500-2000元,2000-3500元,3500-5000元,5000元以上。分组后进行频数分析并绘制带正态曲线的直方图。(2)利用SPSS的频数分析计算所有样本的存(取)款金额的四分位数;然后,按照户口类型对数据进行拆分(Splitfile)并重新计算分位数,分别得到城镇户口和农村户口的存(取)款金额的四分位数。现在是20页\一共有122页\编辑于星期五5.2计算基本描述统计量5.2.1基本描述统计量适用对象:定距数据常见的基本描述统计量有三大类:刻画集中趋势的统计量刻画离中趋势的统计量刻画分布形态的统计量现在是21页\一共有122页\编辑于星期五1、刻画集中趋势的描述统计量集中趋势是指一组数据向某一中心值靠拢的倾向。(1)均值(Mean):即算术平均数,是反映某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入。其计算公式为:现在是22页\一共有122页\编辑于星期五均值适用条件:定距变量;单峰或基本对称分布情况下适用(为什么?)现在是23页\一共有122页\编辑于星期五(2)中位数(Median):即一组数据按升序排序后,处于中间位置上的数据值。如评价社会的老龄化程度时,可用中位数。中位数特点:位置平均数,不受极端值影响,适用于任意分布类型数据;定序和定价数据都适用;样本量很小时,中位数不稳定;现在是24页\一共有122页\编辑于星期五(3)众数(Mode):即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数。众数特点:出现频数最高的数,不受极端值影响,但是不容易确定;适用于任意类型数据,特别是单峰对称分布;仅使用频数最高这一信息,信息损失较大;现在是25页\一共有122页\编辑于星期五2、刻画离散程度的描述统计量离散程度是指一组数据远离其“中心值”的程度。如果数据都紧密地集中在“中心值”的周围,数据的离散程度较小,说明这个“中心值”对数据的代表性好;相反,如果数据仅是比较松散地分布在“中心值”的周围,数据的离散程度较大,则此“中心值”说明数据特征是不具有代表性的。现在是26页\一共有122页\编辑于星期五常见的刻画离散程度的描述统计量如下:(1)全距(Range):也称极差,是数据的最大值(Maximum)与最小值(Minimum)之间的绝对离差。
特点:易受极端值影响;不能反映中间数据分布;一般是作预备性检查。现在是27页\一共有122页\编辑于星期五(2)方差(Variance):也是表示变量取值离散程度的统计量,是各变量值与算数平均数离差平方的算术平均数。其计算公式为:特点:容易受极端值影响;计算中使用了均值,因此,均值必须能够代表集中度时才能适用。是离散指标中最可靠的。现在是28页\一共有122页\编辑于星期五(3)标准差(StandardDeviation:StdDev):表示变量取值距离均值的平均离散程度的统计量。其计算公式为:
标准差值越大,说明变量值之间的差异越大,距均值这个“中心值”的离散趋势越大。现在是29页\一共有122页\编辑于星期五(4)均值标准误差(StandardErrorofMean):描述样本均值与总体均值之间的平均差异程度的统计量。其计算公式为:
其中:为总体标准差,n为样本单位数现在是30页\一共有122页\编辑于星期五3、刻画分布形态的描述统计量数据的分布形态主要指数据分布是否对称,偏斜程度如何,分布陡峭程度等。刻画分布形态的统计量主要有两种:(1)偏度(Skewness):描述变量取值分布形态对称性的统计量。其计算公式为:现在是31页\一共有122页\编辑于星期五
当分布为对称分布时,正负总偏差相等,偏度值等于0;当分布为不对称分布时,正负总偏差不相等,偏度值大于0或小于0。偏度值大于0表示正偏差值大,称为正偏或右偏(众数<中位数<平均数);偏度值小于0表示负偏差值大,称为负偏或左偏(众数>中位数>平均数)
。偏度绝对值越大,表示数据分布形态的偏斜程度越大。现在是32页\一共有122页\编辑于星期五(2)峰度(Kurtosis):描述变量取值分布形态陡峭程度的统计量。其计算公式为:
当数据分布与标准正态分布的陡峭程度相同时,峰度值等于0;峰度大于0表示数据的分布比标准正态分布更陡峭,为尖峰分布;峰度小于0表示数据的分布比标准正态分布平缓,为平峰分布。现在是33页\一共有122页\编辑于星期五5.2.2计算基本描述统计量的操作(1)选择菜单Analyze-DescriptiveStatistics-Descriptives,出现如下窗口:现在是34页\一共有122页\编辑于星期五(2)将需计算的数值型变量选择到Variable(s)框中。(3)单击Option按钮指定计算哪些基本描述统计量,出现如下窗口:现在是35页\一共有122页\编辑于星期五Options对话框
基本统计量当Variables框中有多个变量时,此框确定其输出顺序:按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列分布现在是36页\一共有122页\编辑于星期五
在上面窗口中,用户可以指定分析多变量时结果输出的次序(DisplayOrder)。其中,Variablelist表示按变量在数据窗口中从左到右的次序输出;Alphabetic表示按字母顺序输出;AscendingMeans表示按均值升序输出;DescendingMeans表示按均值降序输出。
至此,SPSS便自动计算所选变量的基本描述统计量并显示到输出窗口中。现在是37页\一共有122页\编辑于星期五5.2.3计算基本描述统计量的应用举例
1.利用居民储蓄调查数据,对存款金额变量计算基本描述统计量。有以下分析目标:计算存款金额的基本描述统计量,并分别对城镇储户和农村储户进行比较。
现在是38页\一共有122页\编辑于星期五分析思路:首先,由于存(取)款金额数据为定距型变量,可直接采用基本描述统计分析。然后,按照户口对数据进行拆分(Splitfile),然后计算存(取)款金额的基本描述统计量。现在是39页\一共有122页\编辑于星期五2.分析储户一次存款的数量是否存在不均衡现象。分析:
(1)假设储户一次存款金额服从正态分布,跟据3原则,异常值通常为3个标准差范围之外的值,可通过对数据的标准化处理来判断。标准化的数学定义为:现在是40页\一共有122页\编辑于星期五(2)计算储户一次存款金额的标准化值。(通过标准化可以得到一系列新变量值,通常称为标准化值或z分数。计算标准化值可以通过对话框中的复选框savestandardizedvaluesasvariables来实现,并将结果保存在一个新变量中。该变量的命名规则为字母z+原变量名的前七个字符。)(3)接下来可对新变量进行排序并浏览其标准化值的取值情况,可以发现z分数值得绝对数大于3的储户是存在的。(4)对其分组为三组:za5<-3,-3<za5<3,za5>3.(5)进行频数分析可以发现存款金额存在不均衡现象。现在是41页\一共有122页\编辑于星期五思考:频数和基本描述统计量可以描述单个变量的分布情况。能否用于分析多个变量的联合分布情况?现在是42页\一共有122页\编辑于星期五5.3交叉分组下的频数分析5.3.1目的和基本任务交叉分组下的频数分析又称列联表分析。1、目的:分析多个分类变量不同取值下的分布,进而分析变量之间的相互影响和关系。即分析两个或两个以上分类变量的分布情况。适用范围:两个或两个以上定类或定序变量.现在是43页\一共有122页\编辑于星期五2、基本任务:(1)根据收集到的样本数据,产生二维或多维交叉列联表;(2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。现在是44页\一共有122页\编辑于星期五5.3.2交叉列联表的主要内容编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。例:职工基本情况数据按职称和文化程度编制的二维交叉列联表(见下页表):现在是45页\一共有122页\编辑于星期五现在是46页\一共有122页\编辑于星期五上表中的职称变量称为行变量(Row),文化程度称为列变量(Column)。行标题和列标题分别是两个变量的变量值(或分组值)。表格中间是观测频数(ObservedCounts)和各种百分比。16名职工中,本科、专科、高中、初中的人数分别为4,4,5,3,构成的分布称为交叉列联表的列边缘分布;高级工程师、工程师、助理工程师、无技术职称的人数分别为3,4,6,3,构成的分布称为交叉列联表的行边缘分布;4个本科学历职工中各职称的人数分别是1,1,2等,这些频数构成的分布称为条件分布,即在行变量(列变量)取值条件下的列变量(行变量)的分布。现在是47页\一共有122页\编辑于星期五
在交叉列联表中,除了频数外还引进了各种百分比。例如表中第一行中的33.3%,33.3%,33.3%分别是高级工程师3人中各学历人数所占的比例,称为行百分比(Rowpercentage),一行的百分比总和为100%;表中第一列的25.0%,25.0%,50.0%分别是本科学历4人中各职称人数所占的比例,称为列百分比(Columnpercentage),一列的列百分比总和为100%,表中的6.3%,6.3%,12.5%等分别是总人数16人中各交叉组中人数所占的百分比,称为总百分比(Totalpercentage),所有格子中的总百分比之和也为100%。现在是48页\一共有122页\编辑于星期五5.3.3交叉分组下的频数分析的基本操作(1)菜单选项Analyze-DescriptiveStatistics-Crosstabs,出现窗口如下:现在是49页\一共有122页\编辑于星期五该框中的变量作为分布表中的行变量和列变量。该框中的变量作为控制变量,决定频数分布表中的层,可有多个控制变量。显示每一组中各变量的分类条形图。只输出统计量,不输出多维列联表。Crosstabs对话框现在是50页\一共有122页\编辑于星期五(2)如果进行二维列联表分析,则将行变量选择到Row(s)框中,将列变量选择到Column(s)框中。如果Row(s)和Column(s)框中有多个变量名,SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析,则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的,也可以是逐层叠加的,可通过Previous或Next按钮确定控制变量间的层次关系。现在是51页\一共有122页\编辑于星期五(3)选择Displayclusteredbarcharts选项,指定绘制各变量交叉分组下频数分布条形图。Suppresstables表示不输出列联表,在仅分析行列变量间关系时可选择该选项。(4)单击Cells按钮指定列联表单元格中的输出内容,窗口如下:现在是52页\一共有122页\编辑于星期五Crosstabs的CellDisplay对话框选择在列联表中输出的统计量,包括观测量数、百分比、残差输出观测量的实际数量如果行和列变量在统计上是独立的或不相关的,那么会在单元格中输出期望的观测值的数量。输出单元格中观测量的数目占整行全部观测量数目的百分比输出单元格中观测值的数目占整列全部观测量数目的百分比输出单元格中观测量的数目占全部观测量数目的百分比计算非标准化残差计算标准化残差计算调整后残差现在是53页\一共有122页\编辑于星期五
SPSS默认列联表单元格中只输出观测频数(Observed)。为便于分析,通常还应指定输出Percentage框中的行百分比(Row)、列百分比(Column)、总百分比(Total)。Counts框中的Expected表示输出期望频数;Residuals框中的各个选项表示在各个单元格中输出剩余。其中,Unstandardized为非标准化剩余,定义为观测频数-期望频数;Standardized为标准化剩余,又称Pearson剩余,定义为:现在是54页\一共有122页\编辑于星期五(5)单击Format按钮指定列联表各单元格的输出排列顺序。Ascending表示以行变量取值的升序排列,是SPSS默认项;Descending表示以行变量取值的降序排列。(6)单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系,窗口如下,其中,Chi-Square为卡方检验。现在是55页\一共有122页\编辑于星期五5.3.4交叉列联表行列变量间关系的分析
对交叉列联表中的行变量和列变量之间关系进行分析是交叉分组下频数分析的第二个任务。为了理解行、列变量之间的关系,可以从分析两个极端的例子出发:(1)年龄与工资收入的交叉列联表(一)工资收入年龄段低中高青40000中04000老00400现在是56页\一共有122页\编辑于星期五(2)年龄与工资收入交叉列联表(二)
表一中表示年龄与工资收入呈正相关关系,表二表示年龄与工资收入呈负相关关系。但大多数情况下,观测频数分散在列联表的各个单元格中,不容易直接发现行列变量之间的关系强弱程度,此时就要借助非参数检验方法。通常用的方法是卡方检验。工资收入年龄段低中高青00400中04000老40000现在是57页\一共有122页\编辑于星期五交叉列联表的卡方检验卡方检验属假设检验的范畴,步骤如下:(1)建立原假设在列联表分析中卡方检验的原假设为行变量与列变量独立(2)选择和计算检验统计量列联表分析卡方检验统计量是Pearson卡方统计量,其数学定义为:现在是58页\一共有122页\编辑于星期五
其中,r为列联表的行数,c为列联表的列数;为观察频数,为期望频数(ExpectedCount)。期望频数的计算方法是:
其中,RT是指定单元格所在行的观测频数合计,CT是指定单元格所在列的观测频数合计,n是观测频数的合计。
期望频数的分布反映的是行列变量互不相干下的分布。现在是59页\一共有122页\编辑于星期五现在是60页\一共有122页\编辑于星期五例如,具有本科学历的高级工程师的期望频数是0.75的计算公式是3*4/16=0.75。这里,期望频数可以理解为,总共16个职工的学历分布是25%:25%:31.3%:18.8%,如果遵从这种学历的总体比例关系,高级职称三人的学历分布也应为25%:25%:31.3%:18.8%,于是期望频数为3*25%、3*25%、3*31.3%、3*18.8%。同理可以理解,总共16个职工的职称分布为18.8%:25%:37.5%:18.8%,本科学历4人的期望频数分别为4*18.8%、4*25%、4*37.5%、4*18.8%。现在是61页\一共有122页\编辑于星期五卡方统计量观测值的大小取决于两个因素:第一:列联表的单元格子数;第二:观测频数与期望频数的总差值。在列联表确定的情况下,卡方统计量观测值的大小取决于观测频数与期望频数的总差值。当总差值越大时,卡方值也就越大,实际分布与期望分布的差距越大,表明行列变量之间越相关;反之表明行列变量之间越独立。现在是62页\一共有122页\编辑于星期五问题:在统计上卡方统计量的观测值究竟达到什么程度才能断定行列变量不独立呢?由于该检验中的pearson卡方统计量近似服从卡方分布,因此可依据卡方理论找到某自由度和显著性水平下的卡方值,即卡方临界值。现在是63页\一共有122页\编辑于星期五(3)确定显著性水平(SignificantLevel)和临界值显著性水平是指原假设为真却将其拒绝的风险,即弃真的概率。通常设为0.05或0.01。在卡方检验中,由于卡方统计量服从自由度为(行数-1)×(列数-1)的卡方分布,因此,在行列数目和显著性水平确定时,卡方临界值是可唯一确定的。现在是64页\一共有122页\编辑于星期五(4)结论和决策(对统计推断做决策通常有两种方式)根据统计量观测值和临界值比较的结果进行决策。如果卡方观测值大于临界值,则认为实际分布与期望分布之间的差距显著,可以拒绝原假设,断定列联表的行列变量间不独立,存在相关关系;如果卡方观测值小于临界值,接受原假设。现在是65页\一共有122页\编辑于星期五根据统计量观测值的概率p值和显著性水平比较的结果进行决策。如果p值小于等于,则认为卡方观测值出现的概率是很小的,拒绝原假设,断定列联表的行列变量间不独立,存在依存关系;反之,接受原假设。现在是66页\一共有122页\编辑于星期五什么是P值?是一个概率值;如果原假设为真,P-值是抽样分布中大于或等于样本统计量的概率;被称为观察到的(或实测的)显著性水平。现在是67页\一共有122页\编辑于星期五双侧检验的P值/
2
/
2Z拒绝拒绝H0值临界值计算出的样本统计量计算出的样本统计量临界值1/2P值1/2P值现在是68页\一共有122页\编辑于星期五左侧检验的P值H0值临界值a样本统计量拒绝域抽样分布1-置信水平计算出的样本统计量P值现在是69页\一共有122页\编辑于星期五右侧检验的P值H0值临界值a拒绝域抽样分布1-置信水平计算出的样本统计量P值现在是70页\一共有122页\编辑于星期五利用P值进行检验
(决策准则)若p-值>
,不拒绝H0若p-值<,拒绝H0现在是71页\一共有122页\编辑于星期五使用卡方检验应该注意的问题:列联表中有20%以上单元格的期望频数小于5时,要采用似然率(likelihoodratio)卡方检验进行修正;当期望频数T>=5,样本数n>=40时,直接用Pearson卡方检验;当1=<T<5,n>=40时,用连续性校正公式(continuitycorrection);当T<1,或者n<40时,或做卡方检验后所得的P值接近检验水准a时,用确切概率(Fisherexacttest)。现在是72页\一共有122页\编辑于星期五5.3.5交叉分组下的频数分析应用举例对居民储蓄调查数据进行分析,实现以下目标:
1、分析城镇和农村储户对“未来收入状况的变化趋势”是否持相同的态度。
2、分析城镇和农村储户对”什么合算”的认同是否一致(户口对”什么合算”的认同是否有影响)。现在是73页\一共有122页\编辑于星期五分析:1、该问题列联表的行变量为户口,列变量为未来收入状况,在列联表中输出各种百分比、期望频数、剩余、标准化剩余,显示各交叉分组下频数分布柱形图,并利用卡方检验方法,对城镇和农村储户对该问题的态度是否一致进行分析。2、该问题列联表的行变量为户口,列变量为什么合算,在列联表的基础上进行卡方检验。现在是74页\一共有122页\编辑于星期五现在是75页\一共有122页\编辑于星期五现在是76页\一共有122页\编辑于星期五现在是77页\一共有122页\编辑于星期五5.3.6SPSS中列联表分析的其他方法对列联表中行列变量的分析,除上述卡方检验方法之外,SPSS还提供了其他测度变量间相关关系的检验方法,包括:适用于两定类变量的方法:Nominal框中列出的方法属该类方法。适用于两定序变量的方法:Ordinal框中列出的方法属该类方法。适用于一定类变量、一定距变量的方法:Nominalbyinterval框中的Eta方法属该类方法。其他方法。现在是78页\一共有122页\编辑于星期五5.4探索分析Explore1.分析目的:对数据进行初步考察核实,考察内容为检查数据是否有错误:数据过大或过小都可能是奇异值、影响点或错误数据(找出、分析原因、是否剔除)分布特征:如数据是否来自正态总体,分组数据方差是否相等。2.考察方法:统计量和统计图形(箱式图、茎叶图、QQ图)3、适用对象:一般是考察定距变量;现在是79页\一共有122页\编辑于星期五4.操作:
Analyze+DescriptiveStatistics+Explore分析变量(DependentList):数值型变量分组变量(FactorList):分类变量标识变量(LabelCasesby):用某变量的值作为观察值的标识如id现在是80页\一共有122页\编辑于星期五选择一个或多个变量进入Dependent框作为分析变量,单击OK可获得分析变量的一系列基本统计量和图形。此作为分组变量,可以是字符变量,对分析变量的分析将按该变量的观测值进行分组分析。可有多个分组变量,这时会按多个变量的交叉组合进行分组。该框中的变量作为标识符,在输出诸如异常值时,用该变量进行标识,只允许有一个标识符。可同时输出基本统计量和图形只输出基本统计量只输出图形Explore主对话框现在是81页\一共有122页\编辑于星期五输出基本统计量均值的置信区间,可键入1—99%的任意值,根据该值算出置信区间的上下限。给出中心趋势的最大似然比的稳健估计量,当数据分布均匀,且两尾较长,或当数据中存在极端值时,可给出比均值或中位数更合理的估计。输出最大和最小的5个数,且在输出窗口中加以标明。输出5%、10%、25%、50%、75%、90%和95%的百分位数。Statistics对话框现在是82页\一共有122页\编辑于星期五Statistics子对话框:用于选择需要的描述统计量;
descriptives:输出均值、中位数、众数、5%修正均值、估计标准误、方差、标准差、最小值、最大值、全距、四分位差、峰度系数及其标准误、偏度系数及其标准误及指定的均值置信区间;
m-estmators:做集中趋势的最大稳健估计,该统计量是利用迭代方法计算出来的,受异常值的影响要小得多。如果该估计量离均值较远,则说明数据可能存在异常值,此时宜用该估计量替代均值以反映集中趋势。一共会输出四种m估计量,其中huber适用于数据接近正态分布时,另三种则适用于数据中有许多异常值的情况;
outliers:输出五个最大值和五个最小值。
percentiles:输出第5%、10%、25%、50%、75%、90%、95%分位数。现在是83页\一共有122页\编辑于星期五plots子对话框:用于选择需要的统计图;
boxplots复选框:确定箱式图的绘制方式,可以分组绘制(factorlevelstogether),也可以不分组绘制(dependentstogether),或者不绘制(none);
descriptive复选框:可以选择绘制茎叶图(stem-and-leaf)和直方图(histogram);
normalityplotwithtest:绘制正态分布图(QQ图),并进行变量是否符合正态分布的检验;
现在是84页\一共有122页\编辑于星期五茎叶图(stem-and-leaf)1.用于显示未分组的原始数据的分布2.由“茎”和“叶”两部分构成,其图形是由数字组成的3.以该组数据的高位数值作树茎,低位数字作树叶4.树叶上只保留一位数字5.茎叶图类似于横置的直方图,但又有区别:直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息6.图的下方会标示出茎宽和实际值的倍数,每行的茎和叶组成的数字再乘以茎宽,即得到实际数据的近似值,同样在图的下方也会标示出每片叶子代表的记录数。现在是85页\一共有122页\编辑于星期五利用各地区保险业务保费收入数据,对财产保险保费收入进行探索性分析------茎叶图财产保险保费收入Stem-and-LeafPlotFrequencyStem&Leaf4.000.11247.000.677788910.001.00001113335.001.567783.002.0121.002.83.003.1141.003.62.00Extremes(>=5619)Stemwidth:1000.00Eachleaf:1case(s)现在是86页\一共有122页\编辑于星期五利用各地区保险业务保费收入数据,对财产保险保费收入进行探索性分析------箱图现在是87页\一共有122页\编辑于星期五利用各地区保险业务保费收入数据,对财产保险保费收入进行探索性分析------正态Q-Q图纵轴:分位数横轴:观测值判别标准:如果数据服从正态分布,则图中点应该靠近直线。现在是88页\一共有122页\编辑于星期五利用各地区保险业务保费收入数据,对财产保险保费收入进行探索性分析----离散正态概率Q-Q图(去势QQ图)现在是89页\一共有122页\编辑于星期五练习利用居民储蓄调查数据,对一次存款金额变量进行探索性分析,分析目的:1、数据是否存在极端值;2、对城乡居民的储蓄数据进行正态分布检验和方差齐次性检验。现在是90页\一共有122页\编辑于星期五5.5多选项分析(频数分析和交叉分析)适用对象:问卷调查中的多选项问题;多选项问题:是根据实际调查的需要,要求被调查者从问卷给出的若干个可选答案中选择一个以上的答案。目前,市场研究或许多领域对某事物评价的研究中常常遇到这样的问题。多选项问题可以分为限选和不限选:限选:如在11种工作种类中,选你喜欢的,最多可选4种(Var1-Var4);求所有人喜欢各种工作的频数或频率。不限选:如在所列的20种电器中,你家所拥有的电器,不限选(Var1-Var20),求所有被调查家庭拥有各种电器的频数或频率。现在是91页\一共有122页\编辑于星期五现在是92页\一共有122页\编辑于星期五思考:如果要将上述问题在SPSS中表述出来,然后进行分析,该建立何种数据结构呢?一个变量能否存储多选题的全部信息?现在是93页\一共有122页\编辑于星期五5.5.1多选项问题的分解多选项二分法及其编码(multipledichotomiesmethod):多选项二分法是将多选项问题中的每一个答案设为一个SPSS变量,每个变量值有0或1两个取值,分别表示选择了该答案和不选择该答案。现在是94页\一共有122页\编辑于星期五上述问题的二分法编码如下:变量名变量名标签变量值变量值标签V1交通条件影响购物吗?1或01--是;0--否V2促销活动影响购物吗?1或01--是;0--否V3购物环境影响购物吗?1或01--是;0--否V4服务质量影响购物吗?1或01--是;0--否V5其他因素影响购物吗?1或01--是;0--否现在是95页\一共有122页\编辑于星期五注意:这是一组问题,每个问题均有两个答案,回答者只能选择其中一种。在建立数据文件时,变量名使用相同的变量主名,后面加以不同序号组成,本组问题的5个变量名可以是“购物影响因素1-购物影响因素5”,然后添加变量名标签。而答案的编码规则为:回答“是”变量值为1,回答“否”变量值为0,其他值为缺失值。现在是96页\一共有122页\编辑于星期五多选项分类法及其编码(multiplecategorymethod)多选项分类法:首先应估计多选项问题最多可能出现的答案个数;然后为每个答案设置一个SPSS变量,变量取值为多选项问题中的所有可选答案。现在是97页\一共有122页\编辑于星期五(限选三项)现在是98页\一共有122页\编辑于星期五上述问题的多选项分类编码如下:变量名变量名标签变量值变量值标签V1购物影响因素11,2,3,4,51-交通条件;2-促销活动;3-购物环境;4-服务质量;5-其他;V2购物影响因素2同上同上V3购物影响因素3同上同上现在是99页\一共有122页\编辑于星期五
如果采用多选二分法则有6个选项,故应设6个变量,运用0-1编码方法编码,即:1,0,1,0,1,1。如果采用多选分类法,则编码为1,3,5,6,0,0。1356现在是100页\一共有122页\编辑于星期五问题2:择业中考虑的主要因素(多选)1经济收入2专业对口3发展前途4地理区位5个人爱好6风险大小7劳动强度8社会福利9其他编码应为:1,0,1,1,1,0,1,1,0。或1,3,4,5,7,8,0,0,0。现在是101页\一共有122页\编辑于星期五136问题3:您择业中考虑的主要因素有(限选三项)1经济收入2专业对口3发展前途4地理区位5个人爱好6风险大小7劳动强度8社会福利9社会地位10其他
因为限选三项,故应设三个变量,编码依次为1,3,6。现在是102页\一共有122页\编辑于星期五补充:多选项问题的分析指标应答次数(count):选择了某选项的人数;应答百分比(percentofcase):应答次数占总人数的百分比,可以反映某个选项的受欢迎程度。(percentofresponse):应答次数占总应答次数的百分比,可以比较不同选项的受欢迎程度。例如:购买商业保险的原因(P126)总人数243,总应答数435(3个累加)现在是103页\一共有122页\编辑于星期五5.5.2多选项分析的基本操作操作基本思路:
1、先将每个多选题的若干答案组成一个综合变量即变量集(Set);只有通过定义多选项变量集,spss才能确定应对哪些变量取相同值的个案数进行累加。2、然后对综合变量的各种取值进行分析。多选项分析操作
Analyze-MultipleResponse中的各项功能实现的。现在是104页\一共有122页\编辑于星期五1.DefineSets:(1)从左边的变量中将多选变量集的变量选择到variablesinsets框中,建立多选二分变量集或多选分类变量集。(2)在variablesarecodedas框中指定多选变量集中的变量是按照那种方法编码的。Dichotomies表示以多选二分法编码,并在countedvalue中输入用哪个数值来表示选中该选项。categories表示以多选分类法编码,并在range框中输入变量取值的最小值和最大值。现在是105页\一共有122页\编辑于星期五(3)为多选项变量集命名,系统会自动在该名字前加字符$。(4)单击add按钮将定义好的多选项变量集加到multresponsesets框中。Spss可以定义多个多选项变量集。2.Frequencies:对多选变量集进行频数分析。从multresponsesets中把待分析的多选项变量集选择到tablesfor框中;3.Crosstabs:对多选变量集与其他变量集或与原基本变量进行交叉表分析。现在是106页\一共有122页\编辑于星期五(1)选择列联表的行变量并定义取值范围;(2)选择列联表的列变量并定义取值范围;(3)选择列联表的控制变量并定义取值范围;(4)单击option按钮选择列联表的输出内容和计算方法。Matchvariableacrossresponsesets选项表示,如果列联表的行列变量均为多选项变量集时,第一个变量集的第一个变量与第二个变量集的第一个变量作交叉分组,依次类推。结果中:注意PctofResponses(占总回答数的%)和PctofCase(占总个案数%)的区别。现在是107页\一共有122页\编辑于星期五多选项分析的应用举例利用保险市场调查数据进行分析,实现以下两个分析目标:
1.分析老年人购买商业养老保险的原因;
2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024股权抵押借款合同范本格式
- 2024商品买卖合同范本
- 2024年度甲方聘请乙方进行市场推广服务的合同
- 工厂用工合同协议书(2024年)
- 2024年建筑劳务分包主体结构合同
- 个人质押担保借款合同模板
- 2024年度金融服务与投资咨询合同
- 标准版工程居间合同格式
- 合法劳务施工协议书样式
- 精美施工合同模板
- 淮阴工学院《产品形态设计》2021-2022学年第一学期期末试卷
- 2024年长沙市事业单位招聘计算机岗位专业知识试题
- 咨询咨询合同三篇
- 2024年中国心力衰竭诊断和治疗指南2024版
- 师范大学学术规范测试
- 福建师范大学《数字摄像》2023-2024学年第一学期期末试卷
- 期末模拟练习(试题)-2024-2025学年苏教版二年级上册数学
- 2023阿里云ACA大数据复习题题库及答案
- 基于PLC的物料分拣系统设计
- 国开(内蒙古)2024年《创新创业教育基础》形考任务1-3终考任务答案
- 文旅深度融合绩效评估与反馈机制
评论
0/150
提交评论