版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基本描述统计第1页,共62页,2023年,2月20日,星期四频数分布表利用频数分布表可以方便地对数据按组进行归类整理,形成各变量的不同水平(分组)的频数分布表及图形,以便对各变量的数据特征和观测量的分布状况有一个概括的认识;单变量频数分布分析,可通过Frequencies频数分布对话框(Analyze
DescriptiveStatisticsFrequencies)来具体实现。第2页,共62页,2023年,2月20日,星期四例1已知5种软饮料购买频数的原始记录,分析各种饮料的频数分布情况(数据集1)。可口可乐新骑士可口可乐雪碧雪碧杏仁露可口可乐可口可乐醒目可口可乐新骑士可口可乐可口可乐雪碧可口可乐醒目可口可乐雪碧杏仁露杏仁露雪碧雪碧可口可乐可口可乐雪碧新骑士雪碧可口可乐雪碧醒目雪碧雪碧杏仁露可口可乐可口可乐杏仁露可口可乐杏仁露新骑士杏仁露可口可乐新骑士雪碧可口可乐杏仁露可口可乐醒目可口可乐醒目雪碧第3页,共62页,2023年,2月20日,星期四Frequencies对话框输出频数分布表选择要求输出的统计量设置图形的类型及坐标轴设置频数表输出格式第4页,共62页,2023年,2月20日,星期四四分位数将数据分为设定的相等分数百分位数均值中位数众数总和偏度峰度标准差方差全距最小值最大值均值标准误Frequencies对话框第5页,共62页,2023年,2月20日,星期四四分位数:将一组个案由小到大(或由大到小)排序后,用3个点将全部数据分为四等份,与3个点上相对应的变量称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数)、Q3(第三四分位数)。其中,Q3到Q1之间的距离又称为四分位距(interquartilerange),记为IQR。四分位差(Quartiledeviation)为1/2IQR。百分位数:将一组数据由小到大(或由大到小)排序后分割为100等份,与99个分割点位置上相对应的变量称为百分位数,分别记为P1,P2,…,P99,表示1%的数据落在P1下,2%的数据落在P2下,…,99%落在P99下。四分位数、十分位数、百分位数第6页,共62页,2023年,2月20日,星期四峰度:描述某变量所有取值分布形态陡缓程度的统计量。与正态分布相比较,峰度为0表示其数据分布与正态分布的陡缓程度相同;峰度大于0表示比正态分布高峰要更加陡峭,为尖顶峰;峰度小于0表示比正态分布的高峰要平坦,为平顶峰。计算公式为偏度:描述某变量取值分布对称性的统计量。与正态分布相比较,偏度为0表示其数据分布形态与正态分布偏度x相同;偏度大于0为正偏或右偏,即有一条长尾巴拖在右边;偏度小于0表示负偏或左偏,有一条长尾拖在左边。而偏度的绝对值数值越大表示分布形态的偏斜程度越大。计算公式为峰度、偏度第7页,共62页,2023年,2月20日,星期四不输出图形条形图饼形图直方图选择频数表排列顺序按变量值升序排列按变量值降序排列按变量值发生频数升序排列按变量值发生频数降序排列选择多变量输出表格设置控制频数表输出的分类数Frequencies对话框第8页,共62页,2023年,2月20日,星期四输出结果:本例均选系统默认项第9页,共62页,2023年,2月20日,星期四描述统计分析描述统计分析过程,是通过计算均值、算术和、标准差、极值、方差、均值、标准误等统计量来描述样本数据的集中趋势、离散趋势及分布特征;描述统计分析过程,可通过Descriptives对话框(Analyze
DescriptiveStatistics
Descriptives)来具体实现。第10页,共62页,2023年,2月20日,星期四序号性别年龄身高体重序号性别年龄身高体重1
2
3
4
5
6
7
8
9
101112131415男男男男男男女女女女女男男男男131313131313131313131314141414156.0155.0144.6161.5161.3158.0161.0162.0164.3144.0157.9176.1168.0164.5153.047.537.838.641.643.347.347.147.033.833.849.254.550.044.058.0161718192021222324252627282930女女女女女男男男男男女女女女女141414141415151515151515151515164.7160.5147.0153.2157.9166.0169.0170.0165.1172.0159.4161.3158.0158.6169.044.153.036.430.140.457.058.551.058.055.044.745.444.342.851.1例2已知三十名学生的身高与体重数据,要求对其进行简单的描述统计分析(数据集2)。第11页,共62页,2023年,2月20日,星期四Descriptives对话框指定统计量与输出结果显示的顺序计算并保存所选变量的标准化值,公式为第12页,共62页,2023年,2月20日,星期四Descriptives对话框均值合计偏度峰度标准差方差全距均值标准误离散趋势分布输出顺序按均值升序显示统计量按均值降序显示统计量按变量名字母顺序显示统计量按数据集中变量的排列顺序显示统计量第13页,共62页,2023年,2月20日,星期四输出结果:标准化值第14页,共62页,2023年,2月20日,星期四探索分析探索分析是指对测得的数据进行初步考察与核实,目的是检查数据中是否存在奇异值、影响点或错误数据,判别数据分布特征,以及进行假设检验等;探索分析过程,可通过Explore对话框实现(Analyze
DescriptiveStatistics
Explore),该过程要求参与分析的变量是等距测度的数值型变量,分组变量可以是数值型或是字符型。第15页,共62页,2023年,2月20日,星期四例3对例2中三十名学生的身高数据按性别进行简单的探索分析(数据集2)。选择分析变量指定分组变量选择标识变量选择输出项选择描述统计量设置输出图形指定缺失值的处理方式第16页,共62页,2023年,2月20日,星期四Explore对话框输出基本描述统计量指定均值的置信区间输出最大似然比的稳健估计输出5个最大与最小值输出5﹪、10﹪、25﹪、50﹪、75﹪、90﹪以及95﹪的百分位数剔除带有缺失值的观测量同时剔除缺失值及与其有成对关系的观测量将缺失值单列一组显示第17页,共62页,2023年,2月20日,星期四Explore对话框箱图描述图形茎叶图直方图输出正态概率与离散概率图输出散布-水平图及方差齐性的Levene’s检验转换幂值估计对原始数据进行变换不同分组的同一因变量显示在一个箱图中同一组的不同因变量显示在一个箱图中SpreadversusLevel:横轴为各水平组的中位数及纵轴为四分位距的自然对数。Powerestimation:对原始数据进行幂转换,直到各组间满足方差齐性。Transformed为原始数据转换后,再划图。第18页,共62页,2023年,2月20日,星期四输出结果(一)选项均为系统默认第19页,共62页,2023年,2月20日,星期四输出结果(二)箱图茎叶图奇异值极值IQR第20页,共62页,2023年,2月20日,星期四输出身高正态概率图(NormalQ-QPlotof身高)。男孩身高变量的正态概率图输出结果(三)第21页,共62页,2023年,2月20日,星期四女孩身高变量的正态概率图正态分布Q-Q检验图,横坐标为实际观测值按从小到大的顺序排列,纵坐标为正态分布下的期望值。如果实际观测值取自正态分布的总体,图中所示的落点应该分布在趋势线的附近,并且应该表现出一定的集中趋势,即平均数附近应该聚集较多的落点,越靠近两个极端落点越少。第22页,共62页,2023年,2月20日,星期四输出离散正态概率图(DetrendedNormalQ-QPlotof身高)。以实际观测值为横坐标,以实际观测值与期望值的差为纵坐标。在符合正态分布的情况下,图中的落点应该分布在中央横线的附近,甚至完全落到这条横线上,而且也应表现出集中在平均数周围的趋势。
男孩身高离散正态概率图女孩身高离散正态概率图第23页,共62页,2023年,2月20日,星期四横坐标为实际观测值的累加百分比,纵坐标为假定正态分布下的累加百分比。是否接近正态分布的判断标准与Q-Q输出图相同。P-P概率图P-PPlots输出结果第24页,共62页,2023年,2月20日,星期四输出结果(离散正态分布P-P概率图)该图描述的是正态概率图中各点偏离正态直线的偏差;若数据为正态分布,各散点应随机聚集在一条通过零点的水平直线的周围;说明第25页,共62页,2023年,2月20日,星期四Lilliefors显著水平下,正态总体检验Kolmogorov-Smirnov统计量,如果样本量在3~500之间还计算Shapiro-Wilk统计量。输出结果(四)第26页,共62页,2023年,2月20日,星期四输出结果(五)Levene检验对数据进行方差齐次性检验时,不强求数据必须服从正态分布,它先计算出各个观测值减去组内均值的差,然后再通过这些差值的绝对值进行单因素方差分析。如果得到显著性水平小于0.05,那么就可以拒绝方差相同的假设。第27页,共62页,2023年,2月20日,星期四列联表列联表是指交叉分组的多维频数分析表,用来反映多个变量不同取值的数据分布情况、变量间的相互影响和关系等;列联表分析过程,可通过Crosstabs对话框实现(Analyze
DescriptiveStatisticsCrosstabs)。第28页,共62页,2023年,2月20日,星期四公司1公司2公司3公司4合计赞成68755779279反对32453331141合计10012090110420例4已知对集团公司某项改革方案意见的调查结果,试分析各子公司对该项改革方案的态度是否一致.
第29页,共62页,2023年,2月20日,星期四定义变量(形成数据集3)公司company公司11公司22公司33公司446832754557337931态度attitude赞成1反对2赞成1反对2赞成1反对2赞成1反对2观察频数freq第30页,共62页,2023年,2月20日,星期四指定freq为加权变量第31页,共62页,2023年,2月20日,星期四Crosstabs对话框指定行变量指定列变量指定分布表的层变量显示分类条形图不输出多维交叉表第32页,共62页,2023年,2月20日,星期四Crosstabs对话框本例中选择chi-square卡方检验分类变量相关指标相关列联系数Φ和V系数λ值不确定系数定序变量的相关指标适用于一个为分类变量、另一个为等距变量的检验第33页,共62页,2023年,2月20日,星期四Contingencycoefficient:列联系数。用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,公式为其中,N为样本个数PhiandCramer‘sV:ψ系数。用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,公式为数值界于0~1之间,其中K为行数和列数较小的实际数。第34页,共62页,2023年,2月20日,星期四Crosstabs对话框本例中选择频数及频率输出项观察频数期望频数频率行频率列频率总和频率残差非标准化标准化调整的标准化残差频数升序行顺序降序第35页,共62页,2023年,2月20日,星期四输出结果㈠:第36页,共62页,2023年,2月20日,星期四输出结果㈡:第37页,共62页,2023年,2月20日,星期四多选项分析是对多选项问题的分析方法。多选项问题的编码方案有两种:多选项二分法(MultipleDichotomiesMethod)将每个可能的答案设置为一个SPSS变量,变量的取值有两个,分别表示选中或没选中。比如一道题目有6个选项,则一道多选题目就需要用6个变量来表示。多选项分类法(MultipleCategoryMethod)首先估计多选项问题可能出现的答案个数。比如一个多选题,如果最多有3个答案,那么就设置3个SPSS变量,分别用来存放3个可能的答案。如果某个案的答案只有两个,那么第3个SPSS变量取值为缺失值。多选项分析
第38页,共62页,2023年,2月20日,星期四ID康佳长虹西湖TCL东芝创维性别110101012101100030001110410110005100101060011101701110018100011190011100100111000111110000121010011130111001141011000150011010161110000171110000180110011190111001201101001例5某商场对6种品牌的电视机进行消费者满意度调查,随机调查了20位消费者,让他们选出最满意的3个电视机品牌,收集到相应的数据。第39页,共62页,2023年,2月20日,星期四
Analyze-MultipleResponseFrequenciesDefineMultipleResponseSets第40页,共62页,2023年,2月20日,星期四“MultipleResponseCrosstabs”第41页,共62页,2023年,2月20日,星期四ID答案1答案2答案3性别115312134034560414305146063451723418561195340104230113120123611133241144310156340162310172130182631193241202141例6某商场对6种品牌的电视机进行消费者满意度调查,随机调查了20位消费者,让他们选出最满意的3个电视机品牌,收集到相应的数据。第42页,共62页,2023年,2月20日,星期四DefineMultipleResponseSetsMultipleResponseFrequencies第43页,共62页,2023年,2月20日,星期四MultipleResponseCrosstabsMultipleResponseCrosstabs:options第44页,共62页,2023年,2月20日,星期四结果和讨论(1)多选项二分法频数分析结果:第45页,共62页,2023年,2月20日,星期四(2)多选项分类法频数分析结果:结果和讨论第46页,共62页,2023年,2月20日,星期四基本统计分析的报表制作
本章讨论了SPSS的一些基本统计功能。SPSS还提供了这些基本统计分析的报表制作功能,根据报表制作的侧重点不同,可以分为以下3种。
1.个案简明统计报表(CasesSummary)2.行形式报表(ReportSummariesinRows)3.列形式报表(ReportSummariesinColumns)第47页,共62页,2023年,2月20日,星期四部门基本工资奖金分红010001500800080013005000800130050008001000400080010004000800130050008001000800090010005000900130050008001000400080010004001900130050019001000800190010005001900130050019001000400190010004001110015005001900100050018001200600例7某公司两个部门共有20名员工,收集到员工的基本工资、奖金和分红信息,生成个案简明统计报表。第48页,共62页,2023年,2月20日,星期四Analyze-Report-CaseSummaries实现步骤第49页,共62页,2023年,2月20日,星期四SummaryReport:StatisticsSummaryReport:Options第50页,共62页,2023年,2月20日,星期四
使用例7的数据,生成行形式报表Analyze-ReportSummariesinRowsFormat第51页,共62页,2023年,2月20日,星期四Report:SummaryLinesfor部门Report:BreakOptionsfor部门第52页,共62页,2023年,2月20日,星期四Report:FinalSummaryLinesReport:OptionsReport:LayoutReport:Title(s第53页,共62页,2023年
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论