多元统计分析及SPSS应用_第1页
多元统计分析及SPSS应用_第2页
多元统计分析及SPSS应用_第3页
多元统计分析及SPSS应用_第4页
多元统计分析及SPSS应用_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析及SPSS应用第1页,共41页,2023年,2月20日,星期四

session3

聚类分析

应用多元统计分析及SPSS应用

Session3

统计数据的收集、整理与描述

第2页,共41页,2023年,2月20日,星期四SessionTopics统计数据的来源

统计数据的收集

统计数据的描述

统计数据的整理

第3页,共41页,2023年,2月20日,星期四统计数据的来源一、统计数据的直接来源来源于管理和研究需要而专门组织的调查来源于科学试验的数据二、统计数据的间接来源

来源于公开出版物的数据来源于内部调查的数据第4页,共41页,2023年,2月20日,星期四

统计数据的收集数据的搜集方法询问调查访问调查观察实验电话调查邮寄调查观察电脑辅助座谈会个别深访实验第5页,共41页,2023年,2月20日,星期四访问调查

1. 调查者与被调查者通过面对面地交谈而获得资料2. 有标准式访问和非标准式访问标准式访问通常按事先设计好的问卷进行非标准式访问事先一般不制作问卷第6页,共41页,2023年,2月20日,星期四邮寄调查也称邮寄问卷调查是一种标准化调查调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷通过某种方式将调查表或问卷送至某调查者手中,由被调查者填写,然后将问卷寄回指定收集点问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发三种

第7页,共41页,2023年,2月20日,星期四电话调查调查者利用电话与被调查者进行语言交流以获得信息时效快、成本低问题的数量不宜过多

您好!我是××调查公司的调查员…第8页,共41页,2023年,2月20日,星期四电脑辅助调查又称电脑辅助电话调查电脑与电话相结合完成调查的全过程一般需借助专门的软件进行硬件设备要求较高

第9页,共41页,2023年,2月20日,星期四座谈会1. 也称集体访谈2. 将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料3. 参加座谈会的人数不宜过多,一般为6~10人4. 侧重于定性研究第10页,共41页,2023年,2月20日,星期四个别深度访问

一次只有一名受访者参加、针对特殊问题的调查适合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题侧重于定性研究第11页,共41页,2023年,2月20日,星期四观察法1. 就调查对象的行动和意识,调查人员边观察边记录以收集所需信息

2. 调查人员不是强行介入

3. 能够在被调查者不察觉的情况下获得资料第12页,共41页,2023年,2月20日,星期四实验法

1. 在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料2. 有室内实验法和市场实验法第13页,共41页,2023年,2月20日,星期四统计数据的间接来源1.公开出版物:《中国统计年鉴》、《中国统计摘要》、《中国社会统计年鉴》、《中国工业经济统计年鉴》、《中国农村统计年鉴》、《中国人口统计年鉴》、《中国市场统计年鉴》、《世界经济年鉴》、《国外经济统计资料》、《世界发展报告》……Internet

2.

网络中国统计年鉴2001中国人口统计年鉴中国市场统计年鉴世界发展报告世界经济年检工业普查数据中国统计出版社第14页,共41页,2023年,2月20日,星期四统计数据的整理一、统计分组

根据统计研究的目的和客观现象的内在特点,按某个标(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。

例:某班学生按考试成绩分组第15页,共41页,2023年,2月20日,星期四二、频数分布与频率分布将数据按其分组标志进行分组的过程,就是频数分布和频率分布形成的过程。表示各组的单位的次数称为频数,各组次数与总次数之比称为频率。第16页,共41页,2023年,2月20日,星期四二、频数分布与频率分布频数分布就是观察值按其分组标志分配在各组内的次数,由分组标志序列和各组相对应的分布次数两个要素构成。由分组标志序列和各组相应的频率构成频率分布。第17页,共41页,2023年,2月20日,星期四

当所观察的次数很多,组距很小并且组数很多时,所绘出的折线图就会越来越光滑,逐渐形成一条光滑的曲线,这种曲线即频数分布曲线,反映了数据的分布规律。第18页,共41页,2023年,2月20日,星期四三、累积频数分布与频率分布

为了统计分析的需要,有时要观察某一数值以上或某一数值以下频数或频率之和,这就需要绘出累积频数或累计频率。在SPSS中对下数据进行频数(率)分析第19页,共41页,2023年,2月20日,星期四1.定义工人编号和加工零件数的变量名分别为NO和X,然后输入变量NO和X的原始数据。第20页,共41页,2023年,2月20日,星期四2.选择[Analyze]=>[DescriptiveStatistics]=>[Frequencies...],弹出[Frequencies]主对话框。第21页,共41页,2023年,2月20日,星期四

现欲X进行频数分析,在对话框左侧的变量列表中选X,单击按钮使之进入[Variable(s)]列表框,并选择[DisplayFrequencyTables]显示频数分布表。第22页,共41页,2023年,2月20日,星期四3.可单击[Format...]按钮弹出[Frequencies:Format]子对话框

根据数值大小按升序从小到大作频数分布数值大小按降序从大到小作频数分布频数多少按升序从少到多作频数分布频数多少按降序从多到少作频数分布第23页,共41页,2023年,2月20日,星期四4.可单击[Statistics...]按钮,弹出[Frequencies:Statistics]子对话框,并单击相应项目,在作频数表分析的基础上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。这里不选。5.可单击[Charts...]钮,弹出[Frequencies:Charts]子对话框,第24页,共41页,2023年,2月20日,星期四

用户可选三种图形:直条图(Barchart)、饼图(PieCharts)和直方图(Histogram)。这里选择[Histogram]项,并选择[WithNormalCurve]要求绘制正态曲线。单击[Continue]按钮返回[Frequencies]主对话框,再单击[OK]钮即可得到(累计)频数(频率)分布表和直方图。第25页,共41页,2023年,2月20日,星期四输出结果频数(率)分布表第26页,共41页,2023年,2月20日,星期四加工零件数第27页,共41页,2023年,2月20日,星期四应该注意的是,SPSS在未特别指定的情形下,直方图或频数分布表是按照原始数值逐一作频数分布的,这与日常需要的等距分组、且组数保持在一定数目的要求不符。在调用[Frequencies]统计过程命令之前,可先对原始数据进行预处:已知最小值为84,最大值为128,全距为10,故可要求分成5组,起点为80,组距为10。选择[Transform]=>[Recode]=>[IntoDifferentVariable...],在弹出的[RecodeIntoDifferentVariable]对话框中选定X,单击按钮使之进入[NumericVariable→OutputVariable]列表框,在[OutputVariable]栏的[Name]文本框中输入x1,单击[Change]按钮表示新生成的变量名为x1。单击[OldandNewValues]按钮弹出[RecodeIntoDifferentVariable:OldandNewValues]子对话框,在[OldValue]选项中单击[Range]项,输入第一个分组的数值范围:80~89,在[Newvalue]栏内输入新值:80,单击[Add]按钮.

依此将各组的范围及对应的新值逐一输入,最后单击[Continue]按钮返回,再单击[OK]按钮即完成。系统在原数据库中生成一新变量为x1,这时再调用[Frequencies]统计过程将输出等距分组且组数为5的频数分布表。第28页,共41页,2023年,2月20日,星期四统计数据的描述

作为统计数据的代表值,一个是分布的中心,反映分布的集中趋势,另一个是分布的形状,反映分布的离散程度。这些代表性的数量特征值精确地描述出不同的统计数据分布。一、分布的中心众数(mode)

在正态分布和一般的偏态分布中,分布曲线最高点所对应的数值即是众数。如果没有明显的最高点,众数可以不存在。当然,如果有两个最高点,也可以有两个众数。第29页,共41页,2023年,2月20日,星期四中位数(median)与分位数中位数是数据排序后,位置在最中间的数值。

与中位数相似的还有四分位数(quartiles)、十分位数(decile)和百分位数(percentile)。中位数是将统计分布从中间分成相等的两部分,而四分位数就是将数据分布四等分的三个数值,其中中间的四分位数就是中位数。十分位数和百分位数分别是将数据分布十等分和一百等分的数值。平均数(均值)(mean)平均数是数据集中趋势的最主要测度值第30页,共41页,2023年,2月20日,星期四三个中心度量的比较第31页,共41页,2023年,2月20日,星期四二、分布的形状

用于描述数据分布形状即分布关于其中心的波动程度的代表值有:极差、内距、方差和标准等,它们描述了分布的离散程度和差异程度。(一)极差(range)

极差也称为全距,是最大值与最小值之间的距离,它是数据离散或差异程度的最简单测度值,即例如,在前面的数据中,极差为128-84=44(件)。显然,数据的离散程度大,极差就越大。极差虽然很容易计算,但它只告诉我们数据分布范围,至于分布的中间部分是如何变化的则不得而知。而且它受极端值的影响可能是很大的。第32页,共41页,2023年,2月20日,星期四(二)内距(Inter-QuartileRange,IQR)

内距又称为四分位差,是两个四分位数之差,IQR=高四分位数—低四分位数。

若内距比较小,则说明数据比较集中在中位数附近;反之则比较分散。内距常和中位数一起用来描述一个定距特别是定序测量数据的分布。(三)方差(variance)和标准差(standarddeviation)方差是离差平方的平均数,即或第33页,共41页,2023年,2月20日,星期四三、偏度与峰度(一)偏度(skewness)所谓偏度是指反映频数分布偏态方向和程度的测度。在频数分布中,最大集中点以上(频数曲线图横轴上众数的右边)的频数占总频数的一半多,称为右偏或正偏。最大集中点以下(频数曲线图横轴上众数的左边)的频数占总频数的一半多,称为左偏或负偏。偏度的计算公式为:第34页,共41页,2023年,2月20日,星期四(二)峰度(kurtosis)所谓峰度,是指频数分布曲线高峰的形态,即反映分布曲线的尖峭程度的测度。峰度的计算公式为

当β=0时,表示分布的峰度是正态分布的峰度;当β>0时,表示分布曲线的高峰是尖顶高峰;当β<0时,表示分布曲线的高峰是平顶高峰。第35页,共41页,2023年,2月20日,星期四四、SPSS操作在SPSS中计算上例各种指标的步骤为:(一)定义加工零件数的变量名为X,并输入原始数据。(二)选择[Analyze]=>[DescriptiveStatistics]=>[Descriptives...],打开[Descriptives]主对话框。第36页,共41页,2023年,2月20日,星期四打开[Descriptives]主对话框。在主对话框左边列表中选定变量X,单击按钮使之进入[Variables(s)]列表框。第37页,共41页,2023年,2月20日,星期四(三)单击[Options...]按钮,打开[Descriptives:Options]子对话框。选择均值(Mean)、总和(Sum)、标准差(Std.Deviation)、方差(Variance)、极差(Range)、最小值(Minimum)、最大值(Maximum)、偏度(Skewness)和峰度(Kurtosis),选好后单击[Continue]按钮返回[Descriptives]主对话框,再单击[OK]按钮即可得到各种统计量的计算结果。第38页,共41页,2023年,2月20日,星期四输出结果:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论