第三章--SPSS-数据的预处理ppt课件

上传人：闯*** IP属地：广东上传时间：2021-12-26 格式：PPT 页数：47 大小：2.34MB 积分：25 举报 版权申诉

已阅读5页，还剩42页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、12/26/2021整理ppt1SPSS统计分析方法及应用第三章第三章 SPSS 数据的预处理数据的预处理12/26/2021整理ppt2 1 数据的排序数据文件建立完成之后，为了方便统计分析，需要对数据进行初步的处理，如对数据进行排序，将一列数据扩大一个倍数，多列数据的求和等等。数据集中的数据是按照录入的先后排列的，并没有规律可言，不便于数据的分析。数据排序有什么好处呢？a) 经过排序的数据，有助于了解数据的取值状况、缺失值的数量等。b) 经过数据的排序，方便的找出了变量的最大、最小值，最大、最小值，计算出数据的全距全距，了解数据的离散程度离散程度。 1) 数据排序的目的12/26/2021

2、整理ppt32) 数据排序的规则c) 通过排序，可以快速发现异常值异常值，以便及时对其进行处理。a) 排序分为升序升序与降序降序，可以同时对数据集中的多个变量进行排序。b) 排序的规则是：按第一个变量排序，第一个变量相同时按第二个变量排序，余此类推。c) 排序后是个案位置位置的改变，未排序的变量数据随排序变量的位置同时位置同时改变。3) 数据排序的操作12/26/2021整理ppt43) 数据排序例b) 选择排序变量并移入 Sort by列表框中，指定该变量的数据是升序(Ascending)还是降序(Descending)的单选按钮.c) 如果是多重排序，用同样的方法指定第二、第三排序变量。按

3、第一个变量先排序；第一个变量相同，按下一个变量排序；余类推。对居民储蓄存款调查数据，利用排序的方法找出城镇居民和农村居民一次性存款的最大值和最小值。操作操作：户口，升序；存款额，升序。a) 选择菜单Data Sort Cases。这时，数据集所有变量出现在排序对话框左侧的列表中。12/26/2021整理ppt52 变量的计算在统计分析过程中，为了更有效的反映事物的本质，有时需要对变量的数据进行加工整理,产生新变量和计算结果。比如计算一个变量的倍数，计算几个变量的和、差，计算变量的绝对值、平方等等。因此，变量的计算是日常工作中经常遇到的(51-57页不讲页不讲)对职工的基本情况的数据(41页)表

4、2-5进行处理，依据职称级别计算实发工资，满足：职称14的工资分别上浮5%、3%、 2%、1%。用例子演示变量计算的基本操作变量计算的基本操作(58页页)。变量计算的例(58页)12/26/2021整理ppt61) 进入变量计算对话框首先将数据加工数据加工(职工数据职工数据).sav数据集打开。选择菜单 Transform (变换) Compute Variable(计算变量)，弹出算术表达式编辑窗口。a) 在Target Variable(目标变量)的编辑框中输入生成的新变量名称，这时的变量可以是新变量，也可以是原有变量。b) 如果输入的变量名在数据文件中已经存在，满足条件个案新变量的值将替

5、换旧变量对应的值，其它值不变。c) 新变量的数据类型默认为数值型，点击Type&Label按2) 定义结果变量12/26/2021整理ppt7图3-3 变量计算窗口12/26/2021整理ppt83) 算术表达式及运算符的定义对于我们的例子，新变定义量名实发工资实发工资为：sfgz，选，选择默认数据类型择默认数据类型。见图3-3。a) 算术表达式算术表达式(Numeric Expression) 定义：将常数、变将常数、变量用算术运算符和函数组合起来的式子。量用算术运算符和函数组合起来的式子。b) 算术表达式的元素算术表达式的元素。变量可以从左侧的变量列表中选择；数字、运算符号可以在软键盘中

6、选择；函数可以从右侧选择，这些也都可以直接用键盘输入。c) 逻辑运算符及意义逻辑运算符及意义逻辑与：& 等价于 AND逻辑或： | 等价于 OR钮，在弹出的对话框中可以定义新变量的数据类型和标签。12/26/2021整理ppt94) 条件语句编辑单击 if 按钮，进入条件语句编辑框，有两个单选按钮。a) Include all cases ：对所有个案进行计算，默认选项。b) Include if cases satisfied condition：仅对满足条件的个案进行计算。选择这一单选按钮后，编辑框激活。c) 在这里可以输入筛选条件。需要说明的是，每次只能编辑一个筛选条件，不能同时编辑多个

7、筛选条件。对应工资上浮5%的条件是职称值等于1，高级工程师。在编辑框输入表达式：zc=1逻辑非：等价于 NOT在算术表达式编辑框输入：(sr-bx)*1.0512/26/2021整理ppt105) 条件语句编辑编辑例这时高级工程师的个案的sfgz变量都有了数据，其它职称个案的sfgz的值为缺失值。重复同样的方法，分别设置：表达式条件(sr-bx)*1.03 zc=2 工程师(sr-bx)*1.02 zc=3 助理工程师(sr-bx)*1.01 zc=4 无职称这时变量sfgz所在的列将不再有缺失值。点击条件语句编辑窗口的Continue按钮，退回到表达式编辑框，点击OK按钮，高级工程师的实

8、发工资计算完成。12/26/2021整理ppt116) 计算方法的不足变量的计算，无法一次将不同条件的表达式集中编写，只能一个条件表达式运行一次。12/26/2021整理ppt12 3 数据抽样(选取)在实际的工作中，往往需要对满足一定条件的数据进行分析。如研究储蓄存款时，将储户分成城镇储户和农村储户，这时的数据更具有相同的特征，研究也更具有针对性。因此，要对数据进行筛选，在统计学中也称之为抽样。抽样的步骤如下：打开居民储蓄调查数据居民储蓄调查数据(存款存款).sav菜单 Data Select cases，弹出抽样对话框见图3-4-1。左边为变量列表，右边显示抽样方法，有5个单选按钮。不进行

9、抽样，所有的个案均参与统计分析。 1) 抽样方法的选择 (1) All cases12/26/2021整理ppt13图3-4-1 数据抽样12/26/2021整理ppt14(2) If condition is satisfied抽样得到的数据集是全部数据的一个子集，符合抽样条件的个案才参与统计分析操作。这一选项表示不进行抽样，也用于删除在此之前设置的抽样条件。筛选条件满足时抽取。筛选条件满足时抽取。例：抽取所有城镇储户的数据信息。a) 在抽样界面，点击 If condition is satisfied单选按钮。b) 点击If 按钮，弹出Select cases If 对话框。操作：操作：在

10、编辑框输入等式：a13=1，抽取城镇户口客户.c) 点击Continue按钮，完成条件抽样。不符合条件的打上删除标记注意注意：这里的筛选条件的值筛选条件的值不能是变量的值标签值标签。(查看设置界面的当前状态、数据编辑窗口个案的删除标记、筛选变量)12/26/2021整理ppt15A) Approximately(近似近似)为了真实模拟社会现象，有时需要采用随机抽样随机抽样。选择Random sample of cases单选按钮，这时Sample按钮激活，点击后进入Select cases:Random sample定义抽样范围对话框。有两个单选按钮。在文本框中输入一个大于0小于100的数，按

11、百分比抽取。30大概抽样大概抽样：Approximately % Of all cases(3) Random sample of cases12/26/2021整理ppt16C) 随机数种子发生器随机数种子发生器精确抽样：从前 n 个个案中随机随机抽取 m 个个案。由于具体抽取多少个个案是事先知道的，因此称为精确精确抽样抽样。这时需要mn。经过随机抽样后，未抽取数据的个案号打上了斜线。演示大概抽样演示大概抽样。随机抽取30%的个案(查看状态标记变量)。随机性的实现是由随机数种子控制的。在随机数发生器精确抽样精确抽样。Exactly cases from the first CasemnB)

12、Exactly例子将随机抽取随机抽取总数的30%的个案构成一个数据集。抽样设置是百分数而非确切数值，因此称为大概抽样大概抽样。12/26/2021整理ppt17图3-5 随机数种子设置窗口与版本12兼容12/26/2021整理ppt18 (4) Based on time or case rangea) Rendom：每次抽取，都产生一个随机数作为开设置.b) Fixed Value：在下边的文本框中填入一个大于0小于的具体数值作为种子。在指定的范围内，顺序抽样，更适于时间序列数据。点击Range按钮，弹出Select cases:Range对话框。在初始化发生器(active Generat

13、or Initialization )模块，设置开始点(Set starting point)，有两个选项：的设置菜单：Transform Random Number Generator ，弹出设置随机数对话框见图3-5。12/26/2021整理ppt19(5) Use filter variable使用过滤器过滤器过滤变量。要求指定一个变量作为过滤变量，抽样从非缺失值的个案中抽取。这种方法主要用于排除含有系统缺失值的个案。在选择了抽样方式以后，Select Cases对话框右下角的Output模块中的单选按钮变为激活状态，从而可以进行抽样的输出选择。这里有3个单选按钮。抽样从第m个个案开始，

14、到第n个个案结束。2) 抽样数据集的输出mnObservation：First cases Last cases 12/26/2021整理ppt20(2) Copy selected cases to a new dataset 过滤掉没有选择的个案。这时未被选中的个案上打上斜线作为删除标记。默认选项。删除没有被选择的个案。由于虽然此次没有抽取，但以后仍可能用到，一般不采取删除的方式处理方式。将选择了的个案存储到一个新的数据集中，这时需要在其后的文本框中输入要存储数据集的名字。(3) Delete unselected cases(1) Filter out unselected cases1

15、2/26/2021整理ppt21(4) 几点说明A) 统计分析时，不对打上删除标记的个案进行分析，直到删除抽样设置为止。B) 采用指定条件抽样和随机抽样这两种方法进行抽样，系统将在编辑窗口中自动生成一个变量名为filter_$的新变量，取值为0或1。1表示个案被抽取，0表示数据未被抽取。这样的变量称为中间变量，作为筛选条件时使用。如果删除这一变量，抽样设置自动消除。如果删除了筛选条件，这一变量也会自动删除。演示随机抽样查看生成变量。C) 对数据集不能同时设置两种抽样方式，设置一种抽样方式，在此之前设置的抽样方式将自动取消。12/26/2021整理ppt22 4. 计数在实际工作当中，需要对调查

16、问卷的答案进行分析。例例1：居民储蓄调查居民储蓄调查(存款存款).sav中有如下两个指标：收入情况、未来收入情况收入情况、未来收入情况，取值分别为：1，增加；，增加；2，基本不变；基本不变；3，减少。，减少。如果想了解在每一个个案中，选3(减少)的变量有几个，如何用SPSS快速的给出答案？例子特点：多个变量中多个变量中，取同一值取同一值的变量有多少个？的变量有多少个？例例2：中考成绩中考成绩(计数计数63).sav ：要统计出每一考生语文、英语、数学、物理和化学5科成绩，落在某一区间(如70,79)的有几科？12/26/2021整理ppt231) 计数的功能计数是统计出在一个个案中，多个变量

17、多个变量取同一个值同一个值或在同一个区间取值同一个区间取值的变量个数变量个数的方法。因此，处理这样的问题需要关注两个问题：A) 考察考察哪几个哪几个变量？变量？B) 同时同时取什么值，在取什么值，在哪一个哪一个区间取值？区间取值？选择菜单选择菜单 Transform Count value within cases，进入计数选择对话框。例子特点：多个变量，取值在同一个区间的有多少个?以上问题，如果通过SPSS软件实现？2) 计数的步骤12/26/2021整理ppt24 (2) 确定统计所关注的变量值计数变量用于存储统计结果计数变量用于存储统计结果。步骤如下：。步骤如下：a) Target Va

18、riable：在下面的文本框填入目标变量，用于存储计数的值。操作操作：在文本框中输入 sb) Target Label ：在下面的文本框中输入变量的标签，作为目标变量的说明，可选。操作操作：堪忧。c) Numeric Variables ：将要计数的变量输入。操作操作：收入情况、未来收入情况变量一般取多个值，我们只关心多个变量同时同时取的某个 (1) 确定计数变量12/26/2021整理ppt25 A) 值设置值设置例子例子：收入情况收入情况未来收入情况未来收入情况这两个变量取3的有几个?点击【 Define Values 】按钮，将选择的一个或多个变量与指定的值建立关系对话框。对话框分成两个

19、区域：左边的区域是值定义，右边是值左边的区域是值定义，右边是值存储及修改。存储及修改。可以用3种方式定义值：单一数值、一个闭区间、一个开区间。步骤如下。A) Value：默认选项，这时测试指定的一个一个或多个变量多个变量与文本框中给定的值给定的值是否相等。值的个数。这里是定义几个变量要取的那个固定的值。12/26/2021整理ppt26操作操作：5门成绩中不及格的数量。B) System_missing、 System or User_missing。统计几个变量中系统缺失值、用户定义缺失值的数量。操作：操作：5门成绩中，位于80,89的数量。C) Range： through 。测试一个或

20、多个变量的值，位于区间m,n中的数量。mn操作操作：在文本框内输入3。D) Range：lowest through 。测试一或多个变量的值是否位于区间(-，n，即取值小于等于取值小于等于n的个数的个数。nE) Range： through highes。测试一或多个变量的值是否位于区间m， )，即取值大于等于取值大于等于m的个数的个数。m12/26/2021整理ppt27 B) 值的显示与修改值的显示与修改说明说明：每次只能定义一个取值方式，并定义一个用于存储统计结果的目标变量。值设置完成后，可以通过、和三个按钮完成将定义值放入显示区，并对其进行修改和删除.AddChangeRem

21、ove操作操作：5门成绩中良以上的数量。12/26/2021整理ppt28 5 分类汇总根据高考总分，分析学生智力水平是否和性别性别有关，即按性别性别计算出高考总分的平均值、最高分和最低分。这两个例子的计算有如下特点：需要对数据进行分类，计算出每一类每一类的某一经济指标。用SPSS如何实现呢？A) 按照哪个变量进行分类(如：区域、性别)。B) 对哪个变量进行汇总(如：职工工资、高考总分)。C) 计算哪些指标(如：平均值、最大值和最小值)。经济工作者根据工资数据，研究各县市各县市职工的生活水平差异，需要计算各县市县市工资的平均平均工资。 1) 分类汇总关注的问题12/26/2021整理ppt29

22、 2) 分类汇总的基本操作A) 打开汇总菜单打开汇总菜单点击：点击：Data Aggregate(总计、汇总)，弹出分类汇总对话框。B) 选择分类变量选择分类变量从左边的变量列表框选择分类变量到Break(破裂) Variable框中。操作操作：职业。C) 选择汇总变量选择汇总变量汇总变量Aggregate Variable模块。例：利用居民储蓄调查数据.sav数据集，分析职业职业与存存款数额款数额之间的关系。12/26/2021整理ppt30操作操作：存款金额D) 确定计算什么统计量确定计算什么统计量。点击【 Function 】按钮，弹出选择对话框，可供选择的统计量包括：均值、求和、最大值

23、、最小值等20个选项，默认选项是均值，每次只能计算一个统计量。默认是均值。默认是均值。【 Name&Lable 】按钮为计算的统计量定制标签。操作操作：均值(注意观察汇总变量的取值随着选择的改变而改变)E) 输出每一类中包含的个案数。输出每一类中包含的个案数。选择框 Number of cases，若选择将生成一个每一类每一类中所含个案数的变量，变量名为N_BREAK。12/26/2021整理ppt31 E) 指定计算的统计量保存到何处指定计算的统计量保存到何处。有3中选择。a) Add aggregated variables to active dataset。将统计量的计算结果存储到当前

24、数据集当前数据集。b) Create a new dataset containing only the aggregated variables 。创建一个只含指定统计量作为变量的新数据集。这时需在下面的文本框给出数据集的名字。c) Write a new data only the aggregated variables。将计算的统计量存储到一个默认名称为agg.sav，的新文件中。文件类型可以不是SPSS的文件类型。F) Options for very large datasets 大数据集选项。a) already sorted break variable 在计算分类统计量之前已

25、经关于分类变量排序。12/26/2021整理ppt32G) 多重分类汇总多重分类汇总分类变量可以多于一个，这时的汇总称为多重分类汇总。第一个分类变量称为主分类变量。分类变量的指定顺序决定了汇总的先后顺序。例如，主分类变量是职业，第二分类变量为年龄。略。引子引子：统计分析，经常要将数据进行分组，研究一类数据的共性。对于各种各样的数据，如何用SPSS实现分组呢？b) Sort aggregating 在执行分类汇总前，系统先执行关于分类变量排序。通过分类统计可以看出，随着职业的不同，存款数量的平均值也不同。查看数据集。12/26/2021整理ppt336 数据分组数据分组是根据统计研究的需要，按照

26、一定的特征特征将总体区分为若干个性质不同而又存在联系的部分部分的一种方法。这些部分部分称为这一统计总体的组。数据分组对总体而言是“分”，即把总体划分为性质相异的若干组；对个体而言是 “合”，即把性质相同的个体合为一组。1) 数据分组的意义(1) 为什么要数据分组(2) 数据分组的原则12/26/2021整理ppt34另一方面，差异很大时的两个事物看成相同的类，将抹杀事物质的区别与特征，混淆事物的优劣，不能正确的评价出事物的好坏将不利于相关工作的开展。(3) 分类原则的总结一次性存款数量为1000元与1020元，虽然数量存在差异，未必有什么质的差别。考试成绩84分与88分的学生，虽然分数不同，但

27、学生的基本素质可能没有本质的差别。统计分组的原则，是保证组间各个单位具有差异性差异性，组内的各个单位具有同质性同质性。12/26/2021整理ppt352) 组距分组(重赋值 Recode)对于定距变量定距变量，由于数值型变量的连续性与稠密性，为了研究的需要，有时需将数据进行分组。分组既要体现出组之间的差异，又不能分组太多，需要需要确定合适的分组区间确定合适的分组区间。将变量的变化范围依次分成若干个满足包容性包容性和互斥性互斥性的数值区间。什么叫包容性与互斥性呢？ (1) 组距分组的定义用文字表示的品质变量品质变量，如性别、职称、民族等等，这样的变量相当于利用变量的不同取值，自然的进行了分组。

28、12/26/2021整理ppt36按照组距分组的定义，用组的区间作为组的名称直观，但如果组区间数值很大或很复杂，研究问题不是很方便。将各个区间重新赋予一个值作为组的名称，这样的分组将各个区间重新赋予一个值作为组的名称，这样的分组称为组距分组，也称为重赋值称为组距分组，也称为重赋值(Recode)每一个变量的值，必须属于其中的某一组是包容性包容性；且只能属于一组，不能同时属于两个以上的组是互斥性互斥性。人均收入户数频率人均收入户数频率400以下300.178011200600.33401800700.391201以上200.11例子：某个企业的职工小区，人均可支配收入见下表。(2) 分组数目的确

29、定12/26/2021整理ppt37(3) 组距的确定分组过多时，容易将具有相同特征的数据分到了两个组，使问题复杂化；分组过少，会将具有不同特征的数据不同特征的数据归为一组，淡化了数据的差异。数据应分成多少组，没有统一的方法与模式，通常根据数据本身的特点、数据的个数及研究问题的具体需要具体分析后确定。定义定义：组距：组距是数据的上限数据的上限(最大值)与数据的下限数据的下限(最小值)之差除以组数组数，即组距式分组的特点，平抑各组数据内部内部的区别，突出各组之间之间的差异，以方便观察数据的分布特征。12/26/2021整理ppt38(4) 组距分组的实现确定组数、组距的原则：组数一定是整数且不宜

30、过多，组距一般是5或10的整数倍。例：数据加工(职工数据).sav数据集中最大值=1044，最小值=824，幅度=1044824=220。根据数据变化的幅度及确定组距的原则，取组距为50；根据数据的分布特点，确定分组分为5组(开口组)：850，851900，901950，9511000， 1001操作操作：数据加工(职工数据).sav 组距=(最大值-最小值) 组数A) 打开要分组的数据文件打开要分组的数据文件。12/26/2021整理ppt39菜单Trasform Recode Into Different Variable：对数据进行分组，对每个组的名称重编码重编码存入一个不同的变量，这时

31、弹出变量选择设置窗口。在左边变量的列表框中选择分组变量，将其移入右边的Input Variable Output Variable列表框.例：sr(工资)在Name下面的文本框中，给出输出变量的名字，用于存储各个组的名字。B) 打开数据分组对话框打开数据分组对话框C) 选择分组变量。选择分组变量。D) 为输出变量命名。为输出变量命名。12/26/2021整理ppt40E) 建立新旧组名的对应关系。建立新旧组名的对应关系。进入条件表达式设置对话框，进行条件表达式的设置。3个按钮，对新值进行设置并建立新旧值之间的对应关系、对建立的关系进行修改及将建立的关系删除等操作。值设置完成后，可以通过、和

32、AddChangeRemove可在下面的Lable的文本框为输出变量定义一个标签。点击【 change 】按钮完成输出变量的定义。例：sF) 设置筛选条件设置筛选条件如果仅对符合一定条件的个案分组，单击按钮IF12/26/2021整理ppt41 G) 总结总结说明：a) 这里举的例子是等距分组，从设置过程可以看出，也可以进行非等距分组。b) 这里讲解的是将离散型、连续型的变量的值分成若干组，将每一组构成的区间和一个新变量的值新变量的值建立了关系，执行的操作是： Recode Into Different Variable。有时建立了新变量之后，旧的值已经没有用了，可以用新生成的变量将原数值替

33、换掉，这时需要选择的操作是： Recode Into Same Variable，理论与方法基本相同，略。演示例子，建立每一个值与区间变量的关系。12/26/2021整理ppt427 预处理的其他功能数据处理是对变量进行，而变量在数据集中都是按列存放的。如果得到的变量数据是按行存放，则需要将行变量转化成列变量。将数据行列互换，即矩阵的转置。 1) 数据的转置课程宏观统计计量张三837796李四796287课程张三李四宏观8379统计7762计量968712/26/2021整理ppt43(1) 选择变量点击菜单Data Transpose，弹出转置设置对话框。数据集的所有变量出现在对话框左侧的列表框中。将要转置的变量移至变量窗口。操作操作：将xb，nl，sr，zc，xl，bx移入.行数据转化成了新数据集的列，每一列需要确定变量的名称。有两种方法。(2) 确定新数据集变量的名称将要转置的数据集打开。操作操作：数据加工数据加工(职工数据职工数据).savA) 原数据集存在取唯一值的变量原数据集存在取唯一值的变量如果原数据集存在一个取值唯一的变量，如学号学号、职职12/26/2021整理ppt44B) 原数据集无唯一标示行数据的变量原数据集无唯一标示行数据的变量(值标签转置后将无效)将取唯一值的变量移至Name Variable标

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第三章--SPSS-数据的预处理ppt课件

文档简介

温馨提示

最新文档

评论

第三章--SPSS-数据的预处理ppt课件

文档简介

温馨提示

最新文档

评论

相关文档