版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SPSSSPSS在食品试验数据分析中的应用在食品试验数据分析中的应用授课教师:耿业业授课教师:耿业业 北华大学北华大学2016.9第二章第二章 教学任务、教学要求教学任务、教学要求 讲授讲授SPSS在食品试验数据分析中的应用。在食品试验数据分析中的应用。 要求学生熟识要求学生熟识SPSS软件基本操作、数据录软件基本操作、数据录入、外部数据导入、数据保存、数据管理入、外部数据导入、数据保存、数据管理,学会试验数据描述与统计图表的展示,学会试验数据描述与统计图表的展示,掌握食品试验数据假设检验的基本方法。掌握食品试验数据假设检验的基本方法。 使学生拥有利用软件刻画和解释现实问题使学生拥有利用软件刻
2、画和解释现实问题的统计分析逻辑与能力,并提高统计软件的统计分析逻辑与能力,并提高统计软件的自学能力和数据处理的实践能力。的自学能力和数据处理的实践能力。主要参考书:主要参考书:spss统计分析基础统计分析基础/高级教程高级教程 张文彤张文彤授课方式 课堂讲授课堂讲授8学时,上机实践学时,上机实践16学时。学时。 理论与应用相结合(应用为主)理论与应用相结合(应用为主) 讲授与上机相结合(上机为主)讲授与上机相结合(上机为主)第一节第一节SPSSSPSS软件入门软件入门1.1 SPSS简介1.2 SPSS数据的管理1.3 SPSS数据的预处理 统计软件的种类很多。只要学会使用一种统计软件的种类很
3、多。只要学会使用一种“傻瓜式傻瓜式”软件或编程软件,使用其他类似的软件或编程软件,使用其他类似的软件也不会困难软件也不会困难, , 最多看看帮助和说明即可最多看看帮助和说明即可. . 学习软件的最好方式是多练多用学习软件的最好方式是多练多用. . 用统计软件容易得到漂亮的数据结果,但其用统计软件容易得到漂亮的数据结果,但其中充满了危险的陷阱中充满了危险的陷阱. . 计算机无法识别你的统计方面的错误计算机无法识别你的统计方面的错误. . 错误的方法、错误的数据形式都必然输错误的方法、错误的数据形式都必然输出错误的结果出错误的结果. . 结果虽然看上去很漂亮结果虽然看上去很漂亮,但有时得到的却是大
4、量垃圾,但有时得到的却是大量垃圾. . 因此,使用统计软件时,要了解相关的因此,使用统计软件时,要了解相关的统计理论方法,及其使用的统计理论方法,及其使用的前提条件前提条件和和适用性适用性,根据实际研究问题选用准确的,根据实际研究问题选用准确的方法方法. .2021-12-301.1 SPSS简介简介1. SPSS的发展历程2. SPSS18.0版本的安装与启动3. SPSS的基本操作环境(重点)4. 利用SPSS进行数据分析的步骤 SPSS-Statistical Package for Social Science (社会科学统计软件包)(社会科学统计软件包) 2000年年正式正式改名为改
5、名为Statistical Product and Service Solutions(统计产品与服务解决方案)统计产品与服务解决方案)1.1.1 SPSS的发展历程 1968,斯坦福大学的,斯坦福大学的3位研究生研发了位研究生研发了SPSS 1975 ,芝加哥组建了,芝加哥组建了SPSS 总部总部 1984,开发了,开发了DOS操作系统下的操作系统下的PC+1.0版本版本 1992,DOS版升级为版升级为Windows版本,即最初版本,即最初4.0版版 1998,收购了,收购了ISL公司及公司及Clementine产品线。产品线。 2009,被,被IBM收购。收购。 2015,目前已开发,目
6、前已开发23.0。SPSS-SPSS-四大类产品四大类产品 统计分析统计分析 IBM SPSS Statistics 预测模型预测模型 提供直观的辅助决策信息提供直观的辅助决策信息 IBM SPSS Modeler IBM SPSS Text Mining 数据收集数据收集 为客户的态度和观点提供准确的视图为客户的态度和观点提供准确的视图 IBM SPSS Data Collection 部署部署 在企业日常运营中,降低分析维护成本,在企业日常运营中,降低分析维护成本,最大限度的提高数据分析为企业带来的价值。最大限度的提高数据分析为企业带来的价值。 IBM SPSS Collaboration
7、 & Deployment Services IBM SPSS Decision Management SPSS for Windows SPSS for Windows的特点的特点 1、SPSS for Windows的命令语句、子命令及选的命令语句、子命令及选择项大部分由择项大部分由“菜单菜单”、“图标按钮图标按钮”、“对话对话框框”的操作完成,操作简单、使用方便。工具栏的操作完成,操作简单、使用方便。工具栏提供了方便用户进行各种不同操作的按钮提供了方便用户进行各种不同操作的按钮,用户也用户也可根据不同的需要增加或者减少各种操作按钮。可根据不同的需要增加或者减少各种操作按钮。同时还
8、具有记忆功能同时还具有记忆功能,能够记住用户最近打开的数能够记住用户最近打开的数个文件以及当前执行的统计分析及作图的操作中个文件以及当前执行的统计分析及作图的操作中用户输入的数据。用户输入的数据。与另一著名统计软件与另一著名统计软件SAS相比,更适用于统计初相比,更适用于统计初学者或非统计学专业人员。学者或非统计学专业人员。 2、具有完整的数据输入、编辑、统计分析、报、具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。能更快速地读取并分析大表、图形制作等功能。能更快速地读取并分析大量数据。去掉了数据大小的限制,解决了在使用量数据。去掉了数据大小的限制,解决了在使用其他分析工具时可能遇到
9、处理大量资料的困难,其他分析工具时可能遇到处理大量资料的困难,现在您都可以比以前更轻易地读取并管理您的这现在您都可以比以前更轻易地读取并管理您的这些资料。利用独一无二的动态表格(些资料。利用独一无二的动态表格(PIVOT TABLE)技术,创造表格、图表与报告模块)技术,创造表格、图表与报告模块(report cube)。为基础统计分析提供了最基本的。为基础统计分析提供了最基本的统计方法,其中包括了概括、计算、交叉表、分统计方法,其中包括了概括、计算、交叉表、分类、描述性统计、因子分析、回归与聚类分析,类、描述性统计、因子分析、回归与聚类分析,而且在您分析结束后,还可以将数据写回数据库而且在您
10、分析结束后,还可以将数据写回数据库。自带。自带11种类型种类型136个函数个函数,能充分满足各个方面能充分满足各个方面用户的需要。利用互动图形,使分析結果显而易用户的需要。利用互动图形,使分析結果显而易见。还可以将表格转变成图形。见。还可以将表格转变成图形。 3、SPSS for Windows与其它软件有数据与其它软件有数据转换接口。能够读取转换接口。能够读取13种及输出种及输出14种格式种格式的文件;能够把的文件;能够把SPSS的图形转换成的图形转换成7种图种图形文件;结果文件可保存为形文件;结果文件可保存为TXT及及HTML格格式的文件。结果可直接用式的文件。结果可直接用Word及及WP
11、S编辑编辑,为数据及图形结果直接用于科研报告提,为数据及图形结果直接用于科研报告提供了便利。例如:可直接读取关系数据库供了便利。例如:可直接读取关系数据库生成的生成的DBF文件、文件、ASCII文件以及文件以及Excel电电子表格文件。同理,子表格文件。同理,SPSS的数据文件也可的数据文件也可以方便地转换成其它数据文件以方便地转换成其它数据文件 4、提供独有的菜单命令向程序文件的转换、提供独有的菜单命令向程序文件的转换功能。几乎每一个对话框都有功能。几乎每一个对话框都有“Paste”(粘贴)按钮。可将菜单操作命令直接转换粘贴)按钮。可将菜单操作命令直接转换为程序命令。用户可将命令文件保存或编
12、为程序命令。用户可将命令文件保存或编辑,也可直接执行该程序文件。因此,编辑,也可直接执行该程序文件。因此,编写程序文件时也不需记忆大量的命令,为写程序文件时也不需记忆大量的命令,为高级用户对数据实现自动分析提供了强有高级用户对数据实现自动分析提供了强有力的帮助。力的帮助。 5、详细的在线帮助、详细的在线帮助(Help)信息。根据不同信息。根据不同层次的用户提供不同的帮助层次的用户提供不同的帮助,在使用过程中在使用过程中用户可以方便地获得相关的帮助信息用户可以方便地获得相关的帮助信息,也可也可直接连接到直接连接到SPSS Internet主页主页,查询有关该查询有关该软件的最新信息。软件的最新信
13、息。 安装:安装: SPSS for Windows安装的基本步骤安装的基本步骤 与其他常用软件是基本相同的。与其他常用软件是基本相同的。 启动:启动: 开始开始程序程序IBM SPSS Statistics pasw 是是SPSS Inc. 的注册商标的注册商标 1.1.2 SPSS软件的安装和启动工具栏菜单栏菜单栏标题栏数数据据编编辑辑区区 数据显示区数据显示区: :变量名变量名观察序号观察序号状态栏 1.1.3 SPSS的基本操作环境一、数据编辑窗口(.SAV)窗口主菜单工具栏内容区目录区 二、SPSS结果输出窗口(.SPV)1.1.4 利用SPSS进行数据分析的步骤 建立建立SPSS数
14、据文件。数据文件。在该阶段按照研究的在该阶段按照研究的要求,利用要求,利用SPSS提供的功能建立提供的功能建立SPSS数据数据文件。其中包括在数据编辑窗口定义文件。其中包括在数据编辑窗口定义SPSS数据文件的结构,录入和修改数据文件的结构,录入和修改SPSS数据等,数据等,当然也可以从其它可转换的数据文件中读当然也可以从其它可转换的数据文件中读取数据资料。取数据资料。 SPSS数据的加工整理阶段。数据的加工整理阶段。该阶段主要对该阶段主要对数据编辑窗口中的数据进行必要的预处理,数据编辑窗口中的数据进行必要的预处理,如数据分组、排序、分类汇总、数据计算、如数据分组、排序、分类汇总、数据计算、变量
15、转化、缺失值的补漏、观测值选择等。变量转化、缺失值的补漏、观测值选择等。 SPSS数据的分析阶段。数据的分析阶段。该阶段选择正确的该阶段选择正确的分析方法,对数据编辑窗口中的数据进行分析方法,对数据编辑窗口中的数据进行统计分析、建模和预测。统计分析、建模和预测。 SPSS分析结果的说明和解释。分析结果的说明和解释。该阶段的任该阶段的任务是读懂务是读懂SPSS输出窗口中的分析结果,明输出窗口中的分析结果,明确其统计含义,并结合应用背景知识作出确其统计含义,并结合应用背景知识作出切合实际的合理解释。在学术研究中,还切合实际的合理解释。在学术研究中,还需要对结果的含义加以衍生。需要对结果的含义加以衍
16、生。 数据和分析结果的保存。数据和分析结果的保存。 1.2 SPSS数据的管理数据的管理1. SPSS数据文件的特点2. 定义变量属性(重点)3. SPSS数据的录入、编辑(自学)4. SPSS数据的保存5. 读取其他格式的数据文件(自学)6. SPSS数据文件的合并(自学)1.2.1 SPSS数据文件的特点 SPSS的数据文件扩展名是的数据文件扩展名是.sav; SPSS数据文件是一种有结构的数据文件,数据文件是一种有结构的数据文件,它由它由数据结构和内容数据结构和内容两部分组成,其中的两部分组成,其中的数据结构记录数据变量的数据结构记录数据变量的名称、类型、变名称、类型、变量宽度、小数位数
17、、变量名标签、变量值量宽度、小数位数、变量名标签、变量值标签、缺失值、显示宽度、对齐方式和度标签、缺失值、显示宽度、对齐方式和度量尺度量尺度等必要信息,数据的内容才是那些等必要信息,数据的内容才是那些待分析的具体数据。待分析的具体数据。数据结构数据内容 基于上述特点,建立基于上述特点,建立SPSS数据文数据文件时应完成两项任务:件时应完成两项任务: 描述描述SPSS数据的结构数据的结构(变量视图变量视图) 录入编辑录入编辑SPSS数据的内容数据的内容(数据视图数据视图)(1) 原始数据的组织方式原始数据的组织方式 数据编辑窗口中的一行称为一个数据编辑窗口中的一行称为一个个案或记个案或记录(录(
18、Case),所有个案组成,所有个案组成SPSS数据文件数据文件的内容。数据编辑窗口的一列称为一个的内容。数据编辑窗口的一列称为一个变变量(量(Variable),每个变量都有一个名字,每个变量都有一个名字,称为称为变量名变量名,它是访问和分析,它是访问和分析SPSS每个变每个变量的唯一标志。量的唯一标志。 SPSS数据文件的结构就是数据文件的结构就是对每个变量及相关特征的描述。对每个变量及相关特征的描述。SPSS数据的组织方式直接的问卷数据(2)频数数据的组织方式)频数数据的组织方式例:职称年龄段35岁以下(1)3649岁(2) 50岁以上(3)教授(1)0158副教授(2)10202讲师(3
19、)20101助教(4)3520频数数据的组织方式中频数数据的组织方式中: 一行为变量的一个分组一行为变量的一个分组(或多或多个变量交叉分组下的一个分组个变量交叉分组下的一个分组),所有行囊括了该变量,所有行囊括了该变量的所有分组情况,一列仍为一个变量,代表某个问题的所有分组情况,一列仍为一个变量,代表某个问题(或某个方面或某个方面)及频数。及频数。分组汇总后的数据频数数据的组织方式SPSS格式职称年龄段人数110121513821102220232312032103314135422430 变量名(Name) 数据类型(Type)、宽度 (Width) 、列宽度(Columns)-重点 变量名
20、标签(Label) 变量值标签(Values) -重点 缺失数据(Missing) 变量对齐格式(Align) 度量标准(Measure) -重点1.2.2 定义变量属性 变量名是变量访问和分析的唯一标志。变量名是变量访问和分析的唯一标志。在定义在定义SPSS数据结构时应首先给出每列变数据结构时应首先给出每列变量的变量名。变量的命名规则如下:量的变量名。变量的命名规则如下:1.以前版本的首字符应以英文字母开头,以前版本的首字符应以英文字母开头,20版本的可以直接是汉字开头版本的可以直接是汉字开头。后面可以跟。后面可以跟除了!、?、除了!、?、*之外的字母或数字。下划线、之外的字母或数字。下划线
21、、圆点不能为变量名的最后一个字符。圆点不能为变量名的最后一个字符。SPSS允许用汉字作为变量名。允许用汉字作为变量名。1) 变量名(Variable name)定义时直接录入即可2.变量名的变量名的字符个数最好不多于字符个数最好不多于8个个;变量;变量名不区分大小写字母。名不区分大小写字母。3. SPSS有有默认的变量名,以字母默认的变量名,以字母“VAR”开开头,后面补足头,后面补足5位数字位数字,如,如VAR00001,VAR00012等。变量名不能与等。变量名不能与SPSS内部特有内部特有的具有特定含义的保留字同名,如的具有特定含义的保留字同名,如ALL,BY,AND,NOT,OR等。等
22、。4.变量名最好与其代表的数据含义相对应变量名最好与其代表的数据含义相对应,每个变量名必须具有唯一性。每个变量名必须具有唯一性。2) 数据类型(Type) 每种类型的变量都有自己的变量宽度、小每种类型的变量都有自己的变量宽度、小数位和显示宽度,其中变量宽度是变量允数位和显示宽度,其中变量宽度是变量允许的最大字符位数,列宽度是数据编辑窗许的最大字符位数,列宽度是数据编辑窗口中显示每列的字符位数。通常这两个宽口中显示每列的字符位数。通常这两个宽度是一致的。度是一致的。2) 变量宽度(Width)、显示宽度(Columns)3) 变量名标签(Variable label) 变量名标签是对变量名含义的
23、进一步解释说变量名标签是对变量名含义的进一步解释说明,它可以增强变量名的可视性和统计分析明,它可以增强变量名的可视性和统计分析结果的可读性。结果的可读性。 变量名标签可用中文,总长度可达变量名标签可用中文,总长度可达120个字个字符,但在统计分析结果的显示中一般不能显符,但在统计分析结果的显示中一般不能显示如此长的变量名标签信息。示如此长的变量名标签信息。定义时直接录入即可4) 变量值标签(Value label) 变量值标签是对变量取值含义的解释变量值标签是对变量取值含义的解释说明信息,对于品质型数据说明信息,对于品质型数据(定性数据包括定性数据包括分类和顺序数据分类和顺序数据)尤为重要,比
24、如尤为重要,比如1代表男代表男性,性,2代表女性,它不但明确了数据的含义,代表女性,它不但明确了数据的含义,也增强了最后统计分析结果的可读性,变也增强了最后统计分析结果的可读性,变量值标签可以用中文。量值标签可以用中文。鼠标单击再单击右边的省略号弹出值标签定义窗口逐个添加5) 缺失数据(Missing values) 数据中存在数据中存在明显错误或明显不合理的数据明显错误或明显不合理的数据或漏填数据项时统计学上称为不完全数据或漏填数据项时统计学上称为不完全数据或缺失数据或缺失数据。 数据中如果存在缺失数据,分析时通常不数据中如果存在缺失数据,分析时通常不能直接采用,要进行说明。能直接采用,要进
25、行说明。SPSS用户缺失值定义窗口鼠标单击再单击右边的省略号弹出缺失值定义窗口逐个添加6) 变量对齐格式(Align) 定义显示对齐方式,对齐方式分为右对齐、定义显示对齐方式,对齐方式分为右对齐、左对齐和中间对齐左对齐和中间对齐; 系统中,数值型变量默认为右对齐,字符系统中,数值型变量默认为右对齐,字符型变量默认为左对齐。型变量默认为左对齐。7) 度量标准(Measure) 统计学依据数据的度量尺度将数据划统计学依据数据的度量尺度将数据划分为三大类分为三大类: 名义名义(Nominal)分类数据,如民族、宗教分类数据,如民族、宗教信仰、性别、党派;信仰、性别、党派; 序号序号(Ordinal)
26、顺序数据,如职称、职务、顺序数据,如职称、职务、对某事物的赞同程度;对某事物的赞同程度; 度量度量(Scale)数值型数据,如身高、体重。数值型数据,如身高、体重。 通常建立通常建立SPSS数据文件时应首先定义数据文件时应首先定义数据的结构部分,然后再输入数据,数据的结构部分,然后再输入数据,但实际应用中,边录入、边分析、边但实际应用中,边录入、边分析、边修改数据结构的情况也是常见的。数修改数据结构的情况也是常见的。数据的结构定义完成之后,可以在据的结构定义完成之后,可以在变量变量视图视图(Variable View)卡片中浏览,也可卡片中浏览,也可以通过菜单选项以通过菜单选项实用程序实用程序
27、(Utilities)变量变量 (Variable)来实现。来实现。SPSS数据文件的建立-练习 把把Excel格式的居民储蓄调查问卷数据格式的居民储蓄调查问卷数据导入到导入到SPSS软件中软件中,再定义各变量的再定义各变量的属性,最后对照属性,最后对照SPSS格式的文件进行格式的文件进行检查。检查。 SPSS数据的录入 (与Excel类似,自学) SPSS数据的编辑 (与Excel类似,自学) SPSS数据的定位 插入和删除一条个案 插入和删除一个变量 数据的移动、复制和删除1.2.3 SPSS数据的录入、编辑(自学)查找 1、SPSS文件格式,扩展名为文件格式,扩展名为.sav 2、Exc
28、el格式文件,扩展名为格式文件,扩展名为.xls 3、dbf格式文件,扩展名为格式文件,扩展名为.dbf 4、文本格式文件,扩展名为、文本格式文件,扩展名为.datSPSS支持的数据格式1.2.4 SPSS数据的保存文件文件File保存保存Save,对于新的:提示文,对于新的:提示文件名和类型;对于旧的,覆盖原来的,不件名和类型;对于旧的,覆盖原来的,不再提问;再提问;文件文件File另存为另存为Save As,另存一个数据,另存一个数据文件,也有格式(类型)问题;文件,也有格式(类型)问题;变量变量Variable按钮允许用户指定保存哪些按钮允许用户指定保存哪些变量,不保存哪些变量,变量名前
29、画叉的变量,不保存哪些变量,变量名前画叉的变量将被保存到磁盘中。变量将被保存到磁盘中。保存数据的基本操作保存为SPSS格式时将数据保存为Excel文件格式时,将变量名写入表格将变量名写入表格Write variables names to spreadsheet选项呈可用状态,它的作用选项呈可用状态,它的作用是指定是否将是指定是否将SPSS变量名写入变量名写入Excel工作表的第一行上。工作表的第一行上。 直接读入其它格式的数据文件 使用文本向导读入文本文件(自学) 使用数据库向导读入数据 (自学)1.2.5 读取其它格式的数据文件1) 直接读入其它格式的数据文件SPSS现在可以直接读入许多格
30、式的数据现在可以直接读入许多格式的数据文件,其中就包括文件,其中就包括EXCEL各个版本的数各个版本的数据文件。选择菜单据文件。选择菜单文件文件File打开打开Open数据数据Data ;或直接单击快捷工具栏上的;或直接单击快捷工具栏上的Open File按钮,系统就会弹出按钮,系统就会弹出Open File对话框,单击对话框,单击“文件类型文件类型”列表框,在里列表框,在里面能看到直接打开的数据文件格式。面能看到直接打开的数据文件格式。SPSS(*.sav)SPSS数据文件(6.010.0版)SPSS/PC+(*.sys)SPSS 4.0版数据文件Systat(*.syd)*.syd格式的S
31、ystat数据文件Systat(*.sys)*.sys格式的Systat数据文件SPSS portable(*.por)SPSS便携格式的数据文件EXCEL(*.xls)EXCEL数据文件(从5.0版2000版)Lotus(*.w*)Lotus数据文件SYLK(*.slk)SYLK数据文件dBase(*.dbf)dBase系列数据文件,(从dBase IIIV)Text(*.txt)纯文本格式的数据文件data(*.dat)纯文本格式的数据文件 注:读入注:读入Excel文件时,文件时,SPSS默认将默认将Excel工作表中的全部数据读到工作表中的全部数据读到SPSS数据编数据编辑窗口,但也可
32、以指定仅读取工作表中某个辑窗口,但也可以指定仅读取工作表中某个区域内的数据(如区域内的数据(如A5:B10)。工作表上的)。工作表上的一行数据为一行数据为SPSS中的一个个案。中的一个个案。 如果如果Excel工作表文件第一行或指定读取工作表文件第一行或指定读取区域内的第一行存储了变量名信息,则应选区域内的第一行存储了变量名信息,则应选择择读取变量名读取变量名Read variable names项,即以项,即以第一行的文字信息作为第一行的文字信息作为SPSS的变量名,否的变量名,否则不选。则不选。读取EXCEL数据文件2) 使用文本向导读入文本文件选择菜单选择菜单文件文件File 打开文本数
33、据打开文本数据Read Text Data ,系统就会弹出,系统就会弹出Open File对话框,对话框,和前面的情况完全一样,只是文件类型自和前面的情况完全一样,只是文件类型自动跳到了动跳到了Text (*.txt)。也可直接单击快捷工具栏上的也可直接单击快捷工具栏上的Open File按按钮,系统就会弹出钮,系统就会弹出Open File对话框,单击对话框,单击“文件类型文件类型”列表框,在里面能看到直接列表框,在里面能看到直接打开的文本文件格式。打开的文本文件格式。类似于从文本格式转类似于从文本格式转为为EXCELEXCEL格式的操作格式的操作 例例 :现有一数据文件以纯文本的形式保存:
34、现有一数据文件以纯文本的形式保存,且第一行为变量名,请将其读入,且第一行为变量名,请将其读入SPSS。 在在文件文件File 打开文本数据打开文本数据Read Text Data对话框选中相应的文件名并单击对话框选中相应的文件名并单击“确确定定”,系统会自动启动文本导入向导对话,系统会自动启动文本导入向导对话框如下:框如下:类似于从文本格式转类似于从文本格式转为为EXCELEXCEL格式的操作格式的操作 选择菜单选择菜单文件文件File打开数据库打开数据库Open Database 新建查询新建查询New Query,系统会,系统会弹出数据库向导的第一个窗口,其中会列弹出数据库向导的第一个窗口
35、,其中会列出你使用的机器上已安装的所有数据库驱出你使用的机器上已安装的所有数据库驱动程序,选中所需的数据源,然后单击下动程序,选中所需的数据源,然后单击下一步,向导会一步一步的提示你如何做,一步,向导会一步一步的提示你如何做,直至将数据读入直至将数据读入SPSS。3) 使用数据库向导读入数据 纵向合并数据文件 横向合并数据文件1.2.6 SPSS数据文件合并(自学)1.2 1.2 总结总结1. SPSS数据文件与Excel数据文件有何不同2. 如何定义数据的结构或变量的属性(重点)3. 如何录入、编辑和保存SPSS数据4. 如何读取Excel和文本格式的数据文件5. 如何对SPSS数据文件进行
36、纵向和横向合并2021-12-30SPSSSPSS软件入门软件入门1.31.31.11.1 SPSS简介1.21.2 SPSS数据的管理1.31.3 SPSS数据的预处理为什么要进行数据的预处理 在数据文件建立之后,通常还需要对分析在数据文件建立之后,通常还需要对分析的数据进行必要的预加工处理,这是数据的数据进行必要的预加工处理,这是数据分析过程中必不可少的一个关键步骤。分析过程中必不可少的一个关键步骤。 数据的预加工处理服务于数据分析和建模,数据的预加工处理服务于数据分析和建模,主要包括以下几个问题:主要包括以下几个问题: 1. 数据的排序数据的排序 2. 变量计算变量计算 3. 数据选取数
37、据选取 4. 分类汇总分类汇总 5. 数据分组数据分组 6. 数据拆分数据拆分 7. 数据预处理的其它功能数据预处理的其它功能:计数、转置、加权计数、转置、加权、缺失值处理、数据排秩、定义变量集等、缺失值处理、数据排秩、定义变量集等1.3 SPSS1.3 SPSS数据的预处理数据的预处理 数据排序的目的 数据排序的基本操作1.3.1 数据的排序 数据排序便于数据的浏览,有助于了解数数据排序便于数据的浏览,有助于了解数据的据的取值状况取值状况、缺失值缺失值数量的多少等;数量的多少等; 通过数据排序能够快捷的找到数据的最大通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的值和最小
38、值,进而可以计算出数据的全距全距,初步把握和比较数据的初步把握和比较数据的离散程度离散程度; 通过数据排序能够快捷地发现数据的通过数据排序能够快捷地发现数据的异常异常值值,为进一步明确它们是否会对分析产生,为进一步明确它们是否会对分析产生重要影响提供帮助。重要影响提供帮助。1) 数据排序的目的 SPSS数据排序的基本操作步骤:数据排序的基本操作步骤: (1)选择菜单)选择菜单数据数据Data个案排序个案排序Sort Cases (2)将主排序变量从左边的列表中选到)将主排序变量从左边的列表中选到排序排序依据依据Sort by框框中,并在中,并在排序顺序排序顺序Sort Order框框中选择按该
39、变量的升序还是降序排序。中选择按该变量的升序还是降序排序。 (3)如果是多重排序,还要一次指定第二、)如果是多重排序,还要一次指定第二、第三排序变量及相应的排序规则。第三排序变量及相应的排序规则。 (4)或者快捷方法:数据视图)或者快捷方法:数据视图 右键右键 对话框对话框2) 数据排序的基本操作在左边的在左边的源变量框源变量框中选中选择排序变量进入择排序变量进入排序依排序依据框据框。如果选择。如果选择2个以上个以上的变量,观测量的排序的变量,观测量的排序结果与排序变量在结果与排序变量在排序排序依据框依据框中的顺序有关。中的顺序有关。列于首位的为第一排序列于首位的为第一排序变量。变量。在在排序
40、顺序排序顺序 栏栏内内选择排序方式选择排序方式-升序与降序升序与降序数据加工(职工数据).sav数据排序举例数据排序举例按基本工资升序和职称降序排序的结果按基本工资升序和职称降序排序的结果员工基本情况.sav 变量计算的目的 SPSS算术表达式 SPSS条件表达式 SPSS函数 变量计算的应用举例1.3.2 变量计算 SPSS变量计算是变量计算是在原有数据的基础上,根据用户在原有数据的基础上,根据用户给出的给出的SPSS算术表达式以及函数,对所有个案或算术表达式以及函数,对所有个案或满足条件的部分个案,计算产生一系列新变量。满足条件的部分个案,计算产生一系列新变量。 1)变量计算是针对所有个案
41、(或指定的部分个案)变量计算是针对所有个案(或指定的部分个案)的,每个个案都有自己的计算结果。的,每个个案都有自己的计算结果。 2)变量计算的结果应保存到一个指定变量中,该)变量计算的结果应保存到一个指定变量中,该变量的数据类型应与计算结果的数据类型相一致。变量的数据类型应与计算结果的数据类型相一致。 在变量计算过程中涉及到几个概念:在变量计算过程中涉及到几个概念:SPSS算算数表达式、数表达式、SPSS条件表达式和条件表达式和SPSS函数函数。1) 变量计算的目的计算下表中的职工实际收入计算下表中的职工实际收入员工基本情况.sav原有数据中会原有数据中会增加新的一列增加新的一列员工基本情况.
42、sav2) SPSS算术表达式SPSS函数函数选择出职称大于选择出职称大于4 4且学历不低于且学历不低于1 1的职工的职工3) SPSS条件表达式 SPSS函数是事先编好并存储在函数是事先编好并存储在SPSS软件中,能软件中,能够实现某些特定计算任务的一段计算机程序。够实现某些特定计算任务的一段计算机程序。这些程序都有各自的名字称为这些程序都有各自的名字称为函数名函数名。执行这。执行这些程序段得到的计算结果称为些程序段得到的计算结果称为函数值函数值。 SPSS函数大致可以分成八大类:函数大致可以分成八大类:算术函数、统算术函数、统计函数、分布函数、逻辑函数、字符串函数、计函数、分布函数、逻辑函
43、数、字符串函数、缺失值函数、日期函数和其他函数缺失值函数、日期函数和其他函数。4) SPSS函数1、利用职工基本情况数据,依据职称级别计、利用职工基本情况数据,依据职称级别计算实发工资。假设职称算实发工资。假设职称4、6、8的职工的工的职工的工资分别上调资分别上调4,6,8。 5) 变量计算的应用举例在在计算变量计算变量:If个案个案对话框中依次输入条件表达式对话框中依次输入条件表达式, 并在并在数学表达式数学表达式框中输入相应公式框中输入相应公式,分别计算可得(语法窗口提高效率)分别计算可得(语法窗口提高效率)结果结果员工基本情况.sav 数据选取的目的 数据选取的方式 数据选取的应用举例1
44、.3.3 数据选取抽样1) 提高数据分析效率提高数据分析效率:可以依据一定的抽样可以依据一定的抽样方法从总体中抽取少量样本方法从总体中抽取少量样本,后面的分析后面的分析只针对样本进行只针对样本进行,这样会大大提高分析的这样会大大提高分析的效率效率。2) 检验模型的需要检验模型的需要:为了验证模型一般可依为了验证模型一般可依据一定的抽样方法只选择部分样本参与数据一定的抽样方法只选择部分样本参与数据建模据建模,剩余的数据用于模型检验剩余的数据用于模型检验。1) 数据选取的两个目的2) 数据选取的方式1) 选取全部数据选取全部数据(All cases)2) 按指定条件选取按指定条件选取( If co
45、ndition is satisfied)3) 随机抽样随机抽样(Random sample of cases): 近似抽样和精确抽样近似抽样和精确抽样4) 选取某一区域内的样本选取某一区域内的样本(Based on time or case range)5) 通过过滤变量选取样本通过过滤变量选取样本( Use filter variable) 利用居民储蓄调查数据,根据不同的分利用居民储蓄调查数据,根据不同的分析要求采用不同的数据选取方法抽样:析要求采用不同的数据选取方法抽样:1) 如果只希望分析城镇储户的情况,可以通如果只希望分析城镇储户的情况,可以通过数据选择功能采用指定条件的抽样方法过
46、数据选择功能采用指定条件的抽样方法进行抽样;进行抽样;2) 如果只希望对其中的如果只希望对其中的70的数据进行分析,的数据进行分析,可通过数据选择功能采用随机抽样中的近可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样。似抽样方法进行抽样。3) 数据选取的应用举例1)1)只希望男性职工的情况只希望男性职工的情况结果结果员工基本情况.sav2)2)只希望对其中的只希望对其中的70%70%数据进行分析数据进行分析结果结果居民储蓄调查数据.sav1) 完成数据选取后,以后的完成数据选取后,以后的SPSS分析操作仅分析操作仅针对那些被选中的个案直到用户再次改变针对那些被选中的个案直到用户再次改变数
47、据的选取为止。数据的选取为止。2) 采用指定条件选取和随机抽样方法进行数采用指定条件选取和随机抽样方法进行数据选取后,据选取后,SPSS将在数据编辑窗口中自动将在数据编辑窗口中自动生成一个名为生成一个名为filter_$的新变量,取值为的新变量,取值为1或或0。1表示本个案被选中,表示本个案被选中,0表示未被选中。表示未被选中。该变量是该变量是SPSS产生的中间变量,如果删除产生的中间变量,如果删除它则自动取消样本抽样。它则自动取消样本抽样。说明说明 分类汇总是分类汇总是按照某分类变量进行分类汇总计算。按照某分类变量进行分类汇总计算。 例如:例如: 某食品厂希望分析假日周内不同职业和不同年龄段
48、的顾某食品厂希望分析假日周内不同职业和不同年龄段的顾客对某商品的客对某商品的“打折促销打折促销”反应是否存在较大差异,用以分反应是否存在较大差异,用以分析不同消费群体的消费心理。最初步的分析可以是分别计算析不同消费群体的消费心理。最初步的分析可以是分别计算不同职业中不同年龄段顾客的平均消费金额和平均消费金额不同职业中不同年龄段顾客的平均消费金额和平均消费金额差异程度(标准差),并对它们进行比较。这个过程也可以差异程度(标准差),并对它们进行比较。这个过程也可以通过分类汇总过程完成。通过分类汇总过程完成。1.3.4 分类汇总 SPSS实现分类汇总涉及两个主要方面:实现分类汇总涉及两个主要方面:按
49、照哪个变量按照哪个变量(如职工基本情况例题中的学(如职工基本情况例题中的学历、职业和入职时间段)历、职业和入职时间段)进行分类进行分类对哪个变量对哪个变量(如上例中的基本工资、保险等)(如上例中的基本工资、保险等)进行汇总,并指定对汇总变量计算哪些统计进行汇总,并指定对汇总变量计算哪些统计量量(如上例中的平均工资、平均保险费和标(如上例中的平均工资、平均保险费和标准差)准差)例例1 1:根据职工情况数据研究不同学历的职根据职工情况数据研究不同学历的职工的工资水平是否存在差异?工的工资水平是否存在差异? 思路思路: :先按学历对数据进行排序先按学历对数据进行排序, ,再利用分再利用分类汇总功能计
50、算不同学历职工的平均工资,类汇总功能计算不同学历职工的平均工资,然后进行比较。选择文化程度为分类变量,然后进行比较。选择文化程度为分类变量,基本工资为汇总变量。基本工资为汇总变量。分类汇总的应用举例1) 选择菜单选择菜单数据数据Data分类汇总分类汇总aggregate,出现如下所示的窗口:出现如下所示的窗口:结果结果数据加工(职工数据).sav指定对汇总变量指定对汇总变量计算哪些统计量计算哪些统计量 数据分组的目的 SPSS的单变量值分组 SPSS的组距分组1.3.5 数据分组 数据分组就是数据分组就是根据统计研究的需要,将数根据统计研究的需要,将数据按照某种标准重新划分为不同的组别。据按照
51、某种标准重新划分为不同的组别。 数据分组的基础上进行的频数分析更能够数据分组的基础上进行的频数分析更能够概括和体现数据的分布特征。概括和体现数据的分布特征。 为适用于不同的统计分析需要,为适用于不同的统计分析需要,SPSS提供提供了以下几种数据分组方法:了以下几种数据分组方法: 单变量值分组单变量值分组 组距分组组距分组1) 数据分组的目的 居民家庭按人口数单项式分组居民家庭按人口数单项式分组 按家庭人口数分组按家庭人口数分组(人)(人)居民户数居民户数(户)(户)12345人及以上人及以上合计合计离散型变量如果变量离散型变量如果变量值的变动范围不大,值的变动范围不大,可以将可以将一个变量值一
52、个变量值作作为一组,称单项式分为一组,称单项式分组。如右表:组。如右表:单变量值分组单变量值分组 在连续型变量或离散在连续型变量或离散型变量值较多的情况型变量值较多的情况下,可采用组距式分下,可采用组距式分组形式。组形式。 组距式分组组距式分组就是把全就是把全部变量值划分为几个部变量值划分为几个区间,每一区间的变区间,每一区间的变量值作为一组。如右量值作为一组。如右表:表:组距分组组距分组按工资分组按工资分组(元)(元)频数频数(人)(人)频率频率()()850850以下以下5 531.331.38508509009005 531.331.39009009509501 16.36.395095
53、0100010002 212.512.510001000以上以上3 318.618.6SPSS单变量值分组的基本操作步骤:单变量值分组的基本操作步骤:1)选择菜单)选择菜单转换转换Transform自动重新编码自动重新编码Automatic Recode2)将分组变量选择到)将分组变量选择到变量变量-新名称新名称Variable-New Name框框中中3)在)在新名称新名称New Name框框后输入存放分组结果的变后输入存放分组结果的变量名,并单击量名,并单击添加新名称添加新名称Add New Name按钮按钮4)在)在重新编码的起点重新编码的起点Recode Starting from框框
54、中选择中选择单变量值分组按升序还是按降序进行。单变量值分组按升序还是按降序进行。最低值最低值Lowest value表示升序;表示升序;最高值最高值Highest value表示表示降序。降序。2) SPSS的单变量值分组结果结果员工基本情况.sav单变量值分组应用举例单变量值分组应用举例: : 利用职工情况利用职工情况数据按职工的基本工资升序进行分组。数据按职工的基本工资升序进行分组。组距分组中的关键问题有两个组距分组中的关键问题有两个:1) 分组数目的确定分组数目的确定 可参考可参考Sturges提出的经验公式提出的经验公式 n=1+3.322lgN又有a=R/n=R/1+3.322lgN
55、. 这里n-组数,N-单位数a-组距,R-全距2) 组距的确定组距的确定 组距组距=(最大值最大值-最小值最小值)/组数组数3) SPSS的组距式分组 组数和组距确定后,便可实施分组操作了,组数和组距确定后,便可实施分组操作了,在分组操作时应:在分组操作时应:指定分组变量指定分组变量定义分组区间(注意遵循定义分组区间(注意遵循“不重不漏不重不漏”原则)原则)指定存放结果的变量指定存放结果的变量 SPSS对分组结果有两种存放策略,一种是用分对分组结果有两种存放策略,一种是用分组变量值覆盖原变量(组变量值覆盖原变量(Into Same Variables),),另一种是将分组结果存到一个新变量中(另一种是将分组结果存到一个新变量中(Into Different Variables)。相应的操作也略有差异。)。相应的操作也略有差异。通常采用第二种策略。通常采用第二种策略。1) 选择菜单转换选择菜单转换Transform重新编码为重新编码为相同变量相同变量Recode Into Same Variables2) 在出现的窗口中将分组变量选择到在出现的窗口中将分组变量选择到数数字变量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024专业餐饮原料采购协议范例
- 2024专门物业抵押贷款协议范本
- 城市公园景观栏杆2024安装工程协议
- 2024年店铺技术支持人员劳动协议
- 2024技术服务协议案例
- DB11∕T 1720-2020 城市雨水管渠流量监测基本要求
- 2024年批量沥青订货协议范例
- 2024年泳池施工项目协议模板
- 2024年度混凝土挡土墙施工协议
- 2024年设备购销协议条款
- 2023年温州鹿城区区属国企招聘选调笔试真题
- 拆除石笼护坡施工方案
- 小学数学《比的认识单元复习课》教学设计(课例)
- 影视培训网上课程设计
- 2024年小学体育工作计划范本(五篇)
- GB/T 44670-2024殡仪馆职工安全防护通用要求
- 代理过账合作协议书范文
- 2023-2024学年山东名校考试联盟高三下学期二模英语试题(解析版)
- 江苏省徐州市丰县2023-2024学年九年级上学期期中学情调研英语试题
- 脊椎动物-(一)鱼 课件-2024-2025学年人教版生物七年级上册
- 清单九 八类常用特指词语136例
评论
0/150
提交评论