版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第 1 章 SPSS分析软件概述1.了解 SPSS 软件。2.了解 SPSS 25.0 的主要窗口和菜单。3.熟悉 SPSS 数据分析的基本流程 。学习目标Part 1.1SPSS简介 SPSS简介美国斯坦福大学三位研究生研制60年代70年代80年代90年代2009SPSS总部成立于芝加哥,推出SPSSX中小型机版SPSS公司(SPSS/PC+微机版V14)SPSS公司(SPSS WINDOWS版V510)IBM收购,命名为:IBM SPSS Statistics至今优势 SPSS简介通过“菜单”“图标按钮”“对话框”完成,操作简单,使用方便。易用性强如,可以直接录入数据,也可接入其他类型数据
2、;结果可直接导出为Word、Excel格式等。兼容性好如,数据准备与数据整理技术;各种常用统计图形;成熟的统计分析方法和模型。功能强大Part 1.2SPSS主要窗口 1.2.1 数据编辑窗口菜单名功能说明文件文件操作对SPSS相关文件进行基本操作,如新建、打开、保存、打印等编辑数据编辑对数据编辑器窗口中的数据进行基本编辑,如撤销、剪切、复制、粘贴,并实现数据查找、软件参数设置等功能查看窗口外观状态管理对SPSS窗口的外观进行设置,如状态栏、网格线、变量值标签等是否显示,以及设置字体等数据数据的操作和管理对数据编辑器窗口中的数据进行加工整理,如数据的排序、转置、拆分、合并、分类汇总等转换数据基
3、本处理对数据编辑器窗口中的数据进行基本处理,如生成新变量、计数等分析统计分析对数据编辑器窗口中的数据进行统计分析与建模,如描述统计分析、线性回归分析、逻辑回归分析、因子分析、聚类分析等图形制作统计图形根据数据编辑器窗口中的数据生成各种统计图形,如条形图、直方图、箱线图、散点图等实用程序提供实用程序SPSS其他辅助管理扩展扩展功能可以直接在扩展中心获取所需插件窗口管理窗口对SPSS的多个窗口进行管理帮助提供帮助实现SPSS的联机帮助 1.2.1 数据编辑窗口 1.2.2 结果查看器窗口窗口标题:查看器功能:SPSS统计分析报表及图形的输出的窗口组成:窗口主菜单、工具栏、结果显示区、状态区特点:输
4、出窗口可以关闭,窗口内容以.SPV存于磁盘上两个部分:目录视图和内容视图Part 1.3SPSS数据分析流程研究目的确定背景分析研究目的SPSS数据文件建立、导入、修改、合并数据排序数据去重变量计算重新编码数据分组数据选取描述分析统计建模报告撰写数据文件准备数据预处理数据分析报告撰写 SPSS数据分析流程THANKS第 2 章 SPSS数据文件的建立与管理1.掌握在 SPSS 中定义变量的方法。2.掌握 SPSS 数据文件的建立和管理。3.熟悉 SPSS 数据文件的合并与拆分。学习目标Part 2.1SPSS定义变量SPSS定义变量在SPSS中输入数据前先要定义变量,即对变量的名称、类型、宽度
5、等进行定义,如图所示。下面主要介绍变量名称、变量类型、变量标签、变量值标签、缺失值、测量尺度、角色的定义。变量名称也叫变量名,是访问和分析变量的唯一标识。在定义SPSS数据结构时应先给出每列变量的变量名。变量的命名规则如下。(1)变量名最好与其代表的数据含义相对应,同一个数据文件中每个变量名必须具有唯一性。(2)首字符应以英文字母或汉字开头,后面可以跟除“!”“?”“*”之外的字母或数字,最后一个字符不能是下划线、圆点。(3)系统保留字(如ALL、BY、AND、NOT、OR等)不能作为变量名。(4)当英文字母作为变量名时,系统不区分大小写字母。(5)SPSS有默认的变量名。当没有为变量命名时,
6、会以字母“VAR”开头,后面补足5位数字,如VAR00001、VAR00012等。1. 变量名称变量类型说明数字标准的数值型,默认宽度为8位,小数位数为两位。当宽度大于8位时,SPSS将自动按照科学计数法显示变量值逗加逗号的数值型,从个位数开始每3位以一个逗号分隔,默认的列宽是8,小数位宽为2,逗号所占的位数包含在总位数之内,如5,432.23点加点的数值型,从个位数开始每3位以一个圆点分割,以逗号作为整数和小数部分的分隔符,默认列宽为8,小数位宽为2,如5.432,23科学计数法在数据编辑器窗口中以指数形式显示。例如,150用科学计数法表示为1.5E+02,其中E表示以10为底,+02表示正
7、的2次方。又如,0.002用科学计数法表示为2.0E-03,-03表示负的3次方美元符号型表示货币数据,其在数据前加符号“$”日期型用户可从系统提供的多种日期显示形式中选择自己需要的形式。例如,mm/dd/yy形式,则2030年8月15日显示为08/15/30字符型用户可定义字符长度以便输入字符。如职工号码、姓名、地址等变量都可以定义为字符型变量。字符型变量的默认显示宽度为8个字符,不能够进行算术运算2. 变量类型变量标签又叫变量名称标签,是对变量名称含义的进一步解释说明。变量标签可长达120个字符,而变量名称不能超过8个字符,当8个字符不足以表示变量的含义时,可利用变量标签做详细的说明。通常
8、如果当变量名称已经是中文,则变量标签可省略。在SPSS数据编辑器的视图窗口中,在【标签】列相应的位置单击,可进行变量标签的设置。3. 变量标签4. 变量值标签变量值标签简称值,是对变量每一个可能取值的进一步描述,对定性变量尤为重要。在SPSS数据编辑器的视图窗口中,在【值】列相应的位置单击,会弹出“值标签”对话框,如图2.2所示。在该对话框的【值(U)】文本框输入变量值,在【标签(L)】文本框输入变量值标签,并单击【添加(A)】、【更改(C)】或者【除去(M)】按钮。存在明显错误的数据明显不合理的数据或漏填的数据项在统计学上称为缺失值或不完全数据。SPSS有两类缺失值:系统缺失值和用户缺失值。
9、在数据显示栏中,任何空的数字单元都被认为是系统缺失值,数值型用圆点表示,字符型用空格表示。由特殊原因造成的信息缺失值,称为用户缺失值。在SPSS数据编辑器的视图窗口中,在【缺失】列相应的位置单击,会弹出“缺失值”对话框。对于字符或定量变量,用户缺失值可以是13个特定的离散值;对一个定量变量,用户缺失值可以是一个连续的闭区间并同时附加一个区间以外的离散值。5. 缺失值6.测量测量即测量尺度,是对不同种类的数据,依据变量尺度所划分的类别。统计学依据测量尺度,将变量划分为定性变量、定量变量、定序变量。在SPSS数据编辑器的视图窗口中,在【测量】列相应的位置单击,会出现测量尺度定义下拉菜单,可以在该下
10、拉菜单下选择合适的测量尺度。7. 角色变量角色是指变量在模型建立时所扮演的角色,变量角色不同,其作用也不同。模型建立时,有些变量用于解释其他变量,称为解释变量或自变量,SPSS称之为输入变量,承担“输入”角色;有的变量是被其他变量解释的,称为被解释变量或因变量,SPSS称之为目标变量,承担“目标”角色;在某些分析中,变量需要承担双重角色,既是输入变量,又是输出变量,SPSS称之为“两者”;有时候有的变量仅仅是一种标识,不会放入模型,记为“无”;有的变量用作样本的划分依据,将样本划分为训练集、测试集和验证集,记为“分区”;有的定性变量可作为数据的拆分依据,将样本集拆分为几个部分,记为“拆分”。P
11、art 2.2SPSS数据文件的建立2.2.1 SPSS数据的录入第一步:启动SPSS时,在启动对话框中选择【新数据集】选项,打开一个空数据编辑器窗口;若数据编辑器窗口中已有数据集,但又需要建立新的数据文件,可以在菜单栏中选择【文件(F)】【新建(N)】【数据(D)】,新建数据编辑器窗口“无标题2数据集1-IBM SPSS Statistics数据编辑器”。 第二步:单击数据编辑器窗口左下角的【变量视图】按钮,切换到变量视图窗口,根据要录入的数据定义变量属性。 2.2.1 SPSS数据的录入第三步:在左下角单击【数据视图】按钮,就可以直接在SPSS数据编辑器窗口里以电子表格的方式直接录入数据,
12、建立SPSS文件,录入样例如图所示。在录入时需要遵守相应的格式要求,其基本原则为:在数据视图窗口下,每一行代表一个个案的所有变量的取值;每一列代表一个变量的所有取值。2.2.1 SPSS数据的录入第四步:在菜单栏中选择【文件(F)】【另存为(A)】,会弹出“将数据另存为”对话框,如图所示,在该对话框中选择保存数据文件的位置;填写数据文件的【文件名(N)】,如“公司信息.sav”;【保存类型(T)】选择【SPSS Statistics(*.sav)】;单击【保存(S)】按钮,则完成建立SPSS默认的数据文件。2.2.1 SPSS数据的录入2.2.2导入其他类型的数据文件1.使用Excel向导读入
13、Excel文件 第一步:启动SPSS,在菜单栏中选择【文件(F)】【导入数据(D)】【Excel】,将弹出“打开数据”对话框,在该对话框中选择数据所在的路径,选择文件“招聘数据.xlsx”,如图所示,单击【打开(O)】。第二步:设置读取Excel文件的格式,如图所示;如果Excel工作表上第一行为变量名,则需要勾选【从第一行数据中读取变量名称】,单击【确定】按钮。这时候就完成了Excel文件的导入,但一般会根据实际情况在变量视图窗口对变量定义进行调整。1.使用Excel向导读入Excel文件 2.使用文本向导导入文本文件第一步:启动SPSS,在菜单栏中选择【文件(F)】【导入数据(D)】【文本
14、数据(T)】,将弹出“打开数据”对话框,根据数据所在的路径,选择文件“招聘数据.txt”,如图,并单击【打开(O)】按钮。第二步:在“文本导入向导-第1/6步”对话框中,需要观察文本文件与预定义的格式是否匹配,如果不匹配,则需要设置文本导入格式,如图所示,单击【下一步(N)】按钮。2.使用文本向导导入文本文件第三步:在弹出的“文本导入向导-第2/6步”对话框中,主要需要关注数据文件的第一行是否有变量名,如果有,则需要在【文件开头是否包括变量名?】框内勾选【是】,设置【包含变量名称的行号(L)】为“1”,如图所示,单击【下一步(N)】按钮。2.使用文本向导导入文本文件第四步:在弹出的“文本导入向
15、导-定界,第3/6步”对话框中,需要回答以下3个问题,第一,第一个数据个案从哪个行号开始;第二,个案的表示方式如何安排的,是一行一个个案还是一行多个个案,通常以第一种方式安排;第三,导入全部还是部分数据文件。从第2行开始,每一行表示一个个案,读入全部数据,如图所示,单击【下一步(N)】按钮。2.使用文本向导导入文本文件2.使用文本向导导入文本文件第五步:在弹出的“文本导入向导-定界,第4/6步”对话框中,指定文本文件中数据项之间的定界符,如图所示,定界符可以是制表符、逗号、空格、分号或者其他符号,单击【下一步(N)】按钮。第六步:随后出现的两个对话框采用默认设置,主要用于指定各变量的变量名和类
16、型。到此为止,完成了对文本文件的导入操作。接下来,可以对导入的数据进行必要的加工或处理,并保存为SPSS格式文件。2.使用文本向导导入文本文件Part 2.3SPSS数据文件字段合并横向合并(对接)样本合并纵向合并(追加)SPSS数据合并【数据】【合并文件】【添加个案】【数据】【合并文件】【添加变量】2.3.1 字段合并字段合并的实质是将两个数据文件按照个案对应进行左右对接,因此字段合并也叫横向合并、变量合并。第一步:准备好需要合并的数据文件,注意要进行字段合并的两个SPSS数据文件的个案数量必须完全一致。这两个数据文件均有3922个个案,数据文件“公司信息.sav”有4个变量,包括公司编号、
17、地区、公司性质、公司规模,如图2.17所示;数据文件“招聘信息.sav”有7个变量,包括公司编号、岗位名称、最低薪资、最高薪资、经验要求、学历要求、招聘人数,如图所示。2.3.1 字段合并第二步:打开数据文件“公司信息.sav”,如图所示,在菜单栏中选择【数据(D)】【合并文件(G)】【添加变量(V)】。2.3.1 字段合并第三步:在弹出的“变量添加至 公司信息.sav数据集1”对话框中,选择需要新增变量的数据文件,即选择数据文件“招聘信息.sav数据集2”,如图所示,单击【继续(C)】按钮。2.3.1 字段合并第四步:在弹出的“变量添加自 数据集2”对话框中设置合并方式。合并方法有以下3种,
18、【基于文件顺序的一对一合并(O)】是按照文件顺序依次合并;【基于键值的一对一合并(N)】是以“键变量”形式进行一对一合并;【基于键值的一对多合并(M)】是以“键变量”形式进行一对多合并。此案例中,两个数据文件有一个共同变量公司编号,因此,选择第二种合并方法,如图所示,单击【确定】按钮。第五步:文件确认,数据文件“公司信息.sav”在原数据文件的基础上新增了岗位名称、最低薪资、最高薪资、经验要求、学历要求、招聘人数6个变量,完成了数据的字段合并,如图所示。2.3.1 字段合并2.3.2 个案合并个案合并的实质是将两个数据文件按照变量对应进行上下对接,因此也叫纵向合并、记录合并。第一步:准备好需要
19、合并的数据文件,注意,个案合并的SPSS数据文件的变量数量必须完全一致。两个数据文件均包含9个变量,如图所示。第二步:在菜单栏中选择【数据(D)】【合并文件(G)】【添加个案(C)】,如图所示。2.3.2 个案合并第三步:在弹出的“添加个案至 本科.sav数据集2”对话框中,选择需要合并的文件,选择文件“大专.sav数据集3” ,如图所示,单击【继续(C)】按钮。如果待合并的数据文件尚未读入SPSS中,则选择【外部SPSS Statistics数据文件】进行设置。2.3.2 个案合并2.3.2 个案合并第四步:在弹出的“添加个案自 数据集3”对话框中,【新的活动数据集中的变量(V)】框内会显示
20、两个数据文件中的同名变量,SPSS默认它们具有相同的数据含义,并将它们作为合并后新数据文件中的变量。如果不接受这种默认,可以按箭头按钮将它们移至【非成对变量(V)】框内。此处采用默认设置,如图所示,单击【确定】按钮,完成数据的个案合并。2.3.2 个案合并第五步:数据编辑器里已经将所有本科及大专招聘数据,文件合并完成,如图所示.Part 2.4SPSS数据拆分2.4.1 拆分文件拆分文件的具体操作步骤如下。第一步:在SPSS菜单栏中选择【数据(D)】【拆分文件(F)】,弹出“拆分文件”对话框。第二步:在“拆分文件”对话框中,选择拆分变量到【分组依据(G)】框内,文件拆分后会使后面的分组统计产生
21、不同格式的结果。其中【分析所有个案,不创建组(A)】实际上并未实现拆分文件;【比较组(C)】将分组统计结果输出到同一张表格里,方便不同组之间进行对比;【按组来组织输出】将分组统计结果分别输出到不同的表格中,通常选择【比较组(C)】。第三步:如果数据编辑器窗口中的数据已经事先按指定的拆分变量进行排序,则选择【文件已排序(F)】,可提高拆分效率;否则选择【将分组变量进行文件排序(S)】。此处以“学历要求”为分组依据,以比较组的形式进行结果展示,如图所示。2.4.1 拆分文件 第四步:拆分文件完成后,再对数据进行基本分析时,结果将根据第三步的分组依据进行展示。如图所示,此处按照“学历要求”分组展示了
22、招聘地区的频率分布。2.4.1 拆分文件2.4.2 拆分为文件拆分为文件的具体操作步骤如下。第一步:在SPSS菜单栏中选择【数据(D)】【拆分为文件】,弹出“将数据集拆分为单独的文件”对话框,如图所示。2.4.2 拆分为文件第二步:在“将数据集拆分为单独的文件”对话框中,选择拆分依据,此处选择定性变量“学历要求”进行数据拆分,单击【确定】按钮。第三步:打开计算机本地文件夹,可以发现已经依据“学历要求”将数据文件“网络招聘数据.sav”拆分为两个文件“本科.sav”和“大专.sav”,如图所示。THANKS第 3 章 SPSS数据预处理1.熟练掌握数据排序、变量计算的具体操作步骤。2.熟练掌握数
23、据去重的方法和具体操作步骤。 3.熟练掌握重新编码的具体操作步骤。4.了解各种数据分组的特点和适用场合,并掌握组距分组的具体操作步骤。5.熟练掌握数据选取的方法和具体操作步骤。学习目标Part 3.1SPSS数据排序SPSS数据排序 数据排序概念:通常数据编辑器窗口中个案的前后次序是由数据录入的先后顺序决定的。数据预处理中,有时需要将数据按照一定的顺序重新排列。例如职工可按基本工资从低到高的顺序,或者按职称从高到低的顺序重新排列。 数据排序作用:数据排序便于数据的浏览快速找到数据的最大值和最小值通过数据排序能够快速发现数据中可能异常的值SPSS数据排序 数据排序应用举例:根据大学生恋爱数据,按
24、“年级”和“每月话费”信息对此数据集进行升序排序。通过数据升序结果分析大学生恋爱情况。 基本操作步骤:第一步:选择【数据(D)】【个案排序】。第二步:指定主排序变量到【排序依据】框中,并选择【排列顺序】框中的选项指出该变量是按升序还是降序排列。第三步:如果是多重排序,还要依次指定第二、第三排序变量及相应的排序规则。否则,本步可略。本例为多重排序,窗口如右图所示。Part 3.2SPSS数据去重SPSS数据去重 数据去重概念:通常在分析数据中不应该出现关键变量相同的个案,对重复的个案需要剔除。导致出现重复个案的主要原因可能是由于数据录入时的疏忽或不合理的数据编码等造成。 数据去重方法:当数据量较
25、大时,需要自动查找其中的重复个案。SPSS自动查找重复个案的主要方法是排序。它首先按照用户指定的关键变量对所有个案排序,关键变量值相同的个案将被排在一起;在相同关键变量值的重复个案中,正确的个案应保留下来,还需用户指定重复变量的排序变量,并依其进行升序或降序的排序。同时给出有关重复个案的统计结果。SPSS数据去重 基本操作步骤: 第一步:【数据】【标识重复个案】; 第二步:指定关键变量到【定义匹配个案的依据(D)】框中,这里指定ID;指定对重复个案的排序变量到【匹配组内的排序依据(O)】框中,这里指定为学生组织个数,且默认对重复个案按升序排序; 第三步:勾选【连续计算每个组合中的匹配个案】,表
26、示默认生成一个名为“匹配顺序”的变量,变量取0表示该个案为非重复个案,取1,2,3等表示为第1,第2,第3个重复个案。SPSS实现标识重复个案应用举例Part 3.3SPSS数据变量计算SPSS数据变量计算 数据变量计算概念:变量计算就是根据用户的要求使用SPSS算术表达式及SPSS函数,对所有个案或满足SPSS条件表达式的个案,计算出新结果并存入指定变量。这个指定的变量可以是一个新变量,也可以是原有已经存在的变量。 数据变量计算目的:派生新变量变换数据的原有分布SPSS数据变量计算 SPSS算术表达式:SPSS算术表达式是由常量、变量、算术运算符、圆括号、函数等组成的式子。字符串型常量应当用
27、英文引号引起来变量是指那些存在于数据编辑器窗口中的已有变量算术运算符主要包括(加)、(减)、*(乘)、/(除)、*(乘方)。 SPSS条件表达式:条件表达式是对条件进行判断的式子。其结果有两种取值:若判断条件成立,则结果为真;若判断条件不成立,则结果为假。简单条件表达式:(大于)、(大于等于)、输出变量(V)】框中。这里选择成绩水平。第三步:在【输出变量】框中的【名称(N)】后输入存放分组结果的变量名,并点击【变化量(H)】按钮确认,这里的变量名改为成绩水平等级。SPSS数据分组 第四步:点击【旧值和新值(O)】按钮定义分组区间,定义好分组区间后,点击【继续(C)】;第五步:点击【确定】。Pa
28、rt 3.6SPSS数据选取SPSS数据选取 数据选取概念:数据选取就是根据分析需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析。 数据选取目的:数据选取在数据分析过程中很普遍,其目的也是服务于以后的数据分析。提高数据分析效率;检验模型。SPSS数据选取 数据选取方法:SPSS提供了以下几种数据选取方法。按指定条件选取;即选取符合条件的数据,SPSS要求用户以条件表达式的形式给出数据选取的条件。SPSS将自动对数据编辑器窗口中的所有个案进行条件判断。对那些满足条件的个案,即条件判断为真的个案将被自动选取出来,条件判断为假的个案则不被选中。SPSS数据选取随机选取
29、:对数据编辑器窗口中的所有个案进行随机筛选,包括两种方式:近似选取:近似选取要求用户给出一个百分比数值。SPSS软件将按照这个比例自动从数据编辑器窗口中随机抽取出相应百分比数目的个案。由于SPSS在样本选取方面的技术特点,抽取出的个案总数不一定恰好精确等于用户指定的百分比数目,会有小的偏差,因而称为近似选取。这种样本量的偏差通常不会对数据分析产生重大影响。这里的随机是根据SPSS随机数种子发生器设计和实现的。随机数种子设置的菜单是: 【转换(T)】【随机数字生成器(G)】,【固定值(F)】表示随机 数种子为一个具体的正整数(该整数应小于等于2000000), 一般用于随机化结果需要重现的情况;
30、【随机(N)】表示随机数 种子每次自动取一个新的值,是SPSS默认的选项,这样随机化 结果将不会重现。SPSS数据选取精确选取:精确抽样要求用户给出两个参数:第一个参数是选取的个案数;第二个参数是指定在前多少个案中选取。SPSS软件会自动在数据编辑器窗口的前若干个个案中随机精确地抽出相应个数的个案。SPSS数据选取 选取某一区域内的样本:即选取数据编辑器窗口中的样本号范围内的所有个案,要求给出这个范围的上下限个案号码。这种选取方法通常适用于时间序列数据。SPSS数据选取通过筛选器变量选取:根据筛选器变量的取值进行选取。要求指定一个变量作为筛选器变量,变量值为非0或非系统缺失值的个案将被选中。这
31、种方法通常用于排除包含系统缺失值的个案。SPSS数据选取 数据选取应用举例:下面案例为某美国银行雇员的基本信息,包括性别、年龄、教育程度、工资、工作时长等10个变量信息。 根据数据集中的变量信息,希望仅对具有受教育程度大于15年的雇员情况进行分析,采用按指定条件方法进行选取,通过数据选取分析雇员基本情况。 SPSS数据选取的基本操作步骤如下:第一步:【数据(D)】【选择个案】;第二步:在【选择】框中指定选取方法。【全部个案(A)】表示全部选中。本案例采用按指定条件选取,应选择【如果条件满足(C)】项;第三步:指定对未选中个案的处理方式。数据预处理总述THANKS第4章 描述分析1.熟悉描述分析
32、的概念。 2.掌握单变量常用的描述分析方法及其 SPSS 实现。 3.掌握双变量常用的描述分析方法及其 SPSS 实现。学习目标引导案例近年来,数据分析相关岗位大幅度增加,为了研究该岗位的需求情况,从招聘网站上获 取了 2019 年 3 月上半月的上海、广州、深圳、北京等 9 个城市的数据分析相关岗位的网络招 聘数据,包含“岗位名称”“最低薪资”“最高薪资”“招聘地区”“经验要求”“学历要求”“招聘人数”“公司性质”“公司规模”和“平均薪资”10个变量,共3922个样本。在此基础上分析变量的分布情况及变量之间的关系,揭示影响薪资的主要因素。数据文件为“网络招聘 数据.sav”,部分数据如图 4
33、.1 所示。Part 4.1定性变量的描述分析频数分布表统计图形单变量的描述分析频数:变量值落在某个类别中的次数百分比:各频数占样本量的百分比有效百分比:各频数占有效样本量的百分比累计百分比:各百分比逐级累加起来的结果,最终取值为100%4.1.1 定性变量的描述分析 1.频数分布表 (1)柱形图或条形图 柱形图或条形图是用宽度相同的条形的高度或长短来表示频数或频率变化分布的图形。一般而言,长方形横置的图称为条形图;长方形竖置的图称为柱形图。柱形图和条形图没有什么本质的区别,只是展示方式不同。2. 统计图形(2)饼图 饼图是用每个扇形代表每个分组的频率。饼图在商业研究中使用广泛,尤其适合描述市
34、场份额、时间及资源的分配等。图为饼图示例。2. 统计图形3. 频数分布的SPSS实现基于引导案例,利用SPSS对招聘数据中的定性变量“招聘地区”进行分析与解读。SPSS频数分布的基本操作步骤如下。第一步:在SPSS中打开数据文件“网络招聘数据.sav”。第二步:在菜单栏中选择【分析(A)】【描述统计(E)】【频率(F)】,弹出“频率”对话框,在该对话框左下角勾选【显示频率表(D)】。第三步:选择要分析的一个或多个变量到【变量(V)】框里,如图所示,这里选择的定性变量“招聘地区”。3. 频数分布的SPSS实现3. 频数分布的SPSS实现第四步:单击【图表(C)】按钮选择要绘制的统计图,弹出“频率
35、:图表”对话框,在该对话框可进行【图表类型】和【图表值】的选择。【图表类型】可选择无图形、条形图、饼图或直方图。【图表值】框中的信息表示图形坐标含义,可选择频数或百分比。此处选择【条形图(B)】和【频率(F)】,如图所示。3. 频数分布的SPSS实现第五步:为了方便对输出结果的解读,可以单击【格式(F)】按钮设置排序方式,如果选择【按值的升序排序(A)】或者【按值的降序排序(D)】,则频数分布表将按照个案值的升序或者降序排列;如果选择【按计数的升序排序(E)】或者【按计数的降序排序(N)】,则频数分布表将按照各个类别的频数值进行升序或者降序排列。这里选择【按计数的降序排序(N)】,如图所示。3
36、. 频数分布的SPSS实现第六步:在SPSS中可以通过图表编辑器对图表进行美化编辑,在SPSS结果查看器窗口双击SPSS输出的图形,就可以启动图表编辑器,如图所示。3. 频数分布的SPSS实现第七步:在图表编辑器窗口中,可通过双击图形激活图表的“属性”对话框,如图所示。在属性框里可以对图表大小、填充与边框、类别等属性进行调整。3. 频数分布的SPSS实现地区频率百分比有效百分比累积百分比有效上海106627.1827.1827.18广州69517.7217.7244.9深圳64016.3216.3261.22北京52013.2613.2674.48杭州3047.757.7582.23南京222
37、5.665.6687.89武汉1914.874.8792.76成都1754.464.4697.22西安1092.782.78100总计3922100100第八步:解读SPSS频数分布结果。从表可以看出,SPSS输出的招聘地区频率分布表有6列,第1列显示了数据的有效样本量,第2列是该变量的各个水平,第3列为每个水平的频数,第4列为各水平在总体中的百分比,第5列为有效样本的百分比,第6列为累计百分比。该数据全为有效样本,样本量为3922份。招聘地区的分布状况是:上海、广州、深圳、北京招聘信息量较多,频数分别为1066、695、640、520,累计百分比达到74.5%;杭州、南京、武汉、成都次之,频
38、数分别为304、222、191、175;西安招聘信息量最少,频数为109,仅占2.8%。4.1.2定量变量的描述分析1. 基本描述统计量常用的基本描述统计量主要可以分为表示集中趋势的统计量、表示离散程度的统计量、表示分布形态的统计量和其他常用的统计量,如图所示。均值中位数众数集中趋势的最常用测度值体现了数据的必然性特征易受极端值的影响简单平均数、加权平均数排序后处于中间位置上的值不受极端值的影响主要用于有序变量,也可用数值变量,但不能用于分类变量一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于有序数据和数值数据集中趋
39、势4.1.2定量变量的描述分析极差方差和标准差Z标准化得分离散程度的度量一组数据的最大值与最小值之差也叫全距离散程度的最简单测度值易受极端值影响四分位差上四分位数与下四分位数之差也称为内距或四分间距反映了中间50%数据的离散程度不受极端值的影响数据离散程度的最常用测度值反映了各变量值与均值的平均差异也称标准化值对某一个值在一组数据中相对位置的度量可用于判断一组数据是否有离群点4.1.2定量变量的描述分析分布形态度量偏态系数=0为对称分布偏态系数 0为右偏(正偏)偏态系数 0为左偏(负偏)峰态系数=0扁平峰度适中峰态系数0为尖峰分布直方图是频数直方图的简称,用来反映连续型变量的频数分布。它是用一
40、系列宽度相等、高度不等的长方形表示数据的图。长方形的宽度表示数据范围的间隔,长方形的高度表示在给定间隔内的频数。 2. 统计图形集中趋势、离散程度、分布形态 陡坡型(1)陡坡型:往往是数据源缺失,或者被剔除一部分后,造成断崖式的折断。用户可以适当地调整组数,或者利用对数变换,再做出对数直方图。(2)双峰型:直方图的图形出现了两个高峰。双峰直方图的数据来自两个总体,一般是混合了多种数据源或者类别数据造成的。“奇葩”直方图双峰型锯齿型孤岛型(3)锯齿型:直方图内出现高度参差不齐,但整体图形保持了中间高、两边低、两边基本对称的形状。一般是由于做直方图时,分组过多或者测量仪器误差造成的。(4)孤岛型:
41、在远离主分布的地方出现小的直方图,犹如孤岛,一般是业务上的非异常因素在起作用,比如工程零部件出了问题、产品出现了某Bug等,是很值得关注的现象。“奇葩”直方图3. 基本描述统计量的SPSS实现(1)基本描述统计量的计算SPSS基本描述统计量的计算步骤如下。第一步:在SPSS菜单栏中选择【分析(F)】【描述统计(E)】【描述(D)】,弹出“描述”对话框。第二步:在“描述”对话框中选择需要计算其基本统计量的变量到【变量(V)】中,此处选择的是“平均薪资”,如图所示。第三步:在“描述”对话框中,单击【选项(O)】按钮,弹出“描述:选项”对话框,在该对话框中指定计算表示集中趋势、离散程度、分布形态的基
42、本描述统计量,同时,可以设置【显示顺序】。勾选【平均值(M)】【标准差(I)】【最小值(N)】【最大值(X)】【峰度(K)】【偏度(W)】,并选择【变量列表(B)】,如图所示。3. 基本描述统计量的SPSS实现3. 基本描述统计量的SPSS实现第四步:如果需要对数据进行标准化处理,勾选“描述”到家了中左下角的【将标准化值另存为变量(Z)】,将会在SPSS数据编辑器窗口保留标准化后的新变量。此处选择对“平均薪资”进行标准化处理并保存标准化值,如图所示。第五步:解读SPSS描述统计量的计算结果。平均值最小值最大值均值标准差偏度峰度统计统计统计统计统计统计标准 错误统计标准 错误平均薪资3922.2
43、015.831.5359.968632.996.03926.025.078有效个案数(成列)39223. 基本描述统计量的SPSS实现第一种:图表构建器,较多的图表构建方法。第二种:图形画板模板选择器,当不知道数据应该用哪种图表来呈现时,所提供了一种辅助图表选择功能。第三种:旧对话框,这是延续老版本传统的模式。(2)统计图形描述第一步:在SPSS图表构建器中,点击左下角的“直方图”,在右侧预览窗口将会出现4种图形,如图所示,然后选择简单直方图样式拖入右上角图空白区域。直方图第二步:设置图表坐标变量,直方图只需要设置X轴,然后选择变量“平均薪资”并拖拽到X轴,点击【确定】按钮,如图所示。直方图第
44、三步:这时,在SPSS查看器窗口会输出直方图,双击图形会启动图表编辑器窗口,如图所示,在此窗口可以对图标的字体、字号、颜色、刻度等进行美化编辑。直方图Part 4.2双变量的描述分析箱线图是由数据的最大值、最小值、中位数、上下四分位数这5个值绘制而成的;主要展示了数据分布的特征、分布是否对称、是否存在离群点等。 1. 定量变量与定性变量的图形描述分组箱线图定量变量与定性变量的图形描述一般选择分组箱线图来展示。 4.2.1 定量变量与定性变量的描述分析“异常”箱线图常见的原因:第一,样本数据中存在异常值,这种离群的表现导致箱子整体被压缩,凸显出异常现象;第二,样本数据特别少,箱体受单个数据的影响
45、被放大。“异常”箱线图第一步:在SPSS图表构建器中,在“图库”下选择“箱图”,这时候图库右侧预览窗口会出现三个箱线图,分别为简单框图、复式箱线图、1-D框,如图所示。2. 定量变量与定性变量的描述分析SPSS应用举例第二步:设置图表坐标轴,将分类变量拖到X轴上,数值变量拖到Y轴。在此将“对数平均薪资”拖到Y轴上,“招聘地区”拖到X轴上,如图所示,点击【确定】按钮。2. 定量变量与定性变量的描述分析SPSS应用举例第三步:解读SPSS箱线图结果。从图可看出,招聘地区对薪资有明显影响,对数平均薪资可以划分为3个梯队,各个梯队中对数平均薪资分布较为集中。第一梯队包括上海、北京、深圳、杭州;第二梯队
46、包括广州、南京、武汉、西安;第三梯队包括成都。2. 定量变量与定性变量的描述分析SPSS应用举例散点图将定量变量的观测值绘制在二维平面上 判断定量变量之间的相关关系: 相关方向:正相关、负相关;相关形态:线性相关、非线形相关; 相关关系的密切程度:强相关,弱相关,基本不相关 (a)正相关 (b)负相关 (c)无相关4.2.2 双定量变量的描述分析两个定量变量之间的关系一般使用散点图进行图形描述。 第一步:在SPSS图表构建器中,在“图库”下选择散点图到图表预览窗口,在散点图预览窗口会出现9种散点图,如图所示2. 双定量变量的描述分析SPSS应用举例第二步:设置图表坐标轴。分别选择两数值变量到X
47、轴、Y轴,如图所示,然后点击“确定”。4.2.2 双定量变量的描述分析4.2.2 双定量变量的描述分析第三步:解读SPSS散点图结果。图为招聘人数与对数平均薪资散点图,从这个散点图可以看出,招聘人数与薪资的关系并不明显。很大原因是“招聘人数”虽然是定量变量,但是只取到有限个数值。因此可将招聘人数离散化处理后,分析不同的招聘人数区间与薪资的关系。4.2.3 双定性变量的描述分析有两种或以上的数据组成的条形统计图叫作复式条形统计图。复式条形图重点呈现多个分类变量中各个类别组合情况下的频数对比。(1)复式条形图 主要突出一个分类变量中各类别的频数,并在此基础上表现多个类别的组合频数情况。堆积条形图百
48、分比堆积条形图:由直条内各部分面积大小来表示各分类的百分比占比,直条高度为100%。百分比堆积条形图第一步:打开图表构建器,点击“条形图”,会出现8种图形;选择第3个图形堆积条形图拖拽到图表右上角空白区域。2. 双定性变量的描述分析SPSS应用举例第二步:设置图表坐标轴,选择一个定性变量到X轴,将另一定性变量设置为堆积颜色。此处选择“公司性质”到X轴,并将“学历要求”设置为堆积颜色,如图所示。2. 双定性变量的描述分析SPSS应用举例第三步:设置元素属性,在右侧的【元素属性】框内选择【条形图1】,并将【统计】框内的【计数】更改为【百分比()】,如图所示。 2. 双定性变量的描述分析SPSS应用
49、举例第四步:对【百分比()】的参数进行设置,单击【百分比()】框下的【设置参数(M)】,弹出“元素属性:集合参数”对话框,选择【用于计算百分比的分母】框内的【每个X轴类别的总计】,如图所示,单击【确定】按钮,完成马赛克图的绘制。2. 双定性变量的描述分析SPSS应用举例第五步:解读马赛克图结果。从图4.47可以看出,公司性质对学历要求有明显影响,相对而言,在大专学历中民营公司的需求比例最高;在本科学历中国企的需求比例最高。2. 双定性变量的描述分析SPSS应用举例Part 4.3数据分析报告数据分析相关岗位的薪资影响因素分析报告目录CONTENTS背景介绍一数据说明二描述分析三总结三 背景介绍
50、1政策维度国家部委和地方各级政府的政策环境持续优化2015-2019年国家层面出台大数据政策36个,省级层面出台大数据政策200个。2015年2017年2018年地方各级政府陆续成立大数据局,着手体制机制建设国务院各部委和各级地方政府积极出台大数据相关政策大数据上升为国家战略2015-2018年省级大数据管理机构重要时间节点吉林省政务服务和数字化建设局北京市大数据管理局天津市大数据管理中心山东省大数据局河南省大数据管理局安徽省数据资源管理局上海市大数据中心数字福建建设领导小组办公室广西壮族自治区大数据发展局陕西省政务数据服务局重庆市大数据发展局内蒙古自治区大数据发展管理局贵州省大数据发展管理局
51、浙江省数据管理中心1.背景介绍产业维度市场需求和相关技术进步驱动未来大数据产业增长2018年中国大数据产业规模达4384.5亿元,预计2021年8070.6亿元,5年复合增长率达23.2%。产业政策 34%资本 25%市场需求 18%相关技术进步 14%数据资源 6%人才 3% 15%13%28%21%13%10%2016-2018年2019-2021年2016年2840.8亿元2018年4384.5亿元2021年8070.6亿元复合增长率 23.2%2016-2021年中国大数据产业规模增长空间5230亿元数据来源:赛迪顾问,2019背景介绍人才纬度大数据核心人才缺口大,人才培育倍受关注大数
52、据人才主要包括从事大数据企业研发、分析工作的专业型人才,或拥有行业背景兼具大数据技能的复合型人才。专业技能AB专业性人才复合型人才+行业背景行业背景主要岗位专业技能大数据云计算人工智能物联网金融 政府 能源 医疗建筑 研发数据分析技术支持产品运营编程统计分析大数据人才2015Q1-2019Q2全国大数据人才需求增长趋势全国大数据人才需求趋势:呈快速增长态势,今年约为 4 年前的 12 倍 数据来源:赛迪顾问,2019.背景介绍在2016-2020年间,全国共有620多所高校获得了国家教育部审批的“数据科学与大数据技术”专业。面向陡增的大数据专业人才,数据科学相关工作的平均薪资水平怎样?企业是更
53、看重学历还是经验?在国内哪些城市可以获得高薪资呢?本案例收集了国内主要城市的大数据相关岗位的招聘数据,尝试通过描述分析探究影响薪资的主要因素。2016-2020年高校数据科学与大数据技术专业新增备案数量背景介绍 数据说明2变量详细说明备注因变量对数平均薪资数值变量:-1.61,-2.76平均薪资的对数值自变量招聘地区分类变量,9个水平:上海、广州、深圳、北京、杭州、南京、武汉、成都、西安上海占27.2%;广州占16.3%;深圳占16.3%;北京占13.1%;杭州占7.8%;南京占5.7%;武汉占4.9%;成都占4.5%;西安占2.8%经验要求分类变量,5个水平:无要求、1-2年、3-4年、5-
54、7年、8年及以上1-2年占34.4%;3-4年占31.9%;5-7年占12.7%;无要求占19.2%学历要求分类变量,2个水平:本科、大专本科占73.7%;大专占26.7%公司性质分类变量,6个水平:民营公司、上市公司、国企、合资、外资、其他民营公司占61.2%;上市公司占11.6%;合资占10.3%;外资占8.4%;国企占6.1%;其他占2.3%公司规模分类变量,6个水平:少于50人、50-150、150-500、500-1000、1000-5000、5000以上少于50占6.6%;50-150占22.2%;150-500占27.5%;500-1000占14.3%;1000-5000占17.
55、7%;5000以上占11.7%招聘人数数值变量:1,17后面进行离散化处理数据说明本案例从招聘网站上获取了2019年3月1日3月15日,上海、广州、深圳、北京等9个城市对于本科、大专的数据分析岗位的网络招聘数据,共3922条样本量。 描述分析3因变量:对数薪资平均薪资最高达到了15.83万元/月,是位于北京的一家规模在150500人的外资公司,主要招聘无工作经验的本科生从事大数据AI架构师岗位。平均薪资最低的仅只有2000元/月,是位于广州的一家规模在5001000人的外资公司,主要招聘无工作经验的本科生从事数据管理员。对于数据分析这个新兴岗位,薪资差异较大。招聘地区上海招聘信息发布量最大;上
56、海的平均薪资与北京、深圳、杭州这三所城市同时位居薪资第一梯队。杭州作为“新一线”城市,虽然招聘量并没有超过北京、上海、广州、深圳,但是薪资水平却可以跟一线城市保持一致。西安招聘信息发布量低于其他几所城市,但是薪资水平保持中游水平。工作经验要求数据相关岗位的工作要求并未过多强调工作经验,大部门公司希望应聘者有14年工作经验。通过工作经验箱线图会发现,随着工作经验的增长,薪资水平明显呈现上涨趋势,可见工作经验在数据相关岗位中也是很有优势的。公司性质数据相关岗位的门槛并不高,本科、专科都有数据岗位需求,但本科的招聘岗位数多于专科的招聘岗位数。高学历可以带来高薪资水平。工作经验要求招聘公司中的民营公司
57、提供的数据分析岗位最多,但薪资无明显优势;上市公司虽然需求量次之,但平均薪资最高。公司规模招聘公司中的公司规模的分布状况是:中小型企业,如150500人、50150人的公司招聘发布信息量较多。1000人以上规模的公司薪资稍高,其他规模的无明显差异。招聘人数招聘13人的公司信息发布量最多,说明数据岗位也是稀缺岗。单位招聘人数与薪资水平没有直接关系。 总 结4总 结通过对岗位提供的平均薪资的描述性分析,可看出招聘地区、工作经验、学历、公司性质对薪资有着明显影响。在北京、上海、深圳这些经济发达地区,拥有高学历、丰富的工作经验拿到高薪资的可能性更大。数据分析岗位的薪资与公司规模以及公司类别的关系不大,
58、并不是规模大的公司就会提供更多的就业岗位和更高的薪酬。第 5 章 因子分析 学习目标1. 了解因子分析的基本思想及评价因子分析的相关指标。2. 熟悉因子分析的基本步骤及原理。3. 掌握SPSS实现因子分析及结果解读的方法。引导案例某班52个学生3月的模拟考试成绩,包括数学、物理、化学、语文、英语、历史六门课程Part 5.1因子分析概述因子分析的基本思想因子分析起源于20世纪初卡尔皮尔逊(Karl Pearson)和查尔斯斯皮尔曼(Charles Spearmen)等人关于智力测验的统计分析因子分析的基本思想是把每个原有变量分解成两部分,一部分是由所有变量公共具有的少数几个公共因子组成的,另一
59、部分是每个变量独自具有的因素,即特殊因子因子分析的基本思想英国心理学家Charles Spearman研究了33名学生在古典语、法语和英语三门语言课成绩的表现,发现这三门课的相关系数矩阵为:古典语法语英语语言能力因子的特点因子的数量远远少于原始变量的个数。因子能够反映原有变量的绝大部分信息。因子之间的线性关系不显著。因子具有命名解释性,可以最大限度地发挥专业分析的作用。因子分析的数学模型公共因子特殊因子原有变量因子载荷矩阵形式:因子分析中的几个相关概念1、因子载荷2、变量共同度3、因子的方差贡献因子分析的基本步骤因子分析的基本步骤因子分析的前提条件构造因子变量使因子变量更具可解释性计算因子变量
60、得分计算相关系数矩阵反映象相关矩阵检验KMO检验巴特利特球形度检验主成分分析法主轴因子法极大似然法最小二乘法正交旋转斜交旋转最大方差法回归法巴特利特法Part 5.2-1因子分析的SPSS实现数据导入第一步:用SPSS打开“学生成绩数据.sav”。因子分析第二步:在菜单栏中选择【分析(A)】【降维(D)】【因子(F)】,如左下图所示。在弹出的“因子分析”对话框中,将 6 门课程选入【变量(V)】列表框中(留下“学号”),如右下图所示。因子分析第三步:在“因子分析”对话框中单击右上角的【描述(D)】按钮,弹出的“因子分析:描述”对话框。其中【统计】框内系统默认勾选【初始解(I)】,这里不做修改。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 部编版四年级语文上册《语文园地七》教学设计
- 《碳资产管理服务指南》编制说明
- 《客户关系管理实务》电子教案 19商机管理
- 直肠与肛门狭窄病因介绍
- 国际金融学课件汇率理论与学说
- 甲减病因介绍
- 《语文下册识字》课件
- 养老照护机构长者康复训练服务流程1-1-1
- 2024年度留守儿童环保教育项目合同2篇
- (高考英语作文炼句)第55篇译文老师笔记
- 现代药物制剂与新药研发智慧树知到答案2024年苏州大学
- 军事理论-综合版智慧树知到期末考试答案章节答案2024年国防大学
- 单层工业厂房设计方案
- 造价咨询重点、难点及控制措施
- 2022年教科版《高中物理必修2》编写说明与教材分析2
- 失效分析的现状与发展趋势
- 外研版三起点小学英语四年级上册1-10模块教学反思
- 《魏公子列传》知识点
- 文案策划绩效考核表.doc
- 三菱PLC控制花样喷泉控制系统设计
- 长隆创始人苏志刚老婆
评论
0/150
提交评论