经济管理类各专业课程《SPSS数据分析与应用》第4章 描述分析_第1页
经济管理类各专业课程《SPSS数据分析与应用》第4章 描述分析_第2页
经济管理类各专业课程《SPSS数据分析与应用》第4章 描述分析_第3页
经济管理类各专业课程《SPSS数据分析与应用》第4章 描述分析_第4页
经济管理类各专业课程《SPSS数据分析与应用》第4章 描述分析_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章描述分析1.熟悉描述分析的概念。2.掌握单变量常用的描述分析方法及其SPSS实现。3.掌握双变量常用的描述分析方法及其SPSS实现。学习目标引导案例近年来,数据分析相关岗位大幅度增加,为了研究该岗位的需求情况,从招聘网站上获取了2019年3月上半月的上海、广州、深圳、北京等9个城市的数据分析相关岗位的网络招聘数据,包含“岗位名称”“最低薪资”“最高薪资”“招聘地区”“经验要求”“学历要求”“招聘人数”“公司性质”“公司规模”和“平均薪资”10个变量,共3922个样本。在此基础上分析变量的分布情况及变量之间的关系,揭示影响薪资的主要因素。数据文件为“网络招聘数据.sav”,部分数据如图4.1所示。Part4.1定性变量的描述分析频数分布表统计图形单变量的描述分析频数:变量值落在某个类别中的次数百分比:各频数占样本量的百分比有效百分比:各频数占有效样本量的百分比累计百分比:各百分比逐级累加起来的结果,最终取值为100%4.1.1定性变量的描述分析

1.频数分布表

(1)柱形图或条形图

柱形图或条形图是用宽度相同的条形的高度或长短来表示频数或频率变化分布的图形。一般而言,长方形横置的图称为条形图;长方形竖置的图称为柱形图。柱形图和条形图没有什么本质的区别,只是展示方式不同。2.统计图形(2)饼图

饼图是用每个扇形代表每个分组的频率。饼图在商业研究中使用广泛,尤其适合描述市场份额、时间及资源的分配等。图为饼图示例。2.统计图形3.频数分布的SPSS实现基于引导案例,利用SPSS对招聘数据中的定性变量“招聘地区”进行分析与解读。SPSS频数分布的基本操作步骤如下。第一步:在SPSS中打开数据文件“网络招聘数据.sav”。第二步:在菜单栏中选择【分析(A)】→【描述统计(E)】→【频率(F)】,弹出“频率”对话框,在该对话框左下角勾选【显示频率表(D)】。第三步:选择要分析的一个或多个变量到【变量(V)】框里,如图所示,这里选择的定性变量“招聘地区”。3.频数分布的SPSS实现3.频数分布的SPSS实现第四步:单击【图表(C)】按钮选择要绘制的统计图,弹出“频率:图表”对话框,在该对话框可进行【图表类型】和【图表值】的选择。【图表类型】可选择无图形、条形图、饼图或直方图。【图表值】框中的信息表示图形坐标含义,可选择频数或百分比。此处选择【条形图(B)】和【频率(F)】,如图所示。3.频数分布的SPSS实现第五步:为了方便对输出结果的解读,可以单击【格式(F)】按钮设置排序方式,如果选择【按值的升序排序(A)】或者【按值的降序排序(D)】,则频数分布表将按照个案值的升序或者降序排列;如果选择【按计数的升序排序(E)】或者【按计数的降序排序(N)】,则频数分布表将按照各个类别的频数值进行升序或者降序排列。这里选择【按计数的降序排序(N)】,如图所示。3.频数分布的SPSS实现第六步:在SPSS中可以通过图表编辑器对图表进行美化编辑,在SPSS结果查看器窗口双击SPSS输出的图形,就可以启动图表编辑器,如图所示。3.频数分布的SPSS实现第七步:在图表编辑器窗口中,可通过双击图形激活图表的“属性”对话框,如图所示。在属性框里可以对图表大小、填充与边框、类别等属性进行调整。3.频数分布的SPSS实现地区频率百分比有效百分比累积百分比有效上海106627.1827.1827.18广州69517.7217.7244.9深圳64016.3216.3261.22北京52013.2613.2674.48杭州3047.757.7582.23南京2225.665.6687.89武汉1914.874.8792.76成都1754.464.4697.22西安1092.782.78100总计3922100100第八步:解读SPSS频数分布结果。从表可以看出,SPSS输出的招聘地区频率分布表有6列,第1列显示了数据的有效样本量,第2列是该变量的各个水平,第3列为每个水平的频数,第4列为各水平在总体中的百分比,第5列为有效样本的百分比,第6列为累计百分比。该数据全为有效样本,样本量为3922份。招聘地区的分布状况是:上海、广州、深圳、北京招聘信息量较多,频数分别为1066、695、640、520,累计百分比达到74.5%;杭州、南京、武汉、成都次之,频数分别为304、222、191、175;西安招聘信息量最少,频数为109,仅占2.8%。4.1.2定量变量的描述分析1.基本描述统计量常用的基本描述统计量主要可以分为表示集中趋势的统计量、表示离散程度的统计量、表示分布形态的统计量和其他常用的统计量,如图所示。均值中位数众数集中趋势的最常用测度值体现了数据的必然性特征易受极端值的影响简单平均数、加权平均数排序后处于中间位置上的值不受极端值的影响主要用于有序变量,也可用数值变量,但不能用于分类变量一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于有序数据和数值数据集中趋势4.1.2定量变量的描述分析极差方差和标准差Z标准化得分离散程度的度量一组数据的最大值与最小值之差也叫全距离散程度的最简单测度值易受极端值影响四分位差上四分位数与下四分位数之差也称为内距或四分间距反映了中间50%数据的离散程度不受极端值的影响数据离散程度的最常用测度值反映了各变量值与均值的平均差异也称标准化值对某一个值在一组数据中相对位置的度量可用于判断一组数据是否有离群点4.1.2定量变量的描述分析分布形态度量偏态系数=0为对称分布偏态系数>0为右偏(正偏)偏态系数<0为左偏(负偏)峰态系数=0扁平峰度适中峰态系数<0为扁平分布峰态系数>0为尖峰分布直方图是频数直方图的简称,用来反映连续型变量的频数分布。它是用一系列宽度相等、高度不等的长方形表示数据的图。长方形的宽度表示数据范围的间隔,长方形的高度表示在给定间隔内的频数。

2.统计图形集中趋势、离散程度、分布形态陡坡型(1)陡坡型:往往是数据源缺失,或者被剔除一部分后,造成断崖式的折断。用户可以适当地调整组数,或者利用对数变换,再做出对数直方图。(2)双峰型:直方图的图形出现了两个高峰。双峰直方图的数据来自两个总体,一般是混合了多种数据源或者类别数据造成的。“奇葩”直方图双峰型锯齿型孤岛型(3)锯齿型:直方图内出现高度参差不齐,但整体图形保持了中间高、两边低、两边基本对称的形状。一般是由于做直方图时,分组过多或者测量仪器误差造成的。(4)孤岛型:在远离主分布的地方出现小的直方图,犹如孤岛,一般是业务上的非异常因素在起作用,比如工程零部件出了问题、产品出现了某Bug等,是很值得关注的现象。“奇葩”直方图3.基本描述统计量的SPSS实现(1)基本描述统计量的计算SPSS基本描述统计量的计算步骤如下。第一步:在SPSS菜单栏中选择【分析(F)】→【描述统计(E)】→【描述(D)】,弹出“描述”对话框。第二步:在“描述”对话框中选择需要计算其基本统计量的变量到【变量(V)】中,此处选择的是“平均薪资”,如图所示。第三步:在“描述”对话框中,单击【选项(O)】按钮,弹出“描述:选项”对话框,在该对话框中指定计算表示集中趋势、离散程度、分布形态的基本描述统计量,同时,可以设置【显示顺序】。勾选【平均值(M)】【标准差(I)】【最小值(N)】【最大值(X)】【峰度(K)】【偏度(W)】,并选择【变量列表(B)】,如图所示。3.基本描述统计量的SPSS实现3.基本描述统计量的SPSS实现第四步:如果需要对数据进行标准化处理,勾选“描述”到家了中左下角的【将标准化值另存为变量(Z)】,将会在SPSS数据编辑器窗口保留标准化后的新变量。此处选择对“平均薪资”进行标准化处理并保存标准化值,如图所示。第五步:解读SPSS描述统计量的计算结果。

平均值最小值最大值均值标准差偏度峰度统计统计统计统计统计统计标准错误统计标准错误平均薪资3922.2015.831.5359.968632.996.03926.025.078有效个案数(成列)3922

3.基本描述统计量的SPSS实现第一种:图表构建器,较多的图表构建方法。第二种:图形画板模板选择器,当不知道数据应该用哪种图表来呈现时,所提供了一种辅助图表选择功能。第三种:旧对话框,这是延续老版本传统的模式。(2)统计图形描述第一步:在SPSS图表构建器中,点击左下角的“直方图”,在右侧预览窗口将会出现4种图形,如图所示,然后选择简单直方图样式拖入右上角图空白区域。直方图第二步:设置图表坐标变量,直方图只需要设置X轴,然后选择变量“平均薪资”并拖拽到X轴,点击【确定】按钮,如图所示。直方图第三步:这时,在SPSS查看器窗口会输出直方图,双击图形会启动图表编辑器窗口,如图所示,在此窗口可以对图标的字体、字号、颜色、刻度等进行美化编辑。直方图Part4.2双变量的描述分析箱线图是由数据的最大值、最小值、中位数、上下四分位数这5个值绘制而成的;主要展示了数据分布的特征、分布是否对称、是否存在离群点等。1.定量变量与定性变量的图形描述分组箱线图定量变量与定性变量的图形描述一般选择分组箱线图来展示。

4.2.1定量变量与定性变量的描述分析“异常”箱线图常见的原因:第一,样本数据中存在异常值,这种离群的表现导致箱子整体被压缩,凸显出异常现象;第二,样本数据特别少,箱体受单个数据的影响被放大。“异常”箱线图第一步:在SPSS图表构建器中,在“图库”下选择“箱图”,这时候图库右侧预览窗口会出现三个箱线图,分别为简单框图、复式箱线图、1-D框,如图所示。2.定量变量与定性变量的描述分析SPSS应用举例第二步:设置图表坐标轴,将分类变量拖到X轴上,数值变量拖到Y轴。在此将“对数平均薪资”拖到Y轴上,“招聘地区”拖到X轴上,如图所示,点击【确定】按钮。2.定量变量与定性变量的描述分析SPSS应用举例第三步:解读SPSS箱线图结果。从图可看出,招聘地区对薪资有明显影响,对数平均薪资可以划分为3个梯队,各个梯队中对数平均薪资分布较为集中。第一梯队包括上海、北京、深圳、杭州;第二梯队包括广州、南京、武汉、西安;第三梯队包括成都。2.定量变量与定性变量的描述分析SPSS应用举例散点图将定量变量的观测值绘制在二维平面上判断定量变量之间的相关关系:相关方向:正相关、负相关;相关形态:线性相关、非线形相关;相关关系的密切程度:强相关,弱相关,基本不相关(a)正相关

(b)负相关

(c)无相关4.2.2双定量变量的描述分析两个定量变量之间的关系一般使用散点图进行图形描述。

第一步:在SPSS图表构建器中,在“图库”下选择散点图到图表预览窗口,在散点图预览窗口会出现9种散点图,如图所示2.双定量变量的描述分析SPSS应用举例第二步:设置图表坐标轴。分别选择两数值变量到X轴、Y轴,如图所示,然后点击“确定”。4.2.2双定量变量的描述分析4.2.2双定量变量的描述分析第三步:解读SPSS散点图结果。图为招聘人数与对数平均薪资散点图,从这个散点图可以看出,招聘人数与薪资的关系并不明显。很大原因是“招聘人数”虽然是定量变量,但是只取到有限个数值。因此可将招聘人数离散化处理后,分析不同的招聘人数区间与薪资的关系。4.2.3双定性变量的描述分析有两种或以上的数据组成的条形统计图叫作复式条形统计图。复式条形图重点呈现多个分类变量中各个类别组合情况下的频数对比。(1)复式条形图

主要突出一个分类变量中各类别的频数,并在此基础上表现多个类别的组合频数情况。堆积条形图百分比堆积条形图:由直条内各部分面积大小来表示各分类的百分比占比,直条高度为100%。百分比堆积条形图第一步:打开图表构建器,点击“条形图”,会出现8种图形;选择第3个图形堆积条形图拖拽到图表右上角空白区域。2.双定性变量的描述分析SPSS应用举例第二步:设置图表坐标轴,选择一个定性变量到X轴,将另一定性变量设置为堆积颜色。此处选择“公司性质”到X轴,并将“学历要求”设置为堆积颜色,如图所示。2.双定性变量的描述分析SPSS应用举例第三步:设置元素属性,在右侧的【元素属性】框内选择【条形图1】,并将【统计】框内的【计数】更改为【百分比()】,如图所示。2.双定性变量的描述分析SPSS应用举例第四步:对【百分比()】的参数进行设置,单击【百分比()】框下的【设置参数(M)】,弹出“元素属性:集合参数”对话框,选择【用于计算百分比的分母】框内的【每个X轴类别的总计】,如图所示,单击【确定】按钮,完成马赛克图的绘制。2.双定性变量的描述分析SPSS应用举例第五步:解读马赛克图结果。从图4.47可以看出,公司性质对学历要求有明显影响,相对而言,在大专学历中民营公司的需求比例最高;在本科学历中国企的需求比例最高。2.双定性变量的描述分析SPSS应用举例Part4.3数据分析报告数据分析相关岗位的薪资影响因素分析报告目录CONTENTS背景介绍一数据说明二描述分析三总结三背景介绍1政策维度——国家部委和地方各级政府的政策环境持续优化2015-2019年国家层面出台大数据政策36个,省级层面出台大数据政策200个。2015年2017年2018年地方各级政府陆续成立大数据局,着手体制机制建设国务院各部委和各级地方政府积极出台大数据相关政策大数据上升为国家战略2015-2018年省级大数据管理机构重要时间节点吉林省政务服务和数字化建设局北京市大数据管理局天津市大数据管理中心山东省大数据局河南省大数据管理局安徽省数据资源管理局上海市大数据中心数字福建建设领导小组办公室广西壮族自治区大数据发展局陕西省政务数据服务局重庆市大数据发展局内蒙古自治区大数据发展管理局贵州省大数据发展管理局浙江省数据管理中心1.背景介绍产业维度——市场需求和相关技术进步驱动未来大数据产业增长2018年中国大数据产业规模达4384.5亿元,预计2021年8070.6亿元,5年复合增长率达23.2%。产业政策34%资本25%市场需求18%相关技术进步14%数据资源6%人才

3%15%13%28%21%13%10%2016-2018年2019-2021年2016年2840.8亿元2018年4384.5亿元2021年8070.6亿元复合增长率23.2%2016-2021年中国大数据产业规模增长空间5230亿元数据来源:赛迪顾问,2019背景介绍人才纬度——大数据核心人才缺口大,人才培育倍受关注大数据人才主要包括从事大数据企业研发、分析工作的专业型人才,或拥有行业背景兼具大数据技能的复合型人才。专业技能AB专业性人才复合型人才+行业背景行业背景主要岗位专业技能大数据云计算人工智能物联网……金融政府能源医疗建筑——研发数据分析技术支持产品运营……编程统计分析……大数据人才2015Q1-2019Q2全国大数据人才需求增长趋势全国大数据人才需求趋势:呈快速增长态势,今年约为4年前的12倍数据来源:赛迪顾问,2019.背景介绍在2016-2020年间,全国共有620多所高校获得了国家教育部审批的“数据科学与大数据技术”专业。面向陡增的大数据专业人才,数据科学相关工作的平均薪资水平怎样?企业是更看重学历还是经验?在国内哪些城市可以获得高薪资呢?……本案例收集了国内主要城市的大数据相关岗位的招聘数据,尝试通过描述分析探究影响薪资的主要因素。2016-2020年高校数据科学与大数据技术专业新增备案数量背景介绍数据说明2变量详细说明备注因变量对数平均薪资数值变量:[-1.61,-2.76]平均薪资的对数值自变量招聘地区分类变量,9个水平:上海、广州、深圳、北京、杭州、南京、武汉、成都、西安上海占27.2%;广州占16.3%;深圳占16.3%;北京占13.1%;杭州占7.8%;南京占5.7%;武汉占4.9%;成都占4.5%;西安占2.8%经验要求分类变量,5个水平:无要求、1-2年、3-4年、5-7年、8年及以上1-2年占34.4%;3-4年占31.9%;5-7年占12.7%;无要求占19.2%学历要求分类变量,2个水平:本科、大专本科占73.7%;大专占26.7%公司性质分类变量,6个水平:民营公司、上市公司、国企、合资、外资、其他民营公司占61.2%;上市公司占11.6%;合资占10.3%;外资占8.4%;国企占6.1%;其他占2.3%公司规模分类变量,6个水平:少于50人、50-150、150-500、500-1000、1000-5000、5000以上少于50占6.6%;50-150占22.2%;150-500占27.5%;500-1000占14.3%;1000-5000占17.7%;5000以上占11.7%招聘人数数值变量:[1,17]后面进行离散化处理数据说明本案例从招聘网站上获取了2019年3月1日—3月15日,上海、广州、深圳、北京等9个城市对于本科、大专的数据分析岗位的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论