




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据时代的统计与数据分析统计与数据分析基础 & 01目录/Contents1.11.21.3什么是统计认识数据分析课堂实训体验数据分析的过程1.1.1 统计与统计学统计是对数据资料的获取、整理、分析、描述和推断等操作的总称。从某种角度来看,统计实际上就是获取和使用各种数据资料的行为。而统计学则是关于收集、整理、分析数据和从数据中得出结论的科学。AB描述统计:描述统计是研究数据收集、整理和描述的统计学方法,其内容包括如何取得所需要的数据,如何用图表或数学方法对数据进行整理和展示,如何描述数据的一般性特征等。推断统计:推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,其内容包括参数估计
2、和假设检验两大类。其中,参数估计是利用样本信息推断总体特征;假设检验是利用样本信息判断对总体的假设是否成立。1.1.2 统计学中的基本概念1. 总体、样本与个体总体、样本与个体的关系1.1.2 统计学中的基本概念01OPTION02OPTION03OPTION总体:总体是客观存在的、性质相同的大量个体构成的整体,具有大量性、同质性和变异性等特性。样本:样本是从总体中抽取出来的一部分个体组成的整体,其作用是通过样本特征来推断总体特征,能够简化数据统计分析的工作量。个体:个体是组成总体的基本单位,是各项数据最原始的载体。1. 总体、样本与个体1.1.2 统计学中的基本概念1. 总体、样本与个体销售
3、员性别销售额(元)销售员性别销售额(元)赵红女28 551曾琦男29 779孙立男28 858魏晓芳女15 964刘凯男26 154陈倩女19 605马思思女22 103王芳女26 415张杰男20 958詹小杰男23 957郭奇伟男25 481张琪女18 727白婷婷女19 341李建男20 262朱伟杰男27 652殷建平男25 788宋燕女24 867郑凯男29 472某公司销售员销售额统计表1.1.2 统计学中的基本概念2. 统计标志与统计指标AB统计标志:统计标志反映的是总体的属性或特征的名称,按性质不同可分为品质标志和数量标志。其中,品质标志反映的是总体的属性特征,如上表中不考虑个
4、体因素,每位销售员的性别属性就是品质标志,其指标内容表现为文字,如“男”“女”;数量标志反映的则是总体的数量特征,如上表中不考虑个体因素,每位销售员的销售额就是数量标志,其指标内容表现为具体的数值。统计指标:统计指标反映的是总体特征的概念和具体的数值。按反映内容或数值表现形式的不同,统计指标可分为总量指标、相对指标和平均指标;按反映数量特点与内容的不同,统计指标又可分为数量指标和质量指标。1.1.2 统计学中的基本概念2. 统计标志与统计指标各类统计指标的含义目录/Contents1.11.21.3什么是统计认识数据分析课堂实训体验数据分析的过程1.2.1 数据分析的目的数据分析的目的,实质是
5、利用数据分析的结果来解决遇到的问题,具体而言,根据解决问题的类型,可以将数据分析的目的分为分析现状、分析原因和预测未来3类。分析现状预测未来分析原因分析现状是数据分析最显而易见的目的,以电商为例,若需要明确当前市场环境下的产品市场占有率、店铺会员的来源、支付转化率、主要竞争对手和竞争商品等,这些都属于对现状的分析。数据分析的第3个目的就是预测未来,如用数据分析的方法预测未来市场的变化趋势、预测未来销售情况等。通过预测结果可以更好地制定相应的策略和计划,进而提高未来计划的成功率。分析原因是在分析现状的基础上对数据的诉求,例如,某商店某天的访客数量突然大量增加,或会员突然大量流失等,每一种变化都是
6、有原因的,通过对数据的分析就要找出这个原因,便于继续维持好的局面,或改善不好的局面。1.2.2 数据分析的基本思维1. 对比思维对比是比较常见、直接和容易的数据分析思维。数据对比分析1.2.2 数据分析的基本思维2. 追踪思维经过积累和沉淀后的数据,往往更具分析价值。从这个角度来看,在数据积累和沉淀的后,对数据进行追踪分析也更能准确地发现和解决问题。对于数据分析而言,积累的数据越多、内容越详尽,在后期进行追踪分析时得到的结果越可靠。因此对于需要进行数据分析的用户而言,应当在平时不断地积累数据,并通过建立不同的数据维度和追踪机制来分析和处理数据。1.2.2 数据分析的基本思维03OPTION04
7、OPTION05OPTION分解思维:是指将所有数据逐次向下分解,找出更多子数据,并通过对子数据的挖掘和优化,找到问题方向,最终提升核心指标的数据质量。特别是当无法发现问题的成因时,更应该通过分解思路将数据或指标进行拆分,而不应该只着眼于某个现成的数据指标,而忽略与之相关的其他因素。锚点思维:行为经济学中有个术语称为“锚”,简单来说是指如果遇到某个商品,则第一眼留下的印象将在此后对购买这一商品的出价意愿中产生长期影响价值,这个价值就是“锚”。锚点思维可以广泛地应用在数据分析中。结合思维:实际上就是多维度数据分析和处理,因为大多数数据在一段时间内兼具偶然性和关联性,单独利用一种维度来分析数据会显
8、得比较片面,严重时会导致分析结果错误,所以应该从多个维度出发来分析。1.2.3 数据分析的常用方法描述性统计:对总体数据进行统计性描述,包括数据的频数分析、集中趋势分析、离散程度分析、分布等特征的情况。抽样估计:利用抽样调查所得到的样本数据特征来估计和推算总体的数据特征。假设检验:通过对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。统计指数:通过指数分析的方法对统计指标的综合情况和局部情况进行分析。相关分析:通过分析两个或两个以上处于同等地位的随机变量间的数据情况来解释其相关关系,它侧重于发现随机变量间的各种相关特性。回归分析:通过分析两个或两个以上变
9、量间的数据情况来解释相互依赖的定量关系,它侧重于研究随机变量间的依赖关系,以便用一个变量去预测另一个变量。非参数检验:在总体方差未知或已知较少的情况下,利用样本数据对总体分布形态等进行推断。时间序列:通过对数据在一个区域内容进行一定时间段的连续测试,分析其变化过程与发展规模。1.2.4 数据分析的一般流程数据分析的流程1.2.4 数据分析的一般流程01OPTION02OPTION03OPTION04OPTION确定目标:数据分析之前,首先就要明确分析的目标,根据目标选择需要的数据,进而明确数据分析想要达到的效果。数据采集:在这个阶段,需要更多地注意数据生产和采集过程中的异常情况,从而更好地追本
10、溯源,这也能在很大程度上避免因采集错误而引起数据分析结果没有价值的情况发生。数据处理:针对的是执行采集操作后得到的数据不满足分析要求的情况。数据分析:数据分析阶段需要利用适当的方法和工具,对处理后的数据进行分析,提取有价值的信息,并形成有效的结论。1.2.4 数据分析的一般流程05OPTION06OPTION数据展现:数据展现是指将数据可视化显示,图表是数据展现最有效的手段。在这个阶段需要重点考虑所选的图表类型能够真实且完整地反映数据特性和分析结果,另外也需要保证图表的美观性,使数据特性和分析结果可以更加清晰地体现。撰写报告:数据分析报告是对整个数据分析过程的总结与呈现。完成前面各个环节的工作
11、后,就可以通过数据分析报告,将数据分析的思路、过程,以及得出的结果和结论完整地呈现出来,供报告使用者参考。目录/Contents1.11.21.3什么是统计认识数据分析课堂实训体验数据分析的过程1.3.1 实训目标及思路1.印刷类传播媒介AB报纸。报纸是一种以刊载新闻和时事评论为主的定期向公众发行的印刷出版物,具有信息详细且可以保存、内容可以选择、生产成本廉价等特点,在一定程度上能够反映和引导社会舆论,在很长一段时间内是信息传播的重要载体。杂志。杂志是一种注重时效性的宣传册页,相对于报纸而言,杂志传播的信息更加详尽和明确,且有专业的人群定位分析,内容针对的用户更加专业和精确,因此,在发行量和用
12、户量上相对较少,其传播和普及的范围也小于报纸。1.3.1 实训目标及思路本次实训将利用Excel 2016来分析某店铺访客数情况,重点体验数据分析的基本思路和Excel 2016的操作方法,其中将涉及到简单的数据对比分析、趋势分析和占比分析,具体思路如图1-5所示。实训思路1.3.2 操作方法TOP1:选择数据并创建图表3.单击4.选择2.加选1.选择1.修改2.选择TOP2:修改图表标题并应用图表样式1.3.2 操作方法TOP3:添加数据标签并放大图表3.拖曳2.选择TOP4:创建折线图1.单击1.3.2 操作方法TOP5:分析访客数趋势TOP6:汇总各商品访客数1.3.2 操作方法TOP7
13、:按商品类目排序1.3.2 操作方法TOP8:分类汇总数据1.3.2 操作方法TOP9:复制并移动数据1.3.2 操作方法TOP10:创建饼图谢谢观看统计与数据分析基础 & 数据采集统计与数据分析基础 & 02目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训使用八爪鱼采集招聘数据2.1.1 数据的类型图 数据的类型2.1.2 数据的来源一手数据也称原始数据,是指通过直接调查或科学实验等方式直接获取的数据。具体而言,采取实验观察、问卷调查、抽样调查等方法可以获取一手数据,如图2-2所示。1. 一手数据图 一手数据的获取方法2.1.2
14、数据的来源二手数据即他人通过调查或实验取得的数据,如从统计年鉴中获取的居民消费价格指数、从房地产管理部门数据库获取的房价数据等。2. 二手数据根据渠道的不同,数据的来源还有内部数据和外部数据之分。内部数据主要包括组织或个人在生产或生活中形成的各种数据;外部数据则是非组织或个人直接产生的数据。专家点拨目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训使用八爪鱼采集招聘数据2.2.1 数据采集的流程在采集数据之前,应该清楚需要采集什么样的数据和采集数据的目的,这样才能根据需求和分析对象开展数据采集工作,其基本流程如图2-3所示。图 数据采
15、集的基本流程2.2.2 数据采集的方法1. 问卷调查(1)问卷内容不能过多,题目应当简洁明了,让受访对象感觉可以不用花费过多时间就能完成调查任务。(3)问题的答案选项不能过多,一般应以多项式或等级式的方式显示,方便受访对象填写。(2)问题设计应紧扣受访对象的行为、态度和基本信息等方面。一些敏感信息可以通过物质刺激的方式获取,如要求受访对象填写手机号码一栏,可以不用强制填写,但如果填写,会将优惠券以短信形式发送到手机上以供使用。2.2.2 数据采集的方法就线上采集而言,首先应充分利用线上平台现有的下载功能直接下载数据;如果不具备该功能,则可考虑通过复制粘贴的方式采集到需要的数据对象;如果复制操作
16、也无法实现,则考虑使用各种数据爬取工具爬取数据。就目前而言,由于互联网科技的不断发展,大数据应用越来越广泛,因此线上采集数据的方式显得更加可行和高效。2. 下载、复制与爬取目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训使用八爪鱼采集招聘数据2.3.1 生意参谋登录到淘宝、天猫等阿里巴巴电商平台后,单击上方导航栏中的“千牛卖家中心”超链接,然后在显示的页面左侧单击“数据中心”栏中的“生意参谋”超链接,如图2-5所示,即可进入生意参谋数据分析与采集平台,单击该平台导航栏中的不同功能选项卡,则可进入到对应的功能板块。1. 基本功能概述图
17、 生意参谋入口2.3.1 生意参谋生意参谋中的数据可以通过复制粘贴的方式采集到Excel中,其操作非常简单,只需设置需要显示的数据内容,然后拖曳鼠标复制数据,然后在Excel中进行粘贴即可。2. 数据采集方法图 采集行业数据1TOP1:采集行业数据2.3.1 生意参谋图 采集行业数据22.3.1 生意参谋TOP2:粘贴数据2.3.2 京东商智京东商智可以对店铺的流量、商品、交易、服务、供应链和客户等数据进行全方位分析。1. 基本功能概述概览实时图 京东商智首页的核心指标区域2.3.2 京东商智实时流量商品1. 基本功能概述图 京东商智的搜索关键词分析界面2.3.2 京东商智交易服务供应链客户行
18、业1. 基本功能概述图 京东商智的交易分析界面2.3.2 京东商智竞争1. 基本功能概述图 京东商智的行业分析界面2.3.2 京东商智2. 数据采集方法图 通过下载方式采集数据与生意参谋相比,京东商智在采集数据方面更加人性化,当需要采集数据时,只需在相应的功能板块中设置需要采集的日期后,单击界面右上角的 按钮,即可根据向导提示将数据保存下来,如图2-16所示。2.3.3 店侦探1. 基本功能概述监控中心关键词分析监控店铺分析此功能主要用于添加并管理监控的店铺和商品。例如,要添加监控店铺时,首先需要注册并登录店侦探网站,单击左侧导航栏中的“监控中心”功能下的“店铺管理”超链接,然后单击右侧的”添
19、加监控店铺” 按钮,此时将打开添加监控店铺的对话框,在其中的文本框中输入或复制竞争店铺的某一款商品的网址,然后依次单击“预览店铺”和 “添加监控”按钮即可添加该竞店单击店侦探顶部导航栏中的“全网展示词”超链接,在显示的页面中输入需要分析的关键词,如“新款”,单击“搜索”按钮即可显示淘宝和天猫的关键词综合搜索排名情况单击店侦探左侧导航栏中的“监控店铺分析”功能,在展开的目录中即可分析竞店的各种数据,包括竞店整体状况分析、销售分析、流量来源分析、活动分析、宝贝分析等。使用方法为:单击某个分析超链接,展开其下的子目录,然后单击对应的超链接即可。2.3.3 店侦探2. 数据采集方法在店侦探中,可以利用
20、“导出数据”按钮或“导出” 按钮将当前界面中的数据采集到计算机中,方法为:单击“导出数据”按钮或“导出”按钮,自动启动已有的下载软件,设置文件下载后的保存名称和保存位置即可。采集到的数据将保存在Excel表格中,需要时便可打开该表格进行处理和分析。2.3.4 八爪鱼采集器八爪鱼采集器内置了大量的采集模板,模板中已经设置好采集任务和采集内容,启用模板就能快速完成数据采集工作。1. 模板采集【实验室】采集京东商品搜索数据TOP1:登录八爪鱼采集器TOP2:新建模板任务2.3.4 八爪鱼采集器TOP4:选择采集模板TOP3:选择网站模板2.3.4 八爪鱼采集器TOP5:所选模板详情2.3.4 八爪鱼
21、采集器TOP6:设置任务的基本信息和配置参数TOP7:选择采集方式2.3.4 八爪鱼采集器TOP8:显示采集过程TOP9:数据采集完成2.3.4 八爪鱼采集器TOP10:选择导出方式TOP11:设置保存位置和名称2.3.4 八爪鱼采集器TOP12:导出数据TOP13:采集到的数据2.3.4 八爪鱼采集器2. 自动识别【实验室】通过自动识别采集租房数据TOP1:自定义采集任务2.3.4 八爪鱼采集器TOP2:新建任务TOP3:自动识别网页数据2.3.4 八爪鱼采集器TOP4:完成识别TOP5:页面滚动设置2.3.4 八爪鱼采集器TOP6:设置翻页采集数据TOP7:删除字段2.3.4 八爪鱼采集器
22、TOP8:修改字段名称TOP9:删除数据2.3.4 八爪鱼采集器TOP10:调整字段排列顺序TOP11:生成采集设置2.3.4 八爪鱼采集器TOP12:开始采集数据TOP13:本地采集2.3.4 八爪鱼采集器TOP14:停止采集TOP15:确认停止采集数据2.3.4 八爪鱼采集器TOP16:导出数据TOP17:去掉重复数据TOP18:选择导出方式TOP19:设置保存位置和名称2.3.4 八爪鱼采集器TOP20:采集到的数据2.3.4 八爪鱼采集器3. 手动采集如果需要采集数据的网页既没有模板,也无法识别,则可以通过手动采集的方式采集数据。其方法为:新建采集任务,取消自动识别数据的状态,手动采集
23、需要的各个字段,设置字段名称和位置,然后采集数据并导出到Excel中即可,其流程如图2-53所示。图 手动采集数据的流程2.3.5 火车采集器1. 普通网址采集【实验室】采集豆瓣图书数据TOP1:登录火车采集器TOP2:新建采集任务TOP3:复制网址2.3.5 火车采集器TOP4:审查元素TOP5:查看代码TOP6:继续查看代码TOP7:设置过滤条件TOP8:采集测试2.3.5 火车采集器TOP9:继续设置过滤条件TOP10:再次测试TOP11:修改字段名称TOP12:继续修改字段名称2.3.5 火车采集器TOP13:添加字段TOP14:复制代码TOP15:粘贴代码2.3.5 火车采集器TOP
24、16:设置前后字符串TOP17:设置代码TOP18:继续设置代码2.3.5 火车采集器TOP19:测试成功 TOP20:设置保存参数TOP21:打开文本文件模板 TOP22:设置模板内容2.3.5 火车采集器TOP23:设置文件保存位置TOP24:保存采集任务TOP26:查看采集到的数据TOP25:开始采集数据2.3.5 火车采集器2. 批量网址采集TOP1:批量网址设置向导TOP3:设置参数变化规则 TOP2:复制网址TOP4:保存任务目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训使用八爪鱼采集招聘数据2.4.1 实训目标及思路
25、本次实训将在BOSS直聘网站中采集与“室内设计师”相关的招聘信息,需要采集到公司名称、成立时间、法人代表、招聘职位、月薪等数据。采集时将涉及到详情页内容的采集,具体操作思路如图2-84所示。2.4.2 操作方法TOP1:复制网址TOP2:新建任务2.4.2 操作方法TOP3:建立任务TOP4:取消自动识别2.4.2 操作方法TOP5:选择网页元素TOP6:创建循环采集规则2.4.2 操作方法TOP7:采集网页元素TOP8:设置字段2.4.2 操作方法TOP9:修改字段名称TOP10:启动本地采集功能2.4.2 操作方法TOP11:采集完成TOP12:设置导出方式TOP13:设置保存位置和名称2
26、.4.2 操作方法TOP14:数据导出完成TOP15:采集到的招聘数据谢谢观看统计与数据分析基础 & 数据处理统计与数据分析基础 & 03目录/Contents3.13.23.3数据清洗数据加工课堂实训清洗并加工行业稳定性数据3.1.1 缺失值修复1. 保留缺失数据保留缺失值,优点是保证了样本的完整性,但前提是该缺失值具备保留的意义,否则就应该通过删除或补全操作进行清洗处理。2. 删除缺失数据AB筛选:在【数据】【排序和筛选】组中单击“筛选”按钮 ,单击缺失数据所在项目的下拉按钮 ,在弹出的下拉列表中仅选中“(空白)”复选框,单击“确认”按钮。定位:在【开始】【编辑】组中单击“查找和选择”下拉
27、按钮 ,在弹出的下拉列表中选择“定位条件”命令,打开“定位条件”对话框,选中“空值”单选项,单击“确认”按钮。3.1.1 缺失值修复【实验室】修复招聘数据中缺失的学历3. 修补缺失数据TOP1:定位数据TOP2:设置定位条件3.1.1 缺失值修复TOP3:快速输入相同数据3.1.2 错误值修复1. IFERROR函数修复Excel中出现的错误信息时,一般可以利用IFERROR函数实现,该函数的语法格式为“IFERROR(value, value_if_error)”,其中,参数“value”表示当不存在错误时的取值;参数“value_if_error”为存在错误时的取值。符号产生原因解决方法#
28、!单元格中的数字、日期或时间数据长度大于单元格宽度单元格中的日期或时间公式产生了负值拖曳列标增加单元格宽度更正公式或将单元格格式设置为非日期和时间型数据#VALUE!需要数字或逻辑值时输入了文本将单元格引用、公式或函数作为数组常量输入赋予需要单一数值的运算符或函数一个数值区域确认公式或函数所需的运算符或参数正确,并且公式引用的单元格中包含有效的数值确认数组常量不是单元格引用、公式或函数将数值区域改为单一数值#DIV/O!公式中的除数使用了指向空白单元格或包含零值单元格的引用输入的公式中包含明显的除数零修改单元格引用,或在用作除数的单元格中输入不为零的值将零改为非零值2. Excel错误信息的含
29、义3.1.2 错误值修复符号产生原因解决方法符号产生原因解决方法#NAME?删除了公式中使用的名称,或使用了不存在的名称名称出现拼写错误公式中输入文本时未使用双引号单元格区域引用时缺少冒号确认使用的名称确实存在修改拼写错误的名称将公式中的文本括在英文状态下的双引号中确认公式中使用的所有单元格区域引用中都使用了英文状态下的冒号#N/A单元格的函数或公式中没有可用数值可以忽略或在这些单元格中输入“#N/A”,公式在引用这些单元格时,将不进行数值计算,而是返回“#N/A”#REF!删除了由其他公式引用的单元格或将单元格粘贴到由其他公式引用的单元格中更改公式或在删除或粘贴单元格之后,单击快速访问工具栏
30、中的“撤销”按钮 #NULL!使用了不正确的区域运算符或引用的单元格区域的交集为空更改区域运算符使之正确,或更改引用使之相交#NUM!公式或函数中的某个数值出现问题更正错误的数值3.1.2 错误值修复【实验室】修复库存周转率中的错误值TOP1:选择单元格区域 TOP2:输入公式TOP3:修复数据3.1.3 逻辑错误修复数据不合理:数据不符合规则:数据自相矛盾:如客户年龄300岁、消费金额-50元等,明显不符合客观情况的数据。如要求限购1件的商品,但购买数量却显示为5件。如客户出生年份为1983年,但当前年龄却显示为17岁。3.1.3 逻辑错误修复TOP2:编辑公式TOP1:新建格式规则【实验室
31、】标记店铺流量渠道中的错误数据3.1.3 逻辑错误修复TOP3:设置格式TOP4:确认设置3.1.3 逻辑错误修复TOP5:标记其他逻辑错误数据3.1.4 统一数据格式1. 设置数据类型2. 查找和替换数据3.1.4 统一数据格式【实验室】统一采集竞争对手的数据格式2. 查找和替换数据TOP1:输入查找和替换的内容TOP2:确认替换3.1.4 统一数据格式TOP3:查找和替换其他数据TOP4:继续查找和替换其他数据TOP5:选择多个单元格区域3.1.4 统一数据格式TOP6:设置数据类型TOP7:统一数据类型后的效果3.1.5 清理重复数据【实验室】去除重复测试商品的营销效果数据TOP1:设置
32、检查项目 TOP2:确认操作目录/Contents3.13.23.3数据清洗数据加工课堂实训清洗并加工行业稳定性数据3.2.1 数据分列【实验室】将“姓名”列分隔为“姓”和“名”两列TOP1:插入列TOP2:执行数据分列操作TOP3:选择分隔方式3.2.1 数据分列TOP4:建立分列线TOP5:设置数据格式TOP6:完成数据分列操作3.2.2 数据排列与筛选快速排序:所谓快速排序,是指利用功能区的排序按钮快速实现数据排序的目的。选择需排序的数据区域后,单击【数据】【排序和筛选】组中的“升序”按钮 或“降序”按钮即可。关键字排序:如果排序数据较复杂,需要以多种条件才能实现排列时,可以使用关键字进
33、行排序。其方法为:选择需排序的数据区域,单击“排序和筛选”组中的“排序”按钮 ,打开“排序”对话框,在其中设置关键字、排序依据和次序即可,如图所示。1. 数据排序3.2.2 数据排列与筛选自动筛选:选择需要进行筛选的数据区域,单击【数据】【排序和筛选】组中的“筛选”按钮,进入筛选状态,单击某个项目数据右侧的下拉按钮 ,选择“数字筛选”命令,并根据需要在弹出的子列表中选择需要的筛选条件并进行设置即可,如左图所示。手动筛选:方法为:手动输入筛选条件,然后单击“排序和筛选”组中的“高级”按钮,打开“高级筛选”对话框,指定数据区域和筛选条件区域,确认操作即可,如右图所示。2. 数据筛选3.2.2 数据
34、排列与筛选TOP1:按排名排列数据 TOP2:设置主要关键字【实验室】排列与筛选销售数据TOP3:添加次要关键字3.2.2 数据排列与筛选TOP4:选择筛选条件TOP5: 设置筛选条件 【实验室】排列与筛选销售数据TOP6:清除筛选结果3.2.2 数据排列与筛选TOP7:输入筛选条件TOP8:设置高级筛选参数【实验室】排列与筛选销售数据TOP9:筛选结果3.2.3 数据行列的转换通过按钮转置:单击【开始】【剪贴板】组中的“粘贴”按钮 下方的下拉按钮 ,在弹出的下拉列表中单击“转置”按钮 。通过对话框转置:单击【开始】【剪贴板】组中的“粘贴”按钮 下方的下拉按钮 ,在弹出的下拉列表中选择“选择性
35、粘贴”命令,在打开的对话框中选中“转置”复选框,单击“确认”按钮。3.2.3 数据行列的转换TOP1:复制数据TOP2:删除原有数据【实验室】转置商品房销售数据TOP3:调整行高与列宽3.2.4 数据计算1. 认识Excel公式常量:不会变化的数据,如数字和文本,文本需用英文状态下的引号括起来。运算符:公式进行运算的符号,如加号“+”、乘号“*”、除号“/”等。单元格(区域)引用:即单元格地址,代表计算该地址所对应的单元格(区域)中的数据。函数:相当于公式中的一个参数,参与计算的数据为函数返回的结果。函数的语法结构为“函数名(参数1,参数2,参数3,)”,如求和函数SUM(A1:A3,B2:B
36、4)就表示计算A1:A3单元格区域之和与B2:B4单元格区域之和,并汇总这两个结果。当该函数出现在某个公式中时,则汇总的结果就是公式的参数。3.2.4 数据计算2. 公式的引用相对引用:指公式中引用的单元格地址会随公式所在单元格的位置变化而相对改变。绝对引用:指无论公式所在单元格地址如何变化,公式中引用的单元格地址始终不变。混合引用:指公式的单元格引用中既有相对引用,又有绝对引用的情况。3.2.4 数据计算TOP1:输入函数TOP2:计算销售总额【实验室】计算商品销售及占比情况TOP3: 输入公式2. 公式的引用3.2.4 数据计算TOP4:计算礼品类销售占比TOP5:计算工艺品类销售占比 T
37、OP6:计算饰品类销售占比3.2.5 数据汇总TOP1:排序数据TOP2:设置分类汇总参数【实验室】汇总各部门的销售总额与平均销售额TOP3:分类汇总结果3.2.5 数据汇总TOP4:设置分类汇总参数TOP5:分类汇总结果3.2.6 数据提取LEFT函数:其语法格式为“=LEFT(text, num_chars)”,表示从指定的单元格中返回左侧的1个或多个字符。MID函数:其语法格式为“=MID(text, start_num, num_chars)”,表示从指定的单元格中的指定位置返回1个或多个字符。RIGHT函数:其语法格式为“=RIGHT(text, num_chars)”,表示从指定的
38、单元格中返回右侧的1个或多个字符。3.2.6 数据提取【实验室】通过提取数据判断库存商品TOP1:输入IF函数TOP2:选择嵌套函数TOP3:选择LEFT函数3.2.6 数据提取TOP4: 设置函数参数TOP5:关闭对话框 TOP6:设置IF函数条件3.2.6 数据提取TOP7:设置返回的真值TOP8:复制嵌套函数TOP9:修改函数内容3.2.6 数据提取TOP10:返回结果TOP11:判断商品功能TOP12:判断是否为新品目录/Contents3.13.23.3数据清洗数据加工课堂实训清洗并加工行业稳定性数据3.3.1 实训目标及思路本次实训将对已经采集到的行业数据进行清洗,然后利用Exce
39、l的公式与函数计算出各行业的标准差、平均值、波动系数和极差数据,以便分析各市场的行业稳定性。具体操作思路如图3-73所示。3.3.2 操作方法TOP1:调整错误的日期数据 TOP2:选择数据类型TOP3:选择数据对象3.3.2 操作方法TOP4:添加千位分隔符TOP5:调整小数位数 TOP6:调整对齐方式3.3.2 操作方法TOP7:调整字体字号 TOP8:输入文本并插入函数TOP9:选择函数3.3.2 操作方法TOP10:设置函数参数TOP11:填充函数TOP12:计算平均值3.3.2 操作方法TOP13:计算波动系数 TOP14:计算极差谢谢观看统计与数据分析基础 & 描述性统计分析统计与
40、数据分析基础 & 04目录/Contents4.14.24.34.4集中趋势的统计分析离散程度的统计分析分布形态的统计分析课堂实训生产资料市场价格分析4.1.1 集中趋势的含义集中趋势反映了一组数据中心点所在的位置,统计分析集中趋势,不仅可以找到数据的中心值或一般水平的代表值,还可以发现数据向其中心值靠拢的倾向和程度。比如全国人均GDP(Gross Domestic Product,国内生产总值)就是一个集中趋势指标,反映的是人均国内生产总值的情况。虽然每个人对GDP的贡献度不同,但人均GDP能够反映一个国家的经济发展水平。4.1.2 算术平均值算术平均值指的是一组数据相加后除以数据个数的结果
41、,它可以反映出一组数据的平均水平,如上文所述的人均GDP。该指标的优点在于利用了所有数据的信息,缺点则是容易受极端值的影响,这样会导致结果的代表性较差。1. 简单算术平均值在Excel中,可以直接使用AVERAGE函数计算某一组数据的简单算术平均值。4.1.2 算术平均值2. 加权算术平均值在Excel中,可以使用SUMPRODUCT函数计算加权算术平均值公式中的分子部分。该函数可以返回对应区域的乘积之和。4.1.2 算术平均值【实验室】掌握西红柿试验田的平均产量情况TOP1:计算A品种西红柿平均产量TOP2:计算其他品种西红柿的平均产量4.1.2 算术平均值TOP3:计算A品种西红柿的权数T
42、OP4:计算其他品种西红柿的权数4.1.2 算术平均值TOP5:应用SUMPRODUCT函数TOP6:应用SUM函数4.1.2 算术平均值TOP7:计算加权算术平均值TOP8:计算简单算术平均值4.1.3 中位数AB中位数:是指将一组数据按从小到大或从大到小的顺序排列后,处于中间位置上的数据。当一组数据中含有异常或极端的数据时,通过算术平均值这个指标就有可能得到代表性不高甚至错误的结果,此时则可以使用中位数来作为该组数据的代表值。4.1.3 中位数【实验室】识破招聘启事中的工资待遇陷阱TOP1:插入函数TOP2:选择函数4.1.3 中位数TOP3:设置函数参数TOP4:再次设置函数参数4.1.
43、3 中位数TOP6:返回计算结果TOP5:继续设置函数参数4.1.4 众数众数众数是指一组数据中出现频率最高的数值,这个指标对定类数据、定序数据、定距数据和定比数据都适用,能表示由它们组成的一组数据的集中趋势。注意如果在一组数据中,只有一个数值出现的次数最多,就称这个数值为该组数据的众数;如果有两个或多个数值的出现次数并列最多,则称这两个或多个数值都是该组数据的众数;如果所有数值出现的次数都相同,则称该组数据没有众数。4.1.4 众数【实验室】通过众数票选出班级口号TOP1:插入函数TOP2:选择函数4.1.4 众数TOP3:设置函数参数TOP4:继续设置函数参数4.1.4 众数TOP5:返回
44、计算结果目录/Contents4.14.24.34.4集中趋势的统计分析离散程度的统计分析分布形态的统计分析课堂实训生产资料市场价格分析4.2.1 离散程度的含义在统计学中,把反映总体中各个个体的变量值之间差异程度的指标称为离散程度,也称为离中趋势。在同类离散指标的比较中,离散指标的数值越小,说明该组数据的波动(变异)程度越小;离散指标的数值越大,则说明该组数据的波动(变异)程度越大。描述一组数据离散程度的指标有很多,常用的包括极差、四分位差、平均差、方差、标准差、变异系数等,使用这些指标,并结合集中趋势的描述,就可以更好地发现数据的特性。4.2.2 极差极差又称范围误差或全距,通常以 R 表
45、示,反映的是一组数据中最大值与最小值之间的差距,其计算公式如下:由于极差是一组数据中最大值与最小值之差,因此该组数据中任何两个变量之差自然都不会超过极差。这一特性,使得极差能够刻画出一组数据中变量分布的变异范围和离散幅度,能体现出一组数据波动的范围。一组数据的极差越大,该组数据的离散程度越大;极差越小,离散程度则越小。注意:极差只能反映一组数据的最大离散范围,未能利用该组数据的所有信息,不能细致地反映出变量彼此之间的离散,从而不能反映变量分布情况,同时极差也易受极端值的影响。4.2.2 极差TOP2:继续输入函数TOP1:输入函数【实验室】通过极差观察气温变化4.2.2 极差TOP4:填充公式
46、TOP3:计算2019年的气温极差4.2.3 四分位差如果将一组数据按从小到大或从大到小的顺序排列后等分为4份,则处于该组数据25%位置上的数据称为上四分位数QL,处于50%位置上的数据称为中位数,处于75%位置上的数据称为下四分位数QU。四分位差 Q_d 则指的是上四分位数QU与下四分位数QL之差,即Q_d=Q_U-Q_L,如图所示。4.2.3 四分位差TOP2:设置函数参数TOP1:选择函数【实验室】利用四分位差分析全班的数学成绩4.2.3 四分位差TOP2:继续输入函数TOP3:继续设置函数参数4.2.4 平均差例如,一组数据包含的数值有20、40、60、80、100,则该数据的平均差为
47、:4.2.4 平均差【实验室】使用平均差分析销售部门的销量TOP1:输入函数并引用单元格区域TOP2:返回销售1部的平均差数据4.2.4 平均差【实验室】使用平均差分析销售部门的销量TOP1:输入函数并引用单元格区域TOP2:返回销售1部的平均差数据4.2.4 平均差TOP3:计算销售2部的平均差数据TOP4:计算销售3部的平均差数据4.2.4 平均差TOP5:计算平均销量4.2.5 方差与标准差总体标准差 的计算公式则为:1. 总体的方差和标准差4.2.5 方差与标准差2. 样本的方差和标准差4.2.5 方差与标准差【实验室】分析篮球队每一百回合得分数据TOP1:选择函数TOP2:设置函数参
48、数4.2.5 方差与标准差TOP3:计算总体方差TOP4:计算样本标准差4.2.5 方差与标准差TOP5:计算样本方差4.2.6 变异系数变异系数是用绝对值形式的离散指标与平均值相除的结果,是用比率的形式反映离散程度大小的一种指标,通常用标准差除以算术平均值的百分数来表示。总体的变异系数计算公式如下。样本的变异系数计算公式如下。注意:变异系数是无单位指标,它不仅可以说明同类数据的相对离散程度,还可以说明不同类型数据的相对离散程度。3.1.3 逻辑错误修复TOP1:计算成品衣柜的样本标准差【实验室】分析衣柜与五金件的价格波动幅度TOP2:计算五金件的样本标准差3.1.3 逻辑错误修复TOP3:计
49、算算术平均值TOP4:计算成品衣柜的变异系数3.1.3 逻辑错误修复TOP5:计算五金件的变异系数目录/Contents4.14.24.34.4集中趋势的统计分析离散程度的统计分析分布形态的统计分析课堂实训生产资料市场价格分析4.3.1 偏度与峰度偏度描述的是样本分布的偏斜方向和程度,偏度系数则是以正态分布为标准来描述数据对称性的指标。如果偏度系数大于0,则高峰向左偏移,长尾向右侧延伸,称为正偏态分布;如果偏度系数等于0,则为正态分布;如果偏度系数小于0,则高峰向右偏移,长尾向左延伸,称为负偏态分布,如图4-48所示。1. 偏度4.3.1 偏度与峰度峰度描述的是样本分布曲线的尖峰程度,峰度系数
50、则是以正态分布为标准来描述分布曲线峰顶尖峭程度的指标。如果峰度系数大于0,则两侧极端数据较少,比正态分布更高更窄,呈尖峭峰分布;如果峰度系数等于0,则为正态分布;如果峰度系数小于0,则两侧极端数据较多,比正态分布更低更宽,呈平阔峰分布,如图4-49所示。2. 峰度4.3.2 使用Excel的描述统计功能加载“数据分析”选项卡TOP1: Excel选项设置TOP2:管理Excel加载项4.3.2 使用Excel的描述统计功能TOP3:加载分析工具库TOP4:显示数据分析工具4.3.2 使用Excel的描述统计功能2. 描述统计分析【实验室】分析农产品销售情况TOP1:选择分析工具TOP2:设置描
51、述统计参数4.3.2 使用Excel的描述统计功能分析统计结果目录/Contents4.14.24.34.4集中趋势的统计分析离散程度的统计分析分布形态的统计分析课堂实训生产资料市场价格分析4.4.1 实训目标及思路某企业专注于黑色金属类生产资料的经营业务,为了更好地调整经营策略,企业相关人员从国家统计局采集了相关黑色金属类生产资料1月至5月的市场价格数据。下面需要通过描述性统计来分析这些生产资料的价格变动情况,具体操作思路如图4-58所示。4.4.2 操作方法TOP1:设置描述统计参数TOP2:输入文本4.4.2 操作方法TOP3:计算极差TOP4:计算其他生产资料的极差4.4.2 操作方法
52、TOP5:继续输入文本TOP6:应用QUARTILE.INC函数4.4.2 操作方法TOP7:完善公式内容TOP8:计算四分位差4.4.2 操作方法TOP9:计算其他生产资料的四分位差TOP10:输入文本和公式4.4.2 操作方法TOP11:计算其他生产资料的平均差TOP12:继续输入文本和公式4.4.2 操作方法TOP13:计算其他生产资料的变异系数TOP14:复制单元格格式4.4.2 操作方法TOP15:设置数据类型TOP16:添加边框4.4.2 操作方法TOP17:合并单元格区域TOP18:合并加粗文本谢谢观看统计与数据分析基础 & 统计指数分析统计与数据分析基础 & 06目录/Cont
53、ents6.16.26.3统计指数概述综合指数平均指数6.4指数体系与因素分析6.5课堂实训产品总成本变动分析6.1.1 统计指数的概念和作用1. 统计指数的概念广义上来看,凡是反映同类现象数量或质量变动的相对数都可以称为统计指数,其中包括单一现象或多种现象的变动。狭义上来看,统计指数反映的只是不能直接加总的复杂现象综合数量或质量变动的相对数。6.1.1 统计指数的概念和作用2. 统计指数的作用(1)综合反映现象总体的变动方向和变动程度。(3)通过编制统计指数数列来反映现象总体的长期趋势。(2)结合建立的指数体系来分析现象总体中各种因素的影响方向和影响程度。6.1.2 统计指数的种类统计指数的
54、种类可以从现象范围、指标性质、编制方法、对比性质等多种不同的角度进行划分,如图6-2所示。6.1.2 统计指数的种类1. 现象范围2. 指标性质3. 对比性质4. 编制方法个体指数:指反映单一现象变动的相对数。总指数:指反映两种及两种以上复杂现象总体综合变动的相对数。数量指数:指反映数量指标变动的指数。质量指数:指反映质量指标变动的指数。动态指数:指反映现象总体时间变动的指数,也称时间性指数,一般有定基指数和环比指数之分。静态指数:指反映现象总体相同时间内不同空间变动的指数,也称区域性指数,一般有空间指数和计划完成情况指数两种。针对总指数的编制方法或表现形式的不同,可将总指数分为综合指数和平均
55、指数。目录/Contents6.16.26.3统计指数概述综合指数平均指数6.4指数体系与因素分析6.5课堂实训产品总成本变动分析6.2.1 综合指数的编制原理合指数的编制离不开同度量因素,原因在于,综合指数针对的是复杂现象总体,这些总体的指数化指标数值不能直接相加,因此必须寻找适当的媒介,将其转化为可以直接相加的数值才能进行对比,这个媒介就是同度量因素。商品计量单位销售量价格(元)基期报告期基期报告期A商品件1201002025B商品支1 00090045C商品台6050290300注意:在确定了同度量因素后,还必须将同度量因素所属的时期固定,这样计算出的指数反映的变动情况才具有代表性。6.
56、2.1 综合指数的编制原理总体来看,综合指数的编制原理涉及3个重要环节,即引入同度量因素、固定同度量因素、对比变动指标,具体编制过程如图6-3所示。6.2.2 综合指数的编制方法1. 拉氏指数2. 帕氏指数6.2.2 综合指数的编制方法【实验室】分析多种商品的销售量和价格变动商品计量单位销售量价格(元)销售额(元)基期报告期基期报告期A商品件12010020252 4003 0002 0002 500B商品支1 000900454 0005 0003 6004 500C商品台605029030017 40018 00014 50015 000合计23 80026 00020 10022 000
57、6.2.2 综合指数的编制方法(1)销售量指数(2)价格指数目录/Contents6.16.26.3统计指数概述综合指数平均指数6.4指数体系与因素分析6.5课堂实训产品总成本变动分析6.3.1 综合指数与平均指数的区别1. 计算思想不同3. 结果体现不同2. 使用资料不同综合指数的计算思想是“先综合,后对比”,即先借助同度量因素对基期与报告期的数据进行综合,再用报告期的综合量除以基期的综合量得到指数结果;平均指数的计算思想则是“先对比,后平均”,即先计算个体指数,然后以个体指数所对应的权数进行加权平均。综合指数的计算结果可以体现为相对值,也可以体现为绝对值。比如,前面案例中使用拉式销售量综合
58、指数计算出在维持基期价格水平不变的前提下,报告期3种商品的销售量总体大约降低了15.55%,这就是相对值。综合指数需要掌握计算总体的全面资料,包括总体中每一个个体在基期和报告期的各种数据,当需要计算的总体中包含的个体较多时,收集数据和数据计算的工作量就变得很大;平均指数既可以根据全面的资料计算,也可以根据局部的资料计算,当无法获得全面的资料时,平均指数就体现了它的优越性。6.3.2 平均指数的编制原理6.3.3 平均指数的编制方法1. 加权算术平均指数加权算术平均指数是以算术平均数的形式计算的总指数,通常用基期总值数据作为权数,其计算公式如下。6.3.3 平均指数的编制方法【实验室】分析多种商
59、品销售量变动的平均指数商品计量单位销售量价格(元)销售量个体指数(%)基期销售额(元)基期报告期基期A商品件1201002083.332 4002 000B商品支1 000900490.004 0003 600C商品台605029083.3317 40014 500合计23 80020 1006.3.3 平均指数的编制方法2. 加权调和平均指数加权调和平均指数是以调和平均数的形式计算的总指数,通常用报告期总值数据作为权数,其计算公式如下。6.3.3 平均指数的编制方法【实验室】分析多种商品价格变动的平均指数商品计量单位价格(元)销售量价格个体指数(%)报告期销售额(元)基期报告期报告期A商品件
60、2025100125.002 5002 000B商品支45900125.004 5003 600C商品台29030050103.4515 00014 500合计22 00020 1006.3.3 平均指数的编制方法3. 固定权数的平均指数固定权数的平均指数实际上指的是加权算术平均指数这种形式。当权数不是基期总值数据,而是固定权数(w)时,计算的加权算术平均指数就是固定权数的加权算术平均指数。其计算公式如下。6.3.3 平均指数的编制方法【实验室】分析居民消费价格指数的变动情况项目价格指数(%)权数食品烟酒类97.6 32.5衣着类100.2 11.3居住类99.8 9.6生活用品及服务类100
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国全自动双波峰焊机数据监测研究报告
- 电气安全知识培训
- 会议预约及参会信息统计表
- 公共图书馆文献信息共享服务协议
- 教育培训师资库表格化
- 游乐场项目设施损害预防和赔偿责任协议
- 辽宁省抚顺市六校协作体2024-2025学年高一下学期期初检测地理试卷(含答案)
- 混凝土浇筑施工合同
- 防水层工程 现场质量检验报告单
- 衬砌钢筋工程 现场质量检验报告单
- 心脑血管疾病的危险因素与管理1
- 第一单元练习卷(单元测试)2023-2024学年统编版语文六年级下册
- 2016年4月自考00040法学概论试题及答案
- 2024中国碳普惠发展与实践案例研究报告
- 2024年中国检验认证集团招聘笔试参考题库附带答案详解
- 人教版九年级数学下册《第二十六章反比例函数》测试卷单元测试卷-带有参考答案
- 公园售票员管理制度
- 本科:交通管理专业培养方案(管理学院)
- 《汽车电子电气系统构造与拆装》课件 项目三 起动系统检修
- 《安徒生童话》阅读指导课件
- 沉淀滴定法(应用化学课件)
评论
0/150
提交评论