数据可视化分析(Excel 2016+Tableau)(第2版)【课件】 第3章 数据处理_第1页
数据可视化分析(Excel 2016+Tableau)(第2版)【课件】 第3章 数据处理_第2页
数据可视化分析(Excel 2016+Tableau)(第2版)【课件】 第3章 数据处理_第3页
数据可视化分析(Excel 2016+Tableau)(第2版)【课件】 第3章 数据处理_第4页
数据可视化分析(Excel 2016+Tableau)(第2版)【课件】 第3章 数据处理_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据可视化分析12内容第一节数据基本概念第二节数据来源第三节数据导入(P18)第四节数据清洗第五节数据加工(P47)第六节数据抽样第三章数据处理3.1数据的基本概念3数据处理概述数据是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理是指对数据的采集、存储、检索、加工、变换和传输等。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理主要包括数据清洗,数据转化、数据提取、数据计算等,数据处理是数据分析的前提,对有效数据的分析才有意义。3.1数据的基本概念4字段与记录字段:事物或现象的某种属性,可以简单理解为一个表中列的属性。记录:事物或现象的某种属性的具体表现,也成为数据或属性值。数据需要由字段与记录共同组合才有意义。工号姓名性别部门职务婚姻状况出生日期年龄进公司时间本公司工龄学历0001AAA1男管理层总经理已婚1963/12/12552013/01/087博士0002AAA2男管理层副总经理已婚1965/06/18542013/01/087硕士0003AAA3女管理层副总经理已婚1979/10/22392013/01/087本科0004AAA4男管理层职员已婚1986/11/01322014/09/245本科0005AAA5女管理层职员已婚1982/08/26372013/08/086本科0006AAA6女人事部职员离异1983/05/15362015/11/284本科0007AAA7男人事部经理已婚1982/09/16362015/03/094本科0008AAA8男人事部副经理未婚1972/03/19472013/04/106本科0009AAA9男人事部职员已婚1978/05/04412013/05/266本科0010AAA10男人事部职员已婚1981/06/24382016/11/113大专3.1数据的基本概念5数据类型Excel中最常用的数据类型:数值、文本、日期。选择Excel中的任意一列或任意一个单元格,单击鼠标右键,在弹出的菜单中选择“设置单元格格式”,会弹出“设置单元格格式”对话框。3.1数据的基本概念6数据表数据表由字段、记录和数据类型构成。工号姓名性别部门职务婚姻状况出生日期年龄进公司时间本公司工龄学历0001AAA1男管理层总经理已婚1963/12/12552013/01/087博士0002AAA2男管理层副总经理已婚1965/06/18542013/01/087硕士0003AAA3女管理层副总经理已婚1979/10/22392013/01/087本科0004AAA4男管理层职员已婚1986/11/01322014/09/245本科0005AAA5女管理层职员已婚1982/08/26372013/08/086本科0006AAA6女人事部职员离异1983/05/15362015/11/284本科0007AAA7男人事部经理已婚1982/09/16362015/03/094本科0008AAA8男人事部副经理未婚1972/03/19472013/04/106本科0009AAA9男人事部职员已婚1978/05/04412013/05/266本科0010AAA10男人事部职员已婚1981/06/24382016/11/113大专数据类型转换日期型转换成文本型73.1数据的基本概念8数据表设计的基本要求序号设计要求1数据表由标题行(字段)与数据部分(记录)组成;2第一行是列标题,字段名不能重复;3从第二行开始都是数据部分,数据部分的每一行数据成为一个记录;4数据部分不允许出现空行或空列;5数据表中没有合并单元格存在;6数据表与其他数据之间应该留出至少一个空白行和一个空白列;7数据表需要以一维表的形式存储,遇到二维表应进行维度转换。3.1数据的基本概念9一维表和二维表的理解Excel中常用数据表分为一维表和二维表,此处的二维表不同于关系模型中的二维表和关系表。一维表适合存储数据、记录数据,一般作为数据源使用。二维表更符合视觉习惯,常用于展示数据。一维表具有两个典型特征:(1)单元格中的数据属性等于对应的列标题;(2)所有列标题之间的关系不是排除性的选填关系。判断依据:每一列是否是一个独立的参数。如果有两列或多列是同类参数那就是二维表。参考资源:/graphic/fddd2d80ecf10133bed309aa491216b3.html103.1数据的基本概念11二维表与一维表的转换依次按下Alt、D、P,进入数据表透视向导。选择【多重合并计算数据区域】、创建【数据透视表】3.1数据的基本概念12二维表与一维表的转换选择【创建单页字段】,点击【下一步】,进入工作表区域选择界面。3.1数据的基本概念13二维表与一维表的转换直接用鼠标选择需要转换的数据区域并点击【添加】,随后选择【下一步】。3.1数据的基本概念14二维表与一维表的转换直接用鼠标选定数据透视表要放置起始位置,点击“完成”。3.1数据的基本概念15二维表与一维表的转换生成的数据透视表如下所示,注意【求和项:值】,左键双击【总计】项数据,即可生成相应的一维表。3.1数据的基本概念16二维表与一维表的转换双击【155】生成的一维表双击【77】生成的一维表3.1数据的基本概念17二维表与一维表的转换修饰后的一维表。3.2数据来源18数据库

公司或单位的业务数据库存有第一手也是最真实的数据,如原始Excel数据,Access、SQLServer、Oracle数据库等。公开出版物

通过公开出版物获取需要的数据,如查找《中国统计年鉴》、《中国社会统计年鉴》,《世界经济年鉴等统计年鉴》或报告等。互联网

从互联网上,特别是各种搜索引擎可以帮我们快速找到所需的数据。市场调查

为满足特定的需求,针对目标客户设置调查问卷等,从互联网、微信、线下等相关渠道经整理后获取相关数据。练习与实践191、练习:教材P53,习题12、实践:利用网络资料,找到2016-2020年国民总收入、国内生产总值、第一产业增加值、第二产业增加值、第三产业增加值、

人均国内生产总值

203.3数据导入文本文件数据导入1、新建一个Excel文件,单击【数据】选项卡,选择【获取外部数据】中的【自文本】。213.3数据导入文本文件数据导入2、在弹出的对话框中选择待导入的文本文件,单击【导入】。223.3数据导入文本文件数据导入3、在弹出的文本向导第1步对话框进行原始数据相关设置,见红色框标记处,随后点击【下一步】。233.3数据导入文本文件数据导入4、在弹出的文本向导第2步对话框进行分隔符号设置,见红色框标记处,随后点击【下一步】。243.3数据导入文本文件数据导入5、在弹出的文本向导第3步对话框中可设置每列的属性,也可设置某些列不导入,见红色框标记处,随后点击【完成】。253.3数据导入文本文件数据导入6、用鼠标选择导入数据放置的起始位置,上一步【完成】后弹出的对话框中会自动录入【数据的放置位置】,见红色框标记处,随后点击【确定】。263.3数据导入文本文件数据导入7、上一步中点击【确定】按钮后,即完成文本数据导入Excel文件中。

备注:生成的Excel文件可能存在需要微调整的情况。273.3数据导入网络数据源导入1、新建一个Excel文件,单击【数据】选项卡,选择【获取外部数据】中的【自网站】。283.3数据导入网络数据源导入2、在弹出的“新建Web查询”界面的【地址】栏输入数据源所在网址,点击【转到】进入所在页面。293.3数据导入网络数据源导入3、找到需要的数据表,单击数据表左侧黄色箭头按钮,黄色箭头将变成蓝色☑,随后点击【导入】。303.3数据导入网络数据源导入4、选择导入数据放置的位置,点击【确定】。313.3数据导入网络数据源导入5、至此,网页中选择的数据表中内容就导入到Excel表中,根据情况进行格式微调整。323.3数据导入网络数据源更新即时刷新:单击“数据”选项卡,选择“全部刷新”或“刷新”即可。333.3数据导入网络数据源更新即时刷新:也可通过选中数据表中任意单元格,单击鼠标右键,在弹出的快捷菜单中选择【刷新】命令。343.3数据导入网络数据源更新定时刷新与打开文件时自动刷新:选中数据表中任意单元格,单击鼠标右键,在弹出的快捷菜单中选择【数据范围属性】命令。353.3数据导入网络数据源更新定时刷新与打开文件时自动刷新:在弹出的对话框中进行“刷新控件”的设置,如下如所示:练习与实践36练习:教材P53,习题2。373.4数据清洗

数据清洗的主要事项为后面的数据加工提供完整、简洁、正确的数据。清除掉不必要的重复数据填充缺失的数据检测逻辑错误的数据

数据清洗的主要目的383.4数据清洗重复数据的处理数据工具法

第1步:选定筛选区域,单击【数据】选项卡,选择“数据工具”中的【删除重复值】按钮,如下图所示:393.4数据清洗重复数据的处理数据工具法

第2步:在弹出的“删除重复值”对话框中,勾选一个或多个包含重复值的列,然后单击“确定”按钮,如下图所示:403.4数据清洗重复数据的处理数据工具法

第3步:此时可以看到数据区域的重复值已经被删除,并弹出删除重复值的提示框,点击【确定】按钮即可。如下图所示:413.4数据清洗重复数据的处理高级筛选法

第1步:选中需要筛选的数据区域,单击“数据”选项卡,在“排序和筛选”中选择“高级”按钮。如右图所示:423.4数据清洗重复数据的处理高级筛选法

第2步:在弹出的“高级筛选”对话框中进行筛选设置,并在设置好后点击“确定”。如右图所示:433.4数据清洗重复数据的处理高级筛选法

第3步:筛选结果如右图中A13起始部分数据区域所示。

温馨提示:如果第2步中选择“在原有区域显示筛选结果”,显示结果将以隐藏方式处理重复记录。443.4数据清洗重复数据的处理函数法——P35

原理:利用主键唯一性,通过COUNTIF(范围,条件)函数实现重复数据的识别。

第1步:主键列后面插入空白列,并在该列第一个单元格输入公式COUNTIF(A:A,A1),回车,在该列其他单元格进行公式复制。

第2步:删除公式列中统计数值大于1的记录,使所有行的统计数值都变成1即可。公式含义:在A列所有数据中,与A1中数据相同的数据计数。453.4数据清洗重复数据的处理条件格式法——P35

原理:利用Excel条件格式功能对“重复值”进行特殊格式显示,进而根据显示结果和应用需求,对重复项进行合理删除。练习P53练习3Countif练习

计算各年份出生的人数46473.4数据清洗缺失数据的处理数据缺失可以接受的标准是缺失值在10%以下。数据缺失产生的原因分析。数据缺失常用的处理方法:方法一:用一个样本统计量的值代替缺失值,最典型的做法是使用该变量的样本平均值代替缺失值。方法二:用一个统计模型计算出来的值去代替缺失值。方法三:将有缺失值的记录删除,这样将导致样本量的减少。方法四:将有缺失的记录保留,只在相应的分析中做必要的排除。483.4数据清洗缺失数据的处理数据缺失的定位和替换493.4数据清洗逻辑错误数据的处理使用if(),辅以and或or找出错误并加以修改。if函数形式:IF(Logical_test,Value_If_True,Value_If_False)。根据结果找出异常并修改。IF的语句单层IF语句IF语句的嵌套50练习51序号阶段1<=20岁220--22岁3>=23岁统计各年龄段的学生人数523.5数据加工数据抽取菜单法第1步:为目标数据添加空白列,并将设置该区域的目标数据格式。533.5数据加工数据抽取菜单法第2步:选中需要分段的数据,点击“数据”选项卡中的“分列”,进入“文本分列向导-第1步”对话框,按照下图设置后点击“下一步”。543.5数据加工数据抽取菜单法第3步:在“文本分列向导-第2步”对话框中,按照下图设置后点击“下一步”。553.5数据加工数据抽取菜单法第4步:在“文本分列向导-第3步”对话框中,设置分段数据放置起始位置后,点击“完成”。563.5数据加工数据抽取菜单法第5步:为分段生成的新数据列添加合适的字段名称。573.5数据加工数据抽取函数法(1)借助Excel的LEFT()或RIGHT()等函数功能来实现没有特定分隔符的字符提取。(2)LEFT(text,num_chars):表示从text的左边开始,取nu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论