版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据获取与整理项目四添加标题在此PART01添加相关标题文字添加相关标题文字相关标题文字学习目标汪刚制作添加相关标题文字添加相关标题文字相关标题文字项目导图汪刚制作情境案例本项目案例数据比较分散;本项目案例数据的类型包括:EXCEL文件格式、文本文件格式、数据库(mdb)文件格式、文件夹格式。本项目案例数据原型:某连锁店销售数据;空气质量检测数据;某市年度财政收入数据;某公司ERP系统中的财务数据;融智财经大数据平台数据;淘宝某店铺的日访问量和日销售数据;某健身会所的会员信息;某电子公司产品销售数据;某公司会议邀请信息和参会信息数据;汪刚制作1区分一维表和二维表2数据获取3数据整理主目录汪刚制作区分一维表和二维表任务一汪刚制作任务一区分一维表和二维表清单型表格,是按照一定的顺序,清晰明了地保存最原始数据的表格;分为:一维表和二维表;一维表就是简单的字段、记录的罗列;二维表,则从ニ个维度来描述记录属性,并且两个字段属性存在一定关系;在数据分析过程中,请尽量使用一维表;将二维表处理成一维表的方式:第一种方式:在PowerBI中利用“逆透视列”功能将二维表迅速转换为一维表;第二种方式,在EXCEL中利用数据透视表中多重数据透视功能进行处理;汪刚制作数据获取任务二汪刚制作子任务一从文件导入Excel文件:该种文件格式最为常见;文本文件:是指以ASCII码方式(也称文本方式)存储的文件。比如英文字母、数字等字符。CSV文件:用逗号作为分隔符(Comma-SeparatedValues,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号)的文件,其文件以纯文本形式存储表格数据(数字和文本)。XML(eXtensibleMarkupLanguage):可扩展标记语言,它非常适合万维网传输,提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。JSON(JavaScriptObjectNotation,JS对象简谱):是一种轻量级的数据交换格式。它基于ECMAScript(欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。PDF(PortableDocumentFormat的简称,意为“便携式文档格式”):是由AdobeSystems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。汪刚制作汪刚制作子任务一从文件导入32145子任务二从文件夹导入需要汇总一些业务或经营数据,采用文件夹导入然后汇总;本案例:文件夹下共有北京市、天津市、上海市、重庆市4个直辖市的年度财政收入数据,分别存放在4个Excel工作簿中;123456汪刚制作子任务三从数据库导入关系型数据库:Access、SQLServer、MySQL、Oracle、SAPHANA、SAPBW本案例:Access数据库文件,为从某公司ERP系统中获取的财务数据;123456汪刚制作子任务四从网站查询导入从网页直接提取数据;/febd/?username=rzgc-pbi本案例:融智财经大数据平台的沪深A股上市公司信息首页看板数据;12345汪刚制作子任务五从其他数据源导入从Spark、Hadoop文件(HDFS)、R脚本、Python脚本等更多数据源获取数据;汪刚制作子任务六重新设定数据源当把已经设定数据源的文件移动时(如发送给其他人员查询、编辑,购书用户下载演示文件后打开等情形),因设定数据源文件绝对路径发生变化,就需要重新设定数据源;命令:主页
转换数据
数据源设置汪刚制作数据整理任务三汪刚制作任务三数据整理数据整理也叫数据处理、数据清洗;通过查询编辑器PowerQuery对数据进行整理和清洗;包括:类型转换、拆分、提取、归并等操作;汪刚制作子任务一查询编辑器和M语言1.查询编辑器查询编辑器PowerQuery:当需要对数据进行整理和清洗时,系统就会打开它;命令:主页
转换数据
转换数据;汪刚制作子任务一查询编辑器和M语言2.M语言在查询编辑器窗口,通过鼠标进行的每一步操作,后台都会记录下来并生成M语言代码;执行“主页
高级编辑器”命令,可查看自动生成的M语言代码;对于初学用户来说,不建议使用M语言代码;汪刚制作子任务二数据的行、列操作和筛选1、数据的行操作汪刚制作子任务二数据的行、列操作和筛选(1)删除行、首行升为列标题【任务要求】删除表中不需要的行,并将删除行后的表格首行提升为列标题【任务数据】案例数据\项目4\6-数据整理.xlsx,此案例数据原型为2013—2022国家财政收入年度数据。12345汪刚制作子任务二数据的行、列操作和筛选(2)删除错误行
【任务要求】删除表中的错误行【任务数据】案例数据\项目4\7-数据整理.xlsx,此案例数据原型为淘宝某店铺的日访问量和日销售数据。123汪刚制作子任务二数据的行、列操作和筛选(3)删除重复值
【任务要求】删除表中的重复项【任务数据】案例数据\项目4\8-数据整理.xlsx,此案例数据原型为某连锁店的销售数据,需要将客户的最大订单销售额保留在查询表中。123汪刚制作子任务二数据的行、列操作和筛选2、数据的列操作选择列可以通过选择的方式将需要的列保留在查询编辑器中;删除列可以删除选中的列或删除选中列以外的列;【任务要求】删除表中2013~2017年年度数据【任务数据】案例数据\项目4\9-数据整理.xlsx,此案例为2013-2022国家财政收入年度数据1汪刚制作子任务二数据的行、列操作和筛选3、数据的筛选操作实质上是行操作;【任务要求】删除表中不需要的数据行【任务数据】案例数据\项目4\10-数据整理.xlsx,此案例数据原型为2013-2022国家财政收入年度数据。123汪刚制作子任务三数据类型的转换数据类型:数值类型、日期时间类型、文本类型、其他类型等;导入查询编辑器中的数据类型与源表相比经常会发生变化;【任务要求】将年度、月份字段数据恢复成源表中的文本型数据。【任务数据】案例数据\项目4\11-数据整理.xlsx,此案例数据原型为2024年1月份的日期表数据。1234汪刚制作子任务四数据格式的转换汪刚制作子任务四数据格式的转换【任务要求】删除表中不正确的格式【任务数据】案例数据\项目4\12-数据整理.xlsx,此案例数据原型为某健身会所会员信息。表中黄色标出的为不正确的格式:(1)中文名字前后有空格;(2)中文名字中有多行回车符;(3)英文姓氏都为大写(4)出生年份字段中存在多余的“年”字21345678汪刚制作子任务五数据的拆分、提取和合并1、数据的拆分汪刚制作子任务五数据的拆分、提取和合并1、数据的拆分【任务要求】将表中的中文名字字段拆分成姓和名两个字段。【任务数据】案例数据\项目4\13-数据整理.xlsx,此案例数据原型为某健身会所的会员信息。213456汪刚制作子任务五数据的拆分、提取和合并2、数据的提取汪刚制作子任务五数据的拆分、提取和合并2、数据的提取【任务要求】从表中的身份证号码字段中提取出生年份信息。【任务数据】案例数据\项目4\14-数据整理.xlsx,此案例数据原型为某健身会所的会员信息。123456汪刚制作子任务五数据的拆分、提取和合并3、数据的合并数据的合并是将选中的多列数据合并到一列中;“转换”菜单的合并列后,原列删除;“添加列”菜单的合并列后,原列保留;
【任务要求】将表中的英文姓名合并成一列,并把原列删除。【任务数据】案例数据\项目4\15-数据整理.xlsx,此案例数据原型为某健身会所的会员信息。123汪刚制作子任务六数据的转置和反转1、数据的转置数据的转置实现数据的行列互换;【任务要求】将表中的数据进行列互换。【任务数据】案例数据\项目4\16-数据整理.xlsx,此案例数据原型为某公司各月的销售数据。1汪刚制作2子任务六数据的转置和反转2、数据的反转反转行,将行的顺序颠倒;【任务要求】从数据表进行反转行操作。【任务数据】案例数据\项目4\17-数据整理.xlsx,此案例数据原型为某公司各月的销售数据。123汪刚制作子任务七数据的透视和逆透视1、数据的透视透视列可以将一维表转换成二维表;【任务要求】将一维表透视成二维表。【任务数据】案例数据\项目4\18-数据整理.xlsx,此案例数据原型为某公司四种产品各月的销售数据。1234汪刚制作子任务七数据的透视和逆透视2、数据的逆透视逆透视可以将二维表转换成一维表;【任务要求】将二维表透视成一维表。【任务数据】案例数据\项目4\19-数据整理.xlsx,此案例数据原型为某公司四种产品各月的销售数据231汪刚制作子任务八数据的分组依据分组依据类似于Excel中分类汇总功能;分组依据不仅有数据清洗,也具备了一定的数据分析功能;【任务要求】按客户名称统计各客户的销售总额。【任务数据】案例数据\项目4\20-数据整理.xlsx,此案例数据原型为某公司的产品销售数据。1234汪刚制作子任务九添加列汪刚制作子任务九添加列【任务要求】对月份字段创建索引列,对月份字段排序时按照索引序号作为排序依据。【任务数据】案例数据\项目4\21-数据整理.xlsx此案例数据原型为常用维度表日期表数据。月份默认的排序依据为:10月、11月、12月、1月、2月、3月、4月、5月、6月、7月、8月、9月;通过设置索引列,可将其按正常顺序排序:1月、2月、3月、4月、5月、6月、7月、8月、9月、10月、11月、12月。123汪刚制作子任务十日期和时间的整理汪刚制作子任务十日期和时间的整理【任务要求】提取日期字段中的年、月、季度和星期几信息,并添加到新建列中。【任务数据】案例数据\项目4\22-数据整理.xlsx
此案例数据原型为某日期表数据,根据日期表中的日期构建年、月、日、星期几等字段列。123汪刚制作子任务十一数据的基本运算汪刚制作子任务十一数据的基本运算【任务要求】数据的基本数学运算。【任务数据】案例数据\项目4\23-数据整理.xlsx,此案例数据原型为某公司产品定价数据。12346758汪刚制作子任务十二数据的组合1、数据的追加查询追加查询是表与表之间的纵向组合;【任务要求】将两张表做追加查询。【任务数据】案例数据\项目4\24-数据整理.xlsx此案例数据原型为某电子公司产品销售数据。表sheet1包含订单编号、金额、客户名称3个字段,6条记录;表sheet2包含订单编号、客户名称、客户省份、金额4个字段,5条记录。12345汪刚制作子任务十二数据的组合2、数据的合并查询合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度医院物业委托管理与维护合同4篇
- 2025年度个人向公司借款用于投资合作合同范本2篇
- 2025年度影视作品制作及版权运营合同3篇
- 2024版院长聘用合同
- 2024装修样板间保密协议
- 2025年度智能家居产品承包加工合同4篇
- 2025年度智慧社区车位出售及智能停车解决方案合同4篇
- 2025年度咖啡馆股权置换及品牌输出合同3篇
- 2025年复杂断块油田项目可行性研究报告
- 2025年度体育场馆运营管理承包服务合同范本4篇
- 人教版(2025新版)七年级下册英语:寒假课内预习重点知识默写练习
- 艺术品捐赠协议
- 【公开课】同一直线上二力的合成+课件+2024-2025学年+人教版(2024)初中物理八年级下册+
- 高职组全国职业院校技能大赛(婴幼儿照护赛项)备赛试题库(含答案)
- 2024年公安部直属事业单位招聘笔试参考题库附带答案详解
- NB-T 47013.15-2021 承压设备无损检测 第15部分:相控阵超声检测
- 司炉岗位应急处置卡(燃气)参考
- 10KV供配电工程施工组织设计
- 终端拦截攻略
- 药物外渗处理及预防【病房护士安全警示教育培训课件】--ppt课件
- 纸箱检验标准新
评论
0/150
提交评论