版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
财务大数据基础数据采集内容回顾数据采集调查问卷的要素和注意事项同时采集多个Excel文件多家上市公司财务数据的采集调查问卷采集EXCEL文件采集Web文件采集
回顾
展示
任务实施多网页采集——同学上台登录网易财经网站,爬取任意板块股票3家企业的财务数据。
财务大数据清洗数据清洗认知数据类型规范
数据清洗30招
数据清洗运用项目实训(PowerBI数据清洗)数据清洗认知
数据清洗概念数据清洗:重新检查和验证数据的过程,旨在删除重复信息,纠正现有错误并提供数据一致性。脏数据高质量数据数据清洗认知
数据清洗作用数据搬运工?EXCEL四步曲获取数据汇总数据(表格)数据透视表分析趋势及原因数据清洗认知
数据清洗作用80%数据处理80%数据分析处理的数据量较大(千万);最小的处理单元是行和列(批量处理思维);有操作过程记录(关键)数据清洗认知
数据清洗——PowerBIPowerBI采集的数据是从多个渠道抽取而来原始数据,避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。数据清洗认知PowerQuery介绍
PowerQuery是微软的数据连接和数据准备技术,使业务用户能够无缝访问存储在数百个数据源中的数据,并通过易于使用、引人入胜且无代码的用户体验来对其进行调整以适应他们的需求。数据清洗认知
PowerQuery认知——进入PQPowerQuery入口如果还没有任何数据,在PowerBIDesktop中,点击获取数据,选择相应的数据格式导入后,就可以进入PowerQuery编辑器;如果已经导入数据,想再次进入查看或者编辑,可以点击上图中的“转换数据”进入。数据清洗认知
PowerQuery认知——PQ界面功能区包含“文件”“主页”“转换”“添加列”“视图”“工具”。1.“文件”菜单:关闭并应用:关闭查询编辑器并应用所做的更改。应用:应用所做的更改,但不关闭查询编辑器。关闭:关闭查询编辑器。保存:保存当前所做的更改。
2.“主页”选项卡:提供常见的查询功能。数据清洗认知
PowerQuery界面——功能区3.“转换”选项卡“转换”选项卡提供了对数据的相关转换操作。(原列)4.“添加列”选项卡“添加列”选项卡提供了各种添加列的功能。(新增列)数据清洗认知
PowerQuery界面——功能区5.“视图”选项卡“视图”选项卡提供了查询编辑器界面相关的选项设置。数据清洗认知
PowerQuery界面——功能区数据清洗认知
PowerQuery应用步骤区记录了在PowerQuery的每一步操作,主要作用是可以对操作的步骤进行删除和修改。PowerQuery界面——应用步骤区数据清洗认知(1)可以修改之前的操作,其中带有设置标记“齿轮”的,都是可以更改的。(2)可以删除某一个步骤。单击步骤旁边的“×”按钮,就可以删除该步骤。(3)可以移动步骤,互换顺序。在进行这个操作时,需要注意前后操作可能出现的冲突。(4)这个“应用的步骤”面板复制了我们的操作,当更新数据后,只需要单击“刷新”按钮,所有的步骤都会从头到尾全自动化地操作一遍,不再需要做重复的工作。PowerQuery界面——应用步骤区
数据类型残缺数据——空值——删除、替换或补充错误数据——异常值——删除或补全重复数据——删除数据类型规范
数据类型数据类型规范“视图”选项卡——数据概览数据类型规范
数据清洗第1招——提升标题数据类型规范
数据清洗第2招——行列操作删除列删除行数据类型规范
数据清洗第3招——更改数据类型数据类型规范
数据清洗第3招——更改数据类型小数定点小数整数百分比数值日期/时间日期时间日期/时间/时区持续时间日期文本True/False二进制文本数据类型规范
数据清洗第4招——检测数据类型任务实施
每位同学使用PowerBI软件对老师发给大家的“资产负债表1”
进行处理。数据类型规范
数据类型规范
维度:一种“属性、范围、系数、承受能力”意思的包涵。在不同的对象指代不同的意思。——百度汉语一维表与二维表数据类型规范一维表:仅靠单行就能锁定全部信息。二维表:需要行和列来定位数值的。一维表与二维表一维表二维表数据类型规范一维表与二维表一维表是符合数据库设计规范,数据丰富详实,适合做流水账,方便存储,有利于做统计分析;二维表特点是明确直观,适合打印、汇报。哪一种类型的表格适合作为源数据进行数据分析?字段——列为单位属性一维表——数据分析数据类型规范
数据清洗第5招——逆透视逆透视列的逆透视,是把二维表转换到一维表的过程将表中的列换成了值透视数据类型规范任务实施
同学在新浪财经网址上采集一家公司的资产负债表,并将采集到的数据转换为一维表。网址如下:
采集不同公司或年度的数据只需替换上述网址中的股票代码或年份即可。
数据类型残缺数据——空值——删除、替换或补充错误数据——异常值——删除或补全重复数据——删除课前回顾一维表:仅靠单行就能锁定全部信息。二维表:需要行和列来定位数值的。
通过处理“资产负债表2”
复习清洗小招数:课前回顾第1招——提升标题第2招——逆透视第3招——替换值第4招——检测并更改数据类型第5招——删除错误/空值数据类型规范
数据清洗第6招——替换值“–”替换为“0”数据类型规范
数据清洗第7招——删除错误/空值右键删除错误筛选-去掉null勾选数据清洗30招数据清洗运用场景讨论:假如你是某公司数据分析人员,表格中存在哪些数据问题?数据清洗30招数据清洗运用场景数据清洗30招
1汇总文件夹数据2第一行用作标题3筛选删除重复表头4删除列5删除重复项目6删除空白项目7数据格式调整8检测数据类型9替换10填充11移动12拆分13重命名14提取分隔符之前的文本15修整格式16格式-首字母大写17排序18逆透视(余下了解)19条件列20索引列21重复列22数字计算23
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司劳务派遣协议书七篇
- 公司协议书大全
- 万能施工安全协议书
- 面部发红发热病因介绍
- 进行性球麻痹病因介绍
- 29化学中考真题汇编《溶液》及答案
- 中考政治第一部分知识闯关能力提升第5课时平等礼貌待人理解宽容他人复习课获
- (范文)卷板机项目立项报告
- (2024)吸痰管项目可行性研究报告写作范本(一)
- 2023年电子陶瓷材料项目融资计划书
- GB 31247-2014电缆及光缆燃烧性能分级
- 斯伦贝谢智能完井工具介绍
- 主要农作物(粮食作物)课件
- 百词斩-定语从句课件-(;)
- 珍惜时间主题班会-做时间的主人课件
- 市政工程施工总体部署
- 护士准入申请表
- 三年级上册英语课件-Unit3 Look at me-人教(PEP) (6)(共30张PPT)
- 糖皮质激素在呼吸科的应用课件
- 合法离婚协议书(2篇)
- 2022年广东南方报业传媒集团有限公司招聘笔试题库及答案解析
评论
0/150
提交评论