




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
财务大数据基础数据采集内容回顾数据采集调查问卷的要素和注意事项同时采集多个Excel文件多家上市公司财务数据的采集调查问卷采集EXCEL文件采集Web文件采集项目二回顾项目二展示
任务实施多网页采集——同学上台登录网易财经网站,爬取任意板块股票3家企业的财务数据。项目三
财务大数据清洗任务一数据清洗认知任务二数据类型规范任务三
数据清洗30招任务四
数据清洗运用任务五项目实训(PowerBI数据清洗)任务一数据清洗认知
数据清洗概念数据清洗:重新检查和验证数据的过程,旨在删除重复信息,纠正现有错误并提供数据一致性。脏数据高质量数据任务一数据清洗认知
数据清洗作用数据搬运工?EXCEL四步曲获取数据汇总数据(表格)数据透视表分析趋势及原因任务一数据清洗认知
数据清洗作用80%数据处理80%数据分析处理的数据量较大(千万);最小的处理单元是行和列(批量处理思维);有操作过程记录(关键)任务一数据清洗认知
数据清洗——PowerBIPowerBI采集的数据是从多个渠道抽取而来原始数据,避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。任务一数据清洗认知PowerQuery介绍
PowerQuery是微软的数据连接和数据准备技术,使业务用户能够无缝访问存储在数百个数据源中的数据,并通过易于使用、引人入胜且无代码的用户体验来对其进行调整以适应他们的需求。任务一数据清洗认知
PowerQuery认知——进入PQPowerQuery入口如果还没有任何数据,在PowerBIDesktop中,点击获取数据,选择相应的数据格式导入后,就可以进入PowerQuery编辑器;如果已经导入数据,想再次进入查看或者编辑,可以点击上图中的“转换数据”进入。任务一数据清洗认知
PowerQuery认知——PQ界面功能区包含“文件”“主页”“转换”“添加列”“视图”“工具”。1.“文件”菜单:关闭并应用:关闭查询编辑器并应用所做的更改。应用:应用所做的更改,但不关闭查询编辑器。关闭:关闭查询编辑器。保存:保存当前所做的更改。
2.“主页”选项卡:提供常见的查询功能。任务一数据清洗认知
PowerQuery界面——功能区3.“转换”选项卡“转换”选项卡提供了对数据的相关转换操作。(原列)4.“添加列”选项卡“添加列”选项卡提供了各种添加列的功能。(新增列)任务一数据清洗认知
PowerQuery界面——功能区5.“视图”选项卡“视图”选项卡提供了查询编辑器界面相关的选项设置。任务一数据清洗认知
PowerQuery界面——功能区任务一数据清洗认知
PowerQuery应用步骤区记录了在PowerQuery的每一步操作,主要作用是可以对操作的步骤进行删除和修改。PowerQuery界面——应用步骤区任务一数据清洗认知(1)可以修改之前的操作,其中带有设置标记“齿轮”的,都是可以更改的。(2)可以删除某一个步骤。单击步骤旁边的“×”按钮,就可以删除该步骤。(3)可以移动步骤,互换顺序。在进行这个操作时,需要注意前后操作可能出现的冲突。(4)这个“应用的步骤”面板复制了我们的操作,当更新数据后,只需要单击“刷新”按钮,所有的步骤都会从头到尾全自动化地操作一遍,不再需要做重复的工作。PowerQuery界面——应用步骤区
数据类型残缺数据——空值——删除、替换或补充错误数据——异常值——删除或补全重复数据——删除任务二数据类型规范
数据类型任务二数据类型规范“视图”选项卡——数据概览任务二数据类型规范
数据清洗第1招——提升标题任务二数据类型规范
数据清洗第2招——行列操作删除列删除行任务二数据类型规范
数据清洗第3招——更改数据类型任务二数据类型规范
数据清洗第3招——更改数据类型小数定点小数整数百分比数值日期/时间日期时间日期/时间/时区持续时间日期文本True/False二进制文本任务二数据类型规范
数据清洗第4招——检测数据类型任务实施
每位同学使用PowerBI软件对老师发给大家的“资产负债表1”
进行处理。任务二数据类型规范
任务二数据类型规范
维度:一种“属性、范围、系数、承受能力”意思的包涵。在不同的对象指代不同的意思。——百度汉语一维表与二维表任务二数据类型规范一维表:仅靠单行就能锁定全部信息。二维表:需要行和列来定位数值的。一维表与二维表一维表二维表任务二数据类型规范一维表与二维表一维表是符合数据库设计规范,数据丰富详实,适合做流水账,方便存储,有利于做统计分析;二维表特点是明确直观,适合打印、汇报。哪一种类型的表格适合作为源数据进行数据分析?字段——列为单位属性一维表——数据分析任务二数据类型规范
数据清洗第5招——逆透视逆透视列的逆透视,是把二维表转换到一维表的过程将表中的列换成了值透视任务二数据类型规范任务实施
同学在新浪财经网址上采集一家公司的资产负债表,并将采集到的数据转换为一维表。网址如下:/corp/go.php/vFD_BalanceSheet/stockid/002269/ctrl/2020/displaytype/4.phtml采集不同公司或年度的数据只需替换上述网址中的股票代码或年份即可。
数据类型残缺数据——空值——删除、替换或补充错误数据——异常值——删除或补全重复数据——删除课前回顾一维表:仅靠单行就能锁定全部信息。二维表:需要行和列来定位数值的。
通过处理“资产负债表2”
复习清洗小招数:课前回顾第1招——提升标题第2招——逆透视第3招——替换值第4招——检测并更改数据类型第5招——删除错误/空值任务二数据类型规范
数据清洗第6招——替换值“–”替换为“0”任务二数据类型规范
数据清洗第7招——删除错误/空值右键删除错误筛选-去掉null勾选任务三数据清洗30招数据清洗运用场景讨论:假如你是某公司数据分析人员,表格中存在哪些数据问题?任务三数据清洗30招数据清洗运用场景任务三数据清洗30招
1汇总文件夹数据2第一行用作标题3筛选删除重复表头4删除列5删除重复项目6删除空白项目7数据格式调整8检测数据类型9替换10填充11移动12拆分13重命名14提取分隔符之前的文本15修整格式16格式-首字母大写17排序18逆透视(余下了解)19条件列20索引列21重复列22
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三中去年考试试卷及答案
- 2025年租赁合同下的建房计划
- 浙江国企招聘2025金华智园至尚资产经营有限公司招聘17人笔试参考题库附带答案详解
- 2025综合商务合作合同
- 孤残儿童庇护服务社会资源动员策略考核试卷
- 聚丙烯酸甲酯静电纺丝考核试卷
- 电气设备在工业锅炉控制系统中的应用考核试卷
- 石油开采业的创新发展与价值创造考核试卷
- 管道工程自动化与智能化考核试卷
- 牛饲养常见疾病防治考核试卷
- GB/T 10810.1-2025眼镜镜片第1部分:单焦和多焦
- 克布尔碱十二号矿井专家意见的认定
- 外科补液课件
- JJF(新) 122-2024 石油钻修井指重表校准规范
- 北京市石景山区2024-2025学年九年级上学期期末英语试题(含答案)
- 微训练 一文多考 备考高效之诗歌《客至》杜甫 教师版
- FSC-COC体系管理手册
- 手术部位标识国家标准(2023版)
- 2025年重庆江北国际机场有限公司招聘笔试参考题库含答案解析
- 《装配式波纹钢结构技术规程》
- 广东省深圳市2023-2024学年高一下学期7月期末考试 化学 含答案
评论
0/150
提交评论