《大数据基础与实务》课件 11b.项目三 任务五“链家”租房数据清洗_第1页
《大数据基础与实务》课件 11b.项目三 任务五“链家”租房数据清洗_第2页
《大数据基础与实务》课件 11b.项目三 任务五“链家”租房数据清洗_第3页
《大数据基础与实务》课件 11b.项目三 任务五“链家”租房数据清洗_第4页
《大数据基础与实务》课件 11b.项目三 任务五“链家”租房数据清洗_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据基础与实务项目三大数据采集与清洗“链家”租房数据清洗任务五任务描述知识准备课堂研讨拓展训练目录CONTENTSONETWOTHREEFOUR任务描述

“广州本地宝”作为广州地区的生活服务类公众号,目前策划推出为广大“打工人”租房分析主题的推文。在对各大房源发布平台进行分析后,选择了“链家”平台数据进行分析,对租房源数据试采集后,发现采集回来的数据“良莠不齐”,为了使租房图鉴更具可信度,请作为负责此次主题推文租房数据分析的小明,对数据进行预处理,提升数据质量。

知识准备

数据清洗的目的有两个,第一是通过清洗让脏数据变得可用。无论是线下人工填写的手工表,还是线上通过工具收集到的数据,又或者是CRM系统中导出的数据。并非所有收集到的数据都能直接用于数据分析。数据清洗数据清洗目的一知识准备

新建项目并修改项目名称,将“链家租房房源信息”数据集导入MySQL数据库中,表名建议命名为“house_学生账号”,为后续数据处理做好准备。注册存储数据表名,表名命名为“house_学生账号”。清洗过程二新建表知识准备根据【数据向导】提示填写“设置储存导入数据的数据表名”参数,填写完成后点击保存并执行。清洗过程二导入数据知识准备

点击【数据向导】,弹出关键词替换弹窗,根据任务描述要求,对每一关键词填入正确的参数,然后点击【确认】,传入参数数据。清洗过程二填写参数知识准备

本案例的缺失值主要分布在“房源标题”、“地铁”这两个字段。由于房源标题的缺失,相应的房子的房源上架时间、价格、租赁方式、房型、楼层、面积(m2)、朝向等字段数据也会缺失,可通过删除房源标题为空的数据的方法对缺失值处理。清洗过程二缺失值知识准备

主要对“链家租房房源信息”表的重复值进行去重。由表可知,页面网址是表的主键(即每一数值都是唯一的),首先需查询是否有重复值,此外,对数据进行分析可知,在页面网址不同的情况下,房源还是存在较多的相同数据,可能平台的不同“管家”重复上传了同一房源,所以需对房源标题进行查重,考虑可能存在同一小区同一栋楼的情况,加上“房型”字段作为条件,判断房源数据是否重复。清洗过程二重复值处理知识准备

对数据进行简单处理后,可以看到部分数据仍无法直接使用。例如“价格”字段中的数据包括了“(月付价)、分享、关注的房源请在链家APP中查看、关注”等无用数据,因此将价格中的金额单独提出处理,新增“租金”字段储存;“朝向”字段的值包括了“朝向:”这些数据,为了更改直接对朝向这一字段进行分析,需删除此类脏数据。清洗过程二字段抽取知识准备

由于计划给预算在3000至6000之间的“打工人”提供租房建议,将满足该条件的房源单独提取出来,同时,房源信息须包括地铁站信息,才能给“打工人”进行通勤时间判断提供支持。清洗过程二记录抽取课堂研讨小明发现经过缺失值和重复值处理后的数据仍存在空格,应该怎么做才能让数据排列整齐呢?请完成“任务四:空格值处理”。拓

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论