数据新闻与信息可视化 课件 第3、4章 网络数据获取、数据清理_第1页
数据新闻与信息可视化 课件 第3、4章 网络数据获取、数据清理_第2页
数据新闻与信息可视化 课件 第3、4章 网络数据获取、数据清理_第3页
数据新闻与信息可视化 课件 第3、4章 网络数据获取、数据清理_第4页
数据新闻与信息可视化 课件 第3、4章 网络数据获取、数据清理_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据新闻与信息可视化网络数据获取第三章目录CONTENT01.

认识网页结构02.

网络高级搜索03.

使用工具软件抓取网络数据04.

使用Python编程语言抓取网络数据认识网页结构1.1调阅源代码1.2探索源代码1.3认识源代码第一节网页是构成网站的基本要素,前端网页呈现与后端数据存储共同构成了网站。网页通常由超文本标记语言创建。HTML语言搭建起网页基本结构,确立了网页的“骨架”。CSS级联样式表定义了网页的样式,也即装饰了网页的“皮肤”。JavaScript脚本规定了网页的行为方式,也即构建了网页的“肌肉”。1.1

调阅源代码1.1

调阅源代码1.2

探索源代码1.3认识源代码表HTML常用标签及含义网络高级搜索2.1理解网址结构2.2高级搜索命令第二节

[协议]://[服务器地址]:[端口]/[文件路径]?[查询](端口或不显示)

2.1

理解网址结构图网址结构加号(+)逻辑“与”或“并”,连接两个及以上搜索条件。减号(-)逻辑“非”,排除特定搜索条件。标题(intitle)对网页标题栏进行搜索。网站(site)将搜索范围限定于特定网站。网址(inurl)专题内容搜索。文件类型(filetype)搜索特定类型的文件。精确匹配(“”)精确匹配搜索内容。2.2

高级搜索命令使用工具软件抓取网络数据第三节数据抓取工具可在Windows系统和Mac系统中使用。表网络数据抓取工具介绍通过读取网页源代码,可以获知数据的存储路径,进而通过不同方式获取网络数据。HTML语言搭建起网页基本结构,确立了网页的“骨架”CSS级联样式表定义了网页的样式,也即装饰了网页的“皮肤”

JavaScript脚本规定了网页的行为方式,也即构建了网页的“肌肉”。详情页采集使用Python编程语言抓取网络数据4.1Python语言基础简介4.2使用Selenium库抓取数据4.3使用BeautifulSoup库进行抓取4.4向浏览器发送信息获取特定数据第四节Python运行环境4.1

Python语言基础简介Python书写规范4.1

Python语言基础简介Python语法规则基本概念

输出:内置函数print()。

变量:为数据命名。

表达式:由运算符连接起不同类型的数据。语句:完整地执行了一项任务的代码。4.1

Python语言基础简介通过缩进来控制代码模块4.1

Python语言基础简介Python语法规则数据类型

数值与布尔型:前者表示数值,后者有True和False两个值。

字符串:由任意字符构成,用引号标识。

元组:有序的、不可更改的数据序列,使用小括号“()”创建。列表:有序的,可更改的数据序列,使用“[

]”创建。字典:映射类型的数据,使用“{

}”创建。4.1

Python语言基础简介Python语法规则函数、模块和库

函数:可以重复使用,用来实现一定功能的代码段。模块:依据一定逻辑将代码组织在一起。库(也称包):具有相同功能的模块的集合。4.1

Python语言基础简介Python语法规则执行条件命令4.1

Python语言基础简介执行循环命令4.2

使用Selenium库抓取数据4.3

使用BeautifulSoup库抓取数据driver.find_element(By.CLASS_NAME,‘J-search-input’).send_keys(‘小龙虾’)drive.find_element(By.CLASS_NAME,'J-all-btn').click()4.4

向浏览器发送信息获取特定数据THANKS谢谢观看数据新闻与信息可视化数据清理第四章目录CONTENT01.

数据清理的必要性与分类02.

释放PDF文件中的数据03.

使用EXCEL清理数据04.使用OpenRefine清理数据05.使用Python编程清理数据数据清理的必要性与分类1.1数据清理的必要性1.2文件格式与数据类型1.3数据清理的分类1.4数据清理日志第一节1.1数据清理的必要性干净的数据输入是高质量数据分析的前提1.2

文件格式与数据类型文件格式文本文件分隔格式JSON格式HTML格式二进制文件1.2

文件格式与数据类型数据类型数字类型日期与时间数据字符串数据1.3数据清理的分类缺失数据不完整的数据。可进行数据补全或标记为NULL。重复数据

序号不同的数据,但其属性和值都一致,很可能是重复数据。可采用合并或清除的方法处理。错误数据无效数据,格式不正确、包含非正规字符或逻辑错误等。应依据错误类型进行人工清理。1.4数据清理日志样例

2022年4月12日

(1)执行命令VALUE.REPLACE(“/”,“”)附上截图原始数据中有多余字符“/”,使用REPLACE函数将“/”去掉。

(2)执行命令,全部转换为数字附上截图原始数据中年龄一列应为数字格式释放PDF文件中的数据2.1使用OCR软件进行格式转换2.2使用Tabula获取PDF文件中的表格第二节2.1使用OCR软件进行格式转换2.2使用Tabula获取PDF文件中的表格使用Excel清理数据3.1导入数据3.2数据格式转换3.3字符串清理第三节3.1导入数据3.2数据格式转换3.3

字符串清理使用OpenRefine清理数据4.1创建新项目4.2清理数据第四节4.1创建新项目4.2清理数据处理缺失数据4.2清理数据处理重复、相似数据4.2清理数据清除无效数据4.2清理数据进行数据转换使用Python编程清理数据5.1查阅数据5.2处理数据缺失5.3转换

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论