




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据财务分析爱岗敬业诚实守信坚持准则提高技能廉洁自律客观公正参与管理强化服务项目二
数据采集任务一数据采集概述爱岗敬业诚实守信一、什么是数据采集?数据采集又称数据获取,是指将数据从数据源采集到可以支持大数据架构环境的过程。廉洁自律客观公正一、什么是数据采集?数据采集是数据挖掘、数据分析的一个环节,在数据处理过程中是非常基本的操作步骤,也是数据分析道路上的重中之重。再好的分析原理、建模算法,没有高质量的数据都是没有用的。数据采集的质量直接决定了后续的分析是否准确。坚持准则提高技能采集规模大充分考虑企业规模和数据规模的增长,提前做好数据信息积累的准备。采集范围全数据的数量较多,而且能够代表整体数据的各个部分,数据面足够支撑分析需求。采集维度细数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。采集时效准提高数据采集的及时性,从而提高后续数据应用的及时性。二、数据采集的特征参与管理强化服务三、数据采集的数据源内部数据外部数据数据源数据类型结构化数据半结构化数据非结构化数据爱岗敬业诚实守信三、数据采集的数据源廉洁自律客观公正四、数据采集的工具坚持准则提高技能四、数据采集的工具爬虫的概念Python是一门非常适合爬虫的编程语言,它能提供许多与爬虫相关的库(Requests库),可以高效实现网页爬取,并且可以用极短的代码完成网页标签过滤功能。爬虫(网络爬虫的简称),是一种按照一定规则,自动抓取网络信息的程序。爬虫可以理解为一只在网络上爬行的蜘蛛。互联网就像一张大网,爬虫便是在这张网上爬来爬去的蜘蛛。如果遇到猎物(即所需的资源),它就会将其抓取下来。所以爬虫的目的在于将目标网页数据下载至本地,以便进行后续的数据分析。在日常工作学习中,如果经常需要浏览网页上的信息,只需要打开浏览器,输入网址即可浏览网页上的文字、图片,那么,这一过程是如何实现的呢?参与管理强化服务四、数据采集的工具爬虫的原理爱岗敬业诚实守信四、数据采集的工具知识点播简单来说,爬虫就是模拟用户浏览网页的操作,通过模拟浏览器像网站发送请求,获取资源后提取有用的数据并保存。所以,原则上只要浏览器能做的事情,爬虫都能做到。从理论上讲,网络上的资源都可以获取,爬取数据类型包括HTML文档、json格式化文本、二进制文件(图片和视频)以及其他各类数据。json是一种轻量级的数据交换格式,易于编写和阅读,也易于机器解析,是理想的数据交换语言。Json文本格式类似于Python中的字典,在爬虫中使用非常广泛。HTML(超文本标记语言)是用来描述网页的一种语言。用户看到的是网页实质是由HTML代码构成的。廉洁自律客观公正四、数据采集的工具爬虫的基本流程坚持准则提高技能四、数据采集的工具HTTP协议例如:我们看到的网址为www.baidu.com,但在浏览器中输入网址后,会发现它变成了.这是因为所有的网页传播都必须遵守HTTP协议,那可以看到这里是https,https简单理解就是http的基础上,增加了对网站服务器的身份认证,同时保护了交换数据的隐私与完整性。HTTP是一种基于“请求与响应”模式的,无状态(每次请求都是独立的,同一个客户端的这次请求和上次请求没有对应关系)的应用层协议,采用URI作为定位网络资源的标识符。在访问网页时,服务器把网页传给浏览器,实际上就是把网页的HTML代码发送给浏览器,让浏览器显示出来,而浏览器和服务器之间的传输协议就是HTTP.参与管理强化服务四、数据采集的工具URL爬虫爬取数据时,必须有一个目标URL才可以获取数据,URL是爬虫获取数据的基本依据。一个网页对应一个唯一的URL,网页中加载的图片、视频、文件也同样对应一唯一的URL,在一个HTML页面中可能存在多个URL,想要获取一个页面内容所有URL链接,则需在爬取网页后,利用Python解析库对爬取的页面进行解析,提取所有URL.URL是统一资源定位符,也就是网址。URL是对互联网上资源位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。爱岗敬业诚实守信方法说明GET请求获取URL位置的资源HEAD请求获取URL位置资源的响应消息报告,即获得资源的头部消息POST请求向URL位置的资源附加新的消息PUT请求向URL位置存储一个资源,覆盖原URL位置的资源PATCH请求局部更新URL位置的资源,即改变该处资源的部分内容DELETE请求删除URL位置存储的资源GET,HEAD是从服务器获取信息到本地,POST,PUT,PATCH,DELETE是从本地向服务器提交信息,HTTP协议通过URL对资源做定位,通过以上方法对资源进行管理,每次操作都是独立无状态的。四、数据采集的工具HTTP协议对资源的操作廉洁自律客观公正四、数据采集的工具Requests简介爬取网页最简单的方法为:R=requests.get(url)通过Requests调用get()方法,传入需要获取资源的URL,即可构造一个HTTP请求,并获取响应内容。传统模式大数据时代通过Requests调用get()方法,传入需要获取资源的URL,即可构造一个HTTP请求,并获取响应内容。坚持准则提高技能做一做利用爬虫获取html网页,可以选的代码是()。A.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025届江苏省南师附中高三第二次诊断性检测化学试卷含解析
- 急性病毒性心肌炎的急诊救治
- 工程部值班管理培训
- 湖北省名师联盟2025届高三考前热身化学试卷含解析
- 手拉葫芦基础培训
- 成人肠内营养支持护理
- 隆回县2025届六年级下学期模拟数学试题含解析
- 集美大学《工程力学B(II)》2023-2024学年第一学期期末试卷
- 青岛城市学院《绿色建筑技术与方法》2023-2024学年第二学期期末试卷
- 青岛恒星科技学院《变态心理学》2023-2024学年第二学期期末试卷
- 中国近现代史纲要学习心得体会对青少年成长的影响
- 新租赁准则培训课件
- 2025年河南经贸职业学院单招职业技能测试题库带答案
- 接触网工职业技能鉴定题库(技师)题库
- 2025年山西地质集团招聘笔试参考题库含答案解析
- 提高发票额度的合同6篇
- 《美国基本概况》课件
- 2025届浙江省温州市九校高三第二次调研数学试卷含解析
- 中建防台风、防汛、防洪应急预案
- 体检报告电子版
- 2024新修订《医疗器械监督管理条例》培训课件全
评论
0/150
提交评论