大数据采集与预处理课件:requests技术应用案例-业务网站A静态数据采集1_第1页
大数据采集与预处理课件:requests技术应用案例-业务网站A静态数据采集1_第2页
大数据采集与预处理课件:requests技术应用案例-业务网站A静态数据采集1_第3页
大数据采集与预处理课件:requests技术应用案例-业务网站A静态数据采集1_第4页
大数据采集与预处理课件:requests技术应用案例-业务网站A静态数据采集1_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

requests库技术应用案例——动态数据和动态数据采集本章学习目标分析业务网站A,B,C和D的网页结构和内容使用requests库编写爬虫代码获取指定的静态和动态数据使用BeautifulSoup实现数据的解析使用pymysql库和pandas实现数据的持久化4.3业务网站A静态数据进入网址:/notebook_index/subcate16_0_list_1_0_99_2_0_1.html

我们可以观察到网页主页显示的主要的内容,有笔记本电脑型号、价格、配置、评价分数等,本次任务案例,我们将要获取该页的所有笔记本电脑信息。图4.3-1网址主页

判断此数据是静态数据还是动态数据。如图4.3-2所示,由此可知,我们想要获取的内容被标签直接包含在内,为静态数据,所以可以编写爬虫获取网页标签内容即可图4.3-2标签检查数据类型天问一号成功登陆火星,对于静态数据和动态数据整体把控和分析要求极高。充分体现劳模精神:劳模精神,是指“爱岗敬业、争创一流、艰苦奋斗、勇于创新、淡泊名利、甘于奉献”的劳动模范的精神。

使用python编写爬虫获取网页静态数据,有针对性地获得在网页中的笔记本电脑型号、价格、配置、评价分数。具体步骤如下。在python中导入requests库和bs4库中的BeautifulSoup,并且定义一个空列表new_list,用于存储爬取下来的静态数据,并自定义第一个列表,这个列表将作为对应数据的字段名和后续数据的存储。importrequestsfrombs4importBeautifulSoupnew_list=[['电脑型号','价格','配置','评分']]构造爬虫代码请求该URL的Headers头部信息。在“开发者工具”的Network栏目下的Headers中得到该默认URL的Headers头部信息。其目的是为了向业务网站A网址的后台服务器隐藏爬虫代码的真实身份,让爬虫代码带着这些请求信息伪装成浏览器正常访问该网站服务器的状态而不被服务器的反爬措施发现。headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/74.0.3729.108Safari/537.36'}3)定义变量complete_url用于指定的URL网址complete_url="/notebook_index/subcate16_0_list_1_0_99_2_0_1.html"4)使用requests库的get()方法获得网址的Response对象,并设置headers参数,并定义变量req进行保存。req=requests.get(url=complete_url,headers=headers)5)使用encoding方法,设置req变量的编码方式。req.encoding='GBK'6)使用BeautifulSoup库解析HTML文档的代码。req.txt是一个包含HTML内容的字符串,features定义了解析器为’html.parser’,用于将HTML转换为Python对象,定义变量soup进行保存。soup=BeautifulSoup(req.text,features="html.parser")7)定位数据图4.3-3包含数据的标签结构8)获取数据图4.3-4数据存储的标签dd第一步:在网页结构中,通过分析,我们可以发现,我们获取的数据都统一存储在一个ID名叫J_PicMode的标签中,所以我们只需要找到并保存这个标签就可以实现静态数据的爬取。第二步:声明及定义4个空列表,用于分别保存笔记本电脑型号、价格、配置、评价分数的数据。使用for循环方式将select()方法获得的数据遍历提取,并使用append()方法追加到4个空列表中,同时使用zip()方法将数组中的数据整合在一起,完成静态数据爬取。运行测试,由以上代码可知,列表a,b,c,d中的数据被整合在new_list中保存的就是我们从网页爬取的静态数据,我们打印出来观察是否正确图4.3-5运行测试1)导入Pandas库importpandasaspd2)把列表new_list转换为pandas的数据结构DataFrame类型,由dataframe保存。dataframe=pd.DataFrame(new_

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论