版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章Python网络爬虫《Python数据分析与应用》网络爬虫网络爬虫(WebSpider),又被称为网页蜘蛛或网络机器人,通过一定的规则自动地抓取网络信息。网络爬虫就是根据网址获取网页信息。例如,当输入网址:/,浏览器向DNS服务器发出请求,经过解析,将发送给浏览器的HTML、JS、CSS等文件解析出来,便成了百度内容。爬虫流程爬取
Python提供了requests等库实现HTTP请求操作,获取网页的源代码。
Requests
方法解释requests.get()获取html的主要方法requests.head()获取html头部信息的主要方法requests.post()向html网页提交post请求的方法requests.put()向html网页提交put请求的方法requests.patch()向html提交局部修改的请求requests.delete()向html提交删除请求Requests
importrequestsr=requests.get(url='http://www……')#GET请求print(r.status_code)#获取返回状态print(r.url)print(r.text)#打印解码后的返回数据解析从网页源代码中提取有用的信息。方法1:采用正则表达式提取,但是在构造正则表达式时比较复杂且容易出错。方法2:由于网页的结构有一定的规则,可以利用BeautifulSoup、pyquery、lxml等库提取网页节点属性、CSS选择器等网页信息。
存储将提取到的数据保存到某处以便后续处理和分析,可以保存为TXT文本或JSON文本,也可以保存到MySQL和MongoDB等数据库。正则表达式
正则表达式,又称正规表示法、常规表示法,是指通过事先定义好的特定字符(“元字符”)组成的“规则字符串”,对字符串进行过滤逻辑。凡是符合规则的字符串,认为“匹配”,否则,不“匹配”。
正则表达式
采用正则表达式判断一个字符串是否包含合法的Email,需要创建一个匹配Email的正则表达式,然后通过该正则表达式去判断。正则表达式元字符含义输入输出.匹配任意字符
a.cAbc^匹配开始位置^abcAbc$匹配结束位置abc$Abc*
匹配前一个元字符0到多次abc*ab;abccc+匹配前一个元字符1到多次abc+abc;abccc?匹配前一个元字符0到1次abc?ab;abcre模块fIndall()compile()match()search()replace()split()Python中的re模块提供了一个正则表达式引擎接口,允许将正则表达式编译成模式对象,通过这些模式对象执行模式匹配搜索和字符串分割、子串替换等操作。Findall()>>>importre>>>p=pile(r'\d+')>>>print(p.findall('o1n2m3k4'))['1','2','3','4']search()>>>importre>>>a="123abc456">>>print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0))123abc456>>>print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1))123>>>print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2))abc>>>print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3))456Match()>>>importre>>>print(re.match('www','').span())#在起始位置匹配(0,3)>>>print(re.match('com',''))#不在起始位置匹配Nonesplit()1)只传一个参数,默认分割整个字符串>>>str="a,b,c,d,e";>>>str.split(',');["a","b","c","d","e"]split()2)传入两个参数,返回限定长度的字符串>>>str="a,b,c,d,e";>>>str.split(',',3);["a","b","c"]
split()3)使用正则表达式匹配,返回分割的字符串>>>str="aa44bb55cc66dd";>>>print(re.split('\d+',str))["aa","bb","cc","dd"]BeautifulSouplxml作为BeautifulSoup库解析器BeautifulSoup
BeautifulSoup将HTML文档转换成一个复杂的树形结构,每个节点都是Python对象BeautifulSoupfromurllib.requestimporturlopenfrombs4importBeautifulSoup#导入BeautifulSoup对象html=urlopen('/new100.html')#打开url,获取html内容bs_obj=BeautifulSoup(html.read(),'html.parser')#把html内容传到BeautifulSoup对象
text_list=bs_obj.find_all("a","navmore")#找到”class=navmore”的a标签fortextintext_list:print(text.get_text())#打印标签的文本html.close()#关闭文件动态网页的内容由JavaScript动态加载生成,而Request模块不能执行JS和CSS代码。一般采用Selenium抓取动态网页的数据,Selenium最初是Web的测试工具,可以操作浏览器,像BeautifulSoup一样得到html页面元素。SeleniumSeleniumphantomjs不同的浏览器,如IE、Chrome、Firefox等,WebDriver需要不同的驱动来实现。
在Firefox浏览器webdriver驱动下载网址/mozilla/geckodriver/releases,下载geckodriver.exe文件。
Selenium Scrapy是Python开发的抓取框架,用于抓取web站点并从页面中提取结构化的数据。在anacondaPrompt下使用命令:pipinstallScrapy进行安装爬虫框架ScrapyScrapy是爬取网站数据的应用框架,可以进行定制化爬取。爬虫框架Scrapy爬取网站数据的应用框架,可以进行定制化爬取。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年物业经理个人工作计划范文
- 乡镇医院护士工作计划
- 第二学期语文高段教研组工作计划
- 2024年县妇幼卫生工作计划
- 2024危重病人护理计划范文
- 2024公司上半年工作计划
- 大班教学计划上学期大班教学计划重点难点
- “一带一路”建设2024年行动计划
- 辽宁科技大学《照明设计基础》2021-2022学年第一学期期末试卷
- 辽宁科技大学《酒店情景英语》2021-2022学年第一学期期末试卷
- 服装店规划设计方案
- 单位工程竣工验收自评报告
- 2024领导力培训课程ppt完整版含内容
- 《对外贸易管制概述》课件
- 20以内加减法口算题(10000道)(A4直接打印-每页100题)
- 穷爸爸富爸爸
- 税务会计的年终总结报告
- 宿舍设计问题现状分析报告
- 高铁乘务调研报告
- 虚拟人运动仿真研究的中期报告
- 新生儿吸入综合征护理查房
评论
0/150
提交评论