版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据采集与处理
RegexBuddy案例导入01下载02安装03Match04replace05还原布局06高亮显示匹配结果07分组的使用08生成代码模板09案例实现10案例导入
小明是一家大型商场的数据分析员,领导派给他一个任务——为商城的新连锁店选址,所以需要收集浙江经贸周边各家酒店的价格、评分、地址等信息进行分析比较。如果是人工在网络上进行单条的复制粘贴,工作将显得枯燥和冗长,且员工负担也很大。小明突然想起在大学曾学习过正则表达式,刚好可以解决这个问题。如果单独使用正则表达式又显得太抽象,难以理解。那么是否有一种工具帮助我们简单明了的表述正则表达式呢?介绍 RegexBuddy这是一款比较小巧的测试正则的工具它可以容易地建立你想要的正确的正则表达式。清晰地推断他人所写的复杂的正则表达式。RegexBuddy还可以用给出的实例字符串或文件快速地进行测试匹配,从而防止了在实际应用中出现错误。RegexBuddy会在你的源代码中根据你所应用的特殊编程语言,自动生成带有正则表达式的代码段。
下载下载地址:进入regexbuddy官网首页,然后点击Download进入右下角下载然后点击Downloadyour
licensedcopyofRegexBuddy下载点击DownloadRegexBuddy下载链接:/s/1Wsvnx1DC0vuF9nr-HHYrAg
提取码:bzpo安装下载完成后,解压至桌面打开文件夹找到regexbuddy的应用程序,并打开1.点击第一个选项直接安装安装2.选择Yes,Ido安装3.点击Thanks!安装4.最后桌面出现如是图标即安装完成MatchMatch用于正则的内容匹配,一般默认为Match模式,打开RegexBuddy显示的页面如下图:ReplaceReplace用于查找正则内容替换,点击Replace显示的页面,示例如下图:还原布局该页面标出黑色小方框内的布局同学们可能会误触将其关闭,接下来我们教大家如何还原首先,鼠标点击红圈处,弹出如下图选项栏;其次,再点击RestoreDefaultLayout(还原默认布局)高亮显示匹配结果分组的使用在应用的正则表达式中再抽取出局部的匹配字符段信息,可以使用group()来实现
在使用group()时如果没有()默认为零分组,匹配整个正则字符串;
如果有一个()说明有两个分组,一个是0一个是1;
如果有两个(),就说明有三个分组,分别是0,1,2。分组的使用如果我们只需要酒店的位置就group注:group(1)列出第一个括号匹配部分,group(2)列出第二个括号匹配部分,group(3)列出第三个括号匹配部分。group(4)列出第四个括号匹配部分分组的使用生成代码模板步骤:选择python3.6粘贴测试的网页源代码文本编写自己需要提取信息的正则表达式点开ListAll点击从上往下第三个显示出来的就是要提取的信息点击Use面板,选择Function(功能)下拉列表倒数第三个
1.程序语言选择python3.6
2.放入测试的网页源代码3.写需要提取信息的正则表达式
4.点开ListAll
5.点击从上往下第三个
6.显示出来的就是要提取的信息
6.显示出来的就是要提取的信息6.显示出来的就是要提取的信息7.点击Use面板,选择Function(功能)下拉列表倒数第三个
生成代码模板生成代码模版reobj=pile(r'class="nblue[\d\D]*?">([\d\D]*?)</a>[\d\D]*?<span>([\d\D]*?)<[\d\D]*?i>([\d\D]*?)<[\d\D]*?title="([\d\D]*?)"',re.MULTILINE)formatchinreobj.finditer(html):
print(match.group(0))生成代码模板把生成的代码模板放入jupyternotebook中,再根据实际要求进行调整生成代码模板fromseleniumimportwebdriver
driver=webdriver.Chrome()
url='/search/%E9%85%92%E5%BA%97/@13401816.6,3523321.62,17z?querytype=nb&r=1000&wd=%E9%85%92%E5%BA%97&nb_x=13401816.60&nb_y=3523321.62&uid=7a0cb8c0d67a634683a00c28&b=(13400809.909611505,3522782.19066226;13402823.09336229,3524093.869264365)&l=17&gr_radius=1000&pn=0&device_ratio=2&da_src=shareurl'
driver.get(url)
importre
importtime
html=driver.page_source
#print("酒店名称",",评分:",",类型:",",地址:")
list=[]
foriinrange(2):
html=driver.page_source
reobj=pile(r'class="n-blue"[\d\D]*?>([\d\D]*?)</a>[\d\D]*?<span>([\d\D]*?)<[\d\D]*?i>([\d\D]*?)<[\d\D]*?title="([\d\D]*?)"')
formatchinreobj.finditer(html):
a=match.group(1)
b=match.group(2)
c=match.group(3)
d=match.group(4)
t=(a,b,c,d)
print(t)链接:/s/1e9A52uYspSbffFUMiDmxbw
提取码:6h2e流程图作业部落网址:/mdeditor流程图代码:```flowst=>start:开始op1=>operation:打开RegexBuddyop2=>operation:选择python3.7op3=>operation:选择Match模式op4=>operation:点击Test模式op5=>operation:粘贴网页源代码op6=>operation:编写正则表达式cond=>condition:正则高亮是否符合预期op7=>operation:点击use模块op8=>operation:导出模块代码e=>end:结束st->op1->op2->op3->op4->op5->op6->cond->op7->op8cond(yes)->op7cond(no)->op6op8->e```打开RegexBuddy选择python3.7选择Match模式点击Test模式粘贴网页源代码编写正则表达式正则高亮是否符合预期点击use模块导出模块代码开始结束noyes整体流程流程图:/BlackFire0033/note/1761775打开RegexBuddy选择python3.7选择Match模式点击Test模式粘贴网页源代码编写正则表达式正则高亮是否符合预期点击use模块导出模块代码开始结束noyes在作业部落中,可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024店铺转让合同范本下载
- 2024至2030年中国尼龙上下拉开尾拉链行业投资前景及策略咨询研究报告
- 2024年电力工程项目评价分析报告
- 2024至2030年中国铁篮数据监测研究报告
- 2024至2030年中国自动车辙试验仪数据监测研究报告
- 2024至2030年中国电动打结机行业投资前景及策略咨询研究报告
- 2024至2030年中国气缸套铜垫行业投资前景及策略咨询研究报告
- 2024至2030年中国整体硬质合金二刃铣刀数据监测研究报告
- 2024至2030年中国家私护理喷蜡行业投资前景及策略咨询研究报告
- 2024至2030年中国双针珩缝机行业投资前景及策略咨询研究报告
- 鲁科版高中化学必修第一册知识点总结
- GB/T 30893-2024雨生红球藻粉
- 四川省绵阳市2025届高三第一次诊断性考试数学试题含答案
- 2023年山东黄金集团招聘笔试真题
- 高空抛物安全宣传教育课件
- 2024湖北武汉市洪山科技投资限公司招聘11人高频难、易错点500题模拟试题附带答案详解
- 《西游记》与中国传统文化学习通超星期末考试答案章节答案2024年
- 上海2024年上海市经济信息中心(上海市公共信用信息服务中心)招聘笔试历年参考题库解题思路附带答案详解
- 人教版六年级数学上册第一单元分数乘法单元达标测试卷
- 登高车高空作业施工方案
- 2024年动画制作员(高级工)技能鉴定理论考试题库-上(单选题)
评论
0/150
提交评论