《数据采集技术》课件-selenium 基本使用

上传人：青*** IP属地：福建上传时间：2024-12-26 格式：PPTX 页数：19 大小：13.44MB 积分：2.88 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

selenium基本使用Contents知识目标掌握selenium基本使用技能目标提高数据采集和处理能力素养目标培养良好的信息素养和道德意识入门操作流程：fromseleniumimportwebdriverfrommon.byimportBydriver=webdriver.Edge()driver.get("/")data=driver.find_element(By.ID,"wrapper").text代码运行后，会打开Edge浏览器并导航到百度的主页。会查找ID为"wrapper"的元素，并获取该元素的文本内容。文本内容将会被赋值给变量data。导入webdriver创建浏览器对象获取某网页查找相关内容入门操作定位UI元素根据官方最新文档，定位UI元素最新方法变更如下：方法意思find_element(By.ID,"value")通过元素的ID来查找一个元素find_element(By.NAME,"value")通过元素的name属性来查找一个元素find_element(By.XPATH,"value")通过XPath表达式来查找一个元素find_element(By.TAG_NAME,"value")通过元素的标签名来查找一个元素find_element(By.CLASS_NAME,"value")通过元素的类名来查找一个元素find_element(By.CSS_SELETOR,"value")通过CSS选择器来查找一个元素入门操作print(driver.title)运行结果：百度一下，你就知道driver.save_screenshot("baidu.png")运行结果：True在python文件的同目录下生成了一个名为baidu.png的图片文件，打开该文件可以看到，保存了百度搜索页面在浏览器上的显示效果。入门操作print(driver.page_source)driver.find_element(By.ID,"kw").send_keys(u"长城")打开浏览器，可以看到字符串“长城”已经添加到百度页面的搜索框中。入门操作driver.find_element(By.ID,"su").click()打开浏览器，可以看到显示搜索长城的内容。执行键盘按键操作frommon.keysimportKeysdriver.find_element(By.ID,"kw").send_keys(Keys.CONTROL,'a')driver.find_element(By.ID,"kw").send_keys(Keys.CONTROL,'x')driver.find_element(By.ID,"kw").send_keys("python")driver.find_element(By.ID,"kw").send_keys(Keys.RETURN)运行结果执行键盘按键操作driver.find_element(By.ID,"kw").clear()print(driver.get_cookies())print(driver.current_url)driver.close()driver.quit()主要用于：与Web浏览器进行交互，获取某些信息。执行一些操作。鼠标动作链在页面上模拟一些鼠标操作比如：fromselenium.webdriverimportActionChains双击右击拖拽按住不动可以通过ActionChains类来实现。鼠标动作链示例：<!DOCTYPEhtml><html><head><metacharset="UTF-8"><title>下拉列表示例</title><script>functionhandleChange(){varstatus=document.getElementById("status").value;alert("您选择的状态是："+status);}</script></head><body><selectid="status"class="form-controlvalid"onchange="handleChange()"name="status"encoding="utf-8"><optionvalue=""></option><optionvalue="0">未审核</option><optionvalue="1">初审通过</option><optionvalue="2">复审通过</option><optionvalue="3">审核不通过</option></select></body></html>运行结果表单填充该类提供了三种选择下拉框的方式：根据索引选择根据值选择根据文字选择select.select_by_index(1)#根据索引选择select.select_by_value("0")#根据值选择select.select_by_visible_text(u"未审核")#根据文字选择Selenium提供了Select类来处理下拉框表单填充在选择下拉框的选项时要注意：1.index索引从0开始。2.value是option标签的一个属性值，并不是显示在下拉框中的值。3.visible_text是在option标签文本的值，是显示在下拉框的值。Selenium提供了Select类来处理下拉框select.select_by_index(1)#根据索引选择select.select_by_value("0")#根据值选择select.select_by_visible_text(u"未审核")#根据文字选择弹窗处理触发某个事件后，页面出现alert=driver.switch_to_alert()弹窗提示处理提示或者获取提示信息，使用浏览器对象的switch_to_alert方法。弹窗处理示例：fromseleniumimportwebdriverimporttimefromselenium.webdriverimportActionChainsdriver=webdriver.Edge()driver.get("")driver.execute_script("alert('这是一个警告！')")try:alert=driver.switch_to_alert()alert_text=alert.textprint(f"Alerttext:{alert_text}")except:print("Noalertfound.")time.sleep(5)driver.quit()运行结果页面切换driver.switch_to.window()切换窗口方法示例：fromseleniumimportwebdriverdriver=webdriver.Edge()#替换为你的浏览器驱动程序driver.get('')#打开一个网页

forhandleindriver.window_handles:driver.switch_to.window(handle)#使用switch_to.window()方法切换窗口

print("Currentwindowtitle:",driver.title)time.sleep(5)driver.quit()运行结果：Currentwindowtitle:百度一下，你就知道本讲小结抓取动态网页数据的技术：selenium概述安装配置基本使用什么是动态网

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《数据采集技术》课件-selenium 基本使用

文档简介

温馨提示

最新文档

评论

相关文档