模拟登录和数据采集综合案例_第1页
模拟登录和数据采集综合案例_第2页
模拟登录和数据采集综合案例_第3页
模拟登录和数据采集综合案例_第4页
模拟登录和数据采集综合案例_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网站模拟登录和数据采集案例 本章学习目标●分析业务网站人才招聘的网页结构和内容●使用selenium和chromedriver实现网站的模拟登录●使用selenium和chromedriver实现编写爬虫代码获取指定的静态和动态数据●使用pymysql库实现数据的持久化8.5获取动态数据8.5.1网站模拟登录和动态数据获取的总体步骤1)导入爬虫代码需要使用的模块selenium的webdriver用于控制浏览器实现网站页面控件和数据的定位和采集。导入pymysql用于实现数据持久化保存。2)自定义爬虫方法login_demo(cursor)实现指定的URL的模拟登录和动态数据获取,同时传入参数cursor用于实现数据持久化操作。该方法是实现获取动态数据核心代码。因此,需要单独介绍。8.5获取动态数据8.5.2动态数据获取业务逻辑和代码详解1)调用webdriver的Chrome()方法初始化针对谷歌浏览器的可操作对象chrome_driver。调用chrome_driver的maximize_window()方法实现浏览器最大化操作。调用chrome_driver的get("http://www.job5156/")方法实现URL访问。2)经过页面分析,需要获得完成模拟登录过程需要按步骤完成页面指定控件的操作、账户和密码的输入。3)登录成功之后,进入网站主界面。点击搜索栏的“搜索”按钮,跳转到职位信息详细页面。4)使用selenium获得动态数据和持久化保存。5)编写程序入口方法,链接数据库和建立数据表,并运行login_demo(cursor)方法。8.6数据持久化保存8.6.1数据持久化保存1)导入pymysql模块用于在Python中连接和操作MYSQL数据库管理系统。2)使用pymysql的connect()方法,通过传入指定的参数实现对MYSQL数据库管理系统的登录和具体数据库的连接操作。这里的参数分别是:host表示将要连接的设备地址,localhost表示本机。user和password表示登录到MYSQL数据库管理系统的账号和密码。port表示登录到该数据库管理系统过程中使用的端口号,这里是3306。db表示在该数据库管理系统中已经存在的数据库。这里需要先在NavicatPremium中创建该数据库。最后,将该方法的返回值返回给变量db。3)使用cursor()方法是实现对数据库db执行SQL操作的基础。4)声明变量sql用于接收以字符串形式编写的SQL语句。该SQL语句的含义是:使用CREATETABLE命令创建一个名为zhitong的数据表。该表中包含comname,address,requirement,salary,name,information共六个字段。这六个字段正好用于接收前面对应的岗位数据信息。5)使用execute()方法实现上面的SQL语句。在test数据库中创建该数据表。6)将获取的静态和动态数据导入到MYSQL数据库管理系统的指定数据库中。在get_static(cursor)和login_demo(cursor)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论