![大数据采集与预处理课件:requests技术应用案例-业务网站C动态数据采集2_第1页](http://file4.renrendoc.com/view7/M01/19/16/wKhkGWcZioGAfozuAADCkskIggM031.jpg)
![大数据采集与预处理课件:requests技术应用案例-业务网站C动态数据采集2_第2页](http://file4.renrendoc.com/view7/M01/19/16/wKhkGWcZioGAfozuAADCkskIggM0312.jpg)
![大数据采集与预处理课件:requests技术应用案例-业务网站C动态数据采集2_第3页](http://file4.renrendoc.com/view7/M01/19/16/wKhkGWcZioGAfozuAADCkskIggM0313.jpg)
![大数据采集与预处理课件:requests技术应用案例-业务网站C动态数据采集2_第4页](http://file4.renrendoc.com/view7/M01/19/16/wKhkGWcZioGAfozuAADCkskIggM0314.jpg)
![大数据采集与预处理课件:requests技术应用案例-业务网站C动态数据采集2_第5页](http://file4.renrendoc.com/view7/M01/19/16/wKhkGWcZioGAfozuAADCkskIggM0315.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
综合案例——爬取业务网站C本章学习目标分析业务网站C的网页结构和内容使用requests库编写爬虫代码获取指定的动态数据使用urlencode方法编码使用pymysql库实现数据的持久化为了保证数据的可靠性,保障数据不会丢失,并提高应用程序的性能让程序可以直接从存储介质中加载数据这是便需要对数据进行持久化存储。在前面的基础上用AJAX采集单个汽车品牌系列的名称,单个汽车品牌系列的ID。并将其采集到的数据保存到MySQL数据库中。4.5.3
数据持久化存储1) 导入pymysql,用于连接MySQL。importpymysql2) 通过PyMQL建立MySQL连接,创建AJAX数据库和ajax数据表。设置数据表字段为car_name和id,id为主键。通过for循环实现想表插入数据。db=pymysql.connect(host='localhost',user='root',password='123456',port=3306)cursor=db.cursor()cursor.execute("CREATEDATABASEAJAXDEFAULTCHARACTERSETutf8mb4")db.close()db2=pymysql.connect(host="localhost",user="root",password="123456",database="AJAX",port=3306)cursor2=db2.cursor()cursor2.execute("DROPTABLEIFEXISTSajax")sql1="""CREATETABLE`ajax`(`car_name`char(20)NOTNULL,`id`int(10)NOTNULLAUTO_INCREMENT,PRIMARYKEY(`id`))ENGINE=InnoDBDEFAULTCHARSET=utf8mb4;"""cursor2.execute(sql1)print("CreatedtableSuccessfull.")3) 自定义一个函数parse_three(json),参数也是json。获得该城市所有车型的汽车品牌系列名称和ID。最后通过for循环实现向表中插入数据。defparse_three(json):ifjson:foriinjson:forbini.get('SeriesList'):item_list=b.get('Name')item_list2=b.get('Id')print('各城市数据采集数据展示:'+'=========='+item_list+':'+'==========='+str(item_list2)+'=============')sql2='INSERTINTOajax(car_name,id)VALUES(%s,%s)'try:cursor2.execute(sql2,(item_list,item_list2))db2mit()except:db2.rollback()4) 编写运行入口程序if__name__=='__main__':city_list=[{'北京':'110100'},{'重庆':'500100'}]forcityincity_
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《家居装饰物流配送合同》
- 亲子乐园主题装修设计合同
- IT项目规划与实施指南
- 企业法律合规风险防范指南
- 淘宝代理合同协议书
- 三农村特色产业培育手册
- 股份制企业的合作与管理文书
- 房地产开发合同标准协议
- 医疗设备智能制造与管理平台开发
- 企业人力资源数字化管理与服务支持平台方案设计
- 装修工程延期协议
- 2025-2030全球21700圆柱形锂离子电池行业调研及趋势分析报告
- 2025-2025年教科版小学科学三年级下册科学教学计划
- 2025年云南中烟工业限责任公司招聘24人历年高频重点提升(共500题)附带答案详解
- 2025云南昆明空港投资开发集团招聘7人历年高频重点提升(共500题)附带答案详解
- 《大健康解读》课件
- 2024-2025学年成都市树德东马棚七年级上英语期末考试题(含答案)
- 2025年度交通运输规划外聘专家咨询协议3篇
- 2024年04月北京中信银行北京分行社会招考(429)笔试历年参考题库附带答案详解
- 专项债券培训课件
- 中央企业人工智能应用场景案例白皮书(2024年版)-中央企业人工智能协同创新平台
评论
0/150
提交评论