




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
TEACHER
TAUGHTPython
大数据实战时间:2024.8.19主讲人:裴昭义目录Catalogue学习内容技能目标任务一:爬取京东上华为手机的信息并保存任务二:基于pytorch的物体识别总结第
10
章
Python
大数据实战01获取网页内容工具02网页内容分析工具03如何根据网页内容提取需要内容04生成
Excel
文件requests
库requests
是
Python
中一个简单易用的
HTTP
库,用于发送各种
HTTP
请求,如
GET、POST、PUT、DELETE
等。它支持多种请求方法,并提供丰富的
API,方便用户进行网络请求和响应处理。selenium
库:
selenium
是一个用于自动化
Web
应用程序测试的工具库,支持多种浏览器和编程语言。它提供了一套用于与浏览器交互的
API,允许执行如打开网页、输入文本、点击按钮等操作,非常适合进行自动化测试、爬虫开发等任务。openpyxl
库openpyxl
是一个用于读取和写入
Excel
2010
xlsx/xlsm/xltx/xltm
文件的库。它提供了丰富的接口,可以方便地创建、编辑和保存
Excel
文件,包括操作工作表、读写单元格、设置格式、合并和拆分单元格等。标签定位通过标签名、类名、ID
等属性定位网页中的元素,例如使用
soup.find_all('p')
查找所有
p
标签。属性提取:
获取标签的属性值,例如使用
link['href']
获取
a
标签的
href
属性值。文本提取:
获取标签内的文本内容,例如使用
first_paragraph.text
获取
p
标签内的文本内容。CSS
选择器:
使用
CSS
选择器定位网页中的元素,例如使用
soup.select("div.myClass")
查找所有
class
为
myClass
的
div
标签。bs4
库bs4
是一个用于分析
HTML
和
XML
文档的库,它提供了一个简单易用的接口,方便用户提取网页中的信息。bs4
库的核心是
BeautifulSoup
类,它可以将
HTML
或
XML
文档解析成一个树形结构,并提供多种方法用于查找、遍历和修改文档中的元素。学习内容能够使用torchvision的datasets模块
加载常见的数据集,如
CIFAR10、MNIST
等。能够使用
torchvision的transforms
对数据进行预处理和增强。能够使用
bs4
库分析
HTML
文档,提取网页中的信息。能够根据网页结构设计合适的爬虫程序,提取所需数据。能够使用
selenium
库控制浏览器进行自动化操作。能够使用
selenium
库进行
Web
应用程序测试。能够使用
pytorch
定义、训练和测试深度学习模型。能够使用
pytorch
进行图像识别、自然语言处理等任务。能够使用
requests
库发送各种
HTTP
请求,并处理响应内容。能够使用
requests
库进行网络爬虫开发,获取网页数据。能够理解装饰器的概念和作用。能够使用装饰器修饰函数,增加额外的功能。能够使用
openpyxl
库创建、编辑和保存
Excel
文件。能够使用
openpyxl
库进行数据分析、报表生成等任务。能够使用
torchvision.utils.make_grid
将图像组合成网格形式。能够使用
matplotlib.pyplot.imshow
显示图像。掌握
requests
功能包的用法掌握
selenium
功能包的用法分析并提取网站内容的方法掌握
openpyxl
的用法掌握
Python
装饰器的使用方法掌握
pytorch
的用法掌握
torchvision
载入训练数据的方法数据可视化的方法技能目标利用
Python
爬取京东上华为手机的信息,包括商品名称、价格、评论数、商家和链接等。将爬取到的信息保存到
Excel
文件中。任务描述安装
anaconda:anaconda
是一个开源的
Python
发行版本,包含
conda、Python
等多个科学包及其依赖项,方便用户进行科学计算和数据分析。requests
库的使用:
使用
requests
库发送
HTTP
请求,获取网页内容。bs4
库的使用:
使用
bs4
库分析
HTML
文档,提取网页中的信息。openpyxl
库的用法:
使用
openpyxl
库创建、编辑和保存
Excel
文件。Python
装饰器:
使用装饰器修饰函数,记录函数运行时间。相关知识使用
selenium
库启动浏览器,打开京东网站。使用
selenium
库定位并输入账号、密码,登录网站。使用
selenium
库获取网页源代码。使用
bs4
库分析
HTML
文档,提取华为手机信息。使用
openpyxl
库创建
Excel
文件,并将提取到的信息保存到
Excel
文件中。任务实现思考如何递归地返回多个页面的手机信息。尝试使用其他爬虫框架,如
Scrapy,进行爬虫开发。任务扩展任务一:爬取京东上华为手机的信息并保存利用
pytorch
和
torchvision
等工具包实现一个简单的图像识别程序。使用卷积神经网络
(CNN)
进行图像特征提取和分类。任务描述01卷积神经网络
(CNN)CNN
是一种深度学习模型,广泛应用于图像识别、视频分析等领域。它通过模拟人类视觉系统的机制来识别图像中的模式,如边缘、颜色和形状等。torchvision.datasets是PyTorch中的一个模块,提供了加载和处理常见数据集的方法。这个模块支持多种标准数据集,如CIFAR10,MNIST,ImageNet,COCO等。使用这些数据集可以方便地进行模型训练和测试。相关知识02使用torchvision的datasets
加载
CIFAR10
数据集。使用
pytorch
定义一个卷积神经网络模型。使用
pytorch
训练和测试模型。matplotlib.pyplot.imshow
显示图像。任务实现03尝试使用其他数据集进行图像识别任务。尝试使用其他类型的神经网络模型,如循环神经网络
(RNN)。尝试使用其他优化算法,如
Adam、RMSprop
等。尝试使用数据增强技术,提高模型的泛化能力。任务扩展04任务二:基于
pytorch
的图像识别01本章介绍了
Python
大数据实战的相关知识,包括获取网页内容工具、网页内容分析工具、生成
Excel
文件、Python
装饰器、深度学习的基本概念、pyt
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025高性能云计算服务合同
- 公司餐饮合同标准文本
- 公司投资合伙合同标准文本
- 公司与销售合同样本
- 2025年上海市正规房屋租赁合同样本
- 公司和物流合同样本
- 乡村土地交换合同样本
- 出售仓库合同标准文本
- 公积金收押合同标准文本
- 提升人事部相关工作的透明度计划
- 政务人员礼仪培训课件
- 2025年北京智芯微电子科技有限公司招聘50人(第一批)笔试参考题库附带答案详解
- (一模)2025年广州市普通高中毕业班综合测试(一)英语试卷(含答案详解)
- 棱柱棱锥棱台的表面积和体积课件高一下学期数学人教A版1
- 跨学科实践“桥梁调查与模型制作”(教学设计)-2024-2025学年八年级物理下学期项目化课程案例
- 2025年大脑神经期末试题及答案
- 应急物资储备检查改进应急预案
- 第15课《青春之光》课件-2024-2025学年统编版语文七年级下册
- 2025年河南轻工职业学院单招职业技能测试题库附答案
- 中考语文古诗欣赏试题汇编(课内古诗比较阅读)(截至2024)
- 社保工伤申请流程
评论
0/150
提交评论