《Python程序设计》课件第10章 Python大数据实战

上传人：h*** IP属地：山东上传时间：2025-03-28 格式：PPTX 页数：9 大小：7.55MB 积分：12 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

TEACHER

TAUGHTPython

大数据实战时间：2024.8.19主讲人：裴昭义目录Catalogue学习内容技能目标任务一：爬取京东上华为手机的信息并保存任务二：基于pytorch的物体识别总结第

章

Python

大数据实战01获取网页内容工具02网页内容分析工具03如何根据网页内容提取需要内容04生成

Excel

文件requests

库requests

是

Python

中一个简单易用的

HTTP

库，用于发送各种

HTTP

请求，如

GET、POST、PUT、DELETE

等。它支持多种请求方法，并提供丰富的

API，方便用户进行网络请求和响应处理。selenium

库:

selenium

是一个用于自动化

Web

应用程序测试的工具库，支持多种浏览器和编程语言。它提供了一套用于与浏览器交互的

API，允许执行如打开网页、输入文本、点击按钮等操作，非常适合进行自动化测试、爬虫开发等任务。openpyxl

库openpyxl

是一个用于读取和写入

Excel

2010

xlsx/xlsm/xltx/xltm

文件的库。它提供了丰富的接口，可以方便地创建、编辑和保存

Excel

文件，包括操作工作表、读写单元格、设置格式、合并和拆分单元格等。标签定位通过标签名、类名、ID

等属性定位网页中的元素，例如使用

soup.find_all('p')

查找所有

标签。属性提取:

获取标签的属性值，例如使用

link['href']

获取

标签的

href

属性值。文本提取:

获取标签内的文本内容，例如使用

first_paragraph.text

获取

标签内的文本内容。CSS

选择器:

使用

CSS

选择器定位网页中的元素，例如使用

soup.select("div.myClass")

查找所有

class

为

myClass

的

div

标签。bs4

库bs4

是一个用于分析

HTML

和

XML

文档的库，它提供了一个简单易用的接口，方便用户提取网页中的信息。bs4

库的核心是

BeautifulSoup

类，它可以将

HTML

或

XML

文档解析成一个树形结构，并提供多种方法用于查找、遍历和修改文档中的元素。学习内容能够使用torchvision的datasets模块

加载常见的数据集，如

CIFAR10、MNIST

等。能够使用

torchvision的transforms

对数据进行预处理和增强。能够使用

bs4

库分析

HTML

文档，提取网页中的信息。能够根据网页结构设计合适的爬虫程序，提取所需数据。能够使用

selenium

库控制浏览器进行自动化操作。能够使用

selenium

库进行

Web

应用程序测试。能够使用

pytorch

定义、训练和测试深度学习模型。能够使用

pytorch

进行图像识别、自然语言处理等任务。能够使用

requests

库发送各种

HTTP

请求，并处理响应内容。能够使用

requests

库进行网络爬虫开发，获取网页数据。能够理解装饰器的概念和作用。能够使用装饰器修饰函数，增加额外的功能。能够使用

openpyxl

库创建、编辑和保存

Excel

文件。能够使用

openpyxl

库进行数据分析、报表生成等任务。能够使用

torchvision.utils.make_grid

将图像组合成网格形式。能够使用

matplotlib.pyplot.imshow

显示图像。掌握

requests

功能包的用法掌握

selenium

功能包的用法分析并提取网站内容的方法掌握

openpyxl

的用法掌握

Python

装饰器的使用方法掌握

pytorch

的用法掌握

torchvision

载入训练数据的方法数据可视化的方法技能目标利用

Python

爬取京东上华为手机的信息，包括商品名称、价格、评论数、商家和链接等。将爬取到的信息保存到

Excel

文件中。任务描述安装

anaconda：anaconda

是一个开源的

Python

发行版本，包含

conda、Python

等多个科学包及其依赖项，方便用户进行科学计算和数据分析。requests

库的使用:

使用

requests

库发送

HTTP

请求，获取网页内容。bs4

库的使用:

使用

bs4

库分析

HTML

文档，提取网页中的信息。openpyxl

库的用法:

使用

openpyxl

库创建、编辑和保存

Excel

文件。Python

装饰器:

使用装饰器修饰函数，记录函数运行时间。相关知识使用

selenium

库启动浏览器，打开京东网站。使用

selenium

库定位并输入账号、密码，登录网站。使用

selenium

库获取网页源代码。使用

bs4

库分析

HTML

文档，提取华为手机信息。使用

openpyxl

库创建

Excel

文件，并将提取到的信息保存到

Excel

文件中。任务实现思考如何递归地返回多个页面的手机信息。尝试使用其他爬虫框架，如

Scrapy，进行爬虫开发。任务扩展任务一：爬取京东上华为手机的信息并保存利用

pytorch

和

torchvision

等工具包实现一个简单的图像识别程序。使用卷积神经网络

(CNN)

进行图像特征提取和分类。任务描述01卷积神经网络

(CNN)CNN

是一种深度学习模型，广泛应用于图像识别、视频分析等领域。它通过模拟人类视觉系统的机制来识别图像中的模式，如边缘、颜色和形状等。torchvision.datasets是PyTorch中的一个模块，提供了加载和处理常见数据集的方法。这个模块支持多种标准数据集，如CIFAR10,MNIST,ImageNet,COCO等。使用这些数据集可以方便地进行模型训练和测试。相关知识02使用torchvision的datasets

加载

CIFAR10

数据集。使用

pytorch

定义一个卷积神经网络模型。使用

pytorch

训练和测试模型。matplotlib.pyplot.imshow

显示图像。任务实现03尝试使用其他数据集进行图像识别任务。尝试使用其他类型的神经网络模型，如循环神经网络

(RNN)。尝试使用其他优化算法，如

Adam、RMSprop

等。尝试使用数据增强技术，提高模型的泛化能力。任务扩展04任务二：基于

pytorch

的图像识别01本章介绍了

Python

大数据实战的相关知识，包括获取网页内容工具、网页内容分析工具、生成

Excel

文件、Python

装饰器、深度学习的基本概念、pyt

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《Python程序设计》课件 第10章 Python大数据实战

文档简介

温馨提示

最新文档

评论

相关文档

《Python程序设计》课件第10章 Python大数据实战