PyTorch深度学习项目教程课件_第1页
PyTorch深度学习项目教程课件_第2页
PyTorch深度学习项目教程课件_第3页
PyTorch深度学习项目教程课件_第4页
PyTorch深度学习项目教程课件_第5页
已阅读5页,还剩285页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PyTorch深度学习项目教程项目1手写数字识别HANDWRITTENDIGITRECOGNITION要点:人工智能、机器学习和深度学习的基本概念、PyTorch库介绍、PyTorch开发环境的配置、深度学习领域的HelloWorld讲课人:0讲课时间:2025年3月12日项目背景ProjectBackground要点:手写识别应用广泛。问题:传统方法在处理手写数字识别问题时过于依赖人工制定的规则或者手工提取的特征,这种方法面临着泛化能力差、复杂度高的问题。解决:深度学习模型直接将手写数字图像像素作为输入,通过逐层学习抽取特征,最后得到准确的分类结果,整个过程不需要依赖人工提取特征,而是通过模型自身学习到有效的特征表示。知识目标KnowledgeObjectives理解人工智能、机器学习和深度学习的基本概念熟悉机器学习的基本工作流程,包括数据预处理、模型训练、模型评估和模型部署掌握Python绘图库PyPlot的基本使用方法,能够绘制手写数字识别过程中的曲线图掌握PyTorch框架的基本使用方法,能够构建、训练和测试一个简单的手写数字识别神经网络能力目标AbilityGoals能够独立搭建Anaconda开发环境,包括Python、numpy、Matplotlib等库的安装能够访问英伟达官网并按照指南完成CUDA环境的安装及配置,以便支持GPU加速计算能够独立完成PyTorch框架的安装及配置,并在PyTorch环境中实现手写数字识别模型素养目标ProfessionalAttainments培养辩证性思维和问题解决能力培养实践操作能力培养对人工智能领域的兴趣和社会责任感目录任务1初识深度学习任务2配置PyTorch开发环境任务3快速完成手写数字识别功能01任务1初识深度学习1.1人工智能自然界四大奥秘:物质的本质、宇宙的起源、生命的本质、智能的发生对智能还没有确切的定义,主要流派有:(1)思维理论:智能的核心是思维(2)知识阈值理论:智能取决于知识的数量及一般化程度(3)进化理论:用控制取代知识的表示—控制:操控和制造

智能是知识与智力的总和知识是一切智能行为的基础获取知识并应用知识求解问题的能力人工智能:用人工的方法在机器(计算机)上实现的智能;或者说是人们使机器具有类似于人的智能1.2机器学习我们学习机器的语言机器学习我们的语言1.2机器学习机器学习MachineLearning机器学习(MachineLearning)是一种人工智能技术,它对研究问题进行模型假设,利用计算机从训练数据中学习得到模型参数,并最终对新的数据进行预测和分析。1980年起,以决策树、贝叶斯模型和支持向量机为代表的机器学习技术得到了发展,通过特征工程(FeatureEngineering),利用专家经验,人工对数据进行清洗提炼,让计算机具备一定的环境理解和预测推理能力。机器学习算法处理流程1.3深度学习训练:基于样本数据集自主进行特征提取的过程推理:新的数据集上进行预测的过程物联网大数据云计算深度学习:层次网状结构,可以自动学习数据特征的分布规律02任务2配置PyTorch开发环境2.1PyTorch概述基于Python的科学计算库,用于构建深度学习模型的开源机器学习框架语法简洁开发高效运行快速资料丰富2.2硬件配置2.3软件配置2.3.1Python环境的安装1.访问清华大学开源镜像网站:/help/anaconda/,并跳转到最新安装包下载页面(/anaconda/archive)2.3.1Python环境的安装2.下载最新的安装包,注意时间顺序2.3.1Python环境的安装3.下载后按照步骤安装,对应步骤截图参考如下,详细可见教材,安装盘注意选择空间较大的磁盘!!!注意“Createstartmenushortcuts”务必勾选!!!2.3.1Python环境的安装4.在win11的搜索栏中可以输入【AnacondaPrompt】,快速弹出命令行界面在弹出的Anaconda控制台中,输入python,出现Python环境提示信息,证明Python安装成功,键入“exit()”退出python环境,关闭对话框。2.3.2CUDA环境安装/s/1KJrZ8D3txpoIIQbSvRPL6Q?pwd=ebphCUDA11.8和配套cuDnn:CUDA12.x:/cuda-downloads一般而言,计算机的中央处理器(CPU)会针对单线程性能进行优化,但不擅长处理计算密集型任务,因此需要借助显卡的图形处理单元(GPU)进行计算。CUDA是英伟达专为GPU上的通用计算开发的并行计算平台和编程模型。在经GPU加速的应用中,工作负载的串行部分在CPU上运行,而应用的计算密集型部分则以并行方式在数千个GPU核心上运行。深度神经网络库(cuDNN)可以加速PyTorch等深度学习框架,能够以高度优化的方式实现神经网络中的前向和反向卷积、池化层、归一化和激活层等操作。/zh-cn/cudnncuDNN:解压下载后的cuDNN压缩包,选中其中bin、include和lib三个文件夹,拷贝到cuda安装目录下,一般为:C:\ProgramFiles\NVIDIAGPUComputingToolkit\CUDA\vX.XcuDnn版本要和CUDA版本对应2.3.2CUDA环境安装将cuDNN拷贝到CUDA目录2.3.3PyTorch安装condacreate-nlearn-pytorchpython=3.9#pytorch环境创建condaactivatelearn-pytorch#激活该环境pipconfigsetglobal.index-url/simple#更换pytorch安装源pip3installtorchtorchvisiontorchaudio--index-url/whl/cu118打开AnacondaPrompt,依次输入:安装pytorch成功截图2.3.3PyTorch安装pythonimporttorchprint(torch.cuda.is_available())验证安装是否成功,依次输入:验证pytorch及CUDA是否安装成功2.3.4PyCharm安装及配置PyCharm下载网址为/pycharm/download/#section=windows如果有edu邮箱,可以下载专业版(Professional),否则可以下载社区版(Community)。2.3.4PyCharm安装及配置①项目创建②③④PyCharm的使用开发环境选择2.3.4PyCharm安装及配置程序主界面PyCharm的使用创建Python程序2.3.4PyCharm安装及配置编写代码及运行PyCharm的使用03任务3完成手写数字识别功能深度学习的HelloWorld3.1手写识别开发流程创建数据集创建深度学习模型训练和评估模型保存和导出模型预测结果新的图片73.2MNIST手写数据集MNIST数据集中的数字图片是由250个不同职业的人纯手写绘制,数据集官方网址为:/exdb/mnist/包含有60000张图片作为训练集数据,10000张图片作为测试集数据,且每一个训练元素都是28×28像素的手写数字图片,每一张图片代表的是从0到9中的每个数字数据集大小[60000,784](60000,28x28)标签表示:one-hot编码类别0:[1,0,0,0,0,0,0,0,0,0]类别1:

[0,1,0,0,0,0,0,0,0,0]

类别2:

[0,0,1,0,0,0,0,0,0,0]…3.3完成代码编写1.创建Chp12.创建utils.py①绘制曲线②显示手写文字③标签转为one-hot3.创建mnist_recognize.py①加载训练集②加载测试集③数据可视化④定义网络模型⑤训练网络模型⑥网络推理上个任务已完成项目创建通过可视化工具监测训练效果和模型性能具体代码参见教材,运行结果,准确率acc:0.969104任务4完成作业作业简述深度学习的应用领域。在任务3的1.3.3中给出手写数字识别测试代码,实现了预测其中最为可能的值,并评估了其准确率,一般该评估方式称为top-1accuracy,可以进一步输出前5个可能的值,预测其top-5accuracy,修改步骤4代码,实现top-5accuracy的评估。PyTorch深度学习项目教程项目2二维曲线拟合CURVEFITTING要点:PyTorch基础语法、神经网络基础、多层感知机、正向传播、反向传播、损失函数和优化器讲课人:0讲课时间:2025年3月12日项目背景ProjectBackground要点:回归任务是深度学习的基本任务。问题:工业上很多测量无法直接测量最终结果。例如想获得不规则物体的周长,但是转速和激光点到平台的距离,如何找到最能代表数据特征的曲线?解决:在工业测量和检测任务中,曲线拟合是一个广泛应用的技术。曲线拟合是一种利用已知数据点来推测未知数据点的方法,常常用于分析传感器测量得到的数据,并根据这些数据预测未来的趋势。知识目标KnowledgeObjectives掌握PyTorch张量数据结构及其运算掌握PyTorchGPU计算方法掌握神经网络概念及多层感知机全连接网络的搭建掌握损失函数的选择和迭代优化机制能力目标AbilityGoals能够根据需求自定义PyTorch数据集类能够继承自PyTorch的nn.Module类,编写神经网络模型类的代码能够编写训练代码,包括数据加载、模型训练、损失计算和参数更新等步骤具备对网络模型性能进行初步评估的能力,包括损失函数值、准确率等指标的计算素养目标ProfessionalAttainments具备项目化思维,能够对工作任务进行有效分解,并主动承担相应的任务具备较强的自主学习能力,能够主动探索并应用新的知识和技能具备创新意识,能够针对不同的曲线拟合场景提出新的解决方案能够从实际应用角度出发,思考和探索利用模型进行预测任务的应用场景目录任务1理解曲线拟合需求任务2掌握PyTorch基本语法任务3搭建二维曲线数据集任务4搭建网络结构任务5训练网络模型任务6网络推理任务7模型结构分析任务8拟合更多的二维曲线01任务1理解曲线拟合需求1.1曲线拟合

1.2欠拟合与过拟合欠拟合:如果数据本身不符合拟合曲线的模型,那么拟合结果可能会出现偏差,甚至出现错误过拟合:过于复杂地描述了数据,对当前采样数据表现良好,但是在新的数据点上预测精度下降

02任务2掌握PyTorch基本语法2Tensor基本操作一览2.1创建TensorTensor是指多维张量(数组),对应的,零维张量称之为标量,一维张量称之为矢量,二维张量称之为矩阵importtorch#标量scalar=torch.tensor(1)#向量vector=torch.tensor([1,1])#矩阵matrix=torch.tensor([[1,2],[3,4]])#N维张量tensor_n=torch.rand(3,5,2)

标量向量矩阵2.2索引Tensor#访问向量中的第一个元素print(vector[0])#访问矩阵中的第一行元素print(matrix[0,:])#访问矩阵中的第二列元素print(matrix[:,1])#访问3维张量中的最后一组矩阵中,除了第一行以外的数据print(tensor_n[-1,1:-1,:])索引位置对应为[维数1,维数2,维数3,…,维数n]。其中:“:”为返回该维度的所有值;“m:n”可以返回该从起始位置m到结束位置n-1的数组元素;首个位置的索引编号为0;负数为从尾部计算索引位置,尾部的首个位置索引编号为“-1”2.3形状变换1.维度交换228×228×3(高度×宽度×通道数)的RGB图片转换为3×228×228(通道数×高度×宽度)的变换#模拟一张RGB图像image=torch.randint(0,255,(114,228,3))print(image.shape)#输出为:torch.Size([114,228,3]),分别对应图像的高度、宽度和通道数#将H×W×C转换为C×H×Wimage=image.permute(2,1,0)print(image.shape)#输出为:torch.Size([3,228,114]),分别对应图像的通道数、宽度和高度2.3形状变换2.升降维度可以通过unsqueeze()和squeeze()函数来实现维度的提升和降低#提升维度image=image.unsqueeze(0)print(image.shape)#输出为:torch.Size([1,3,228,114])torch.Size([3,228,114])#降低维度image=image.squeeze(0)print(image.shape)#输出为:torch.Size([3,228,114])2.3形状变换3.改变形状可以通过reshape()和view()函数改变张量的维度data=torch.randn(4,4)print("数据变形前的形状:{}".format(data.shape))#torch.Size([4,4])data=data.view(2,8)print("数据view变形后的形状:{}".format(data.shape))#torch.Size([2,8])data=data.permute(1,0)print("数据维度转换后的形状:{}".format(data.shape))#torch.Size([8,2])data=data.reshape(4,4)#此处不能用view,因其不能处理内存不连续Tensor的结构print("数据reshape变形后的形状:{}".format(data.shape))#torch.Size([4,4])2.4数学运算1.算术运算注意其中的机制:广播以及in_place操作#标量scalar=torch.tensor(1)#向量vector=torch.tensor([1,1])#标量与向量相加,广播print(vector+scalar)#输出为tensor([2,2])print(torch.add(vector,scalar))#输出为tensor([2,2])print(vector.add(scalar))#输出为tensor([2,2])print(vector)#输出为tensor([1,1]),vector本身没有被改变print(vector.add_(scalar))#in_place:当在一个张量tensor上进行操作之后,直接修改了这个tensor本身print(vector)#输出为tensor([2,2]),带有_的函数操作,会对当前值产生影响2.4数学运算2.矩阵运算注意点乘和矩阵乘法a=torch.full([2,2],3,dtype=torch.float)b=torch.ones(2,2)c=a*b#矩阵元素相乘torch.mm(a,b)#矩阵相乘torch.matmul(a,b)#矩阵相乘a@b#矩阵相乘DatatypedtypeTensortype16-bitfloattorch.float16/torch.halftorch.HalfTensor32-bitfloattorch.float32/torch.floattorch.FloatTensor64-bitfloattorch.float64/torch.doubletorch.DoubleTensor8-bitint(u)torch.uint8torch.ByteTensor8-bitint8torch.CharTensor16-bitint16/torch.shorttorch.ShortTensor32-bitint32/torch.IntTensor64-bitint64/torch.longtorch.LongTensorbooleanTorch.boolTorch.BoolTensorPyTorch支持的数据类型tensor.type()返回Tensor类型,如torch.LongTensor等tensor.dtype返回tensor数据自身的类型,如8,torch.long等2.4数学运算3.指数运算pow、sqrt、rsqrt、exp和loga=torch.full([2,2],3)a.pow(2)#平方b=a**2#平方b**(0.5)#开根号torch.sqrt(b.to(torch.double))#开根号torch.rsqrt(b.to(torch.double))#开根号之后求倒数a=torch.exp(torch.ones(2,2))#指数操作torch.log(a)#默认以e为底2.4数学运算4.均值、方差、标准差运算mean、var、stddata=torch.Tensor([1,2,3])#1.求均值dat_mean=torch.mean(data)#=>dat_mean=tensor(2.),均值为2#2.求方差dat_var=torch.var(data)#=>dat_var=tensor(1.),方差为1#3.求标准差data_std=torch.std(data)#=>data_std=tensor(1.),标准差为1

2.5广播机制在进行逐元素操作时,如果两个张量的形状不完全匹配,PyTorch会自动使用广播机制来进行形状的扩展,使得两个张量的形状相容,从而进行逐元素操作张量维度个数不同:将维度较少的张量通过在前面插入长度为1的维度来扩展,直到两个张量具有相同的维度个数张量在某个维度上的长度不匹配:如果其中一个张量在该维度上的长度为1,那么可以通过复制该张量的值来扩展该维度,使得两个张量在该维度上的长度相同

报错:如果以上两个步骤无法使得两个张量的形状匹配,那么会抛出形状不兼容的错误#创建两个形状不同的张量a=torch.tensor([[1,2,3],[4,5,6]])#形状为(2,3)b=torch.tensor([10,20,30])#形状为(3,)#使用广播机制进行逐元素相加c=a+b#广播机制会自动将b扩展为(2,3),使得a和b的形状相同print(c)#输出为tensor([[11,22,33],#[14,25,36]])2.6Tensor和NumPy的转换NumPy是机器学习和数据处理的Python基础库,其操作和Tensor类似,很多第三方库,如OpenCV-Python等,基于NumPy实现了数据预处理、数据增强等操作importnumpyasnpa=torch.tensor([4.0,6])print(a.dtype)#=>torch.float32b=a.numpy()#tensor转换为numpyprint(b.dtype)#=>float32c=torch.from_numpy(b)#numpy转换为tensorprint(c.dtype)#=>torch.float322.7在GPU操作GPU用来执行耗时的密集型计算操作,CPU用来执行调度、任务处理等控制型操作iftorch.cuda.is_available():device=torch.device("cuda")x=torch.randn(2,3)print(x)y=x.to(device)z=torch.randn(2,3,device="cuda")print(y+z)#同时在GPU上才能相加print(z.to("cpu"))#转换回cpu03任务3搭建二维曲线数据集3数据集数据集(Dataset)一组样本的集合(Acollectionofexamples)。样本(Example):

要素:特征、标签数据集的一行。一个样本包含一个或多个特征,此外还可能包含一个标签。标准数据集(StandardDataset)符合一定规范要求的数据集。

classCurveDataSetX2(Dataset):

def__init__(self,start,end,num=100):

#返回大小为(end−start)/step大小的一维张量

#参数1为初始值,参数2为结束值,参数3为步长#unsqueeze()用于实现数据升维,满足PyTorch的数据格式要求

self.x=torch.arange(start,end,

(end-start)*1.0/num,

dtype=torch.float32).unsqueeze(1)

noise=torch.normal(0,0.1,self.x.shape)

self.y=self.x.pow(2)+noise

def__getitem__(self,index):

xi=self.x[index]

yi=self.y[index]

returnxi,yi

def__len__(self):

returnlen(self.x)

@staticmethod

defx2(x):

returnx**2PyTorch在数据集构建上提供了一个Dataset抽象类。任何自定义的数据集都需要继承这个类并实现它的__getitem__()方法和__len__()方法

数据集可视化defvisualizing_data(func,x,y_predict,epoch=0,save=False,savePrefix=''):

y=func(x)

plt.figure()

plt.title('curve(epoch={})'.format(epoch))

plt.plot(x,y,color='red',linewidth=1.0,linestyle='-’,

label='groundtruth')

plt.plot(x,y_predict,color='blue',linewidth=1.0,

linestyle='--',

label='predict')

plt.legend(loc='upperright')

ifsave:

plt.savefig('{0}-epoch-{1}.svg'.format(savePrefix,epoch),format='svg',dpi=300)

plt.show()

classCurveDataSetSinX(Dataset):

def__init__(self,start,end,num=100):

self.x=torch.arange(start,end,

(end-start)*1.0/num,

dtype=torch.float32).unsqueeze(1)

noise=torch.normal(0,0.1,self.x.shape)

self.y=torch.sin(self.x)+noise

def__getitem__(self,index):

xi=self.x[index]

yi=self.y[index]

returnxi,yi

def__len__(self):

returnlen(self.x)

@staticmethod

defsin(x):

returnnp.sin(x)04任务4搭建神经网络4.1神经网络人脑中的生物神经网络计算机中的人工神经网络结构模仿网络模仿神经元神经元连接多层感知机感知机4.1神经网络

4.2激活函数神经网络的线性操作可以进行传导,但多次传导的线性预测还是线性预测,对于复杂分析缺乏拟合能力

为了提高模型的表达能力,在神经元的传导之间,添加了一个非线性函数,并称之为激活函数4.2激活函数

激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中,以下为常见的一些激活函数4.3多层感知机(全连接网络)classMLP(nn.Module):

def__init__(self,input_features=1,output_num=1):

#使用super调用父类中的init函数对网络进行初始化

super(MLP,self).__init__()

#构建网络子模块,存储到MLP的module属性中

self.fc1=nn.Linear(input_features,20)

self.fc2=nn.Linear(20,20)

self.fc3=nn.Linear(20,output_num)

#按照每层网络结构写处forward函数,即如何进行前向传播

defforward(self,x):

out=torch.tanh(self.fc1(x))

out=torch.tanh(self.fc2(out))

out=self.fc3(out)

returnout

网络参数个数

05任务5训练网络模型5.1训练的意义多次的投篮训练为了命中目标#单个数

dumpy_input=torch.tensor(1.0,dtype=torch.float32).unsqueeze(0)

model=MLP()

output=model(dumpy_input)

print(output)

#一组数同时计算其输出

dumpy_input=torch.tensor([1.0,2.0],dtype=torch.float32).unsqueeze(1)

model=MLP()

output=model(dumpy_input)

print(output)

多次的网络训练为了预测结果5.2正向传播网络计算过程是从最里层的括号逐级到外层的,这个计算过程在深度学习中被称为正向传播5.3损失函数损失函数是衡量模型推理和真值之间差异进行量化的函数

5.4反向传播与优化损失函数梯度下降法:优化损失函数到最小

L2Loss的最小点刚好位于函数导数为0的点,而且越接近最小点,函数导数的值越小。因此可以通过求函数导数的方法进行迭代,函数的一阶导数也称为梯度,沿着导数减少的方向逐渐逼近最优点的方法也称为梯度下降法实际开发过程中,由于参数众多梯度下降是多次求导迭代的过程5.4反向传播与优化损失函数

5.5训练迭代过程多次迭代的拟合过程训练使得损失函数值逐渐减小06任务6网络推理6网络推理importtorch

device=torch.device("cuda:0"iftorch.cuda.is_available()else"cpu")

model=torch.load('best.pth')

model.eval()

inputs=[-2,-1,0,1,2,18,20]

forinputininputs:

input_tensor=torch.tensor(input,dtype=torch.float32)

outputs=model(input_tensor.to(device).unsqueeze(0))

print(outputs.squeeze(0).cpu().detach().numpy())输入值预测值期望值-23.998024-11.0044901100.079760075010.93614674124.121199641817.6481253242017.461924400在原始观测数据集上增加了噪声,所以预测值的拟合效果接近但不等于我们的期望值需要注意的是,训练数据集的取值范围为[-4,4),超出该取值范围的值,模拟缺乏对应的预测能力回顾人工智能概念:智能=知识+智力,网络仅限于对自己了解的知识进行推理07任务7模型结构分析7.1onnx格式OpenNeuralNetworkExchange(ONNX,开放神经网络交换)格式,是一个用于表示深度学习模型的文件格式标准,可以使不同的人工智能框架(如Pytorch,MXNet等)可以采用相同格式存储模型数据并交互7.2onnx格式导出importos

importtorch

model=torch.load(os.path.join('best.pth'))

model.eval()

device=torch.device("cuda:0"iftorch.cuda.is_available()else"cpu")

dummy_input=torch.randn(1,1).to(device)

torch.onnx.export(

model,

dummy_input,

'model_x2.onnx',

input_names=['input'],

output_names=['output'],

#dynamic_axes={'input':{0:'batch_size'},'output':{0:'batch_size'}}

)7.3onnx格式查看Netron软件下载地址:/lutzroeder/netron或打开https://netron.app/网站可以利用该软件分析我们的网络模型07任务8拟合更多的二维曲线8.1y=sin(x)拟合train_data=CurveDataSetSinX(start=-4,end=4,num=INPUT_NUM)valid_data=CurveDataSetSinX(start=-4,end=4,num=INPUT_NUM)8.2提升模型表现classMLP(nn.Module):

def__init__(self,input_features=1,output_num=1):

#使用super调用父类中的init函数对网络进行初始化

super(MLP,self).__init__()

#构建网络子模块,存储到MLP的module属性中

self.fc1=nn.Linear(input_features,128)

self.fc2=nn.Linear(128,256)

self.fc3=nn.Linear(256,output_num)

#按照每层网络结构写处forward函数,即如何进行前向传播

defforward(self,x):

out=torch.tanh(self.fc1(x))

out=torch.tanh(self.fc2(out))

out=self.fc3(out)

returnout重新训练后的网络,增加了神经元,对于y=sinx曲线具备了更好的表现力,但同时也提高了网络模型的参数个数,修改后的模型参数个数:(128+128)+(128*256+256)+(256+1)=33,537个。训练口号:更高、更快、更强实际项目上,需要根据算力等资源取舍09任务9完成作业作业1.修改mlp.py中的代码,将forward函数中的激活函数调整为torch.sigmoid,运行程序,观察结果。2.修改train-x2.py中的代码,调整以下参数,观察运行结果,例如将生成随机数据由400个改为200个,注意同步修改BATCH_SIZE个数,对应代码位置为(以下为未修改之前的状态):INPUT_NUM=400#生成400个随机数据MAX_EPOCH=300#训练轮数为300轮BATCH_SIZE=400#单次次训练读取的数据个数LR=0.01#学习率,即利用反向传播求导后,更新参数值的步长w=w-lr*gradwlog_interval=10#训练信息输出频率val_interval=10#验证信息输出频率PyTorch深度学习项目教程项目3猫狗图像分类IMAGECLASSIFICATION要点:监督学习、分类任务、多层感知机、数据增强讲课人:0讲课时间:2025年3月12日项目背景ProjectBackground要点:分类任务是深度学习的基本任务。问题:猫狗图像分类是一个经典的计算机视觉问题,目标是对给定的图像进行分类,判断图像中是猫还是狗。由于猫狗的相似性,将二者完全分开面临极大的挑战。解决:通过监督学习进行解决,即通过带标签的图像数据集来进行训练和评估模型。训练阶段,模型接收大量的猫狗图像作为输入,并对其进行学习,调整模型参数以最小化预测结果与真实标签之间的差异。评估阶段,使用另外的图像数据集对训练好的模型进行测试和验证其分类准确性。知识目标KnowledgeObjectives理解并应用PyTorch中DataSet类进行数据增强,以提高模型泛化能力学会使用torchstat工具包对模型的参数进行统计分析,以监控模型训练状态掌握logging工具包的使用,实现训练过程的日志记录与输出,便于模型调试与分析理解回归与分类任务的区别,并掌握分类任务中的关键算法学习和掌握Sigmoid与Softmax函数在不同分类任务中的应用能力目标AbilityGoals能够利用网络资源加载和处图像数据集,进行有效的数据预处理和增强。能够独立搭建并训练一个全连接神经网络模型,用于图像分类任务。能够运用日志记录和其他评估手段,对模型的性能进行监控和分析,提出改进策略素养目标ProfessionalAttainments培养项目化思维,养成项目开发的全局视角,合理规划项目进度增强自主学习能力,能够独立分析问题,寻找解决方案,并在项目中实践提升自我学习意识,通过本项目的学习,激发对监督学习数据集收集和构建的兴趣,主动寻找和应用更多的学习资源目录任务1准备猫狗数据集任务2设计图像分类全连接网络任务3训练图像分类网络任务4应用分类网络推理更多图片任务5认识深度学习的主要任务01任务1准备猫狗数据集1.1数据集获取Kaggle网站/competitions/dogs-vs-cats/data作者的百度网盘/s/1e0QIoA3nqoFj-HjNjQtkbg?pwd=18nf1.2数据整理及划分对收集到的图像进行预处理:可以使用图像编辑软件进行裁剪、缩放、旋转、去除噪声等预处理操作可参见OpenCV类的教材书籍一般将数据集分为训练集、验证集和测试集3类,根据数据样本数量可以按照8:1:1、8:2:0或7:2:1等比例进行划分。训练集:用于训练模型验证集:用于在训练过程中判断模型是否收敛测试集:用于评估模型的性能本项目,首先创建train、val和test文件夹,在对应文件夹内再创建cat、dog等具体类别,如图所示。之后在对应的类别文件夹内放置相应类别图片,即可完成数据集的构建1.3创建数据集类classDogCatDataset(Dataset):

def__init__(self,data_dir,transform=None):

“”“

分类任务的Dataset

:paramdata_dir:str,数据集所在路径

:paramtransform:torch.transform,数据预处理

”“”

self.label_name={“cat”:0,“dog”:1}#需要根据实际训练任务修改

self.data_info=self.get_img_info(data_dir)#data_info存储所有图片路径和标签,在DataLoader中通过index读取样本

self.transform=transform

def__getitem__(self,index):

path_img,label=self.data_info[index]

img=Image.open(path_img).convert(‘RGB’)#0~255

ifself.transformisnotNone:

img=self.transform(img)#在这里做transform,转为tensor等等

returnimg,label

def__len__(self):

returnlen(self.data_info)

defget_img_info(self,data_dir):

data_info=list()

forroot,dirs,_inos.walk(data_dir):

#遍历类别

forsub_dirindirs:

img_names=os.listdir(os.path.join(root,sub_dir))

img_names=list(filter(lambdax:x.endswith(‘.jpg’),img_names))

#遍历图片

foriinrange(len(img_names)):

img_name=img_names[i]

path_img=os.path.join(root,sub_dir,img_name)

label=self.label_name[sub_dir]

data_info.append((path_img,int(label)))

returndata_info项目组织结构02任务2设计图像分类网络2分类MLPclassMLP(nn.Module):

def__init__(self,classes=2):#64x64x3

#使用super调用父类中的init函数对网络进行初始化

super(MLP,self).__init__()

#构建网络子模块,存储到MLP的module属性中

self.fc1=nn.Linear(64*64*3,32*32*3)

self.fc2=nn.Linear(32*32*3,16*16*3)

self.fc3=nn.Linear(16*16*3,256)

self.fc4=nn.Linear(256,128)

self.fc5=nn.Linear(128,classes)

#按照每层网络结构写处forward函数,即如何进行前向传播

defforward(self,x):

x=x.view(x.size(0),-1)#重置为[batchsize,一维数组]的形状

out=torch.relu(self.fc1(x))

out=torch.relu(self.fc2(out))

out=torch.relu(self.fc3(out))

out=torch.relu(self.fc4(out))

out=self.fc5(out)

returnout总参数个数:40,341,890torchstat模块统计:项目组织结构03任务3训练图像分类网络3.1训练日志importlogging

defget_logger(filename,verbosity=1,name=None):

level_dict={0:logging.DEBUG,1:logging.INFO,2:logging.WARNING}

formatter=logging.Formatter(

"[%(asctime)s][%(filename)s][line:%(lineno)d][%(levelname)s]%(message)s"

)

logger=logging.getLogger(name)

logger.setLevel(level_dict[verbosity])

fh=logging.FileHandler(filename,mode="a",encoding='utf-8')

fh.setFormatter(formatter)

logger.addHandler(fh)

sh=logging.StreamHandler()

sh.setFormatter(formatter)

logger.addHandler(sh)

returnlogger

if__name__=='__main__':

logger=get_logger('test.log')

("这是一条测试指令")项目组织结构记录训练过程,更好追溯问题3.2训练过程项目组织结构#参数设置MAX_EPOCH=30BATCH_SIZE=128LR=0.01log_interval=10val_interval=1device=torch.device("cuda:0"iftorch.cuda.is_available()else"cpu")训练初始化train_transform=transforms.Compose([transforms.Resize((64,64)),transforms.RandomCrop(64,padding=4),transforms.ToTensor(),transforms.Normalize(norm_mean,norm_std),])train_data=DogCatDataset(data_dir=train_dir,transform=train_transform)train_loader=DataLoader(dataset=train_data,batch_size=BATCH_SIZE,shuffle=True,num_workers=4)配置数据集net=MLP(classes=2)net.to(device)加载网络模型criterion=nn.CrossEntropyLoss()#损失函数设置optimizer=optim.SGD(net.parameters(),lr=LR,momentum=0.9)#优化器设置scheduler=torch.optim.lr_scheduler.StepLR(optimizer,step_size=100,gamma=0.1)#设置学习率下降策略

配置训练策略forepochinrange(MAX_EPOCH):...fori,datainenumerate(train_loader):

迭代训练3.2.1初始化参数初始化训练参数,由于数据量超过1万张图片,一般需要三位数的训练轮次才能让模型收敛,这里可以先预设一个小MAX_EPOCH值,便于观察程序模块是否配置正确:判断是否安装了英伟达GPU及其CUDA驱动:MAX_EPOCH=30

BATCH_SIZE=128

LR=0.01

log_interval=10

val_interval=1device=torch.device("cuda:0"iftorch.cuda.is_available()else"cpu")3.2.2配置数据集split_dir=os.path.join("data","dogs-vs-cats")

train_dir=os.path.join(split_dir,"train")

valid_dir=os.path.join(split_dir,"val")

norm_mean=[0.485,0.456,0.406]

norm_std=[0.229,0.224,0.225]

train_transform=transforms.Compose([

transforms.Resize((64,64)),

transforms.RandomCrop(64,padding=4),

transforms.ToTensor(),

transforms.Normalize(norm_mean,norm_std),

])

valid_transform=transforms.Compose([

transforms.Resize((64,64)),

transforms.ToTensor(),

transforms.Normalize(norm_mean,norm_std),

])

#构建MyDataset实例

train_data=DogCatDataset(data_dir=train_dir,transform=train_transform)

valid_data=DogCatDataset(data_dir=valid_dir,transform=valid_transform)

#构建DataLoder

train_loader=DataLoader(dataset=train_data,batch_size=BATCH_SIZE,shuffle=True,num_workers=4)

valid_loader=DataLoader(dataset=valid_data,batch_size=BATCH_SIZE,shuffle=True)transforms.Compose:由Pytorch的torchvision库提供,包括图像缩放、裁剪、翻转、对比度变换等多种类型,充分利用模型的4000万个参数记住多样的数据变化,提高模型的表达能力DogCatDataSet:定义数据集DataLoader:主要作用是一次加载一部分数据到内存,防止数据一次性加载内存或显存容量不足,参数shuffle=True的意思为打乱数据加载顺序,shuffle的英文原意为洗牌3.2.3加载网络模型net=MLP(classes=2)

net.to(device)#GPU3.2.4配置训练策略1.配置损失函数criterion=nn.CrossEntropyLoss()#选择损失函数

3.2.4配置训练策略2.优化器optimizer=optim.SGD(net.parameters(),lr=LR,momentum=0.9)#选择优化器

scheduler=torch.optim.lr_scheduler.StepLR(optimizer,step_size=100,gamma=0.1)#设置学习率下降策略在PyTorch中,优化器(Optimizer)是用于更新神经网络参数的工具。它根据计算得到的损失函数的梯度来调整模型的参数,以最小化损失函数并改善模型的性能。即优化器是一种特定的机器学习算法,通常用于在训练深度学习模型时调整权重和偏差。是用于更新神经网络参数以最小化某个损失函数的方法。它通过不断更新模型的参数来实现这一目的。

SGD(StochasticGradientDescent):Adam(AdaptiveMomentEstimation):通过维护模型的梯度和梯度平方的一阶动量和二阶动量,来调整模型的参数。Adam的优点是计算效率高,收敛速度快,缺点是需要调整超参数SGD的基本思想是,通过梯度下降的方法,不断调整模型的参数,使模型的损失函数最小化。SGD的优点是实现简单、效率高,缺点是收敛速度慢、容易陷入局部最小值。RMSprop(RootMeanSquarePropagation):是一种改进的随机梯度下降优化器,用于优化模型的参数。基本思想是,通过维护模型的梯度平方的指数加权平均,来调整模型的参数。RMSprop的优点是收敛速度快,缺点是计算复杂度高,需要调整超参数3.2.5迭代训练数据模型损失函数优化器损失函数Loss给到模型Autograd反向传播计算梯度,并输入到优化器更新模型参数Dataloader按照BatchSize加载数据迭代训练过程04任务4应用分类网络推理4推理path_img="data/dogs-vs-cats/val/dog/dog.11250.jpg"

label_name={0:"cat",1:"dog"}

norm_mean=[0.485,0.456,0.406]

norm_std=[0.229,0.224,0.225]

valid_transform=transforms.Compose([

transforms.Resize((64,64)),

transforms.ToTensor(),

transforms.Normalize(norm_mean,norm_std),

])

device=torch.device("cuda:0"iftorch.cuda.is_available()else"cpu")

img=Image.open(path_img).convert('RGB')#0~255

img=valid_transform(img)#在这里做transform,转为tensor等等

model=torch.load('train_process/best.pth')

model.eval()

outputs=model(img.to(device).unsqueeze(0))

print(outputs)

_,predicted=torch.max(outputs.data,1)

confidence=torch.softmax(outputs,1).cpu().squeeze(0).detach().numpy()

print(confidence)

label=predicted.cpu().detach().numpy()[0]

print(label)

print(f'预测结果为{label_name[label]},置信度为{confidence[label]}’)项目组织结构4推理置信度confidence=torch.softmax(outputs,1).cpu().squeeze(0).detach().numpy()神经网络outputs输出结果不够直观,我们期望输出结果为有多大概率为猫,以及有多大概率为狗

05任务5认识深度学习的主要任务5深度学习的主要任务1.回归(Regression)回归任务的目标是预测连续数值的输出。深度学习在回归问题中可以学习到数据之间的复杂关系。例如,预测房价、股票价格、气温等连续变量的值。在回归任务中,我们可以使用不同的神经网络架构(如多层感知器、卷积神经网络)和损失函数(如均方误差、平均绝对误差)来训练模型。2.分类(Classification)分类任务的目标是将输入数据分为不同的类别。深度学习在分类问题中能够有效地从大量的特征中进行学习,自动提取数据中的有用信息,从而实现高准确率的分类。例如,图像分类、语音识别、文本分类等任务都属于分类问题。在分类任务中,我们可以使用不同的神经网络架和损失函数来训练模型。5.1线性回归线性回归本质就是对数据的线性拟合,项目2所述二维曲线拟合就是其中的一种应用。我们给出了一个input输入,要求预测另一个output输出,这样就构成了最简单的单变量回归模型。

5.1线性回归例如经典的波士顿房价预测案例,包括如下字段:CRIM:城市人均犯罪率ZN:住宅用地所占比例INDUS:城市中非商业用地所占尺寸CHAS:查尔斯河虚拟变量NOX:环保指数RM:每栋住宅的房间数AGE:1940年以前建成的自建单位的比例DIS:距离5个波士顿就业中心的加权距离RAD:距离高速公路的便利指数TAX:每一万元的不动产税率PTRATIO:城市中教师学生比例B:城市中黑人比例LSTAT:城市中有多少百分比的房东属于低收入阶层PRICE:自住房价格的中位数/ml/machine-learning-databases/housing/housing.data可利用到目前未知的所学知识实现一个波士顿房价预测的项目5.2逻辑回归或二分类线性回归预测的是一个连续值,逻辑回归给出的“是”和“否”的回答。“是”和“否”是一种概率问题,就是多大的可能性为“是”,多大的可能性为“否”。例:明天下雨的概率,10%下雨,90%不下雨。这种预测就称为逻辑回归。逻辑回归只需要对我们的output输出加上一个Sigmoid对数概率回归函数,就可以用来求其输出的概率5.3多分类Sigmoid激励函数解决的是二分类的问题,对于多个选项的问题,我们可以使用Softmax激励函数,它是Sigmoid在n个可能不同的值上的推广。多分类数据集相对于猫狗大战数据来讲,数据规模和类别更多,其中ImageNet是最为知名的一个数据集。ImageNet包含超过1500万张标记高分辨率图像的数据集,属于大约22000个类别。ImageNet模型的排名见/sota/image-classification-on-imagenet06任务6完成作业作业总结猫狗分类数据集创建的方法,可以按照该数据集格式,自己创建各种分类数据集,例如杯子、图书等。修改图像分类网络结构中的激活函数和模型参数,例如将输入改为256×256×3,如果输入修改后,还需要修改哪些参数?修改训练轮次,完成300轮训练,可以比较检测精度是否提升。完成波士顿房价预测项目。PyTorch深度学习项目教程项目4提升猫狗图像分类的准确率CONVOLUTIONALNEURALNETWORK要点:监督学习、分类任务、多层感知机、数据增强讲课人:0讲课时间:2025年3月12日项目背景ProjectBackground问题:项目3完成猫狗图像分类项目框架的搭建,但是其分类的准确率仅有69%,一般在实际应用场景中,准确率需要达到95%以上。解决:为了提高图像分类的准确率,一种名为卷积神经网络(ConvolutionalNeuralNetwork,CNN)的网络结构被提出来,通过在网络中使用卷积层(ConvolutionalLayer)、池化层(PoolingLayer)和全连接层(FullyConnectedLayer)来自动学习图像中的空间层次特征。由于其准确性和易用性,迅速成为深度学习中应用广泛的架构之一。知识目标KnowledgeObjectives深入理解卷积神经网络(CNN)的基本概念、结构和原理学习卷积层、池化层和全连接层的功能,以及它们在图像特征提取中的作用学习不同经典卷积神经网络架构,如AlexNet、VGGNet、ResNet、MobileNet等,并理解它们的优缺点及适用场景掌握卷积层尺寸(如滤波器大小、步长、填充等)的计算方法及其对模型性能的影响能力目标AbilityGoals能够具体分析卷积网络各层之间的关系,并理解整个网络的训练和推理过程熟练运用Dropout、MaxPool2d、BatchNormalization等模型优化技术以提高网络性能和防止过拟合掌握使用PyTorch等深度学习框架构建和训练卷积神经网络,并应用于图像分类具备调整网络结构和超参数来优化模型性能的能力素养目标Pr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论