版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
123CONTENT深度学习简介——深度学习概述➢
自2006年,深度学习(Deep
Learning)已经成为机器学习研究中的一个新兴领域,通常也被叫做深层结构学习或分层学习。其动机在于建立、模拟人脑进行分析、学习的神经网络。深度学习被引入,使得机器学习更接近于最初的目标----人工智能(AI,Artificial
Intelligence)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。➢
深度学习就是一种包含多个隐藏层(越多即为越深)的感知机,它通过组合底层特征,形成更为抽象的高层表示,用于描述被识别对象的高级属性类别或特征。能自生成数据的中间表示(这个表示是人为不可理解的)是深度学习区别于其他机器学习算法的独门绝技。深度学习简介——深度学习的基本概念回归(Regression)
y是连续值(实数或连续整数),f
(x)
的输出也是连续值。这种类型的问题就是回归问题。对于所有已知或未知的
(x,y),使得
f(x,θ
)
和
y尽可能地一致。损函数通常定义为平方误差。分类(Classification)
y是离散的类别标记(符号),就是分类问题。损失函数有一般用
0-1
损失函数或负对数似然函数等。在分类问题中,通过学习得到的决策函数
f(x,θ
)也叫分类器。聚类(Clustering)
只有原始数据x,没有确定的目标f
(x),基于数据的内部结构寻找观察样本的自然族群(即集群)。聚类的特点是训练数据没有标注,通常使用数据可视化等方式评价结果。深度学习简介——深度学习的基本概念聚类回归分类深度学习简介——深度学习的基本概念过拟合、欠拟合深度学习简介——深度学习与浅层学习•
浅层模型的一个共性是仅含单个将原始输入信号转换到特定问题空间特征的简单结构。典型的浅层学习结构包括传统隐马尔科夫模型(HMM)、条件随机场(CRFs)、最大熵模型(MaxEnt)、支持向量机(SVM)、核回归及仅含单隐层的多层感知器(MLP)等。•
浅层结构的局限性在于有限的样本和计算单元情况下对复杂的函数表示能力有限,针对复杂分类问题其泛化能力受到一定的制约。•
受到大脑结构分层的启发,神经网络的研究,发现多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画。•
深度学习可以通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本中集中学习数据及本质特征的能力。简单的说,就是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。因此,“深度模型”是手段,“特征学习”是目的。➢
强调了模型结构的深度,通常有5-10多层的隐层节点;➢
明确突出了特征学习的重要性,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息深度学习简介——特征表示•
人工特征工程+分类器分类器(SVM、NB、MaximumEntropy、CRF)特征抽取(Segmentation、PCA、Shape)深度学习简介——特征表示•
自动学习多尺度的特征表示Mid-levelFeaturesLow-levelFeaturesHigh-levelFeaturesClassifier深度学习简介——应用场景无人驾驶人脸识别•深度学习利用其深层的神经网络,通过一定的算法能训练出一个识别率非常高的分类器,从而能够使环境感知部分高精度的完成,为驾驶决策模块提供正确的环境信息,保证无人驾驶正常的完成。•人脸信息的识别,是对人脸的信息加以提取然后进行识别的办法,一个最重要的目标就是分辨不同人的信息,辨别身份,常用于安放领域,开户审核,考勤签到等。面部识别的主要方式有:几何结构、子空间局部特征以及深度学习。文字识别语音识别•基于深度学习的文字识别系统的实现方法,属于图像处理技术领域,将包含文字的图片进行预处理、切分、识别,重组成一段文本,从而实现图片到文本的转换。涉及到图像预处理、图片切分、图片识别和文字重组。•一个完整的语音识别系统可大致分为3部分:语音特征提取、声学模型与模式匹配和语言模型与语言处理。其中声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。深度学习简介——常用的模型LeNet
YannLeCun在1998年设计并提出
7层
识别手写数字的最经典的卷积神经网络深度学习简介——常用的模型AlexNet
2012ILSVRCwinner
8层
错误率:Less
that40%error(top-1)andlessthan20%(top-5)深度学习简介——常用的模型VGG16
2014牛津大学提出
16层
错误率:ILSVRC比赛中,VGG
在Top-5中错误了为7.7%深度学习简介——常用的模型GoogleNet
2014ILSVRCwinner
22层
错误率:6.7%深度学习简介——常用的模型ResNet
2015ILSVRCwinner
152层
错误率:3.57%前馈神经网络前馈神经网络••前馈神经网络的定义前馈神经网络的理解感知机••感知机定义感知机的理解BP算法•BP算法的定义梯度下降.•前馈神经网络Feed
Forward
Neural
Networks前馈神经网络是一种最简单的神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层.各层间没有反馈。前馈神经网络Feed
Forward
Neural
Networks感知机
Perceptron感知器是对生物神经细胞的简单数学模拟,是最简单的人工神经网络,只有一个神经元。
感知器也可以看出是线性分类器的一个经典学习算法。细胞体(Soma)中的神经细胞膜上有各种受体和离子通道,胞膜的受体可与相应的化学物质神经递质结合,引起离子通透性及膜内外电位差发生改变,产生相应的生理活动:兴奋或抑制。
细胞突起是由细胞体延伸出来的细长部分,又可分为树突和轴突。•
树突(Dendrite)可以接受刺激并将兴奋传入细胞体。每个神经元可以有一或多个树突。•
轴突
(Axons)
可以把兴奋从胞体传送到另一个神经元或其他组织。
每个神经元只有一个轴突。抑制与兴奋神经细胞的状态取决于从其它的神经细胞收到的输入信号量,及突触的强度(抑制或加强)。当信号量总和超过了某个阈值时,细胞体就会兴奋,产生电脉冲。电脉冲沿着轴突并通过突触传递到其它神经元。前馈神经网络Feed
Forward
Neural
Networks感知机
Perceptron前馈神经网络Feed
Forward
Neural
Networks感知机
Perceptron给定输入ì+1,x
³0x
<0ïy
=
f(x)=
sign(wix
+b)sign(x)
í=ï
-1,î学习规则:前馈神经网络Feed
Forward
Neural
Networks感知机
Perceptronwix
+b=0前馈神经网络Feed
Forward
Neural
Networks感知机
Perceptron感知机只有输入层神经元进行激活函数处理,即只拥有一层功能神经元,其学习能力非常有限。事实上,类似与,或,非这样二类模式且线性可分,即存在一个线性超平面能将它们分开,则感知机的学习过程一定会收敛,否则会发生振荡,难以稳定,甚至不能解决异或这样简单的非线性问题。前馈神经网络Feed
Forward
Neural
NetworksBP算法误差反向传播信息向前传播前馈神经网络Feed
Forward
Neural
NetworksBP算法基本原理:利用输出后的误差来估算输出层的前一层的误差,再用这个误差估算更前一层的误差,如此层一层地反传下去,从而获得所有其他各层的误差估计前馈神经网络Feed
Forward
Neural
NetworksBP算法➢
属于监督学习算法,通过调节各层的权重,使网络学会有“输入-输出”组成的训练组➢
BP算法的核心是梯度下降法➢
权重从输出层开始修正,再依次修正各层权重学习的本质“对网络去权重作动态的调整前馈神经网络Feed
Forward
Neural
Networks梯度下降梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient
Descent)是最常采用的方法之一。梯度下降流程:①
用随机值初始化权重和偏差;②
把输入传入网络,得到输出值;③
计算预测值和真实值之间的误差;④
对每一个产生误差的神经元,调整相应的(权重)值以减小误差;⑤
重复迭代,直至得到网络权重的最佳值。前馈神经网络Feed
Forward
Neural
Networks梯度下降例:目标函数:初始化,起点为:函数的微分:根据梯度下降的计算公式:学习率:迭代:θ0=0θ1=θ0-α*J’(θ0)=1-0.4*2=0.2θ2=θ1-α*J’(θ1)=0.04θ3=0.008θ4=0.0016前馈神经网络Feed
Forward
Neural
Networks梯度下降梯度下降,主要考虑两个问题:一是方向(梯度),二是步长(学习率)。方向决定是否走在正确的道路上,而步长决定了要走多久才能都到达目的地。(图中的最低处)。对于步长:步长太小,费时间,步长过大,则会出现振荡现象。卷积神经网络CNNConvolutionalNeuralNetwork是一种前馈神经网络。卷积神经网络是受生物学上感受野(Receptive
Field)的机制而提出的。一个神经元的感受野是指特定区域,只有这个区域内的刺激才能够激活该神经元。局部链接权值共享平移、缩放和扭曲不变性卷积神经网络CNN局部链接全连接CNNCNN的优点参数减少与权值共享如下图所示,如果我们有1000x1000像素的图像,有1百万个隐层神经元,那么他们全连接的话(每个隐层神经元都连接图像的每一个像素点),就有
12
个连接,也就是10^12个权值参数。1000
1000
1000000=10局部连接网络,每一个节点与上层节点同位置附近10x10的窗口相连接,则1百万个隐层神经元就只有106
100
=
108,即10^8个参数。其权值连接个数比原来减少了四个数量级。CNN的Convolution过程如图,原图像是5*5大小,有25个神经元,用一个3*3的卷积核对它进行卷积,得到了如右图所示的卷积后的Featuremap。该特征图大小为3*3。假设一种卷积核只提取出图像的一种特征,所以一般要多个卷积核来提取不同的特征,所以每一层一般都会有多张Featuremap。同一张Featuremap上的神经元共用一个卷积核,这大大减少了网络参数的个数。CNN的Pooling过程图像具有一种“静态性(stationarity)”的属性,可以对图像某一个区域上的特征取平均值
(或最大值)。这种聚合的操作就叫做池化
(pooling)。如果人们选择图像中的连续范围作为池化区域,并且只是池化相同(重复)的隐藏单元产生的特征,那么,这些池化单元就具有平移不变性
(translation
invariant)。这就意味着即使图像经历了一个小的平移之后,依然会产生相同的
(池化的)特征。CNN的Pooling过程CNN的特征映射
Feature
Map为了增强卷积层的表示能力,我们可以使用
K
个不同的滤波器来得到K
组输出。每一组输出都共享一个滤波器。如果我们把滤波器看成一个特征提取器,每一组输出都可以看成是输入图像经过一个特征抽取后得到的特征。因此,在卷积神经网络中每一组输出也叫作一组特征映射(Feature
Map)。目标检测与识别01.传统图像处理和机器学习算法定义•••目标特征提取(认为设计特征)目标识别目标定位目标检测与识别是将图像或者视频中目标与其他不感兴趣的部分进行区分,判断是否存在目标,确定目标位置,识别目标种类的一种计算机视觉任务。02.深度学习•
目标的特征提取•
神经网络的目标识别与定位目标的检测与识别现有的基于深度学习的目标检测与识别算法大致可以分为三类:基于区域建议的目标检测与识别算法(R-CNN、Fast
R-CNN、Faster
R-CNN);基于回归的目标检测与识别算法(YOLO、SSD);基于搜索的目标检测与识别算法(基于视觉注意的AttentionNet、基于强化学习)目标的检测与识别常用的数据集⚫
ImageNet:包含1400多万的海量图像数据,有着1000个目标类别,其中超过百万的图片有着明确的类别和位置信息的标注,是目前世界上图像识别最大的数据库⚫
COCO:微软公司赞助的一个用于图像识别,图像分割,语义标注的数据集,图像的标注信息包括类别,位置和语义文本描述。有超过30万幅自然环境下的日常场景,250万个目标标记⚫
VOC:是一个用于图像识别,分类,分割的数据集,有一万多幅图片,20个目标类别,分别是人类,动物(鸟,猫,牛,狗,马,羊),交通工具(飞机,自行车,船,公共汽车,小轿车,摩托车,火车),室内(瓶子,椅子,餐桌,盆栽,沙发,电视)。目标的检测与识别常用的框架CaffetensorflowTorch7Keras-TheanoMxNet深度神经网络的多维数组流图的计算平台支持机器学习和深度学习的科学计算框架轻量化分布式可移植的深度学习计算平台卷积神经网络架构下的快速特征提取包含各种神经网络的模块语言语言语言底层语言为C++开发语言使用python语言C++、Python、Julia、Matlab、R、Scala语言C++/Cuda架构支持python和matlab接口CPU和GPUC++/Cuda架构编写开发使用Cython底层语言为C++脚本语言为LuaJTT支持在CPU和GPU上运行及并行化支持Cuda和云计支持在CPU和GPU支持在CPU和GPU支持在算以及多GPU,多上运行上运行和切换上运行机节点的计算典型的网络自编码器深度堆栈网络DSN深度置信网络DBN典型的网络VGGNet、深度复卷积网络,递归神经网络典型的网络LeNet、AlexNet、Detector典型的网络生成式对抗网络GAN典型的网络深度二值神经网络、深度神经网络目标的检测与识别R-CNN人?否车?是信号灯?否分类器卷积神经网络输入图像扩展候选区优点:利用的不在是人为设计的特征,而是通过深度学习得到的更具表达力的深度特征,提高了识别的精度采用区域建议的方式提取可能的目标,而不是用滑窗的方式去检测目标,减少了很多不必要的识别过程加入了边界回归的策略来进一步提高检测精度缺点:用区域检测的方法,对每个建议区域都要重新计算整个网络,运算效率不高没把区域建议过程融合在整个深度学习模型中,无法做到端到端的处理任务目标的检测与识别FastR-CNNFastR-CNN在目标生成方面没有改变,但是采用ROIs策略将候选区映射到CNN模型的特征层上,直接在特征层上提取对应区域的深层特征,避免了不断输入不同区域图像的部分。然后将提取到的特征直接用Softmax预测区域类别,用网络来学习一个边界框回归器。将整个特征提取,分类和边界回归都整理成一个部分,提高了整个模型的效率。但Fast
R-CNN仍然用到了候选区域生成算法,需要识别的区域仍然很多。目标的检测与识别FasterR-CNNFaster
R-CNN引入了一个新的概念—区域生成网络(Region
ProposalNetworks,RPN)来进行目标候选区的提取。从某种意义上讲,Faster
R-CNN可以看成是由生成目标区域的RPN和利用这些候选区域的Fast
R-CNN检测器组成的,这样就将整个目标候选区域,深度特征提取,目标识别和检测过程融入在一个深度网络中,大大提高了整个网络的检测速度缺不降低检测精度。RPN为全卷积神经网络,其输入为任意大小的特征图,输出为一系列的举行目标候选区。目标的检测与识别FasterR-CNN——RPNK个锚点2K分数4K坐标分类层回归层256维中间层滑窗特征图目标的检测与识别使用方法缺点备注1、SS提取RP;1、
训练步骤繁琐(微调网络+训练SVM+训练bbox);2、
训练、测试均速度慢
;3、
训练占空间1、从DPM
HSC的34.3%直接提升到了66%(mAP);2、引入RP+CNN2、CNN提取特征;R-CNN3、SVM分类;4、BBox盒回归。1、
依旧用SS提取RP(耗时2-3s,特征提取耗时0.32s);1、SS提取RP;FastR-CNN2、CNN提取特征;3、softmax分类;2、
无法满足实时应用,没有真正
1、由66.9%提升到70%;实现端到端训练测试;3、
利用了GPU,但是区域建议方法是在CPU上实现的。2、每张图像耗时约为3s。4、多任务损失函数边框回归。1、RPN提取RP;1、提高了检测精度和速度;2、真正实现端到端的目标检测框架;1、
还是无法达到实时检测目标;2、
获取region
proposal,再对每个proposal分类计算量还是比较大。Faster
R-CNN2、CNN提取特征;3、softmax分类;4、多任务损失函数边框回归。3、生成建议框仅需约10ms。目标的检测与识别FasterR-CNN前方车辆检测将基于
Faster-rcnn的模型与
ZF小型网络、VGG_CNN_M_1024中型网络、
VGG-16大型网络三种不同网络层次结构的卷积神经网络相结合进行迭代训练。前方车辆检测数据集方法准确率1600016000Faster-rcnn+ZF0.8660.901Faster-rcnn+VGG_CNN_M_102416000Faster-rcnn+VGG160.921目标的检测与识别FasterR-CNN前方车辆检测城区道路岔口道路目标的检测与识别FasterR-CNN前方车辆检测部分遮挡高速公路目标的检测与识别FasterR-CNN前方车辆检测复杂场景强光照目标的检测与识别基于区域建议的目标检测与识别算法•由于存在候选区域的提取,使得算法会花费更多的时间,很难做到实时检测和识别,而且检测结果也受候选区域提取算法的影响基于回归的目标检测与识别算法•由于没有候选区提取步骤,且所有识别和检测步骤都可以融合在一个深度神经网络中处理,因此很容易做到实时检测和识别两者比较•一般基于相同基础深度学习模式,基于区域建议的模型会有更令人满意的检测和识别结果,而基于回归的目标检测识别模型在时间效率上更好目标的检测与识别SSD(Single
ShotMultiBoxDetector)SSD是一种端到端的模型,所有的检测和识别过程都可以由同一个网络解决;SSD直接预测boundingbox的坐标和类别的objectdetection,没有生成proposal的过程,针对不同大小的物体检测,ssd利用不同卷积层的featuremap进行综合。SSD的特点➢
从YOLO中继承了将detection转化为regression的思路,一次完成目标定位与分类➢
基于FasterRCNN中的Anchor,提出了相似的Priorbox;这样相当在回归的基础上结合了一部分区域建议的功能,对比两者所用的特征,SSD并没有用图像的全局特征,只用了每个目标周围的深层特征去检测识别目标,而且在深度学习模型的特征提取上,SSD从深度神经网络不同层的特征图上提取特征,然后分别用这些特征回归预测目标,这样自然的加入了多尺度信息,能够对一个目标做更多的判断,从而不影响速度。目标的检测与识别SSD
(Single
ShotMultiBoxDetector)整个模型的输入是整张图片,经过一个基础的深度学习模型VGG16网络来对整张图片提取特征,在VGG16网络后面又加入了新的CNN层,由于每个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专业定制塑钢窗户采购协议示例(2024年度)版B版
- 二零二五年度瓷砖行业环保设施建设合同3篇
- 2025年度教育课程策划开发合同范本4篇
- 2025年度智慧社区场商位租赁及社区服务合同4篇
- 2025年度文化旅游区场地承包经营与开发合同模板3篇
- 2025年度现代化厂房施工建设合同(新版)4篇
- 2024年货物买卖合同跨境电商条款
- 2025年度叉车租赁与租赁物租赁期限续签合同4篇
- 专属校车司机招聘协议:2024年版详尽协议版B版
- 2024赞助合同书范本:展览赞助合作协议3篇
- 智慧工厂数字孪生解决方案
- 病机-基本病机 邪正盛衰讲解
- 品管圈知识 课件
- 非诚不找小品台词
- 2024年3月江苏省考公务员面试题(B类)及参考答案
- 患者信息保密法律法规解读
- 老年人护理风险防控PPT
- 充电桩采购安装投标方案(技术方案)
- 医院科室考勤表
- 镀膜员工述职报告
- 春节期间化工企业安全生产注意安全生产
评论
0/150
提交评论