《人工智能及其应用》课件第10章 视觉感知与识别_第1页
《人工智能及其应用》课件第10章 视觉感知与识别_第2页
《人工智能及其应用》课件第10章 视觉感知与识别_第3页
《人工智能及其应用》课件第10章 视觉感知与识别_第4页
《人工智能及其应用》课件第10章 视觉感知与识别_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章

视觉感知与识别人类很容易让自己陷入对机器的依赖,以至于不得不接受一切都交给机器处理的现实。随着整个人类社会及其面临的问题越来越复杂,机器也将变得越来越智能。——泰德·卡钦斯基,199510.1图像生成

10.1图像生成10.1.2透镜系统

小孔照相机的缺点在于我们需要一个尺寸小的小孔来确保图像聚焦,但这个小孔越小,到达图像平面的光子就会越少,意味着图像会很暗。

当我们把小孔的尺寸放大时,确实能够获得更多的光子,但同时也会造成运动模糊,场景中运动的物体在成像时会因为光子到达不同的地方而产生模糊的效应。

脊椎动物的眼晴和现代照相机都使用透镜系统。透镜要比小孔大得多,因此能够透过足够的光线。

透镜系统拥有一个有限的景深。只能对一定距离(焦平面)左右的物体清晰成像,在这个范围以外的物体成像时将超出图像平面,人眼系统可以通过改变形状来调整焦平面,而在照相机中,则可以通过镜头的来回移动来改变焦平面。10.1图像生成10.1.3光线和阴影

图像中一个像素的亮度可以看作这个像素代表的场景中物体点的亮度为自变量的函数。

假设这是一个线性模型(现代照相机在极亮或极暗时表现为非线性,但正常情况下均为线性)。10.1图像生成10.1.3光线和阴影

第一种引起亮度不同的原因是光线的整体强度。一个处于阴影(Shadow)中的白色物体甚至可能暗于直接处于太阳光下的黑色物体,人眼可以很好地分辨相对亮度,从而判断出哪个为白色物体。

第二种原因是场景中不同的点对光的反射有多有少。通常情况是,人感知这些点或明或暗,从而看到物体的纹理或斑纹。

第三种情况是面向光的面比偏离光源方向的面更亮,这称为明暗(Shading)效应。特别是,人们可说出这种明暗来自物体的几何状态,但有时候可能会将明暗与斑纹混淆。如颧骨下的灰暗化妆品看上去像阴影,从而使得人脸看上去比真实的瘦。10.1图像生成10.1.4色彩

人眼接收到的光集中在波长为380~750nm这个区域,主要通过三种颜色接收细胞来区分不同的颜色,如420nm的蓝色,540nm的绿色及570nm的红色。

三原色原则(PrincipleofTrichromacy)说明无论一种颜色多么复杂,我们都可以通过三种颜色的混合来构成一种与原颜色不能分辨的新颜色。

这一原理说明我们的电视及计算机显示器可以仅仅关心三种基本的颜色。

物体表面的反射率可以化为R/G/B的三个反射率,同样,任意光源也可以看成是有R/G/B三种光源所组成。10.2.1边缘检测

10.2.1边缘检测

10.2.2纹理

纹理,在日常用语中,是对表面的视觉感觉,“纹理(Texture)”一词与“纺织物(Textile)"具有相同的词根,在计算视觉中,它指的是在表面空间上重复出现的、能够通过视觉感觉到的模式。

纹理的实例包括建筑物上窗户的模式、汗衫上的针脚,美洲豹皮肤上的花斑、草地上一片一片的草、海滩上的卵石以及体育场中的人群。10.2.3光流

当图像中的物体在运动或是我们的镜头在相对物体运动时,由此引起的图像中的明显的运动我们称之为光流。光流描述了图像的运动方向和速度,当然一幅图像中的车辆的速度不是用每小时多少公里而是用每秒钟多少像素来描述。

如图10.4(a)和(b)显示的是一个视频中网球运动员的相邻两帧图像,从(c)中我们计算出的光流向量来看,球拍和运动员的前脚正在快速移动,注意箭头方向是如何捕提球怕和前腿的运动的。10.2.4图像分割

分割(Segmentation)是指基于像素点的相似性将图像分解成若干区域的过程。

其基本思想如下:每个图像像素都可以关联某些视觉特性,诸如亮度、色彩和纹理。在一个物体中,或者是它的单独一部分中,这些属性的变化相对非常小,而穿过物体之间的边界时,典型情况下这些属性中的一个或多个会出现较大的变化。有两种方法可用于图像分割,种主要致力于检测这些区域的边界,而另一种则致力于检测出区域本身,如图10.5所示。10.3基于外观的目标检测

外观指的是一个物体看上去的情况。一些物体类,比如说棒球在外观上变化很小,在大部分的情形下这类物体看起来基本一样。

可以计算一些描述包含这些物体的图像的特征,然后据此训练出分类器。

用一个比较好的分类器来对各类物体进行训练比较重要,特别是对于看着照相机的人脸来说,效果特别好,这是因为在低分辨率以及合适的关照情况下,几乎所有的人脸看上去都差不多。10.4人脸识别

人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术,用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术,通常也叫做人像识别、面部识别。10.4.1人脸库

利用公共人脸库演示人脸识别算法的原理和过程,目前有很多公共的人脸数据库,以olivetti人脸库为例,该数据库也称ORL人脸库,由英国剑桥大学AT&T实验室创建,包含40人共400张面部图像,每人包含10幅经过归一化处理的灰度图像,图像尺寸均为112(高或行)×92(宽或列),图像背景为黑色。

其中采集对象的面部表情和细节均有变化,例如笑与不笑、眼睛睁着或闭着以及戴或不戴眼镜等,不同人脸样本的姿态也有变化,其深度旋转和平面旋转可达20度。10.4.1人脸库

利用公共人脸库演示人脸识别算法的原理和过程,目前有很多公共的人脸数据库,以olivetti人脸库为例,该数据库也称ORL人脸库,由英国剑桥大学AT&T实验室创建,包含40人共400张面部图像,每人包含10幅经过归一化处理的灰度图像,图像尺寸均为112(高或行)×92(宽或列),图像背景为黑色。

其中采集对象的面部表情和细节均有变化,例如笑与不笑、眼睛睁着或闭着以及戴或不戴眼镜等,不同人脸样本的姿态也有变化,其深度旋转和平面旋转可达20度。10.4人脸识别10.4.2最近邻方法

最近邻人脸识别算法在数学上的原理是将人脸图像矩阵拉直变成一个向量,该向量可以看作是空间中的一个点,人脸库中所有的人脸图像也就是空间上的点集合。

对于某一特定的人脸图像计算该图像对应的向量到人脸库中所有点的距离,如果与人脸库中的某一点的距离最小并且小于事先给定一个阈值,则可以认为这两个人脸图像身份相同;如果该最小距离都大于给定阈值,则认为该人脸图像对应的身份非法。10.4人脸识别

10.5人脸识别系统1.图像采集

人脸图像通过摄像镜头采集得到,比如静态图像、动态图像、不同的位置、不同表情等方面都可以得到很好的采集。随着人工智能技术的发展,现在的大多摄像机都是AI摄像机,不再是单纯的照相功能,有的能够在照相时进行目标检测,自动对焦,甚至有成熟的产品能够完成以上一套人脸识别的流程,不需要额外的计算机辅助,直接完成基于人脸识别的身份验证,实际上摄像机搭载上芯片之后很难区分是计算机还是摄像机了。2.预处理

图像预处理的主要目的是消除图像中无关的信息,恢复有用的真实信息,增强有关信息的可检测性和最大限度地简化数据,从而改进特征抽取、图像分割、匹配和识别的可靠性。一般的预处理流程为:灰度化—>几何变换—>图像增强。

10.5人脸识别系统

由于摄像机拍摄时,身体的倾斜,不同的拍摄距离等影响,人脸图像会不规则,因此需要对人脸图像做几何变换又称为图像空间变换,用于改正图像采集系统的系统误差和仪器位置(成像角度、透视关系乃至镜头自身原因)的随机误差。

此外,还需要使用灰度插值算法,因为按照这种变换关系进行计算,输出图像的像素可能被映射到输入图像的非整数坐标上。通常采用的方法有最近邻插值、双线性插值和双三次插值。

图像增强是增强人脸图像中的有用信息,它可以是一个失真的过程,其目的是要改善人脸图像的视觉效果,有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果,满足进一步特征提取的需要。

预处理的三个过程在人脸图像处理中不是全部必须的,会根据需要和图像质量做适当的处理,一般而言,将彩色的人脸图像灰度化处理变成灰度图像都是必须的。10.5人脸识别系统3.人脸检测

人脸检测,也就是在视频流的每一帧图像中找到人脸的位置。在这个过程中,系统的输入是一张经过预处理之后的含有人脸的图片,输出是人脸位置的矩形框,如图10.9所示。

人脸检测应该可以正确检测出一幅图像中存在的所有人脸,不能有遗漏,也不能有错检,但是在身份验证时采集的图像一般是含有一张人脸。

人脸图像中包含的模式特征十分丰富,如直方图特征、颜色特征、模板特征、结构特征及Haar特征等。人脸检测就是把这其中有用的信息挑出来,并利用这些特征实现人脸检测。

主流的人脸检测方法基于以上特征采用Adaboost学习算法,Adaboost算法是一种用来分类的方法,它把一些比较弱的分类方法合在一起,组合出新的很强的分类方法。10.5人脸识别系统4.特征提取与模型训练

特征提取是为了找到那些能够最大程度的区分不同人的人脸图像描述。在上一节中讨论的PCA降维也可以说是一种特征提取。

LBP(LocalBinaryPattern)指局部二值模式,是一种用来描述图像局部特征的算子,LBP特征具有灰度不变性和旋转不变性等显著优点。

它是由T.Ojala,M.Pietikäinen,和D.Harwood在1994年提出,由于LBP特征计算简单、效果较好,因此LBP特征在计算机视觉的许多领域都得到了广泛的应用。

人脸识别就是LBP特征比较著名的应用,在计算机视觉开源库OpenCV中有使用LBP特征进行人脸识别的接口。10.5人脸识别系统5.识别

人脸识别系统的识别过程就是对于待识别的视频流中的图像做同样的预处理、人脸检测、特征提取,利用训练过程所得到的模型,对这些特征预测其对应的标签,或者做出识别失败的判断的过程。

在实际的人脸识别应用系统中,利用一些稳定可靠的库来辅助实现是非常普遍做法,典型的就是借助OpenCV扩展库中提供了丰富的类及方法实现人脸的识别。10.6.1Tensorflow深度学习框架TensorFlow是一个基于数据流编程(DataflowProgramming)的符号数学系统,被广泛应用于各类机器学习算法的编程实现,其前身是谷歌的神经网络算法库DistBelief。

Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究。TensorFlow由谷歌人工智能团队谷歌大脑(GoogleBrain)开发和维护,拥有包括TensorFlowHub、TensorFlowLite、TensorFlowResearchCloud在内的多个项目以及各类应用程序接口(ApplicationProgrammingInterface,API)。

自2015年11月9日起,TensorFlow依据阿帕奇授权协议(Apache2.0opensourcelicense)开放源代码。10.6.2深度学习框架项目应用FashionMNIST数据集演示深度学习框架在该数据集上的训练预测效果。FashionMNIST数据集旨在替代经典MNIST数据集。

MNIST数据集包含手写数字(0、1、2等)的图像,其格式与将要使用的衣物图像的格式相同,但是FashionMNIST数据集比常规MNIST更具挑战性。

具体系统构建过程见程序10.7深度学习框架应用。10.7小结

视觉信息占到感知信息的90%

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论