人工智能技术应用导论第4章 计算机视觉_第1页
人工智能技术应用导论第4章 计算机视觉_第2页
人工智能技术应用导论第4章 计算机视觉_第3页
人工智能技术应用导论第4章 计算机视觉_第4页
人工智能技术应用导论第4章 计算机视觉_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章计算机视觉CONTENTS目录计算机视觉应用场景01计算机视觉基础与应用开发02案例体验03计算机视觉应用场景4.1概述01应用场景02概述计算机视觉(ComputerVision,CV):是一门研究如何使机器“看”的科学。用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理成为更适合人眼观察或仪器检测的图像。对人类而言,通过视觉输入的信息占据各种感官信息的75%以上。我们常说“百闻不如一见”;西方人常说"Onepictureisworthtenthousandwords"。01人眼可见光处理是计算机视觉的很重要一部分;除此之外,计算机视觉可以感知人眼所看不到的很多信息。从伽马射线、X射线、紫外、可见光、红外、雷达、毫米波、无线电波等各种电磁波的成像,都可以用于计算机视觉分析。概述01/s?id=1551073604060130&wfr=spider&for=pc可见光X射线伽马射线红外线微波无线电波概述01应用场景02人脸检测文字识别自动驾驶图像识别应用场景02研究方向应用场景物体和生命体的状态和属性能够通过它们表面的温度分布图像来衡量。热成像是记录地球上任何物体释放的红外波光波,并且对其成像的技术。热成像的应用领域非常广泛,例如工业、安防、军事、科研等。热成像技术提供了一种安全、无损伤的数据获取手段;在医学、生态学、动物学等领域已有大量的应用。/showarticle.asp?id=45310498602自然科学应用场景医学影像是临床疾病筛查、诊断、治疗引导和评估的重要工具。常规的影像诊断依赖于阅片医生的水平和经验,存在着主观性强、重复性低以及定量分析不够等问题,迫切需要新的智能技术介入,帮助医生提升诊断的准确性和阅片效率,同时也能进一步拓展医学影像在临床诊疗中的应用。随着深度学习技术发展,智慧医疗已经成为人工智能最为重要的应用领域之一,并成为解决医疗行业如下两大痛点的有效途径之一:1)医疗供需不平衡,影像医生短缺与临床影像数据大量增长之间的矛盾;2)影像医生水平参差不齐且资源分布不均。与医学影像相关的医学成像系统和医学图像处理与分析是智慧医疗最为典型的应用场景。02医疗领域应用场景临床常用的4大影像技术:X射线、超声波、计算机断层扫描(CT)和磁共振成像(MRI)

;计算机视觉主要应用于图像重建、病灶检测、图像分割、图像配准和计算机辅助诊断(CAD)。医学影像中做心脏和大血管图像分割02医疗领域应用场景/landing/vision/pr_3d_robot_vision.jsp?aw=gabaidukcvisials200630067人工视觉检测很大程度上取决于检验员的能力、经验、专心程度,容易导致遗漏、分类错误等问题。右图机械手臂检测和抓取合格零件的应用,计算机视觉能够通过三维视觉成像及检测分析,自动计算出适合的机械手动作。因为有实时三维视觉分析,机械手臂抓取不受工件位置或朝向的影响,能实现稳定检测。02工业领域应用场景02农业领域在农作物生长过程中,作物的叶、茎杆、果实的颜色、外观形态、纹理等特征时刻发生变化,实时动态地监测作物形态变化,研究外界环境对作物生长状况产生的影响和作物生长机制具有重要意义。基于深度学习的植物生长模型库:通过智能摄像头的应用,实时采集、监测、分析、诊断,建立植物生长模型,应用深度神经网络算法,实现植物生长状态判断与预测,自动生成执行控制系统的决策、建议。植物模型应用科研系统呈现及远程控制云平台大数据5G通信服务温室控制系统应用场景02安防领域平安城市:随着计算机视觉技术、网络技术的日趋普及与成熟,“高清化、网络化、智能化”已经成为平安城市建设的一种必然趋势。构建“立体化”城市防控体系,满足公安各个业务警种实战应用的平安城市系统,推出了新一代平安城市解决方案,为公安机关治安防控、犯罪打击、视频侦查、指挥调度、保卫任务等各警种实战应用提供支撑与保障。/solutions/id-322/接入汇聚与数据中心应用场景02安防领域公安视频侦查平台:运用行为分析技术对实时视频进行智能分析,支持穿越警戒面、进入/离开区域、区域入侵、非法停车、物品遗留、物品丢失、人员徘徊、快速移动、人员聚集等多种事件的分析检测;支持行为排查、人员排查和车辆排查功能,快速定位目标视频片段,提高视频查看效率;支持自动报警,提高监控的效率,实现智能化监控防范。/solutions/id-322/应用场景02无人驾驶在无人驾驶中,车辆在行驶时需要实时地去感知周围的环境,包括行驶在哪里、周围有什么障碍物、当前交通信号怎样等。就像我们人类通过眼睛去观察世界,无人车也需要这样一种“眼睛”,这就是传感器。传感器有很多种,例如激光雷达、摄像头、夜视摄像头、超声波传感器、远程雷达、近程雷达;每种传感器都有自己的特点的作用。http://3/iche/yxa-2595593.html计算机视觉基础与应用开发4.2图像基础原理01图像处理技术02应用开发流程0301图像基础原理人眼成像:人眼包括角膜、晶状体、玻璃体和视网膜。外界物体的反射光线,经过角膜、房水,由瞳孔进入眼球内部,再经过晶状体和玻璃体的折射作用,在视网膜上能形成清晰的物像,物像刺激了视网膜上的感光细胞,这些感光细胞产生的神经冲动,沿着视神经传到大脑皮层的视觉中枢,就形成视觉。视网膜上所形成的图像是倒立的,通过大脑处理,我们感受到的图像才是正常的。照相机成像原理与人眼基本类似,照相机的镜头相当于角膜和晶状体,而照相机的底片相当于视网膜。数字相机、摄像机等成像系统首先得到模拟图像,经过采样和量化即得到数字图像。01图像基础原理黑白图像灰度图像彩色图像01图像基础原理图像数据黑白图像灰度图像黑白图像:只有黑白两种颜色,存储数据只有0或255,一般0表示黑色,255表示白色。灰度图像:是灰度值介于0-255的数据,计算机中一般按照二维矩阵存储。01图像基础原理彩色图像每个像素的颜色由存储在该位置的红蓝绿色共同决定,分别占用8位,每个像素包含24(8*3)位颜色信息图像的主要参数01图像基础原理图像数据Blue-ChannelGreen-ChannelRed-Channel彩色图像:一般按照红绿蓝三色通道存储BGR(RGB),图像处理时一般按照三维矩阵存储。01图像基础原理图像压缩方式:有损压缩:经过有损压缩,重建后的图像和原始图像有一定偏差,但是不影响人们对图像含义的正确理解。适合于自然的图像,例如一些应用中图像的微小损失是可以接受的(有时无法感知的)。无损压缩:经过无损压缩以后的数据进行图像复原(解压),重建的图像与原始图像完全相同。绘制的技术图、图标或者漫画优先使用无损压缩;医疗图像或者用于存档的扫描图像等这些有价值的内容的压缩也尽量选择无损压缩方法。01图像基础原理常见的图像存储格式:名称压缩编码方法性质典型应用开发公司BMPRLE(行程长度编码)无损Windows应用程序MicrosoftTIFRLE,LZW(字典编码)无损桌面、出版Aldus,MicrosoftGIFLZW(字典编码)无损因特网CompuServeGPEGDCT(离散余弦变化)

Huffman编码支持有损/无损因特网、数码相机等ISO/IEC01图像基础原理图像压缩编码:RLE(行程长度编码):行程长度编码把图像分成两种情况:连续的重复数据块,连续不重复的数据块,把连续重复的色块按照重复次数加色块的方式存储,比如自然图像中的天空。LZW(字典编码):基于表查询算法把文件压缩成小文件的压缩方法,又叫串标压缩算法。除了用于图像数据处理以外,LZW压缩技术还被用于文本程序等数据压缩领域。JJJJJJAAAAVVVVAAAAAA6J4A4V6ARLEABABABABAB01223LZWStepPSymbol1nullnull2A03B14AB25ABAB301图像基础原理位图与矢量图:位图(bitmap):也称为点阵图,是使用像素阵列来表示的图像,当放大位图时,可以看见赖以构成整个图像的无数个单个方块。放大01图像基础原理放大位图与矢量图:矢量图(vector):是指用一系列计算指令来表示的图,这些图的元素是一些点、线、矩形、多边形、圆和弧形等等,它们都是通过数学公式计算获得的。通常的存储文件是SVG格式。01图像基础原理颜色深度(像素深度)存储每个像素的颜色(或亮度)信息所占用的二进制位数。色深色彩种类示例1bit21=2色8bit28=256色12bit24*24*24=212=4096色24bit28*28*28=224=16777色01图像基础原理图像分辨率:是确定组成一幅图像的像素数目;图像分辨率是一幅图片中像素的组成数量。图像分辨率单位:ppi、水平像素数*垂直像素数(1024*768)。不同图像分辨率的相同图像在同样大小显示区域的显示情况01图像基础原理图像的大小(数据量)是指在磁盘上存储整幅图像所占用的字节数。可按下面的公式计算:图像文件的字节数=图像分辨率╳量化位数/8例如:一幅分辨率为640╳480的黑白图像,文件的大小为:(640╳480)/8=38400(B)=37.5(KB)一幅同样分辨率的图像,图像深度为8位。则图像文件的大小为:(640╳480)╳8/8=307200(B)=300(KB)一幅同样大小的真彩色图像,则图像文件的大小为:(640╳480)╳24/8=921600(B)=900(KB)01图像基础原理OpenCV概述OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows、Android和MacOS操作系统上。轻量级而且高效——由一系列C函数和少量C++类构成,同时提供了Python、Ruby、MATLAB等语言的接口。OpenCV实现了图像处理和计算机视觉方面的很多通用算法,已成为计算机视觉领域最有力的研究工具。OpenCV可以解决的问题:人机交互、机器人视觉、运动跟踪、图像分类、人脸识别、物体识别、特征检测、视频分析、深度图像等。官网:/图像处理技术02图像基本操作采用cv2.imread(),cv2.imshow(),cv2.imwrite()加载图片,显示图片,保存图片。图片在计算机中的表示电脑上的彩色图是以RGB(红-绿-蓝,Red-Green-Blue)颜色模式显示的,但OpenCV中彩色图是以B-G-R通道顺序存储的,灰度图只有一个通道。图像坐标的起始点是在左上角,所以行对应y,列对应x:图像处理技术02图像处理技术02阈值分割阈值分割法是一种基于区域的图像分割技术,原理是把图像象素点分为若干类。阈值分割特别适用于目标和背景占据不同灰度级范围的图像。它不仅可以极大的压缩数据量,而且也大大简化了分析和处理步骤;是进行图像分析、特征提取与模式识别之前的必要的图像预处理过程。一般流程:通过判断图像中每一个像素点的特征属性是否满足阈值的要求,来确定图像中的该像素点是属于目标区域还是背景区域,从而将一幅灰度图像转换成二值图像。图像处理技术02阈值分割的几种方法:(1)固定阈值法:也就是我们自己根据需要处理的图像的先验知识,对图像中的目标与背景进行分析。通过对像素的判断,图像的分析,选择出阈值所在的区间,并通过实验进行对比,最后选择出比较好的阈值。(2)OpenCV通过cv2.threshold()函数用来实现固定阈值分割:

ret,th=cv2.threshold(img,127,255,cv2.THRESH_BINARY),其中:参数1:要处理的原图,一般是灰度图;参数2:设定的阈值;参数3:对于THRESH_BINARY、THRESH_BINARY_INV阈值方法所选用的最大阈值,一般为255;参数4:阈值的方式,主要有5种(cv2.THRESH_BINARY、cv2.THRESH_BINARY_INV、cv2.THRESH_TRUNC、cv2.THRESH_TOZERO、cv2.THRESH_TOZERO_INV)。返回值:ret是returnvalue缩写,代表当前的阈值。th指的是阈值分割以后的图像。阈值分割图像处理技术02importcv2#灰度图读入img=cv2.imread('gradient.jpg',0)#阈值分割ret,th=cv2.threshold(img,127,255,cv2.THRESH_BINARY)cv2.imshow('thresh',th)cv2.waitKey(0)cv2.destroyAllWindows()阈值分割示例代码:图像处理技术02固定阈值的5种方式:•cv2.THRESH_BINARY(二值化)•cv2.THRESH_BINARY_INV(二值反转)•cv2.THRESH_TRUNC(截断)•cv2.THRESH_TOZERO(零化)•cv2.THRESH_TOZERO_INV(零化反转)阈值分割图像处理技术02阈值分割自适应阈值法:自适应阈值会每次取图片的一小部分计算阈值,图片不同区域的阈值就不尽相同。固定阈值是在整幅图片上应用一个阈值进行分割,并不适用于明暗分布不均的图片。OpenCV通过cv2.adaptiveThreshold()实现自动阈值分割,th2=cv2.adaptiveThreshold(img,255,cv2.ADAPTIVE_THRESH_MEAN_C,cv2.THRESH_BINARY,101,4),其中:参数1:要处理的原图;参数2:最大阈值,一般为255;参数3:小区域阈值的计算方式;ADAPTIVE_THRESH_MEAN_C:小区域内取均值;ADAPTIVE_THRESH_GAUSSIAN_C:小区域内加权求和,权重是个高斯核;参数4:阈值方法,只能使用THRESH_BINARY、THRESH_BINARY_INV;参数5:图片中分块的大小,如11块就是11*11的小块;参数6:阈值计算方法中的常数项,最终阈值等于小区域计算出的阈值再减去此值。

图像处理技术02importcv2img=cv2.imread('lena.jpg',cv2.IMREAD_GRAYSCALE)ret,th1=cv2.threshold(img,127,255,cv2.THRESH_BINARY)#固定阈值#平均值法th2=cv2.adaptiveThreshold(img,255,cv2.ADAPTIVE_THRESH_MEAN_C,cv2.THRESH_BINARY,101,4)#加权平均(高斯核)th3=cv2.adaptiveThreshold(img,255,cv2.ADAPTIVE_THRESH_GAUSSIAN_C,cv2.THRESH_BINARY,101,4)imgs=[img,th1,th2,th3]titles=['Original','ThreshHoldConst','AdaptiveMean','AdaptiveGauss']foriinrange(4):dWindow(titles[i],v2.WINDOW_AUTOSIZE)cv2.imshow(titles[i],imgs[i])cv2.waitKey(0)cv2.destroyAllWindows()阈值分割示例代码:图像处理技术02原图固定阈值自动阈值-Mean自动阈值-Gauss阈值分割图像处理技术02(3)最大类间方差法(OTSU):OTSU是一种使用最大类间方差自动确定阈值的方法。是一种基于全局的二值化算法,它是根据图像的灰度特性,将图像分为前景和背景两个部分。当取最佳阈值时,两部分之间的差别应该是最大的,在OTSU算法中所采用的衡量差别的标准就是较为常见的最大类间方差。前景和背景之间的类间方差如果越大,就说明构成图像的两个部分之间的差别越大,当部分目标被错分为背景或部分背景被错分为目标,都会导致两部分差别变小,当所取阈值的分割使类间方差最大时就意味着错分概率最小。阈值分割#otsu阈值ret2,th2=cv2.threshold(img,0,255,cv2.THRESH_BINARY+cv2.THRESH_OTSU)#先进行高斯滤波,再使用otsu阈值法blur=cv2.GaussianBlur(img,(5,5),0)ret3,th3=cv2.threshold(blur,0,255,cv2.THRESH_BINARY+cv2.THRESH_OTSU)示例代码:图像处理技术02针对双峰图片(指图片的灰度直方图上有两个峰值,直方图就是每个值(0~255)的像素点个数统计),Otsu算法假设这幅图片由前景色和背景色组成,通过统计学方法(最大类间方差)选取一个阈值,将前景和背景尽可能分开。阈值分割图像处理技术02边缘(edge):是指图像局部强度变化最显著的部分。主要存在于目标与目标、目标与背景、区域与区域(包括不同色彩)之间,是图像分割、纹理特征和形状特征等图像分析的重要基础。图像边缘检测:是图像处理和计算机视觉中的基本问题,其目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化,主要包括深度上的不连续、表面方向不连续、物质属性变化和场景照明变化。边缘检测是图像处理和计算机视觉中,尤其是特征提取中的一个重要研究领域。图像边缘检测可以大幅度减少数据量,剔除可以认为不相关的信息,只保留图像中重要的结构属性。边缘检测图像处理技术02一般的步骤:1.滤波:边缘检测算法主要是基于图像强度的一阶和二阶导数,但是导数对于噪声很敏感,因此需要采用滤波器来改善与噪声有关的边缘检测器的性能。2.增强:增强边缘的基础是确定图像各点邻域强度的变化值。增强算法可以将灰度点邻域强度值有显著变化的点凸显出来。3.检测:邻域中有很多的点的梯度值较大,但是在特定的应用中,这些点并不是要找的边缘点,需要取舍。边缘检测图像处理技术02Canny边缘检测算法是JohnF.Canny于1986年开发出来的一个多级边缘检测算法。

Canny边缘检测:使用cv2.Canny()检测物体的边缘。Canny边缘检测方法常被誉为边缘检测的最优方法。cv2.Canny()进行边缘检测,参数2、3表示最低、高阈值Canny(image,threshold1,threshold2[,edges[,apertureSize[,L2gradient]]])->edges边缘检测图像处理技术02先阈值分割后再边缘检测效果会更好边缘检测图像处理技术02例如,要检测眼睛,因为眼睛肯定在脸上,所以感兴趣的只有脸这部分,可以单独把脸截取出来,以大大节省计算量,提高运行速度。感兴趣区域ROI(RegionofInterest):ROI图像处理技术02图像亮度:以灰度图像为例,图像亮度指的是图像的明暗程度,图像的像素值整体越接近于255,图像越亮,反之越接近于0,图像越暗。图像对比度:假设灰度图像的像素值的范围为[a,b],如果b-a的值越接近于255,图像对比度越大,看上去图像更清晰;反之越接近于0,图像越不清晰。

OpenCV中亮度和对比度应用这个公式来修改:g(x)=αf(x)+β。

其中:α(>0):控制图片的对比度;β:常称为增益与偏置值,控制图片亮度。亮度对比度调节图像处理技术02增加图像的亮度(β):

亮度对比度调节图像处理技术02增加图像对比度(α):

亮度对比度调节图像处理技术02彩色图像调整亮度和对比度:g(x)=αf(x)+β=1.5*f(x)+30

亮度对比度调节图像采集图像清洗图像标注模型创建训练模型评估发布调用应用现场图像采集(拍照、扫描)、网络爬取、开源数据集获取图像尺寸、灰度图清洗、损坏图像清洗等LabelMe等常用的图像标注工具可以选择的成熟模型、自己训练模型等准确率、精确率、召回率平台API、自建模型应用调用流程03应用开发流程图像采集训练是人工智能的根基,需要大量的数据,能够覆盖各种可能的场景,这样才能得到一个优良的算法模型,开发更加有效的智能应用出来。而数据作为人工智能这艘火箭的燃料,可以通过各种途径采集获取,常见的有现场图像采集(拍照、扫描)、网络爬取、开源数据集获取。网络爬取开源数据集现场采集03应用开发流程计算机视觉应用开发中,数据处理占据工作量的70%。

图像数据的质量(准确性、完整性、时效性、可解释),直接决定了模型的预测和泛化能力。真实图像数据中,存在缺失值、噪音、异常点,不利于算法模型训练。图像清洗分析与挖掘数据收集结果呈现与评价探索与预处理应用开发流程03图像标注(ImageCaptioning):有人工数据标注、自动数据标注和外包数据标注。人工数据标注的优点是标注结果比较可靠,自动数据标注一般都需要二次复核,避免程序错误。人工数据标注的标注工具可分为客户端与WEB端标注工具,在线的WEB端标注工具面临数据流失风险。常用的图像标注工具:LabelImg、Labelme、RectLabel、OpenCV/CVAT图像分类标注语义分割标注JSON文件03应用开发流程图像标注/easydl/app/1/100/models/new03应用开发流程创建模型03应用开发流程训练模型03应用开发流程模型部署03应用开发流程创建应用03应用开发流程调用应用案例体验4.3案例体验1:人脸检测01案例体验2:边缘检测0201案例体验1:人脸检测目标

完成图片多人脸检测功能的应用开发。

效果如图所示:

CascadeClassifier是OpenCV用来做目标检测的一个级联分类器。并且可以使用Haar和LBP两种特征。Haar特征是一种反映图像灰度变化,通过像素分模块求差值的一种特征。Haar特征包括四种特征描述方式:边缘特征、线性特征、中心特征和对角线特征。脸部的一些特征能由矩形特征简单的描述,如:眼睛要比脸颊颜色要深,嘴巴比周围颜色要深等。02案例体验1:人脸检测分析

#人脸检测模型应用-图片人脸检测fromcv2importcv2#读取待处理图像img=cv2.imread('facedetect2.jpg',cv2.IMREAD_COLOR)#加载正面人脸检测分类器face_data=cv2.CascadeClassifier('haarcascade_frontalface_default.xml')#检测人脸faces=face_data.detectMultiScale(img,1.3,2)#根据返回绘制人脸矩形框forx,y,w,hinfaces:cv2.rectangle(img,(x,y),(x+w,y+h),(0,255,0),1)#显示图像cv2.imshow('img',img)cv2.waitKey(0)cv2.destroyAllWindows()02案例体验1:人脸检测实现

Haar特征采用了矩阵积分图来加速矩阵计算。02案例体验1:人脸检测知识点

CascadeClassifier人脸检测。调用CascadeClassifier中的detectMultiScale(image,scaleFactor,minNeighbors)函数进行人脸检测参数1为image,代码中img为输入的图像;参数2为scaleFactor,表示在前后两次相继的扫描中,搜索窗口的比例系数;参数3为minNeighbors,表示构成检测目标的相邻矩形的最小个数(默认为3个)。02案例体验1:人脸检测知识点

矩形框绘制通过cv2.rectangle(img,pt1,pt2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论