基于深度学习的低剂量CT去噪后处理算法研究_第1页
基于深度学习的低剂量CT去噪后处理算法研究_第2页
基于深度学习的低剂量CT去噪后处理算法研究_第3页
基于深度学习的低剂量CT去噪后处理算法研究_第4页
基于深度学习的低剂量CT去噪后处理算法研究_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、目录摘要21引言51.1 课题背景和意义51.2 CT成像基本原理61.3 国内外研究现状及趋势101.4论文主要研究内容及结构安排122 与研究相关卷积神经网络概要142.1 与研究相关深度学习卷积神经概要142.1.1 卷积层142.1.2 反卷积162.1.3 激活层172.1.5 全连接层182.1.4 池化层182.1.6 损失函数192.1.7 优化算法202.2 相关卷积神经网络接结构阐述202.2.1 VGG202.2.2 ResNet212.2.3 Inception模型222.2.4 生成对抗网络222.3 图像质量定量评价参数243 基于卷积神经网络的低剂量CT钙化点去噪

2、研究253.1 残差编码解码低剂量CT去噪结构263.1.1 去噪模型263.1.2 去噪网络结构273.2 头部数据集283.2.1 数据集介绍及处理284.2.2 钙化点数据分析294.2.3 网络设计324.2.4 损失函数设计333.3 网络训练383.3.1 训练参数384.3.2 训练环境383.4 实验结果及分析383.4.1 数据处理方案效果对比383.4.2 实验结果393.5 本章小结414 基于生成对抗网络的非监督低剂量CT去噪算法研究424.1 CycleGAN生成对抗网络框架介绍434.2 基于深度学习的非监督低剂量CT去噪网络研究444.2.1 生成器设计454.2

3、.2 判别器结构494.2.3 损失函数调整514.3 训练数据集534.3.1 胸腹部临床数据534.3.2 MAYO公开集数据544.3.3 数据处理554.4 网络训练与实验结果554.4.1 训练参数说明554.4.2 实验结果565.5 本章总结616 全文总结及展望616.1 全文总结616.2 展望62参考文献62摘要1895年德国物理学家伦琴W.K.发现X射线(又称伦琴射线),X射线发明后英国电子工程师亨斯菲尔德(Hounsfield)于1967年成功制作了第一台CT机器。X射线计算机断层扫描(Computed Tomography,CT)以扫描时间快、成像清晰等特点在医学临床

4、诊断方面广泛应用。CT对人体进行拍摄时所用的X射线产生的辐射会对人体造成伤害,近年来CT辐射问题受到人们越来越多的重视。人们用低剂量CT扫描方法来降低辐射减少对人体产生的危害,但是低剂量CT图像会产生噪声等导致CT图像质量下降,直接影响医生对病人的病情诊断。为了提高低剂量CT图像质量,本文基于深度学习卷积神经网络方法对低剂量CT去噪图像后处理方法进行研究。针对目前基于深度学习低剂量CT去噪方法中存在的问题,从两个方面进行改进。主要工作如下:(1) 针对存在钙化点的低剂量CT数据提出了一种可以保留钙化点的低剂量CT卷积神经网络去噪方法。由于CT图像中钙化点一般较小且含钙化点的数据较少,一般的卷积

5、神经网络会将较小的钙化点当作噪声点去掉。研究首先设计一种钙化点添加方法,对训练数据进行预处理。然后设计出满足要求的低剂量CT去噪网络。最后设计两种不同的损失函数,卷积神经网络采用这两种损失函数分两步相继训练。通过与目前常用方法进行对比研究,证明提出的方法可以保留“钙化点”的基础上完成了低剂量CT去噪。(2) 提出了一种可以利用结构不同的非对齐低剂量CT和标准剂量CT图像进行无监督训练的深度学习卷积神经网络。目前大多基于深度学习的低剂量CT去噪算法需要大量结构相同的(对齐)低剂量CT图像和标准剂量CT图像进行训练。人体胸腹部等非刚性部位获得对齐数据比较困难,限制了基于深度学习的低剂量CT去噪算法

6、的应用范围。本文通过CycleGAN生成对抗网络框架,设计高效生成器和判别器,利用非对齐CT数据进行训练并得到了良好效果。拓宽了深度学习卷积神经网络低剂量CT去噪的范围。关键词:低剂量CT 卷积神经网络 去噪 钙化点 非对齐AbstractIn 1895, German physicist W.K. roentgen discovered x-ray (also known as roentgen ray). After the invention of X-ray, Hounsfield, the British electronic engineer, successfully made

7、the first CT machine in 1967. X-ray computed tomography (CT) is widely used in clinical diagnosis because of its fast scanning time and clear imaging. In recent years, more and more attention has been paid to the problem of CT radiation. People use low-dose CT scan to reduce the harm of radiation to

8、 human body, but low-dose CT image will produce noise, which will lead to the decline of CT image quality, low-quality CT image will affect the doctors diagnosis of the disease.In order to improve the image quality of low-dose CT, this paper studies the image post-processing method of low-dose CT de

9、noising based on deep learning convolution neural network. In view of the existing problems in the denoising method of low dose CT based on deep learning, two improvements are made. The main work is as follows:(1) (1) A convolution neural network denoising method for low dose CT data with calcificat

10、ion points is proposed. Because the calcification points in CT images are generally small and the data containing calcification points are few, the convolution neural network will remove the small calcification points as noise points. Firstly, a calcification adding method is designed to preprocess

11、the training data. Then a low dose CT denoising network is designed. At last, two different loss functions are designed, which are used to train convolutional neural network in two steps. Compared with the current common methods, it is proved that the proposed method can retain the calcification and

12、 complete the low-dose CT denoising.(2) A deep learning convolutional neural network is proposed, which can be used to train unsupervised images of non aligned low dose CT and standard dose CT with different structures. At present, most low-dose CT denoising algorithms based on deep learning need a

13、large number of low-dose CT images with the same structure (alignment) and standard dose CT images for training. It is difficult to get alignment data of non rigid parts such as chest and abdomen, which limits the application of low dose CT denoising algorithm based on deep learning. In this paper,

14、we use cyclegan to generate the network framework, design an efficient generator and discriminator, and use the non aligned CT data to train and get good results. The application of deep learning convolution neural network in low dose CT denoising is extended.Key words: low dose CT convolution neura

15、l network denoising calcification point non alignment1引言1.1 课题背景和意义CT(Computed Tomography)电子计算机断层扫描利用精确准直的X线束等,与灵敏度极高的探测器一同围绕人体做的断面扫描,可以快速获得图像清晰的CT图像应用于疾病的检查;根据所采用的射线不同可分为:X 射线 CT(X-CT)、超声 CT(UCT)以及 射线 CT(-CT) 等1。1972年发明了第一台CT拍摄设备,并将其成功应用于脑部检查,宣告了CT的诞生同时也开创了数字医学影像临床引用的先河2,3。近年来CT技术产生了快速发展,产生如螺旋CT4,电

16、子束CT5等多种CT技术。作为现代影像学的杰出代表,CT已经成为放射诊断领域内不可缺少的一部分,是目前临床诊断中最常见的无损检测手段之一6。科学技术的发展推动人类社会进步,方便人们的生活,同时科学技术使人类社会面临各种各样的风险7。CT 技术在为医疗诊断带来极大方便的同时,CT 扫描辐射也正在危害着人类的健康8,研究表明,过量的X光照射会诱发产生多种疾病,如白血病、癌症、新陈代谢异常及其它一些遗传性疾病6,9-15。据报道,患者接受一次全身CT扫描所受到的辐射剂量相当于其位于日本广岛和长崎原子弹爆炸中心2.5km处接受的辐射量大小16,全球医疗所致年人均辐射剂量在过去1015年的时间里约增加1

17、倍,尤其在高度发达的国家这种情况更为突出17-18。某些人群,如青少年对CT辐射敏感度约为成年人的10倍以上19,青少年身体发育情况诊断常常需要拍摄左手腕骨CT图片,根据CT图片进行骨龄判断并结合实际年龄得到结果。目前CT已被许多发达国家列为最主要的医疗辐射源15。随着人们对CT辐射认识的加深,提出在保证CT图像质量和满足临床诊断要求的同时,尽可能减少受检者的辐射剂量(ALARA)已成为当今影像学重要的研究方向和目标20。Naidich21等人在1990年首次提出低剂量CT(LDCT)的概念。在CT拍摄中X射线强度和拍摄时扫描时间长短是影响CT剂量的直接因素22,23,实际应用中通常通过降低C

18、T拍摄仪器X射管电流强度来降低CT剂量,管电流的下降导致信噪比下降引起密度分辨率的下降,其结果可能导致密度相近区域辨识困难6,造成图片质量下降。降低的CT图像会影响医生的诊断。基于以上问题,低剂量CT去噪研究近年来得到了快速发展。目前常用的低剂量CT去噪方法主要包括三个类别:投影域方法、图像域重建方法和后处理方法。其中后处理方法利用低剂量拍摄到的CT图像,对其去噪重建为标准剂量CT质量,具有不依赖具体CT设备,简单易用等特点,成为低剂量CT去噪的热点方案。1.2 CT成像基本原理CT成像是用X线束对人体检查部位进行扫描,由探测器接收透过人体的X线,通过转换后经将光信号转为数字信号,输入计算机处

19、理。人体各个部位对X光线吸收情况不同,CT重建算法根据人体各个部位对CT吸收的不同程度将其转为不同的黑白像素值构成CT图像。图像采集通过CT仪器X管仪器向被拍摄者发送X射线并围绕被拍摄者旋转持续拍摄,在X线管对立面(被拍摄者另一边)有接收X射线的检测器,检测器和X线管同步围绕被拍摄者旋转,检测到的信息为投影数据。如下图1.1所示。人体X射线检测器X线管图1.1 CT设备工作图Figure1.1 Working drawing of CT equipmentX线对人体有极强的穿透力,从X线管发出的X线可以穿过人体并被对立面的检测器接收。X线在穿过人体的时候会与人体组织发生相互作用,这主要包括光电

20、效应和康普顿散射,光电效应使X光穿过人体时与人体的原子内层电子发生作用(需要较强的能量),光子被吸收,光子能量越高越不会被吸收,穿透性越高。光电效应是临床CT的主要衰减形式;康普顿散射指X光子与人体原子的外层电子相互作用(所需能量相对较弱)导致光子能量减弱并改变运动方向,光子方向改变后无法达到预定接收器位置使该位置相应信号减弱,光子改变方向后到达其它位置也会给相应位置带来噪声干扰,康普顿散射是CT图像噪声的主要来源。人体不同的组织和X线产生的光电效应和康普顿散热作用不同,当降低X管线电流时会使光电效应减弱,康普顿散射增强,图像产生更多噪音,质量下降。当强度为I0的X射线通过某一种均匀介质(如下

21、图1.2)时会产生衰减,其衰减规律可由朗伯比尔定律(Lambert-Beer law)24表示,如公式(1-1):uII0图1.2 X线穿过物体Figure 1.2 X-ray through object (1-1) (1.2)式中:I为探测器接收到的X线强度;xX射线穿过介质的直线长度;u物体衰减系数。假设物体时分段均匀的(如下图1.3),并且各段长度和衰减系数分别为x1:u1、x2:u2、.,其衰减规律如公式(1-3)。.U1U1II0图1.3 X线穿过多个物体Figure 1.2 X-ray through multiple object (1-3)上式也可表示为:(1-4)如果X射线

22、穿过人体等连续不均匀介质,在某方向M为:(1-5)式(1-4)和式(1-5)等于号两边均可表示为X射线穿过介质后的投影,在数据采集过程中会切换几百甚至上千个扫描角度,综合所有角度的方程可以获得人体对X射线的衰减分布图U(x,y),人体大部分组织衰减系数u很小(如肌肉为0.192cm-124),为了方便临床使用,不直接使用衰减系统而是采用不同组织相对于水的衰减系统的比值关系。组织N的CT值计算公式(1-6)如下:(1-6)式中:u0水的衰减系数;u所求组织衰减系数;CT单位为“亨”(Hounsfield Unit,HU)。常见人体组织及介质CT值如下表1.1所示:表1.1 人体部分组织和常见介质

23、 CT 值Table 1.1 CT values of some human tissues and common media人体组织CT 值(HU)人体组织CT 值(HU)骨组织400肝脏5070钙质80300脾脏3560血块6484胰脏3055脑白质-2535肾脏2550脑灰质2844肌肉4055脑脊液38胆囊1030血液1332甲状腺5090血浆314脂肪-100-20渗出液15水0空气-200 以上漏出液(蛋白30g/L)182有了CT扫描断层各部位CT值以后,用CT值代替扫描图像对应值便可以得到CT图像。人类眼睛只能辨别16阶灰度,CT有大约2000阶灰度,因此人眼无法准确识别每一阶

24、灰度,只能分辨出差异不小于125Hu的CT图像,如差异小于50Hu的人体软组织人眼就无法识别出来。为了能利用CT图像的高精度同时可以观察到各个不同CT值的人体组织,人们通过分段观察的方式观察CT图像,根据需要观察组织的CT值范围,只观察该CT值范围内的图像,将该范围定义为观察的窗宽,该范围的中心即为窗位或窗中心。窗宽的范围大小会影响CT图像的对比度。当我们选定了窗宽之后,会将该窗宽内CT范围划分为16个灰阶进行观察,例如我们选择CT值1000Hu到1160Hu区间内图像,窗宽为160Hu,这160Hu重新对应到从白到黑16个灰阶,每个灰阶CT值范围为10Hu。如果我们选择窗宽越小,每个灰阶CT

25、值范围越小,对比度越强。要根据人体组织内CT值范围选择合适窗宽。窗位是窗宽的中心值。如观察某组织CT图像窗宽为100Hu,窗位为1000Hu。在这张CT图像中CT值950Hu(窗位减去窗宽一半)到1050Hu(窗位加上窗宽一半)均可以被观察到。CT值大于1050Hu表现为白色,CT值小于950Hu的表现为黑色。本文利用深度学习卷积神经网络方法进行训练,针对深度学习特点对数据进行优化,将CT图像归一话到0到1之间。如头部数据观察范围变为0.24, 0.28,胸腹部数据观察范围为0.23, 0.29。下图1.4展示直接观测CT值和利用窗口窗口观察图像的差异。 (A) (B)图1.4 (A)直接查看

26、CT图像(B)采用窗口值查看CT图像Figure 1.4 (a) view CT image directly (b) view CT image by window value1.3 国内外研究现状及趋势当前临床在保持硬件条件不变的情况进行低剂量CT扫描往往通过降低X射线球管中的管电流,此种方法会导致发射信号信噪比下降进而获得的CT图像质量下降影响医务工作者病情诊断。国内外学者进行了大量的研究实验提高低剂量CT的图像质量,这些工作研究方向大体可以分为三种:投影域处理方法、图像域重建方法和后处理方法。1.3.1 投影域处理方法投影域处理方法也称为预处理方法,对探测器接收到的投影数据进行去噪处理

27、,然后通过滤波反投影或其它CT图像重建方法重建CT图像。此类方法速度较快效率高、便于临床应用,但是对设备具有一定依赖性,大多数厂家不提供投影数据增大了算法研究的难度。Hsieh J等将投影数据采用自适应截断均值(adaptive trimmed mean,ATM)的方法进行处理,有效抑制重建图像中条形伪影25;Yu L等提出一种对投影数据局部自适应双边滤波算法,提高了重建图像对比度,使人体各组织边沿信息更加清晰26;Zhang Y等根据投影数据中不同的噪音信息,针对不同强度或性质噪声采用不同去噪方法进行滤波,并实验获得了较高质量中间图像27;Gui Z等对投影数据采用了一种模糊中值滤波方法,对

28、投影数据中噪声一职和伪影消除均取得良好效果27。投影域滤波方法对图像重建前的投影数据进行处理,如果设计不合理将直接影响重建图像质量,产生畸变等错误图像,在重建时缠手新的噪声28,滤波算法性能非常重要29。1.3.2图像域重建方法图像重建算法包括解析重建(analytic reconstruction,AR)和迭代重建(iterative reconstruction,IR)两类30-38。解析法是以 Radon 变换对投影数据解析处理后计算的一种方法,如 FBP 重建算法8。解析法重建速度较快,但是其对CT的辐射剂量要求较高39。迭代法图像重建算法通过对此迭代计算获得人体每个部位CT值,获得的

29、图像质量较好。开始时假设一种初始值,然后从某个角度进行投影得到预估值和真实值,计算其差值进行反馈修正预估值,通过一次次迭代直到预估值和真实值差值为0,此时即可获得准确CT重建出质量较高CT图像。迭代法需要较高的计算机性能,几年来随着计算机性能越来越好,迭代法也慢慢开始获得重视。将先验信息作为惩罚项加入低剂量 CT 统计迭代重建模型中,可以有效地增强重建图像中散射噪声和伪影的去除效果40。马尔科夫随机场(Markov Random Field, MRF)是常用的先验模型,如Zhang R41等将马尔可夫随机场模型混合高斯处理提高重建质量。非局部均值和字典学习近年来也慢慢被用来进行惩罚项设计,朱永

30、成等42采用K-SVD算法迭代学习去除低剂量CT噪声;郝立巍等43通过引入局部相位特征,设计图像子块相似性函数,对低剂量CT去除噪声的同时保留了边界、囊肿区及低密度区等重要特征。1.3.3 后处理方法后处理算法直接对设备拍摄得到低剂量CT图像进行去噪重建位标准剂量CT图像,与投影域处理方法相比无须获得投影数据,具有与图像重建算法和CT设备无关性,具有更好的普适性,与图象域重建算法相比具有更快的速度。可以借鉴图像去噪算法,提高算法还发效率。近年来深度学习的兴起,其在图像处理领域取得了良好的成绩,利用深度学习方法进行低剂量CT去噪的方法也表现出了强大的性能。Zamyatin A等44利用自适应多尺

31、度滤波器对低剂量CT进行去噪并且有效保留了图像边缘信息;Chen Y等45利用邻域加权平均算法对低剂量CT数据进行处理完成去除噪声和抑制伪影良好效果;Kang D46等提出一种自适应三维块匹配算法,有效提高低剂量CT图像去噪水平。Chen H47-49设计了设计了一种卷积神经网络完成了对低剂量CT的良好去噪效果,随后通过加深网络设计出RED-CNN网络架构,利用模拟数据和临床数据进行训练,均表现出了较强的去噪性能。Eunhee K50-51利用对低剂量CT进行小波处理然后送入卷积神经网络完成了去噪效果,后期利用生成对抗网络利用心脏部位非对齐数据进行训练完成非监督的低剂量CT去噪网络方法;章云港

32、52-53等利用空洞卷积、批归一化(Batch Normalization,BN)和残差学习54设计卷积神经网络降低网络的复杂度,不仅提高了训练速度同时得到了高质量的去噪水平,提出一种改进型残差解编码网络,通过减小卷积网络卷积尺寸和更改普通卷积层为空洞卷积等方式改进RED-CNN完成高效低剂量CT去噪效果;吕晓琪等55利用池化层、批归一化和残差学习设计深度学习网络对完整的肺部低剂量CT完成了去噪;徐曾春等55利用改进型WGAN对低剂量CT进行去噪并取得良好效果。1.4论文主要研究内容及结构安排科研工作者对低剂量CT去噪做了大量的研究,在CT扫描的投影域、图像重建和后处理等各方面都获得优异的去噪

33、效果。随着深度学习技术的发展,已有大量基于深度学习的低剂量CT去噪研究,如Chen H等57研究人员提出的深度学习卷积神经网络,无论模拟低剂量CT数据还是临床数据,与传统方法的高性能低剂量CT去噪算法相比均表现出巨大的优势。但是深度学习方法仍有一些问题值得研究和探索,如低剂量CT中的钙化点问题和非监督训练问题。研究从图像后处理方向入手,利用深度学习卷积网络强大的图像处理能力针对含钙化点的CT数据提出一种含钙化点的低剂量CT去噪算法。针对结构不同低剂量CT和标准剂量CT非对齐数据提出一种无监督的低剂量CT去噪网络,可以应用非对齐数据进行训练并获得了良好的效果。(1) 解决低剂量CT去噪中钙化点问

34、题。钙化点是人体中的钙化组织,有良性的也由恶性的,应当引起我们的重视。并非每个人都有钙化点,钙化点也可能只存在在某些部位,因此只有极少CT图像中存在钙化点。钙化点在CT图像上特征和噪声非常相似,除比噪声点稍大外无明显差别,目前低剂量CT去噪算法往往将其作为噪声去除,影响医生对病情诊断。研究提出一种基于深度学习卷积神经网络的低剂量CT去噪算法,通过设计数据处理算法,改进低剂量CT去噪网络和损失函数设计等工作,成功实现对由钙化点的低剂量CT数据去噪并保留钙化点。(2) 提出一种基于深度学习卷积神经网络的无监督的低剂量CT训练算法。随着深度学习的发展,其在低剂量CT去噪领域表现出了强大的性能,相比传

35、统低剂量CT去噪算法也具有很大的优势。现有的深度学习卷积神经网络低剂量CT去噪方法大多需要大量结构相同的低剂量CT和标准剂量CT数据进行有监督学习。目前仅有一种应用于心脏部位的无监督训练方法且性能较差,研究利用生成对抗网络架构提出一种非监督的深度学习训练方法并获得了优异的低剂量CT去噪能力。文章结构安排如下:第1章 引言。首先介绍本文课题的研究和意义;然后,简介CT原理并进一步介绍了国内外研究人员从各方面进行低剂量CT去噪的研究现状;最后提出本文的内容和结构安排。第2章 与研究相关卷积神网络知识概要及本文网络评价指标。介绍与本文研究相关的深度学习知识概要及研究所设计到的卷积神经网络框架,提出本

36、文网络评价指标,为后面章节部分进行知识预备。第3章 基于卷积神经网络的低剂量含钙化点CT去噪研究。首先通过头部数据集展示钙化点并总结其特点提出低剂量CT去噪中钙化点问题研究的意义,然后利用经典的卷积神经网络低剂量CT去噪方法探讨对包含钙化点数据去噪中遇到的问题。接着从数据预处理、损失函数和网络设计数据设计等方面完成包含钙化点的低剂量CT去噪,最后通过与经典低剂量CT去噪方法对比总结证明提出方法的优势并进行本章小结。第4章 基于生成对抗网络的无监督低剂量CT去噪研究。首先展示非对齐的CT数据特点,通过经典低剂量CT去噪方法实现对齐去噪提出无监督方法的意义,然后通过对经典非监督深度学习方法框架的研

37、究从生成器、判别器和损失函数方面进行改进提出非监督的低剂量CT去噪算法。最后通过与现有方法进行对比研究提出研究的价值并进行本章小结。第5章 总结和展望,通过总结文本的研究工作及取得成就,分析放方法中仍存在的问题,提出相关问题解决方法和未来的研究方向。2 与研究相关卷积神经网络知识概要及网络性能测试指标2.1 与研究相关深度学习卷积神经概要LeCun63于1989年提出世界上第一个真正意义上的卷积神经网络,从广为流传的手写字体识别LeNet65网络,到2012到Alex Krizhevsky等发布AlexNet64,卷积神经网络近几年获得了快速的发展,在计算机视觉和自然语言处理方面表现出强大性能

38、。如人脸检测、人脸识别到图像去噪等应用。本章通过对卷积神经网络的组成等基础知识进行概要,讨论卷积神经网络的卷积层、激活层、池化层和全连接层等结构及其特点。2.1.1 卷积层卷积层由若干卷积核和偏置组成,通过与输入图像或特征层进行点积和累加得到特征图(feature map)。卷积核可以提取输入图像的局部特征,不同的卷积核会提取输入图像的不同特征。卷积核的尺寸中长和宽为该卷积核的感受野,说明了卷积核所能感知的区域。卷积核的通道数与输入图像的通道数相同。当卷积操作开始后,卷积核由设置的步长(卷积核在图像上滑动时移动元素数)由左向右、由上向下滑动,卷积核初始位置由padding确定,每滑动一次卷积核

39、上元素和图像上对应元素相加并求和得到输出矩阵对应值,如下图2.1所示:12345678910111213141516100101010=*23273943 图2.1 卷积操作示意图Figure 2.1 schematic diagram of convolution operation以上图二维卷积运算为例,输入图像为4*4*1矩阵,卷积核为3*3*1,步长为1。初始位置卷积运算:1*1+2*0+3*0+5*1+6*0+7*1+9*0+10*1+11*0=23,以这种方式依次滑动计算,得到输出结果。卷积层具有两个主要特征:局部连接和权值共享。(1) 局部连接:也叫稀疏连接,指卷积层节点只和前一

40、层的部分节点连接。这种局部感知结构理念受动物视觉皮层结构启发,动物对外界事物的视觉感知过程先局部感知然后全局。在计算机视觉中,同一张图像不同区域的相关性与其相互间距离正相关,图像中的两个像素距离越近其相关性越大,反之越弱。局部感知神经元对局部进行感知,在更高层将之前的局部信息综合得到全局信息。通过局部连接可以让卷积网络只关注应该关注的位置,同时可以大大降低神经网络的参数,如10个神经元对一张100100图像连接,如果采用全连接方式,每个神经元都要与图像的所有像素进行连接,参数量将达到10100100=105,很难进行训练。如果采用局部连接方式,每个神经元与1010的局部图像连接,参数量为10(

41、100/10)(100/10)=103。(2) 权值共享:权值共享指同卷积层的一次卷积运算卷积核权重是共享的,无论卷积到输入图像的哪个位置,卷积核权重都是一样的。同一卷积层的不同卷积核参数可能不同,不同卷积层中卷积核也可能不同。通过权值共享可以进一步降低训练参数,如上例子中让每个神经元的10*10权值相同,那么需要训练的参数量降低为10*10。一个卷积核仅能学习到一种特征,实际生活中仅凭某一种特征无法准确的描述区分不同事物,如猫和狗,只给出颜色不能准确的描述它们也无法正确区分它们。于是同一卷积层往往具有多个卷积核对输入图像进行特征提取,卷积核数代表了可以学习到的特征数。同一卷积层可以设置多种卷

42、积核学习多种不同特征,卷积神经网络可以通过增加卷积层数学习更深层特征。如2014年牛津大学视觉组提出的VGG67网络结构获得当年ILSRC比赛亚军,VGG网络通过降低卷积核尺寸同时增加卷积层数(网络深度),利用两层33卷积层达到一层55卷积层的感受野,同时证明了网络深度是影响卷积神经网络性能的一个关键因素。Padding为卷积神经网络卷积核对输入图像进行卷积时遇到越过输入图像边界时的补充边界行为。研究利用tensorflow深度学习网络架构进行训练,以tensorflow中Padding分例,分为“VALID”和“SAME”两种。当padding为“VALID”时,若无法完整滑动,则输入图像或

43、特征层右面和下面部分直接丢掉。当padding为“SAME”时,当无法完整滑动,在输入图像上下左右补0,若不够继续在右面和下面补0。如下图2.2所示。1231415168VALID1231415161111步长为2*1230141051600000SAME8466图2.2 padding操作Figure 2.2 padding operation2.1.2 反卷积传统的卷积神经网络对输入图像进行卷积之后得到的特征层长和宽根据padding的不同等于或小于输入图像的长和宽,当我们需要将图像恢复到原理的尺寸的时候需要用到反卷积操作,它相当于对图像进行上采样。反卷积通过对输入图像进行补0扩大尺寸,然

44、后进行卷积,如下图2.3所示,左边为输入图像,右边为进行反卷积时对图像进行补0扩大,然后按章2.1.1中卷积方法对图像进行卷积。0000000010203000000000104010000000005010600000000123141516图2.3 反卷积操作Figure 2.3 deconvolution operation2.1.3 激活层激活层利用激活函数把输入的线性数据转换为非线性输出给下一层,多层线性模型变换后和一层线性模型变换无本质差别,激活函数通过将线性模型转换为非线性,解决线性模型对深层卷积神经网络表达力不够的问题。常用的激活函数有Sigmoid函数、Tanh函数、ReLU

45、和PReLU等,以下为研究涉及到的两个的激活函数。(1) ReLU激活函数(2-1)ReLU(x)f(x)X图2.4 ReLU 图像Figure 2.4 ReLU imageReLU71(Rectified Linear Unit)是深度学习卷积神经网络中常用的激活函数。其数学表达式如公式(2-1),其函数图像如上图2.4所示。当x大于0时,其导数恒为1,收敛快。当x小于0时,输出为0,增强了网络稀疏性,提高了网络泛化性。(2) PReLU激活函数(2-2)式中:i-代表不同通PReLU(x)f(x)X图2.5 ReLU 图像Figure 2.5 PReLU imageReLU激活函数对输入小

46、于0的数据置为0,提高了网络的稀释性,这同样也将导致训练变得容易“die”,一个大的梯度经过一个ReLU神经元,参数更新后这个神经元就再也不会对任何数据有激活现象了,那么这个神经元的梯度就永远都会是0。如果学习率很高,网络中很多神经元都会“dead”。针对这种情况Kaiming he等提出的PReLU72激活函数,如公式(2-2)和函数图像如图2.5所示。PReLU再输入小于0时也会有一定输出,ai在采用带动量方式更新。这样PReLU仅增加极少量参数,仍保持了ReLU激活函数的优势,同时解决了其“dead”问题。2.1.5 全连接层全连接层(fully connected layers,FC)

47、是一个特殊的卷积层,在整个卷积神经网络中起到“分类器”的作用。全连接层一般在卷积神经网络尾部,经卷积层等结构学习到的特征信息映射到样本标记空间,对前面学习到的特征做加权和。其激活函数常采用ReLU激活函数。2.1.4 池化层池化层(pooling)对图像进行下采样,减小特征层尺寸。减小网络训练计算量,提高训练速度,同时池化层会提取了图像主要特征,忽略一些特征,降低网络过拟合的可能性。均值池化和最大值池化是比较常见的池化层。最大池化将图像池化区域最大值保留,如下图2.5所示:1231141251658737最大值池化步长2,尺寸2*24387图2.5 池化操作Figure 2.5 pooling

48、 operation上图采用一个22的filter进行最大值池化,在每一个区域中寻找最大值,这里的stride=2,最终在原特征图中提取主要特征得到右图。均值池化是对每一个区域元素求和,再除以区域包含元素数,得到主要特征。池化层使特征图缩小,会影响网络精度。2.1.6 损失函数损失函数反映了网络模型预测值与真实值之间的差距,用来评估模型性能。损失函数结果值越大模型性能越差。深度学习在训练过程中不断计算损失进行反向传播,算法以此来更新模型参数,向模型损失减小的方向训练提高模型性能。损失函数对模型训练训练具有一定指导意义,实际应用中要根据算法的差异选择合适的损失函数将算法达到最优。本文涉及损失函数

49、有L1损失和L2损失:(1) L1损失L1损失即平均绝对误差(Mean Absolute Error,MAE)如公式(2-3),L1损失表达了目标值和模型预测值各个元素差的绝对值的均值,对异常有较强的鲁棒性。(2-3)式中:m、n目标和预测图像的尺寸;代表绝对值。(2) L2损失L2损失即均方误差(MeanSquaredError,MSE)表示是预测值和实际观测值间差的平方的均值,如公式(2-4)。由于平方的影响数学特性更好,对较大的误差比L1损失更敏感。(2-4)式中:m、n目标和预测图像的尺寸。2.1.7 优化算法在训练神经网络模型的时候,我们希望损失函数可以降到最低,收敛越快越好,并希望

50、损失达到最低后不会出现反弹保持稳定下降,这就要用到优化算法。目前优化算法主要有梯度下降优化算法、指数加权平均算法、动量梯度下降算法、RMSprop算法和Adam73优化算法。Adam(Adaptive momentum)是一种自适应动量的随机优化方法(A method for stochastic optimization),它能基于训练动态更新神经网络权重。经常作为深度学习中的优化器算法。2.2 相关卷积神经网络结构2.2.1 VGG网络VGG74卷积神经网络是牛津大学视觉组(VisualGeometryGroup)于2014年提出的卷积神经网络,拥有较强分类性能和定位性能。其拓展性和泛化性

51、都很好。VGG有深度不同的VGG19和VGG16两种结构。VGG19网络包括16层卷积层,所有卷积核尺寸全部为33,padding均为“SAME”,激活函数全部才哦那个ReLU激活函数。其网络结构前两层卷积层均有64个卷积核,然后利用一个最大池化层进行最大池化;接下来两层卷积层有128个卷积核,然后利用最大池化层进行最大池化;第五到第八层卷积层有256个卷积核,然后利用最大池化层进行最大池化;第九到第十三层卷积层有512个卷积核,利用最大池化层进行最大池化;第十四到第十六层卷积层有256个卷积核,然后经过一个最大池化的池化层;所有池化层步长均为2,大小均为22,padding均为“SAME”;

52、最后为三个全连接层,并用ReLU作为激活函数,全连接层尺寸分别为4096、4096和1000。利用softmax函数进行分类。VGG网络通过连续的两层步长为1的33卷积层代替一层55卷积层,连续的三层步长为1的33卷积层代替77卷积层,使网络较之前的单层卷积层保持相同的感受野的情况下提升了网络的深度,每层卷积层后面均利用ReLU激活函数进行激活,这样VGG网络具有更深的非线性层结构,可以学习更复杂的模型,提升网络性能,而且计算量较之前网络大幅下降。例如原来一个55卷积核参数量为55=25,替换为两个33的卷积核后参数量变为233=18。VGG网络非常简洁,整个网络卷积核尺寸均为3x3,和最大池

53、化尺寸均为2x2,VGG取得良好成绩证明在一定程度下可以通过增加网络深度提升网络性能。2.2.2 ResNetVGG通过加深深度卷积神经网络深度在降低计算量的情况提高了网络性能,自此卷积神经网络设计开始把目光放到提升网络的层数。然后通过不断的加深网络深度研究者很快发现不断地增加网络层数,网络性能并没有得到预想中的提升,相反网络层数到达一定程度后网络变得很难训练,训练集损失不仅不再缩小甚至变大,训练效果甚至不如层数较少的卷积神经网络,发生退化现象。通过研究发现随着网络层数的增加,梯度反向传播到前面层距离变大,累计相乘后梯度变得无穷小造成梯度消失。针对这种情况,2015年何凯明等68提出一种深度残

54、差网络结构,这种网络通过跳跃连接来解决层次过多带来的问题,其借鉴了高速公路结构(Highway Networks)设计思路,其结构原理如下图2.6所示:XF(X)Relu权重层权重层ReluF(X)+X+图2.6 ResNet残差连接Figure 2.6 residual connection假如网络输入为X,期望输出为H(X),加入残差连接后H(X)=F(X)+X。这种跳跃连接没有增加参数数量,同时将底层特征带到高层有效减少了信息丢失,有效的解决了使深层次的卷积神经网络退化问题。2.2.3 Inception模型2014年Christian Szegedy等提出的GoogleNet,并获得了

55、当年ImageNet挑战赛军。VGG证明了通过增大深度学习网络深度可以提高网络性能,但是增大到一定程度会出现网络退化现象,ResNet通过添加残差连接解决了网络深度问题。GooleNet中提出的inception模型提出了另一种提高网络性能的方案,与ResNet增加网络深度不同,Inception模型通过增加网络“宽度”达到提升网络性能的效果。Inception模块是一种优良的局部拓扑结构,通过对输入图像并行地执行多种不同尺寸的卷积核进行卷积运算或池化操作,然后将并行的所有输出结果拼接为一个特征图。如Inception利用11、33和55三种尺寸卷积核对输入图像进行卷积和池化操作,然后将其获得所有不同信息综合起来获得更好的特征提取性能。如下图2.7所示:输入图像/特征层拼接33卷积55卷积33池化11卷积图2.7 Inception单元Figur

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论