基于兴趣点和视觉字典的眼底病理学检测_第1页
基于兴趣点和视觉字典的眼底病理学检测_第2页
基于兴趣点和视觉字典的眼底病理学检测_第3页
基于兴趣点和视觉字典的眼底病理学检测_第4页
基于兴趣点和视觉字典的眼底病理学检测_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

深圳大学研究生课程论文深圳大学研究生课程论文 题目 基于兴趣点和视觉字典的眼底病理学检测 成绩 专业 生物医学工程 课程名称、代码 专业英语 年级 2010 级 姓名 袁 杰 学 号 2100220114 时间 2011 年 7 月 10 任课教师 刘 维 湘 基于兴趣点和视觉字典的眼底病理学检测 Anderson Rocha Tiago Carvalho Siome Goldenstein Jacques Wainer 摘要: 糖尿病视网膜病(DR)是一种糖尿病的并发症。它会弱化视网膜血管,而产 生从轻微出血到出现新生血管的各种病变。如果不治疗则会导致失明,事实上, DR 在发达国家是导致 20 岁到 74 岁之间人群失明的最主要原因。对付 DR 最有 效的方法就是通过分析眼底图像对 DR 进行早期诊断。本文中,我们介绍了一 种对眼底图像进行病理学检测的新方法。 我们的工作是做一个自动扫查系统,那些被系统判断为视网膜不正常的病 人将需要看眼科医生。这意味着需要一个评价标准使系统得到低的假阴性率。 我们应该尽可能的避免将异常图像归类为正常的情况。 我们的方法是先构建包含了所需重要病理学特征的视觉字典,然后对眼底 图像进行正常或有 DR 嫌疑的分类。我们估计了硬性渗出,出血和微血管瘤的 方法,用跨数据集验证的方法测试了在不同的参数配置下系统的鲁棒性和可靠 性。 4、用于 DR 检测的视觉字典 如今针对单一异常解决方案的主要问题是如何扩展这些方法使其能解决更 普遍的问题。大多数时候,在一个数据集上定制的渗出物检测方法并不能在另 一个数据集上起作用,使得 DR 检测的结果存在疑点。此外,也很难对现有文 章中的方法作比较,因为他们大部分用于训练和测试的都是私人数据集,而很 少尝试跨数据集验证。本文中,我们将解决这两个问题。 这里介绍一种新的易于扩展的单一病理检测方法,分别对硬性渗出、出血 和微血管瘤进行了测试。此外,我们还用实验说明该方法可以在分别用不同数 据集进行训练和测试的情况下保持较高的特异性和灵敏性。 该检测法应用了眼底图像和视觉字典的概念。这是在计算机视觉文献中提 到的一种新的模式,它用一组具有高度扩展性的特征来表示,在没有对图像进 行预处理或后处理的情况下得到了很好的检测和分类结果。 视觉字典建立了一种稳定的表示方法,它将每幅图像表示为区域的集合。 在这种表示下,我们只需要关心每个区域的表达。 我们的目标是是用学习建立一个视觉字典,以训练集来说,根据特定的问 题选取了至少 d 个典型的区域。选取的区域数 d 必须足够大以辨别图像中相关 的变化,但是也不能太大以致辨别出不相关的变化,如噪声。这些区域建立了 一个 d 维的希尔伯特空间 H,这个空间里每个区域用一个视觉单词表示。 我们可以根据一个视觉字典里包含的视觉单词描绘出一幅图像,得到希尔 伯特空间 H 中每个视觉单词在原始图像中对应的区域。在这个设定中我们面对 的主要挑战就是建立一个在特定问题下能捕获所有细微差别的典型字典。 4.1 方法综述 近来不少研究者使用了兴趣点的局部不变特征。虽然它最初发展是为了应 用于通信领域,但是已有不少在图像恢复和分类方面的尝试。 这些方法背后的原则是:选择最能代表图像的点组成一个大数量的兴趣点 (PoI)集,然后计算每个兴趣点周围的局部描述子,并存储在索引数据结构中。 这个方法是假设兴趣点比图像中其他的点能传达更多的信息。因此,图像 即使被扭曲后兴趣点仍能被稳定的检测到,这是兴趣点法则可重复性的主要标 准。 定位兴趣点后,每个点用它周围区域分解的小片段表示。有文献指出在兴 趣点周围计算出的局部描述子要比描述图像细微差别的全局描述子稳定。但是, 这样代表的方法有优点也有缺点。当搜索一个特定目标时,这个辨别力是非常 重要的。尽管如此,当搜索复杂的分类时,概括的能力是最重要的。因此,这 些解决方案往往是设计完全匹配的,它们在图像分类时并不直接转化好的结果。 解决这个问题的一种可能是视觉字典技术,它认为是高维空间描述和分割 成的多个区域。通常使用非监督学习技术(例如聚类)以便找到最具判别力的 兴趣点。每个兴趣点的区域,将变成视觉“字典”里的“字” 。 字典创建完后,对每个图像分析其兴趣点并将一个在字典中最接近的单词 分派给它。最后,每幅图像都由一系列视觉单词来描述。 在这个简单的想法中,最大的挑战是设计一个好的字典。字典的建立需要 对描述空间进行量化,这可以使用聚类方法,或者像本文讨论到的,由专家来 “选择”重要的词汇。 4.2 局部特征 为了描述一个给定图像的视觉内容,我们找到了图像的一系列兴趣点及其 周围区域的特征。理想的是选择尺度不变的兴趣点,以使得其描述子在可能的 图像变换后仍然保持稳定。要做到这一点,我们可以使用多种不同的方法。 我们已经发现 SURF 特征有最好的性能。我们也对 SIFT 特征做了性能评估 实验。两种方法都能达到较高的重复性和特殊性。 4.2.1 尺度不变特征变换(SIFT) SIFT 算法是在平移、缩放和旋转变换下最稳定的方法之一。 SIFT 算法有四个主要步骤。 1、尺度空间极值点的检测: 2、特征点的定位: 3、确定主方向: 4、兴趣点描述: 4.2.2 加速稳定特征(SURF) SURF 算法是在海森矩阵的基础上做了个基本的近似。它的描述子就是兴趣 点邻域的哈尔小波反应。 SURF 算法有四个主要步骤。 1、特征点检测: 2、特征点定位: 3、确定主方向: 4、兴趣点描述: 4.3 视觉词汇表 正如我们在 4.1 节所讨论的,SURF 和 SIFT 是良好的低层次的典型特征探测 器。但是,这种独特性是要付出代价的:因为这些解决方案往往是精确匹配设 计,他们不能直接转化为良好的图像分类效果,甚至限制它的应用领域。 我们认为,在对眼底图像进行渗出或者正常分类时,这些方法并不适合直 接使用。为了在提高这种描述子通用性的同时保持它的独特性,我们使用了视 觉词汇的概念。 在视觉词汇表结构中,每个兴趣点区域就是“字典”的一个“单词” 。 下 面,我们考虑解释渗出物的检测问题。本文中介绍的方法基本足以探测到其它 DR 相关的异常。为了解决眼底图像中渗出的检测问题,我们挑选然后建立了一 个训练集,它由含有渗出的正样本和专家认为正常的负样本组成。在训练这一 步中,我们对所有图像用 SIFT 和 SURF 算法作了兴趣点的定位。请注意我们没 对图像作任何预处理。 训练集的每幅图像都会产生一系列的兴趣点。找到兴趣点后,我们需要创 建字典来描述图像中有渗出的典型区域以及由专家标注的正常图像。为此,我 们需要选择合适的字典大小。 要创建字典,我们可以使用聚类如 k-均值法找到兴趣点群的中心。另一种 选择是让专家大致的标记出眼底图像中正常的和有渗出的区域,然后在这些标 记的区域中选择兴趣点作为字典的典型单词。 4.4 训练和分类 在训练集中,我们分别用以下方法创建了视觉字典:随机选择、聚类、描 述区域的粗选和精选。 粗选的方法中,我们考虑由眼科专家对图像手工分级然后粗略标记出正常 图像和渗出物图像的候选区域。然后我们在这些区域内部选择特征点。正常和 渗液区域的数目要相同。 精选的方法中,计算了由眼科专家手工分级后图像的特征点后,我们对标 记区域内的特征点进行了精选。粗选和精选的区别在于粗选是在候选区域有个 粗略的标记,而精选是在一定有渗出或一定正常的区域内选取特征点。本算法 只有在训练中才需要选择。 创建字典后,我们对训练图像中的每个兴趣点都都分配了字典中与它最接 近的单词。这一步称为量化。在量化过程结束时,我们得到了用于描述每幅图 像被选中单词柱状图的一组特征向量。 为了完成最后的分类工作,我们选择了一个二分类的机器学习分类器 支持向量机(SVM) 。然后向分类器输入由训练集计算出的特征向量来训练分类 器。 4.5 算法的扩展 本文所提算法的最大优点在于对图像分类之前不需要任何的图像预处理或 后处理。因此,我们可以把这个方法照搬到对 DR 其他问题的检测中去,比如 出血和微动脉瘤等。 4.6 实验和验证 这个部分介绍了为验证本文算法所完成的一些实验。 我们把这个实验设计为三部分: 一、这部分我们讨论了这个算法中重要参数的设置问题,比如用于分类的 字典里单词的数量,合适的区域描述子(SIFT 或 SURF)以及选择典型单词的方 法,如聚类、随机、人工操作(粗选或精选) 。实验所用的数据库为 DR1。 二、这部分要评估跨数据集对本算法的影响。为此,我们在一个数据集中 训练然后在另一数据集中测试。实验中用于训练和测试的是两个在文献中最常 见的两个数据集:RetiDB 和 Messidor。 三、这部分展示了本算法用于检测眼底图像中出血和微动脉瘤的结果。这 里要强调的是在完成这些新任务时我们没有对图像作任何预处理或后处理。实 验所用数据库为 DR1。 以上实验结果都用已 ROC 曲线表示。ROC 曲线是正负两类的参数成本在不 同值时 SVM 分类的结果。所有报告的结果均由 5 次交叉验证的平均值得到。 5.1 数据集 本文所有实验均基于数据集。DR1、RetiDB、Messidor。 5.2 实验一 这部分我们讨论了这个算法中重要参数的设置问题,比如用于分类的字典 里单词的数量,合适的区域描述子(SIFT 或 SURF)以及选择典型单词的方法, 如聚类、随机、人工操作(粗选或精选) 。 5.2.1 SIFT vs SURF ?字典大小? 在这个实验中,我们展示了作为产生视觉描述性词汇基础的 SIFT 和 SURF 描述的有效性。也展示了用于分析未知眼底图像的参考字典所必要的词汇量。 通过这个实验我们的结论是 SURF 描述子更有效。另一个有趣的结果是关于 参考字典所必要的词汇量的。有些关于图像和物体分类的文章指出越大耳朵字 典就能得到越好的分类结果。这可能符合复杂的类别以及大型多级方案的情况, 但并不适合我们在本文中处理的二分类的情况。 与以前图像与物体分类文章中报告的相反,一个很大的字典并不比一个只 有 100 个典型单词的字典有用。我们对渗出检测的最好结果是由 SURF 描述子 和 100 个视觉单词得到的。这样,我们只用 10%假阴性率的代价就得到了 80% 的灵敏度。这个实验中,视觉单词是随机选择的。 100 个视觉单词是区分正常和含有渗出物的眼底图像最有用的字典大小。 值得注意的是,这种方法即使在只有 25 个单词的情况下仍能得到 70%的灵敏度 和 90%的特异度。 5.2.2 聚类 vs 非聚类 vs 手工选择 在本文这个特殊领域内,可以发挥眼科专家经验的优势反复分类以提高参 考字典的分辨能力。 这里我们在以下四种方法下评估渗出和正常图像分类的质量:随机选择 100 单词、聚类选择 100 单词、人工粗选和精选。 不出所料,随机选择的结果最差,专家选择结果最好。 专家给出的精选区域的性能是与聚类选择相当的。但是人工选择方法的好 处在于当需要做些改变时,专家更能控制好分类器的性能而无需重新聚类。举 例来说,在 2%假阴性率(98%特异度)时,该方法能达到约 64%的灵敏度。1% 假阴性率(99%特异度)时,该方法能达到约 55%的灵敏度。当假阴性率设为 10%(90%特异度) ,专家精选的方法能达到 82%的灵敏度。 专家选择的另一个优点是能根据实际适应分类系统的需要(比如与视网膜 检影法给出的特异度一致) 。通常,专家只需选择很少的区域。比如当需要 100 个单词时,专家只需要标记出 50 个正常区域和 50 个带有渗出区域。 5.3 实验二 这部分评估了跨数据集对本算法的影响。为此,我们在一个数据集训练后 在另一个测试。实验中用于训练和测试的两个数据集是 RetiDB 和 Messidor。 这个试验中很重要的一步是设定渗出检测的初始参考标准。据我们所知, 目前还没有研究者在这两个重要的公开数据库之间使用跨数据集检验,大多数 结果是在非公开的数据集基础上得到的,这会导致有些不公平。如果要更复杂 的比较,在文献中的实验提出的方案大多只使用很少的图像作验证,通常小于 50。 作为比较,Welfer 是极少数使用 RetiDB 数据集提供结果的研究者之一。作 者报告称在一个普通的操作设定下能得到约 70的特异度。相比之下,我们的 方法在 DR1 训练后在 RetiDB 测试得到约 50灵敏度当特异度为 100%时。如果 我们允许更多的假阴性例子能提高灵敏度。当特异度为 90(10假阴性,而 不是零) ,得到的灵敏度为 73。对于 Messidor 数据集,用 DR1 训练后的测试 得到 60灵敏度和 98的特异度。 当用 Messidor 数据集训练时,在 RetiDB 和 DR1 测试的结果很接近,76%灵 敏度和 90%特异度。 用 RetiDB 训练,特异度设定为 90%时,在 Messidor 测试得到 50%灵敏度, 在 DR1 测试则为 60%。 一些其他的对比试验在第三部分介绍,说明作者们不使用相同的研究方案 (确认数据集,训练/测试区分等)是不公平的。此外,我们的方法是为检测渗 出定制的,据我们所知,他们中没有一个直接扩展用于检测其他 DR 相关的异 常。 5.4 试验三 大多数眼底图像的分析方法都是只针对某一种异常而定制的,因此,他们 大多不能直接扩展或不可能扩展到一般情况。 本实验将展示对另外两种 DR 异常的检测结果,唯一改变的是训练集阳性 样本:检测出血用带出血的图像训练,检测微动脉瘤就用带微动脉瘤的图像训 练。跟前面一样,所有结果取 5 次试验均值。 所有实验都不对图像作预处理或者后处理。特异度为 95%时,本算法检测 出血得到 60%灵敏度。检测微动脉瘤,100%特异度情况下灵敏度为 45%。实验 均用精选方法取得 100 单词。 由于很多眼底图像中同时存在多个异常,本文介绍的直接扩展的方法是极 为重要的。我们可以很容易制做一个基于分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论