下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 利用数据挖掘技术构造医学图像分类器的研究【摘要】 基于数据挖掘的医学图像分类方法研究是多媒体数据挖掘的一个重要组成部分。在分析和 总结 了现有各种特征提取方法的基础上,提出了基于竞争聚类和关联规则的医学图像分类算法和基于关联规则的医学图像分类器框架。该算法先用竞争聚集算法实现医学图像的聚类,利用聚类的结果提取局部特征,基于局部特征用关联规则实现医学图像的分类。实验结果表明,用此方法较好地提高了医学图像分类的准确率,进而为数字化临床诊断提供了有利的证据。 【关键词】 数据挖掘 图像分类 医学图像 数字化诊
2、断Abstract:The multi-media data mining is the key part of the whole researches about the method of medical images classification. Under the base of the analysis and conclusion about the methods of deriving the various characteristics previously provided by other researchers, this framework of the med
3、ical images classification with the association rules and clustering was provided. At first, the clustering algorithm was used for the characteristic in local areas ,and then the medical image classification was realized by the association rules. The results of the experiment showed that the accurat
4、e rate could be improved by this method, and better testimony could be provided for digital diagnosis.Key words:Data mining; Images classification; Medical images; Digital diagnosis数据挖掘立于数据库系统和数据库应用学科最活跃的前沿。数据挖掘就是从大量的、不完全的、有噪声的数据中,提取新颖的、有效的和潜在有用的信息,发现隐含在其中的模式、特征、 规律 和知识。其所处理的数据类型很丰富,其应用领域也非常广泛,但针对特定
5、领域(如医学)的复杂数据类型的数据挖掘新方法还有待研究。医学图像的数据挖掘旨在从海量的图像数据中挖掘出有效的模型、关联、规则、变化、不规则以及普遍的规律,以加速医生决策诊断的过程和提高其决策诊断的准确度。随着医疗数字化设备的快速 发展 ,医学信息数据库中不仅包括病人的结构化的信息,还包括病人大量非结构化的医学图像信息,为医学图像的数据挖掘提供了丰富的数据源。近年来,随着 计算 机相关技术及图形图像技术的广泛应用,使医学领域尤其是临床诊断发生了重大的变化,开创了数字诊断新时代。借助于图形、图像技术的有力手段,医学影像的质量和显示方式得到了极大的改善,从而借助于图像处理与分析技术使得诊疗水平大大提
6、高。本研究将医学图像的处理技术与数据挖掘技术有机结合,研究医学图像数据的特征提取和医学图像数据的分类方法。医学图像分类效果的好坏在很大程度上取决于提取的特征。目前国内外有大量的学者正在进行这方面的研究:Maria - Luiza, Osm1提出的关联规则分类器和李丙春等2的径向基函数 网络 分类器都采用了均值、方差、倾斜度和峰度4个特征;韩培友设计的是基于模糊粗糙集、数学形态学和分形特征分类器等3。分析这些研究结果可以发现,医学图像数据挖掘的研究是一项复杂的、具有挑战性的和多学科交叉的工作,开展基于医学图像的数据挖掘技术的研究具有重要的理论意义和实用价值。 1 脑部肿瘤图像预处理和特征提取 1
7、.1 图像预处理由于实际数据常常存在不完整性、噪声和不一致性,预处理就变得很重要。有两种数据预处理技术用于图像数据的数据挖掘,即数据清洗和数据变换3,4。数据清洗用于清除影响数据挖掘的噪声和孤立点。我们使用的图像包含大量有噪声的背景,有的图像看起来太暗,有的太亮。在预处理阶段,已有的方法都是进行图像的二值化,忽略了图像的最基本元素-像素本身的灰度所具有的意义,而且也没有很好地利用领域知识对图像进行预处理。本研究采用的图像预处理的步骤如下:1.1.1 利用去噪技术对图像进行处理经过去噪声处理后,可去掉图像中的大多数背景信息和噪声。1.1.2 图像增强在图像生成、传输和变换过程中,由于多种因素的影
8、响,总会造成图像质量的下降。图像增强的目的是采用一系列技术改造图像的效果或将图像转换成更适合处理的形式。图像的增强处理有两种方法:空域法和频域法。直方图均衡化是在空域中进行的灰度增强算法。一幅对比度较小的图像,其所有灰度级出现的相对频数相同,此时图像的熵最大,图像所包含的信息量最大。本研究采用广泛使用的直方图均衡化技术来实现图像的增强。同时,在此前应该完成去噪声处理,否则噪声也会同时得到增强。1.2 特征提取原始的脑部医学图像的噪声处理和增强处理后,就可以从这些清晰的图像中抽取与分类相关的图像特征。被抽取的特征组织在一个事物数据库中作为分类系统挖掘的输入。数据库的数据项主要包括:图像编码、图像
9、类型、患者年龄、组织类型、病灶位置等原始病案数据以及从图像中提取出来的多个图像特征。如图像的钙化点,图像的纹理特征:角二阶矩、对比度、方差、逆阶矩、和平均、熵、以及和方差等。在这样的数据集上应用后面讨论的关联规则算法实施数据挖掘操作,从而将脑部肿瘤分类为良性和恶性。 2 利用竞争聚集算法进行数据离散化 为了使用关联规则进行数据挖掘,数量型属性必须离散化。划分区间时,对于某些属性,若医生已经有约定的分割点,我们可以直接采用。但是,对提取出的图像特征属性,没有经验阈值。Agrawal等4提出的基于支持度的部分K度完全离散化的方法,扩展了布尔型属性的关联规则算法,并将其应用于数量型属性关联规则的提取
10、。但是这种方法对于一些高偏度的数据存在一些问题,它倾向于将那些尽管具有典型相似性能的相邻数据因具有高支持率而被搁开。而竞争聚集算法5综合了分层聚类和划分聚类的优点,它能够有效地体现数据的实际分布情况并得到优化的聚类个数。我们利用竞争聚集算法将数量型属性离散化成若干个优化的区间。对于给定的不同的初始类个数,竞争聚集能随着迭代过程的进展不断改变类的数目,一些竞争力差的类,即类的基数小于给定阈值的类将在迭代过程中不断消失,并最终得到优化的聚类个数。最后,根据模糊集合中的最大隶属原则,将数据集中的元素聚成N个类,并取出类中最小值和最大值分别作为区间的左右端点,这样数据型属性就被离散化成N个优化区间。
11、3 基于关联规则的医学图像分类器的构造 3.1 关联规则定义如下:设I=i1,i2,im是项的集合。记 D为数据库事务T的集合,并且TI。对应每一个事务有唯一的标识,记做TID。设X是一个I中项的集合,如果XT,那么称事务T包含X。一个关联规则是形如XY的蕴涵式,这里XI,YI ,并且XY。规则XY在事务数据库D中的支持度(Support)是事务集中包含X和Y的事务数与所有事务数之比,记为Support(XY),即:Support(XY) =T;XYT,TD/D规则XY事务集中的可信度(Confidence)是指包含X和Y的事务数与包含X的事务数之比,记为confidence(XY),即con
12、fidence(XY)=T:XYT,TD/XT,TD3.2 利用关联规则对脑部肿瘤图像数据进行分类本研究用关联规则挖掘将数字化的脑部肿瘤图像分为正常和异常两类。利用关联规则挖掘时,首先发现频繁项目集(即支持度不低于最小支持度的项目集),然后从频繁项目集中提取关联规则。本研究用Apriori算法6来发现从脑部肿瘤图像提取出的特征和肿瘤图像所属类别的关联规则。我们约束挖掘出的关联规则,使规则的前提为脑部肿瘤图像提取出的特征,规则的结论为图像所属类别。用关联规则分类的过程分两个阶段:第1阶段为训练阶段,用已知类型的图像训练分类系统,输入数据为经过预处理、特征提取和数据离散化后得到的事务数据库,然后应
13、用改进的Apriori算法来挖掘满足以上约束条件的关联规则;第2阶段为测试阶段,该阶段对未知类型的图像利用发现的关联规则进行分类。3.3 图像分类器的构造图像分类器的设计框架见图1。 4 结果与结论 我们从185个脑部肿瘤典型病例数据中经图像预处理及特征提取了27个属性特征数据,这些抽取的特征数据被组织在一个数据库中,经过数量型属性离散化等数据预处理,将数量型属性关联规则问题映射成布尔型关联规则问题,X到一个布尔属性的数据库,作为分类系统挖掘的输入,此时通过Aprior算法进行关联规则的数据挖掘。最后分别 计算 训练样本和测试样本分类的准确率。结果表明对脑部肿瘤典型病例数据分类准确率达到86%
14、,测试准确率达到82%。本研究在介绍了图像预处理及特征提取和数量型属性离散化的基础上,提出了一个基于关联规则的医学图像分类器。可以看出,该挖掘方法中,数据预处理工作十分重要,会直接影响到分类的准确性。从实验结果看,本文提出的医学图像分类器精确度较高,在数字化临床诊断方面具有很好的实用价值。【 参考 文献 】 1Maria一Luiza Antonie, Osmar R Zaiane. Associative Classifiers for Medical imageJ.Mining Multimedia and Canplex Data,2003,27:9768.2李丙春,耿国华,周明全,等.一个医学图像分类器的设计J.计算机工程与应用,2004,40(17):230.3韩培友,郝重阳,张先勇,等.基于模糊粗糙集、数学形态学和分形理论的医学图像分类研究J.计算机应用研究,2004,21(2):241.4Srikant R, Agrawal R. Mining Quantitative Association Rules in Large Relational TablesJ.ACM SIGMOD Issues, 1996, 25(2):1.5Frigui
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年小豆包项目投资价值分析报告
- 2024至2030年增强改性聚丙烯防腐设备项目投资价值分析报告
- 2024年高粘度树脂项目可行性研究报告
- 2024年皮革着色剂项目可行性研究报告
- 高考写作指导【知识精研】议论文之如何设置分论点+
- 2024年心肌超微结构模型项目可行性研究报告
- 2024年循环流化床锅炉给料项目可行性研究报告
- 成人血压护理常规
- 2024年信封粘贴袋项目可行性研究报告
- 2024年中国石墨编织填料市场调查研究报告
- 《泰坦尼克号》电影赏析
- 小红书种草营销师模拟判断题
- 大学生劳动教育概论智慧树知到期末考试答案章节答案2024年南昌大学
- 重力式桥台计算程序表格
- ETDRS视力记录表
- 增值税预缴税款表电子版
- 玻璃幕墙工程技术规范与应用
- 三级医师查房登记本(共3页)
- 全国医疗服务价格项目规范(2012版)
- 乌鲁木齐市律师服务收费指导标准
- 三国志11全人物能力数值表
评论
0/150
提交评论