(课程与教学论专业论文)血细胞显微图像特征的选择与提取.pdf_第1页
(课程与教学论专业论文)血细胞显微图像特征的选择与提取.pdf_第2页
(课程与教学论专业论文)血细胞显微图像特征的选择与提取.pdf_第3页
(课程与教学论专业论文)血细胞显微图像特征的选择与提取.pdf_第4页
(课程与教学论专业论文)血细胞显微图像特征的选择与提取.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

血细胞盟微图像特征的选择与提取 血细胞显微图像特征的选择与提取 研究生:赵伟 指导教师: 学科、专业: 王崇杰 课程与教学论 摘要: 图像处理技术作为一门多学科交叉的新兴技术,是集计算机科学、光学、 微电学,应用数学等学科的一门综合性边缘科学。医学显微图像处理是近三 十年来发展起来的,血细胞图像自动识别是运用计算机处理医学图像并识别 对象的代表性课题之一。 本文利用图像分析技术对血细胞进行特征分析,达到对感染血细胞进行 识别。 细胞作为构成生命的最小单位,它的外部形怒和内部的物质构成能够在 一定程度上反映生物体组织的健康状态。细胞的显微图像诊断过程实际上就 是根据细胞的图像特征进行分类识别的过程,在这一过程中最重要的环节就 是特征选择与提取,本文主要针对这一过程展开讨论,分析特征选择与提取 的算法及实现。 本文结合模式识别,数学形态学的相关理论和方法,探索出多种算法结 合识别血细胞图像特征的方案,并通过实验由m a tl a b 系统实现。 首先对血细胞图像进行预处理,采用邻域平均法进行图像平滑;再通过 边缘检测,直方图修正,阁值选择完成图像的分割及优化,最后实现图像特 征的提取,对目标进行多种特征的描述,分析被感染细胞特征变化情况。 关键词:图像处理、特征选择、特征提取、算法 血细胞移微图像特征的选择与摊取 第一章绪论 蚓像是人”j 认识客观世界的主要知识来源。科! 学研究表明信息7 0 是通过人的视 觉系统得到的。 近儿年来,牛物学、医学的发展口益引起人们的重视,许多先进的探测技术和】 具的戍削,随之产生人量的数据及图像处理,仅靠传统的人l :分析或对原始l 刳像的处 理,是远远满足不了实际需求的。 眨学显微图像处理是计算机、图像处理、模式识* i l 及人 。智能哲理论莉技术相 促进的产物。利州幽像分析技术对感染血细胞进行识别是本文研究的主要目的。 本章简述了血细胞圈像自动识别系统应用背景和研究的意义,同顾了国内外发展 状况,并简要介绍了本论文的主要l 作。 第一节课题研究背景与意义 研究微小物体是生物学和医学中必要的而且一直是重要的部分。所有活的有机体 均由细胞组成。在细胞水平上,精确地观察活性物质对n 辞止常利异常的生物学过科 具有重要意义。这些生物学过程影响着和反映着生物的生k 、发育和疾病及肿瘤的发 生。当今的临床和生物实验室可借助许多显微成像仪器,而每种仪器对所要研究的材料 都可产生独特的信息。对计算机分析技术能力的了解和人们。i 匀:希望从碾微幽像中得 到更多信息的要求,促进了数字处理技术在生物币医学领域中逐渐增多的麻_ l j 。 第二节国内外研究状况 囤| = | 外血细胞分析仪的研制可以追溯到五十年代初期光学型血分析仪的问十 | = 。该 分析的原理是利用细胞和稀释液对光的吸收度不同,光敏元1 t 。在细胞通过时产生脉冲 信号。由于此类分析仪易受外界环境的干扰以及测试不敏感而被淘汰。此厉电阻型分 析仪、激光型分析仪相继问世。电阻型分析仪利用血细胞通过微c l h , j 瞬间的电阻变化 产生脉冲而计数,为当前医院使删的主要血细胞分析仪,但冈其细胞特征抽散过少, 分类精度差,并不令人满意。激光犁分析仪通过激光测定点进行由细胞分类,根据激 光束射到被检物体后,被检测物体内容物不同,光散射则不同的原理删出细胞内血 红蛋岛的若异,此类指标用电阻法是无法获得的,但因其价格昂贵而未被普遍使j _ ;j 。 六七十年代,国外这类分析仪产品相继问世。它们运用光密度直方图、体视觉分析、 边界年l i 轮廓跟踪、形状分析、纹理分析年l i 空间频率分析等方碰的技术,实现细胞分类 1 3 动化,但因价格昂贵,运行速度慢,识别的稳定性不高,所以来能在临床觜及。 无论国【勺还是国外,关于血细胞自动识别系统基本上处7 i 理沦探索与实验硎:究阶 段,与实用化、商用化还有很火的差距。 近年米,随着微机性能价格比的不断提高,微机在各级医院不断普及廊川,冈而, 借助微机来实现细胞显微图像的自动识别和定量分析,有着突出的优点。 ( 1 ) 获得丰富的图像信息,综合运用图像处理及模式识别技术,可望取得高效准确 的识别效果。 ( 2 ) 所有血细胞图像可存f 微机中,向医生提供宝贵的第一手资料,便丁诊断的同 顾和疑难病症的会诊。 m 细胞显微剧像特抓的选择o j 提墩 第三节本论文的主要工作 剧像识别三个阶段 特征选择和提取是模式识别中的最关键问题。特征选择 l i 提取的主要任务是直例 从许多特征中找出最那些最有效的特征。 本文基丁 血细胞显微图像的特点及前人r 作经验,研究主要集中在以f 儿个方而: ( 1 ) 幽像特征选择与提取基本理论研究 ( 2 ) 图像特征选择与提取的算法研究 ( 3 ) 图像的预处理 ( 4 ) 幽像的分割及优化 ( 5 ) 图像的特征提取 ( 6 ) 基于m a t l b 的实现 由下计算机技术的发展,在微型计算机上实现对幽像进行处理成为可能。冈此顾及 到实用性,本论文运行的硬件平台采用目前较为主流的微犁计镡机,软f l :平台则采川功 能强大的m a t l a b 系统。 本课题有一定的难度,归结起来,主要有以h 二点: ( 1 )图像的数据量较大,设计台适的算法提高运算速度,己成为图像处理技术应 用的一个急需解决的问题,它也是本课题的一个难点。 ( 2 ) 涉及的学科较多,本课题涉及到数字图像处理、数字图像分析、t t 算机图形 学、模式识别、m a t l a b 系统分析与设计等各学科知识,能否恰当远h j 多门学 科以服务丁| 本课题是影响本课题研究成果的关键因素。 第四节本章小结 本章简述了血细胞图像自动汉别系统应用背景和研究的意义,同顾r 国内外发展 状况,并简要介缁了本论文的主要工作。 i 札细胞罹微吲像特征的选择与提取 第二章图像特征选择与提取的基本理论 在模式识别分类器设计的时候,特征的选择是很重要的,它强烈影响着分类器的设 计及其性能。假使对不同类别特征差别很大,那就容易设计山具有较好性能的分类器, i 期此,特征选择是模式识别中的一个关键问题。于很多实际问题中常常不容易找剑那砦 最重要的特征,或受条件限制不能对它们进行测量,这就使特征选择和提取的任务复杂 化而成为构造模式识别系统最困难的任务。 第一节基本概念 特征选择和提取的基本任务是如何从许多特征中找出那些最有效的特征研究如何 把高维特征空间压缩到低维特征空间以便有效地设计分类器成为一个重要问题任佃识 别过稗的第一步,首先分析各种特征的有效性并选出最有代表性的特征r 面介纠儿个丛 本概念 1 特征形成:根据被识别的对象产生出一组基本特征,可以是计算山来的,电 可以是测量山来的,这些特征叫原始特征。 2 特征提取:原始特征数量可能很大,或者说样本是处丁一个高维空间中,通 过映射( 或变换) 的方法可以用低维空间米表示样本,这个过程叫特征提取; 映射后的特征h q _ - 次特征,它似是原始特征的某种组合,所谓特征提取在广 义二是指一种变换。若y 是测量空间,x 是特征空间,则变换:a :y 一 x 就叫做特征提取器。 3 特征选择:从一组特征中挑选出一些最有效的特征以达到降低特征空间维数 的目的,这个过程叫特征选择。 以细胞自动识别为例,通过幽像输入得到一批包括止常及异常细胞的数字图像,我 们的任务是根据这些图像区分哪些细胞是正常的,哪些是异常的。首先要找出一组能代 表细胞性质的特征。为此,可以计算细胞总面积、总密度、胞核面积、核浆比,细胞形 状,核内纹理等,这样可得到很多原始特征,这一过程是特征形成。这样产生的原始特 征可能很多或者说原始特征空间维数很多,需要压缩维数以便分类。1 种方式州映射( 变 换) 的方法把原始特征变换为较少的新特征,这就是特征提取。另一种方式就是从原始 特征中去挑选山一些最有代表性的特征来,这就是特征选抒。特征提取雨i 选择并不是截 然分开的。 第二节特征提取 特征提取是如何把高维特征兰;兰间变换为低维空间。目的是为了能够在低维警问中更 好地进行分类,变换的有效性晟好用分类器的错误概率来衡量。但在大多数情况r 错误 概率的计算是十分复杂的,不得不用另外一些准则来确定特征提取方法。距离度量、概 率可分性度量以及熵度量等概念在特征提取中得到了广泛的应用, - f 面进一步对这些度 量以及相应的特征提取方法进行讨论。 按欧氏距离度量的特征提取方法 两个特征向虽之间的距离是它们相似度的一种很好度量。假使剥廊同一类别的样本 在特征空间中聚集在一起,而不同类别的样本互相离得较远,分类就比较弈易实现。i j l d 1 0 【细胞显微图像特千i f 的选择+ j 提取 此在给定维数为d 的特征空问中,我们应采用这样的d 个特征,他 j 使齐类尽可能远 地互相分开。假使j ( x ,x j “) 表示第q 类的第k 个样本与第珊,类的第1 个样本之间 的距离,我们应该选择这样的特征+ ,使c 个类别各样本之间的平均距离j ( x ) 为最人, 即: 而 j ( x ) = 三争i = 1p t 争j = tp i 1 _ 争= 兰= 占( x :“,x j 7 ) ( 2 这里r l i 表示设计集s 中以类的训 练样本数。式中p 是第i 类的先验概率,当这些 先验概率未知时,也可以用训练样本数进行估计,即 芦= 里 n 这里n 是设计集的样本总数。 应该指出,有各种距离度量计算j ( x ,x j l ,r 面是些最重要的例子 ( 1 ) s 阶m i n k o w s k i 度量 当s = 1 时 瓯( x k h 一 ( 2 3 ) ( 2 ) 欧氏距离 在m i n k o w s k i 度量中令s = 2 ,得常用的欧氏距离: 疋( x k ,m :陛飞) 。卜鼯引m 。圳m ( 2 - 4 ) 疋( x k x ,) = l ( 一嘞) 2i = k1 ) 7 ( _ 1 ) r ( 2 - 4 ) l j = lj ( 3 ) c h e b y c h e v 距离 岛( x k ,x 1 ) = m ? 1 l z 目一x l ( 2 5 ) ( 4 ) 平方距离 如( x k ,x i ) = ( z k x ) 7 q ( x 女一x f ) ( 2 6 ) 1 b j 。芦 r 刮l )x 【| 【细胞j 5 _ ;! 微幽像特征的选择j 提墩 式中q 是给定的正定标尺矩阵。 ( 5 ) 非线性度量 硒= 溢蒜熹; , 式中h ,t 足非线性度量参数,j ( x 。,x 1 ) 可以是上述的任一种度量。 所有上面x 的r 标的意义如下:当只有一个f 标时,此f 标表示样本号,有二个f 标时 第一个为样本号,第二个表示该样本的特征序号。 以上的各种距离度黉在实际府用中,在计算的复杂性方面,在是否便丁进行解析分 析以及用它进行特征提取的效果方面都各不相同。由j 一欧氏距离在很多情况r 便r 分析 和计算,因此这里主要讨论按欧氏距离度量的特征提取方法。 当削期望值代替式中样本均值后,可得出一种距离度昔 j 1 ( x ) = t r ( s 。+ s 6 ) 式中s b 为类间离散度矩阵,s 。为类内离散度矩阵。从直观e 看我们希望变换后类问离 散度尽最大,类内离散度尽量小,冈此除,( x ) 外,还町以提山r 而各种判据 ,2 = t r ( s :1 s 6 ) ( 2 8 ) ( 2 9 ) ( 2 1 0 ) ( 2 1 1 ) 对离散度矩阵作些解释。一个在d 维空间由n 个点组成的聚类,其散布的群度可 以用离散度来衡量。离散度的计算和我们规定的中心点有关。殴a 是d 维空间中所选的 中心点,从聚类的n 个点中取出d 个点,以a 点为引点,作一个超平行四边形。对所有 n 中的d 个点求出相应的c :个超平行四边形的体积平方和对n 个点的均值,就是该聚 类对于中心点a 的离散度。假使取聚类的均值点作为引点,则离散度为 s = l c l 式中c 是聚类的协方著矩阵,就是离散度矩阵。 只有当类别数超过空间的维数时,类间离散度矩阵才有相鹿的儿何意义,闲此在式 ( 2 - 1 1 ) 中引入了一个总离散度 s ,= l i = l s 。+ s 。l 6 凡一凡 一 “一叫啮盟呱吐h = i | l i 。 厶 坐型些些垡型堡生堡堕丝壁兰塑坠一 式中 黔去善扛r 叫) ( 矿脚7 在上面的各种判据中,j 2 ,j 3 与j 5 在任何非奇异线性变换r 不变,j 4 则与坐标系订 关。以j 2 为例证明如f : 所谓线性变换的不变性就是漉在用这个判据求得 个d 维f 空间后,对任何1 奇异 的d x d 变换阵a ,j 2 ( d ) 魁不变的,或者说在d 维空间的任何线性变换都不改变j 2 ( d ) 的 值。 坝s 舢;) : ,a s 。a r 。1 【a s 。a r 牦r b 7 广1 s :1 a1 a s 。a 叫 :r ,i a r r s o , - s 。a ,j :玎b _ s 。a r ( a r 厂j :r ,5 :1 s 。 削以i :, l j 据进行特征提取的步骤如下: 假设我们有d 个原始:y = b ,y 2 ,a ,y 。r ,希望通过线性映射压缩为d 个特征: x = 【x ,工:,人,_ 7 ,其变换关系为 x = w 7 v ,w 为d x d 矩陬 令s 。,s b 为原空间( 即y 的) 离散度阵,s :,s :为映射斤( 即x 的) 离散度矩 阵: s ;= w 7 s 6 w ,s j = w 7 s 。w 经变换届的j 2 变为 j :( w ) = 打7 s 。w ) _ w 7 s 。w j 将此式对w 的各分量求偏导数并令其零可以确定一个w 值。 对j 2 ,j 3 ,j 5 来说使判据达最大的变换w 如f : 设矩阵s :1 s 。的本征值为 ,丑,a ,按大小顺序排列为 五l 五2 a 五d 则选前d 个本征值对应的本征向量作为w 。即 w 。m 1 ,“2 a ,m dj 此时j 2 ( w ) 为:d 此结论对j 。判据也适用。 j 2 ( w ) = ( 2 1 3 ) 按概率距离判据的特征提取方法 设原始特征y 与二次特征x 之间有映射关系:x = w 。y 则原空间中一个矩阵a 经映射后变为a + ,它与a 有以f 关系:a + = w 。a w 映射后的概率距离也相应地变为j c ( w ) ,j d ( w ) 。 下面推导用c h e m o f f 概率距离判据j c 进行特征提取的有关公式,对于某些其他的 概率距离判据,我们直接给出有关结论。 i m f l l i 胞址微图像特征的选择与提取 ! 。j 两类都是止态分布时j c ( w ) 的表达式可写为: j 。( w ) = 丢s ( 1 一j ) f r 砂7 m ( 1 一s ) wr z l w + j w r z 2 w 。) + 吉1 n f ( 1 一s ) w r e i + 一w 7 :w f 一吾( 1 一s ) l n 阿7 w 一n 陟7 :w i 泣 式中m = ( 2 一】) ( 2 一) 7 j c ( w ) 是一个标培,它可以对w 的各分鼙求偏导数,从而得到梯度矩阵j a w ) 如p j ;( w ) :j ( 1 5 ) 恤w ( 1 5 ) w r ,w + s w r :r ( 1 一s ) x i w + s z 2 7 儿( 1 s ) w 7 w + s w 7 2 w 一1 w 7 m w ( 1 一j ) w 7 l w + s w 7 2 w 一) + ( ( 1 一s ) x l w + s z 2 w h o s ) w 7 1 w 十s w 三2 讳7 】 一( 1 一s ) 1 w ( w7 1 1 ) 一1 s z 2 w ( w7 2 2 w ) 一1 令上式等丁零,并假定 ( 1 一s ) w7 1 w + s w 7 :w 】不等丁零,j 【l l j 最优变换矩阵w 一 定满足r 式: m w 一【( 1 一s ) x l 彬+ s z 2 ( 1 一s ) w 7 1 w + s w 7 2 7 】_ 1 w 7 m w + 而1 【( 1 一s ) 。+ j :w 一,w ( 1 一j ) , + j ( w 7 。w ) 。7 :w 】一r l _ :w ( 1 一s ) ( w 7 。) 。 x w 7 ,w + s 1 = 0 = 式可进一步简化为: m w 一【( 1 一s ) y 】w + s z 2 1 彤】【( 1 一s ) w 7 l w + s w 7 2 w 一w 7 m t + 1 w z 一( w 7 l w ) 一1 w 7 三2 w + 三2 w 1 一( w 7 2 w ) 一1 w7 1 w - 0 ( 2 1 5 ) 上式对w 是非线性的,网此不能直接求解而只能采川数值优化方法,但假使两类的协 8 m 细胞姓微幽像特征的选择与提耿 方若矩阵相符,或者两类的均值向量相等,u j 以得剑相府的解析解 1 、1 = 2 = 的情况 此时式( 2 1 5 ) 化简为m w 一w ( w 7 三w ) _ 1 w 7 m w = o ( 2 1 6 ) 殴矩阵( w7 w r w 7 m w 的本征值矩阵平本征向量矩阱分别是人和u 。即 7 w ) 。w 7 m w = 叭 则式( 2 - 1 6 ) 可改写为m w u w u a :0 ( 2 1 7 ) 令v = w u显然v 是_ 1 肘的本征向蜒矩阵,从而u 得w = v u “是 。= 2 = 条件r ,崩c h e r n o f f 概率距离判据的最优特征提取变换矩阵( 或虽优特 征提取器) 。由丁,c 在任意非奇异变换r 具有不变性,冈此w u 同样是最优特祉提取 器,最优特征提取器由“m 的本征向量构成。但矩阵m 的秩是1 ,它只有一个计零 本征值,而在这种情况f 的k ( w ) 为: d c ( w ) := 1j ( 1 一s r a ( 2 一1 8 ) 对廊丁本征值为零的那些本征向量对j c ( w ) 没有影响,冈此l q 以舍去,从而使j c ( w ) 最优的变换w 是与矩阵z 。吖的1 1 零本值相应的单个本征向量v ,从式( 21 5 ) 可以 霜到 v = 叫( 2 一1 ) 2 、l 2 ,但l = 2 的情况 ( 2 1 9 ) 这种情况一f ,c h e m o f f 概率距离简化为 坩c w 一2 h 帑w 鞴w 鬻w w i s 协: 、7 | 。z r i 。, 相鹿的一次偏导数矩阵是 ,;( ) = 1 w 一( w 7 三1 w ) 一1 w 7 2 w 】+ x z w 1 一( w 7 2 w ) 。w7 1 w 】 令它等于零矩阵,可得 ;1 ,w w ( w 7 2 w ) 一( w7 1 。w ) l t 一( 彬7 w ) w 7 2 w l = 0 i f l t 匀lr 胞址微图像特缸的选择j 提取 设,一( 7 w ) 。w 7 2 w 不等1 零。则 三【w w ( w 7 2 w ) - 1 ( w 7 1 w ) = o 若矩阵( w 7 2 w ) _ 1 w 7 1 w 的本征值矩阵是a ,本征向量矩阵是ut 即 或 即 ( w 7 2 w ) 一1w 7 i w = u a u 1 f 2 2 1 ) w 。i 1 三1 w = u a u l z ;l w u w u a = 0 ( 2 2 2 ) 因此v = w u 是矩阵;1 的本征向量矩阵,根据c h e r n o f f 距离判据对1 :奇异线性变换 的不变性,最优坐标系统就是;1 ,的本征向量系。现在讨论一f 怎样从坐标系中选出 d 个坐标轴使j c ( w ) 最大。把从式( 2 - 2 1 ) 求得的w 。,w 代入到式( 2 - 2 0 ) 中去,可得: 1l f l 一s ) w 。w u a u “+ s w 。,w i j ,( ) = 二i n l 二1 _ 二j 。 。 2 l w 7 ,w 孤u1 h w r z ,w l 。 :1 1 n 1 ( 1 - s ) u a u - 2 l u a u 。1 i 。 = 扣半a 2 ir + 订l ( 2 ,2 3 ) 由j 二a 利1 都是对角线矩阵,所以 ,c ( w ) :丢1 n n 【( 1 一s ) 驾,+ s 芍,】= 丢兰l n i l s ) 莓+ s 茸 ( 2 2 4 ) 为了要使j c ( w ) 最人,应选择满足r 列顺序关系 ( 1 一j ) 前+ s 硝。( 1 5 ) 五+ s 五。1 - a ( 1 5 ) 乃+ s 知:。 - - a ( 1 一s ) 五:+ s 五f ( 2 - 2 5 ) 前d 个本征值所对应的本征向景组成变换矩阵w 。 显然,取不同的s 值会有不同的本征向繁的排列顺序。为了得剑最大的j c ( w ) , 我们可以先设s = o 5 ,以求出最优坐标轴,v ,j _ i ,2 ,d 。剥于这些坐标轴,我们可 以求出最优参数s 以得到最大的j r ( w ) 。对丁这个新的参数s ,重新求出最优坐标轴v :, 1 _ 1 , 2 ,d 。重复上述步骤南到获得一组稳定的最优坐标轴为止。 3 、一般情况 在一般情况下得不到用解析式子表述的最优解。为了避免用数值优化方法求解,可 o 血细胞魁微图像特征的选择与提墩 以分别考虑两类均值向量和协方差矩阵有差别时的分类作刚。f 面讨沦两种次优算标轩f l 作为特征提取器w 。方法如下: 将式( 2 2 1 ) 改写为 u _ 1 ( w7 2 ) _ 1 ( u _ 1 ) 7 f ( u _ 1 ) 7 _ 1 w7 w u = a 即 f w u ) 7 2 w u r ( u ) 7 j w u = a 冈此可选择v = w u 使w z 2 v = , 以及y 7 v = a 把上列两个关系式代入j c ( w ) 的表迟式( 2 2 0 ) 可得 ,d j c ( ) = 寺一j ) v ;一, u 2 ) j 2 f ( 1 - s ) 2 j + 5 】_ 】+ l n ( i - j ) 】 要使j c ( w ) 达最人,应按下列顺序 s 0 一s ) v j ( 1 一2 ) 】2 ( 1 一s ) + s 一1 + l n ( 1 一s ) a i + s a ;。1 a s ( 1 5 ) v ;( 硒- , u 2 ) 2 ( 1 s ) 2 d + j _ 1 + l n ( r s ) 筋】 a s ( 1 一s ) v ;( i x 2 一1 ) 】2 ( 1 一s ) 五d + s r l + l n ( 1 5 ) 矗+ s g 从i 1 1 的本征向量系中,选前面d 个本征向量作为w ,即w = l v i ,v 2 ,v d 】。 方法二这是一个更简单的方法。 在假设类均值向最相等的情况下,按照式( 22 5 ) 选出前d - 1 个坐标轴。然后再加l 一个考虑类均值向量判别信息的坐标轴。用公( 2 2 1 ) 的结果,把【( 1 一s ) x 。+ s z : 入式中的可得:w d = ( 1 一s ) x 1 + s x 2 】- ( 鸬一1 ) 这样产生的特征对准则值的作用不是可加性的。 用散度准则函数的特征提取器 当只有两类时,根据散度定义可写为: 1 ,d ( w ) = 击扩w 7 m w ( w 7 l ) 一l + ( w 7 2 w ) 。】 z 1 + 去f r ( 7 1 w ) _ 1 w 7 2 w + ( 7 2 w ) _ w 7 i w 一2 ,】( 2 2 6 ) 上 式中m = ( 2 一1 ) ( 2 一1 ) 7 。 和用c h e r n o f f 概率距离判据时一样,一般情况r 得不到特征提取器的最优解析解。 m 自舢包丝微图像特征的选择o j 提取 而在两类协方著i 绰;p l l 等的情况r ,散度j d 和c h e m o f f 距离j 。只差一个常数冈于,冈此这 种情况r i l jj 。为判据的最优特征提取器和“按概率距离判据的特征提取方法”中,在 ,= = 条什f 用j 。作判据得到的d 个坐标轴是一样的。 在z 。,但类均值向量相等条件f ,经过数学推导可以得剑r 式: 11d 厂1、 j d ( w ) = 扣( a + a 一2 1 ) = 去h + 一2 ( 2 _ 2 7 ) 式中a 是矩阵;1 。的本征值矩阵。阁此w 中的各列是相应丁l i 述排列次序 五+ 去五z + 去a 五+ 击孙厶+ 石1 c z 珊, 的:的前面d 个本征向量。 可以州类似的方法得到一般情况f 特征提取器的次优解。 方法一先假设类均值向量相等,根据上面讨论的结果,求山矩阵:1 的本征向 量作为矩阵w 的列向量,然后再考虑类均值向量不相等所带米的分类效果。 由于式( 2 - 2 6 ) 在非奇异线性变换下的不变性,可令w7 。w = ,利 w 。w = a - 于是 1 一 ,d ( w ) = 音t r w 2 m w ( a + ,) + a + a 一2 , = 杰 w j ( :叫) 】2 ( ”1 ) + + 丁1 2 ( 2 2 9 ) 因此选取按l - y o i 顷序排列 【w j ( :一。) 2 ( + 1 ) + 五。+ 【w ;( :一,) 。( 五:+ 1 ) + + l 几 a 酊( 2 一】) 】2 ( 五d + 1 ) + 乃+ 士 a d a 【w :( 2 一i ) 】2 ( 五d + 1 ) + 厶+ ( 2 3 0 ) t d , 的;1 前d 个的本征向量作为特征提取器。 方法一:我们也可以把式( 2 - 2 4 ) 中的j d ( w ) 的两个相加项分别最人化以求山w 。 为r 考虑包含在类平均向量中的分类信息,从j d ( w ) 的第一项中可以看到,需要把 ( w 。i w ) “和( w 1 2 w ) _ 1 展开。由丁w 是d d 矩阵,因此在展式中要i i = j 广义逆 w + = f w7 w 1 1 w 7 1 2 血钏胞监微图像特征的选择与提取 米代替w 一,这样j o ( w ) 可写成 - ,d ( w ) = 去打 w 7 m w ( w7 w ) “w 7 三i i + ;1 w ( w 7 w ) “) z 1 = 去f r l w 7 m w w 7 ( + j 1 ) w n ( 2 3 1 ) 上 它和c h e r n o f f 概率距离作为判据的表达式在形式上是一样的,因此w 将是矩阵 ( i + ;) m 的本征向量系统,但是由丁m 的秩为l ,所以只川一个和矩阵 ( i 1 + :1 ) m 的非零本锰值对应的本征向量就能得到所要求的判别信息,即 w 1 = ( z i 十j 1 ) ( z 2 一1 1 ) ( 2 3 2 至丁其余的d - 1 个向量可以从上述的在类均值向量相等的假设f , 用公式( 2 - 2 8 ) 得到。 多类情况 在多类情况r ,最优特征提取器w 应使广义的类别呵分性判据 j ( w ) = j ( w ) ( 2 3 3 ) 最大。 要推导出最优特征变换的解析解是不大可能的。一个可行的办法是先求取一个候选 坐标轴集合 v 1 。例如,它可以包括: ( 1 ) v = ( i 1 + z j l ) ( ,一麒) ,v i ,w ; ( 2 ) i 1 i 的所有本征向量v f ,v f ; ( 3 ) 1 m 的本征向量系统。 这里,i 和j 是类别号,u 是第i 类的协方差阵和类均值向昔。是总的混合协方 差矩阵,m 是类均值向量的离散度矩阵。 假改候选坐标轴的总数是d 。刚此我们可以用搜索算法从这有d 个坐标轴的集合 中选出馊j ( w ) 达最人的d 个坐标轴米。 基于判别熵最小化的特征提取 用熵作为不确定性的一种度量的表达式。例如,s h a n n o n 熵 上 = 一p ( o j , i x ) l o g p ( c o , i x ) ( 2 3 4 ) 这样一种概念也可以用来作为某个概率分布密度p ( x 。) 偏离给定标准分布c o ( x 。) 的程 度的度量,我们把它叫做相对熵,即 v ( p ,卸= 一p ( x 。) l o g p ( x f ) ,鲫( 一) 0 ( 2 - 3 53 求和应在该特征所有可能的取值上进行。 1 3 , 血细胞显微图像特征的选择与提取 相对熵越小,这两类概率分布的差别就越人,当两类概率分布完全相同b , j ,相对熵 达最人仇( 等丁零) 。 1 i c l 我们可以定义判别熵w ( p ,q ) 米表征两类分布p ( x ) 垌1q ( x ) 的 差别人小。 w ( p ,q ) = v ( p ,q ) + v ( q ,p ) = 一p ( _ ) l o g p ( x :) 一q ( x ,) l o g q ( x ,) + p ( 工,) l o g q ( x 。) + q ( :) l o g p ( x 。) 0 ( 2 3 6 ) 在多类情况r ,可咀1 l j w ( p “,q “) f j 米表示各类分布之间的分离程度。这里i ,i 干表类别号。 剥于特征提取来说,在给定维数d 的条什f ,我们应该求得这样d 个特征,它使上 述判别熵最小。 为了,训算方便起见,我们可以删f 列函数 u ( p ,g ) = 一( 见一q i ) 2 0 ( 2 3 7 ) i 来代替w ( p ,q ) ,而不影响选取d 个最优特征的结果。 在不对概率分布作估计的情况f ,可蛆用经过门一化处理的样本特征值米代替上式 中的概率分布。 1n l p = 寺( 工 ( 2 ,3 8 ) l v k = l 且 d ( x = 1 l = l k 是第一类样本集中的样本号,n ,是第一类的样本总数,i 是特征号。由丁 d p ,= l 所以这样做是合理的。f 面将证明使u 取最小值的坐标系统是由矩阵a = g ”一g 的 满足一定条件的d 个本征值相应的本征向量所组成的。 这里g 1 和g o 分别是第一类样本集和第一二类样本集的协方著矩阵。 例如g 1 的第i 行第j 列元素可用r 式计算: 上等v t 1 鲁“ m 钏胞显微图像特征的选择与提取 式中x 裂农示第一类第n 个样本的第j 个坐标值( 特征) 。 令矩阵a 的本征向鼙及对应的本征值依次为u 。及五,k = l 由丁g ( “,g ( 2 刘称,所以a 对称,h 其迹为零,即 t r a = 0 川t 表示从u 坐标到x 坐标的变换矩阵,冈为这个变换是一种旋转,所以 t :t 1( 2 - 3 9 ) 式( 2 3 7 ) 中u 在u 坐标系中为 dd u 。= 一雹= 一( 鬈) 。 女= lk = i 式中( a ;) 。表示矩阵( a j ) 中第k 行k 列的元素。而住原华标系中则有 dd u = 一( a i :) 2 一( a 。) 2 2 ( a 。) 2 ( a * ) 2f ( ( a “) 对称) - z ( a 2 ) 。 ( 2 4 0 ) 矩阵a = g ”一g ( 2 ) ,即为a o 在x 坐标系中的表达式。因此有 - z ( a 2 ) 。 一t 一。2 巧= 一b 。属 ( 2 训) i女i女 据式( 2 3 9 ) 有:b “= 瓦巧= i i 巧1 = ( t 。) 2 及 据式( 2 4 0 ) 和式( 2 - 4 1 ) 可得 b i 0 。 这证明了上述结论,将矩阵a 的本征值 排队: 着歪a 乃aa 乃 ( 2 4 2 ) 1 5 “, 2+ r 。h rl | | i l 8 。h 【 | i 女 8 d u | l 。h 一 一 f hf ir l 胞显微图像特征的选择“i 提取 选前d 个本征值对席的本征向量u ,u 2 ,u d 为所要求的坐标轴系统,在这个坐 标系统中判别熵最小。 第三节特征选择 用少数儿个特征进行分类器设计。不仅在样本不多的条件f 司以改善分类器的总体 性能,而且在很多情况下,能够简化特征的获取过程,以降低模式识别系统的代价。 特征选择的任务是从- - n 数屠为d 的特征中选择出数量为d ( d d ) 的。组最优特征米, 为此有二个问题要解决,一是选择的标准,百以用可分离性判据,驯要选出使某可分 性达最人的特征组来。另一问题是要找一个较好的算法,以便在允y l 的时间内找出最成 的那一组特征。 如果把d 个特征每个单独使用时的可分性判据都算出米,按判摒大 h i l t 队,例如: j ( x i ) j ( x 2 ) a j ( x “) a l ( x d ) 就可以提个问题:单独使 时使j 较人的前d 个特征是否就是一个最优的特征纽呢? 如 果同答娃肯定的,特征选择也就变得简单了。不幸的是,即使当所有特征都相q 独立时, 除了一些特殊的情况外,一般来说,前d 个最有效的特征并旷最优的( 数量为d 的) 特 征组,甚至有可能是最不好的特征组。 从d 个特征中挑选d 个,所有可能的组合数为: 日:c :旦! 一一 4 “ ( d d ) ! d ! 如d = 1 0 0 ,d = 1 0 则q 的数量级是l o ”,若d = 2 0 ,d = 1 0 ,则q = 1 8 47 5 6 。如果 把各种可能的特征组合的j 都算山来再加以比较,以选择最优特征细( 这种方法叫穷举 法) ,则计算量太大而无法实现。这就使得寻找一种可行的算法变得1 f 常必要。 任何非穷举的算法都不能保证所得结果是最优的。因此,除非只要求次优解,否 则所用算法原则上仍是穷举算法,只不过采取某些搜索技术使计算鼙可能有所降低。 在所有算法中+ 最优特钮纽的构成都是用每次从现存特征中增加或去掉某些特 i :的 方法直至特征数等于d 为止。若特征数从零逐步增加则称为“白r 而l ”法。反之,特 从特征数为d 开始逐步减少,则称为“白k 而r ”法。 令纸表示特征数目为k 的所有可能的特征组合,厄表示从x - ,x 2 ,x d 中太 掉k 个后所剩特征的所有可能的特征绸台。 在“白下而上”算法中第k 步的最优特征组应当使 j ( 幺) = m a x j ( z ) i z tj 从x o = 砂开始,k = l ,2 ,直到k = d 。结果得: z 2z d 。 在“自上而下”算法中第k 步的鼹优特征绡麻当侵 ,( z ) = 聊x ,( 厄) 1 6 】_ :i l 钏胞娃微幽像特征的选择,提取 从牙= z d 开女f ;,k = 1 ,2 ,真到t = d d ,结果所得特征组为 z = 元d d 最优搜索法 剑目前为r 唯能得最优结果的搜索方法是“分支定界”算法;它是一种白上而 f 力法,但具有同溯功能,可使所有可能的特征组合都被考虑剑。由丁合理地组织搜 索过程,使得有可能避免计算某些特征组合而不影响结果为最优。这主要是利用了可 分离性判据的单凋性,即对有包含关系的特征组无,k = 1 ,2 ,i ,且有 石 厄 a3 石 可分性判据满足: j ( 石) ,( 刃:) a j ( z ) 基j 一距离的离散度准则j l 0 5 ,以及基丁概率距离的判据j 。,和j 。都满足上述单 调关系。 整个搜索过程可用树表示山来,节点上标的数目字是去掉的特征序号。每级在上 一级基础上再去掉一个特征,冈而级数表示已去掉的特征数。人个特征中选一个,四级 即可。例如节点a 表示去掉第2 、3 号一一个特征后的特征组,即( x 1 ,x 。,x ,x 6 ) 。 若某一支已搜索到底,即已达到第d d 级,而计算出的州分性判据值为j ( x 。) = b 。此时若发现树中某一节点的可分性判据值j 。b ,则a 以下并点都不必去计算, 因为据单调性,它们的j 值都不会人于b 。令b 为至今为止已搜索到底的各节点上j 值 中的最大者,一旦发现树中某节点之j b ,则此节点以下之点都町略去。 给定d 和dj i 彳,可能的树是很多的,如何组织搜索过稗才能使被率最高? 我们结 合从六个特征中选取两个特征的例子讨论一下“白上而r ”算法的搜索树形成的搜索过 程。为书写方便起见,我们分别用x ,x 2 ,x 3 ,x 4 ,x j 和x 6 代表六个特征。i _ ji 干e 表搜 索树的级数,0 级就是树根。由于每级只舍弃一个特征,因此i _ 也就是被舍弃的特征个 数。用i 表示舍弃i 个特征后还存在的特征集台。用扩表示在第i 级当前所讨论的点 上司用来为f 一级选择舍弃的特征集台,用r 。表示这个集合中元素的数目。q ,是当前所 讨论的q j 是当前所讨论的节点的后继节点数。例如,在0 级,只有个。协点( 树根) , 它当然就是这一级当前所讨论的节点。 例如,在。级,只有一个节点( 树根) ,它当然就是这一级当前所讨论的1 ,点。显 然,n = x j ,x 2 ,x 3 ,x 4 ,x 5 ,x 6 ) ,r o = 6 。设d 是原始特征的总数,这里d = 6 。d 是最 后要求选出的特征数,这里d = 2 。由于每一级只舍弃一个特征,冈此从树根开始要经 过d d = 4 级才能达到叶节点,即达到所要求特征数目的特征组合。从而在第i + l 级考 虑可以舍弃的特征方案数( 也即第i 级节点的后继节点数q ) 时,必须使这一级舍弃 特征后的牙至少还剩下d d i 1 个特征。显然q ,= r i - ( d d i 1 ) 。 1 7 血细胞显微幽像特征的选择与提取 对于0 级,q o = 6 - 3 = 3 。i 级后继的每一个节点舍弃弘中的一个互不相同的特征。 为了有效地进行搜索,我们计算舍弃每一个可能特征后的判据值,即 j ( z x i ) ,一妒 并选择其中q ,个最小的j 值所对府的x ,按照j 从小到火的次序,依次作为从左到也的 q 个1 ,点的要舍弃的特征。在我们的这个例子中,对于0 级的二个后继u 点米说,假殴 左边节点被舍弃的特征是x ,中间节点被舍弃的特征是x 。,右边节点被舍弃的特征魁 x ,由于我俐的搜索过程是从到左,所谓当前所讨论的第i 级的节点就是指尚未搜索 过的第i 级的最右边的肯点,因此要从这一点向f 生成搜索树。屁然这时的= x 4 ,x 5 , x 6 1 。r l = 3 。它的斤继节点数q l = f 1 - ( d d 一1 1 ) = 1 。按照r 述原则选第级的舍弃特征_ ) 4 。从而得到= x 5 ,x 6 ,r 2 = 2 ,q 2 = 1 。若第三级当前所研究i ,点的舍弃特征为x 5 , 则产 x 6 ,r 3 = 1 ,q 3 = 1 。现第四级的舍弃特征为x 6 ,。= 妒,r 4 = 0 ,q 4 = 0 。搜索 在第四级就达到了叶节点。 在搜索树形成的每一级,我们都进行j 值的计算,对于最右边的一支来说,它总是 大于我们所设置的界值( 界值开始设置为o ) 。但是一旦到达叶仃点,就用相应的j 值代 替原有界值。 到达叶节点后就要向上回溯( 对于不是在最右边的那些支,假使在搜索过程中的某 一个节点的j 值小于界值,就可以停i r 向f 生成搜索树而向上同溯) 直剑q 。人丁1 的 那一级,而转入和i 同级的左边最近的那个节点,使该1 y 点成为当前所1 0 论的1 ,点,严 从该侉点开始向r 生成搜索树。为要确定该节点的后继节点数,首先要求出该 点 ( 即当前所讨论节点) 的。这只要在同溯的过程中,每次向上一级( i - 1 级) 同溯叫, 就把向上回溯时的原来结点的妒加上那个节点所舍弃的特征。在我们的例子中,只有 回溯剑树根时其后继节点数才大于l ,因此i = 1 而当前所讨论的节点的沙就成为向上 回溯时的那个结点的奶= ( x 4 ,x 5 ,k 6 加上1 3 而成为f x 3 ,x 4 ,x 5 ,j 。确定缈后,很 容易计算出o l = 4 q i = o i 一( d d 一1 1 ) = 2 。重复上述过程,从属j j 这一支的最右边仃点开始 搜索,每前进一步,计算相应j 值,以决定继续往f 生成搜索树还是向上同溯。这个过 程一直进行到最左边不能进行r 去为j r 。显然这种搜索树是一种不对称的搜索树,我们 所以在同一级中用最小的j 值从左到右挑选舍弃特征都是为了更有效地提高搜索效率, 从而有可能对于相当人一部分的特征组合都不需要计算。这样就能删较少的计算达到选 择最优特征组的目的。 下面具体介绍一种分支定界方法的步骤。 有关分支定界这种方法只要求较少的存储量,步骤不多,但概括r 所有可能的情况。有 了上述法的基础概念后,通过一步步分析,是可以弄清楚这个程序的。通过编写具体科 序进一步掌握这个很有效的方法。 假发当前处丁某一级i 的某个h 点( 即上面说的当前所讨沧的仃点) 。对丁从k = 0 , l ,2 ,i 一1 各级的所有后继节点所舍弃的特征已求出,并存在存储器巾。我们川 q = ( 工f “,葛“,x 。i + 。) 表示第i 级的当前所讨论节点的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论