




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
a b s t r a c t t h e s i st i t l e :i m a g ep r o c e s s i n gi nh i g hd e n s i t ym o l e c u l el a t t i c eo fg e n o m es e q u e n c i n g c h i p s g r a d u a t es t u d e n tn a m e :q i a l lz h e n g y i n g s u p e r v i s o rn a m e :p r o f l uz u h o n g s c h o o ln a m e :s o u t h e a s tu n i v e r s i t y g e n o m es e q u e n c i n gh a sp l a y e da ni m p o r t a n tr o l e i nt h ec o m p l e t i o no f h u m a ng e n o m e p r o j e c t ( h g p ) t h et r a d i t i o n a lm e t h o d so f g e n o m es e q u e n c i n gi n c l u d e :s l a bg e l e l e c t r o p h o r e s i s ( s g e ) a n dc a p i l l a r ye l e c t r o p h o r e s i s ( c e ) a n dr e l a t i v e l yn e w m e t h o d s i n c l u d e :s e q u e n c i n gb yh y b r i d i z a t i o n ( s b ) ,s e q u e n c i n gb ys y n t h e s i s ( s b s ) a n ds e q u e n c i n g b ys i n g l em o l e c u l e n o w , p e o p l ef o c u so nh o w t os e q u e n c ed n ai nq u i c k ,a c c u r a t ea n dh i g h t h r o u g h p u tw a y w i t ht h eh e l po fg e n ec h i p s ,w ec a nr e a l i z ei t h e r e ,w ep r e p a r es e q u e n c i n g c h i p sb yr o l l i n gc i r c l ea m p l i f i c a t i o na n ds e q u e n c ed n ab ys y n t h e s i s b i o l o g yi n f o m a a t i c si su s e f u li nt h ed e t e c t i o no fb i o c h j p , a n di m a g ep r o c e s s i n gi sv e r y i m p o r t a n ti ni t w eh a v ed e v e l o p e dt h e s ea l g o r i t h m s w h i c hh a v eb e e nu s e di ni m a g e p r o c e s s i n g t h e r ea r et h r e es t e p si ni m a g ep r o c e s s i n go f m o l e c u l el a t t i c e : ( 1 ) e x t r a c tf e a t u r ep o i n t s t h e r ea r et w o m a i nm e t h o d s :e d g cd e t e c t i o na n d t h r e s h o l ds e g m e n t a t i o n d i f f e r e n tf e a t u r ep o i n t sw i l lb ee x t r a c t e db yd i f f e r e n t m e t h o d s w ef o c u so ns o b e l 、p r e w i t t 、l o ga n dc a n n ya l g o r i t h m s b e c a u s e t h e r ea r en o i s e si nt h ep i c t u r e s ,a n dt h eb a c k g r o u n di sn o tu n i f o i n a ,f o u r a l g o r i t h m sc a nn o te x t r a c tf e a t u r ep o i n t sw i t h o u tt h r e s h o l ds e t t i n g w ej u d g e t h r e s h o l db ya n o v a l a s t ,c a n n ya l g o r i t h mw a sc o n s i d e r e dt ob et h eb e s t a l g o r i t h m ( 2 ) a f t e rt h ee x t r a c t i n gf e a t u r e sp o i n t s ,c e n t r o i dw i l lb ec a l c u l a t e d ,a n dt h ec e n t r o i d w i l lb et h eo n l yc h a r a c t e ro f t h ef e a t u r ep o i n t s ( 3 ) g e n o m es e q u e n c i n gw i l lp r o d u c eas e r i e so fp i c t u r e s ,s ow er e g i s t e ri m a g e s w i t hm u t u a li n f o r m a t i o n i tc a nj u s tr e g i s t e rp i c t u r e sb yg r a yi n f o r m a t i o n f i r s t m o v ea n dr o t a f i o nt h ei m a g e ,s e c o n dc a l c u l a t et h em i ,t h i r dg e tt h eo p t i r e a lm i , l a s tg e tt h et r a n s f o r m k e y w o r d s :b i o c h i p ,g c n o m es e q u e n c e , i m a g ep r o c e s s i l 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并 表示了谢意。 研究生签名:锾至送日期:巡! :乡 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外。允许论文被查阅和借阅,可 以公布( 包括干0 登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 研究生龋盛越新虢f 终遂日期: l汐b o 卜3 第一章基凼芯片测序技术 1 1 生物芯片技术 第一章基因芯片测序技术 人类基冈组计戈l j ( h u m a ng e n o m e p r o j e c t ,h g p ) 是人类为了认识自身,而于1 9 9 0 年启动的一项自 然科学史上最伟人和最具影响的科学研究计划。2 0 0 2 年初发表的高精确度的和经过详细注解的人类 基冈组研究结果标忠着人类基因组计划的提前完成。随着各种生物全基冈组序列的公布,研究的重 点己转移剑以搞清人类基冈组中所有基冈的功能为目标的后基冈组计划时代。_ 二十世纪九十年代初, 为适应“后基因组时代”的到来,产生了一项新的技术,即以基冈芯片为代表的生物芯片技术。 生物芯片是上个世纪九十年代产生并发展的一项生物技术,采h j 机械点样d n a 微点阵技术,将 多达数万种d n a 探针克隆,通过特制的机械微点样装置,分别点加于同相基片表面特定位点上,形 成微点阵( m i e r o a r r a y ) ,微点阵的每个样点分别集中吲定了一种探针的人鼙拷贝,代表着一种特定的 基冈信息,也称d n a 芯片。生命科学与众多相关学科,如计算机科学、材料科学、微加一i j 技术、有 机合成技术等的迅猛发展,为生物芯片技术的发展提供了理论和技术基础。探针闹相原位合成技术 和照相平版印刷技术的有机结合,以及激光共聚焦显微技术的发展,促使基冈芯片从实验室研究走 向j :业化席_ l f j 。以上这些技术的合成使得同定高密度的数以万计的基因探针分子变得切实可行,而 且借助激光共聚焦显微扫描技术可以实现对杂交信号实时、灵敏、准确地检测和分析。 生物芯片的目的是实现对细胞、蛋白质、核酸以及其他生物分子筲准确、快速、高通餐的检测。 芯片上集成了成千上万密集排列的分子微阵列或分析元件,能够在短时间内分析人量的生物分子, 快速准确地获取样品中的生物信息,检测敛率是传统检测手段的成百上千倍。生物芯片技术被认为 是继矗二十世纪人规模集成电路之后的又一次具有深远意义的科学技术革命。 生物芯片可以分为以r 儿类:基因芯片、蛋白质芯片、芯片实验室、组织芯片、细胞芯片、糖 芯片等等,它们已经吉现e 速发展的状态。以基冈芯片为核心的相关生物技术产业正在全球崛起, 它们在生物学和医学基础研究、疾病诊断、新约开发、农作物良种选育、司法鉴定、食品p 生监督、 环境监测、国防、航天等许多领域中有着极其j 阔的应_ i j 前景,弗有可能从根本上改变目前生物学 和生物技术的观念和效率。 1 2 d n a 测序技术o 】 在成功完成人类基因组计划以后,下一个目标就是获取所有个体的基冈组序列,由此比较得到 不同个体基冈序列的差异,从而分析不同个体对疾病的易感程度、对约物的反应筹异管。 在_ 二十世纪七十年代中期之前,d n a 序列是没有办法直接被测出的,想得剑d n a 序列,只能通 过其转录翻泽出的蛋门质的氨肇酸序列倒推。成熟的d n a 测序技术始j :七十年代中期。1 9 7 7 年 m a x a m l l g i l b e r t 报道了通过化学降解测定d n a 序列的方法即将模板d n a 的一端标记之后,在四组或 再组垃为独立的化学反应中分别得剑部分降解,其中每一组反应特异地针对某一种或某一类碱基。 在这几组反应中通过化学裂解形成具有共同起点而终点不同的放射性标记的分子。经过电泳及放射 自显影可以读出距离标记位点2 5 0 个核苷酸以内的d n a 序列。同期s a n g e r 推出了般脱氧链终止法l l “ s a n g e r 法测序的原理就是利川一种d n a 聚合酶米延伸结合在待定序列模板上的引物,直到掺入一种 链终l r 核苷酸为止。每一次序列测定由一套四个单独的反麻构成,每个反廊含有所有四种脱氧核苷 三磷酸( d n t p ) ,并混入限蕈的一种不同的般脱氧核苷二磷酸( d d n t p ) 。由t d d n t p 缺乏延伸所需要的 3 h 基团,使延k = 的寡聚核盱酸选择性地在g 、a 、t 或c 处终止。终j r 点由反应中相应的双脱氧而定。 每一种d n t p 和d d n t p 的相对浓度都可以调整,使反应可以得到一组长度为几百至几千的碱基的链终 j p 产物。它们具有共同的起始点,但终i l 在不同的核苷酸上,可通过高分辨率变性凝胶电泳分离出 大小不同的片段,凝胶处理后可用x - 光胶片放射自显影或非同位素标记进行检测。 l 东南大学硕十学位论文 二十世纪八十年代自动测序的出现将d n a 测序引入高通餐的时代。1 9 8 6 年,l e r o y h o o d 实验室 的s m i t h 等人用荧光标记、激光激发荧光检测和计算机碱基识别技术取代了传统的放射性同位素标 记、放射白显影和人j :碱荩识别技术 1 2 1 。这标志着白动化测序时代的到来。该方法分别用四种荧光 标记测序引物,每一条引物放入有一种d d n t p 和四种d n t p 的体系反应,在反应结束之后,四个独立 的反应体系被倒入同一个聚丙烯酰氨凝胶电泳。四色激光激发荧光检测仪对凝胶进行扫描,扫描结 果被送入计算机,通过软什进行处理,最终得出测序结果。1 9 8 7 年,d u p o n t 的科学家们开发出了基 于荧光舣脱氧链终l r 法d n a 快速自动测序系统1 1 3 1 。之后多家公司在此基础上发展出多种d n a 自动测 序仪,并投入商业化生产。经过多年的发展,目前国际上正在研究的d n a 测序技术人体上可以分为 两类:第一类是经典d n a 测序技术,是进一步发展与完善目前广泛采用的以凝胶电泳分离为基础的 d n a 序列分析技术,如毛细管凝胶电泳法、阵列毛细管凝胶电泳法、超薄层板凝胶板电泳法,这类 方法都是以传统的化学降解法和i 烈脱氧链终i r 法为基础发展而米;第一:类是d n a 测序新技术,这类 方法抛弃了传统的凝股电泳分离步骤,直接进行测序,如杂交法、合成测序方法以及单分子测序的 方法。 1 2 1 经典测序技术 目前在q a 测序及其相关研究中,最常使刚的经典方法是基丁电泳的双脱氧链终止法,有较为 原始的板凝胶电泳法,及由其发展而来的超薄板凝胶电泳法,也有诞生f 二十世纪九十年代初期的 毛细管凝胶电泳法。 ( 1 ) 板凝胶电泳法( s l a bg e le l e c t r o p h o r e s i s s g e ) 最早的两种成形的测序技术都是利用板凝胶电泳技术对不同长度的核酸片断进行分离。电泳 技术是利用抗对流介质,如聚丙烯酰胺和琼脂糖凝胶,分离不同k 度的核酸片断,再通过放射自 显影技术或荧光标记技术,判读核酸片断。为了适应人规模测序的需要,高速d n a 测序技术不断 发展,人类基冈组人规模d n a 测序,已瞥遍采用板凝胶电泳及激光荧光实时检测法,基丁:双脱氧 链终l r 法原理,采_ l i j 激光诱导荧光进行检测。 早期使用的电泳凝胶扳厚达4 0 i 1m ,易丁形成高电流而产热,影响电泳条带结果的分析,之 后,s a i l 聊等人对胶的厚度作了一些改进。超薄板凝胶电泳( u l t r a t h i ns l a b g e le l e c t r o p h o r e s i s ) 结合 了毛细管凝胶电泳与板凝胶电泳的优势:利_ l j 板凝胶电泳基本装置使多个样品的分离同时进行, 结合毛细管凝胶电泳的优势使分离在超薄层凝胶( t 1 ) ,用双阈值 作用丁:图像n ( x ,y ) ,得剑两个嘲值的边缘阵列t l 和t 2 。 由于边缘阵列t 2 是川高闽值得到的,因此含有比较少的假边缘,但同时也损失了一些有_ j 的 边缘信息,而边缘阵列t 1 的蚓值较低,保留了较多信息。冈此,可以以边缘阵列t 2 为基础,_ i j 边 缘阵列t l 进行补充迮接,最后得剑边缘图像。具体过稗如卜i :首先在边缘阵列t 2 中扫描,当扫描 到一个灰度值菲零的像素点p 时,跟踪以p 点开始的点的轮廓线。直剑该点的终点q ;接着在边缘 阵列t 1 中找剑与t 2 中的q 点何置相对应的q 点,在q 点的8 邻点或4 邻点区域内搜索灰度值 1 f 零的像素点r ;然后将r 在t 2 中的对庇点r 包括到边缘阵列t 2 中。同理,在阵列t 2 中继续 搜索跟踪以r 点为开始点的轮廓线,重复上述过程,循环进行,直到结束。这样包含点p 的轮廓线 连接完成,将点p 标记为已访i 、u j 过。然后依次重复寻找边缘阵列t 2 中的f 一条轮廓线,直剑t 2 中 所有轮廓线都搜索完毕。 综上所述,c a n n y 算子的基本思想是:先通过高斯函数对待检测图像进行平滑滤波求得每个 像素点的梯度幅值和方向,然后对图像的梯度幅值阵列应刚“非极人值抑制”进行处理,最后采用 双阙值法检测和连接边缘,得到边缘图像。 c a n n y 算子的方向性质使其边缘检测和边缘定位的性能比l o g 算子要好,并且具有更好的抗噪 声性能。c a n n y 算子能够产生边缘点的方向和强度两个信息,这些信息都可以被利用。但是c a n n y 算子由于需要得到较好的检测结果,通常需要使用较人的滤波尺度,这样也容易丢失图像本身的信 息。 1 6 第三章测序芯片图像分析的基本算法 3 3 2 阈值分割【4 2 4 6 1 阂值分割同样也是一种经典的图像分割技术。它同样也是利川了图像中人口j 感兴趣的目标与背 景之间的灰度差异来实现的。简单讲来,就是,幽像是目标和背景的组合,然后设定一个闽值,将 每一个像素与之比较,从而判定像素点是属于背景还是目标,这样就可以产生一幅_ 二值化的图像。 阑值分割的优点在于计算简单,它与其他边缘检测算法相比,大人减少了存储容最,并且可以人量 压缩数据,缩短运算时间。尤其当实验数据中特征点十分小( 甚至只有1 个像素) ,或者背景和目标的 灰度筹异很大的时候,阈值分割将是一种很好的图像分割方法。 其实阈值分割是一个交互式的处理,即实验给出图像,由操作者给出闽值,进行分割,然后与 原图比较,调整闽值,重新分割。这样对丁一个自动化的芯片后期图像处理稃序显然是不现实的, 而且会产生较大的误差。冈此这里研究了一下迭代闽值分割的方法。 迭代阈值分割,顾名思义,就是通过迭代的方法产生阈值,通过程序自动计算出比较合适的分 割闽值,将图像进行二值化处理。迭代闽值分荆的处理方法如下: n ) 选择一个初始闽值t ,通常可以选择幽像的平均灰度值作为初始阈值; f 2 1 通过初始闽值t ,把l 冬| 像的平均灰度值分成弧组:r 1 和r 2 ; ( 3 ) 分别计算两组平均灰度值u1 和i t2 ; ( 4 ) 重新选择阈值t 1 ,新的t l 定义为:t i = ( ul + p2 ) 2 : ( 5 ) 判断t l 是否等丁t ,如相等,则,t 为闽值;如不相等,则令t = t i ,重复第二步,直到 t l = - t 。 由丁拍摄问题,图像的背景可能并不均一,目标和背景的灰度比例也许相同,但是灰度的绝对 值并不相同,对丁这种情况,可以先将图像进行粗略的分割,得到许多子图像,在子图像中单独进 行阈值分割,然后再拼接,可以达到更好的效果。 3 3 3 算法的比较 如图3 7 显示的原图像: 图3 7 原始图像 图3 8 图3 1 2 分别是用s o b e l ,p r e w i t t ,l o g 、c a n n y 算子以及闽值分割处理过的图像 1 7 东南大学硕l :学位论文 图3 8 经s o b e l 算于提取后的边缘 图3 1 0 经l o g 算了提取后的边缘 图3 9 经p r e w i t t 算子提取后的边缘 图3 i1 经c a n n y 算了提取后的边缘 图3 1 2 中迭代阕值所得的结果为1 3 2 ,即以1 3 2 为界,对图像进行二值化。 削3 1 2 阈值分割后的i 鳘i 像 1 8 第三章测序芯片幽像分析的摹奉算法 前四张经边缘提取算法处理所得的图显示出,这四种算法其实都能比较好的提取图像的边缘, 且提取的边缘并没有显著的差别,只有仔细的比较才能发现有些边缘并不连贯。因此,我又在原图 像中加入了高斯噪卢,加入了噪卢以后的图像如图3 1 3 所示: 图3 1 3 加入r 高斯噪声的图像 下面五张图分别显示经s o b e l ,p r e w i t t ,l o g 、c a n n y 算子和阈值分割处理过的加入了噪声的图像, 如图3 1 4 - - - 图3 1 8 : 图31 4 经s o b e l 算子提取后的噪声图像边缘 图3 1 5 经p r e w i t t 算子提取后的噪声图像边缘 1 9 东南人学硕i :学位论文 图3 1 6 经l o g 算子提取后的噪声幽像边缘 图3 1 7 经c a n n y 算子提取后的噪声幽像边缘 图3 1 8 经阈值分割处理的噪声翻像 图3 1 8 中迭代闽值为1 2 3 ,已经不同于原图像的迭代阈值。 从上面这些图像可以看出,首先s o b e l ,p r e w i t t ,l o g 和c a n n y 算子都能够有效的迸行图像的边 缘提取,但是在有噪卢干扰的情况下,c a n n y 算子的提取效果更好。而阈值分割的方法在平滑的图 像中的效果尚可,在有噪声的情况下则效果并不理想,但是也能在一定科度上提取出图像中的有州 信息。 3 3 4 参数最优化以后图像处理结果 判断一幅图像真止的边缘是很困难的,传统的低层次的图像分割结果通常是让人们主观的判断 边缘提取的效果。其实在这一点上,结果并不能让人们满意。我们的目的是希望可以使用严格的判 断标准提供有效的定量的结果。 一个视觉系统的前期处理通常都包括边缘检测模块。最理想的结果是我们可以得知图像边缘的 真实分割数据。实际上,已经有研究人员研究得出一种在分割中手动构建真实数据结果的方法。然 而,在图像中手动建造真实数据也是存在很多问题的。首先边缘强度的大小就很难获得。由于我们 主要讨论了阶跃边缘的方法,这样就必须考虑理想的阶跃边缘数据应该是多少,在一个渐变的边缘 上哪里是比较合适的边缘分割点。冈此,构建真实数据的方法并不可行。另一个可能的方法是用不 2 0 第三章测序芯片图像分析的基奉算法 同的边缘检测算子来测茸一个标准的视觉检测系统。不幸的是,还开发出这样的系统。因此,比较 让人家接受的是通过产生一些可视化的结果米比较边缘检测算法,当然,这是也是依赖人们的主观 判断的。这样的做法依然是存在问题的,比如,在主观难以判断的情况下哿到的结果,在不同人之 间得到的主观结果可能不同,对不同的图像也会有不同的判断等。 这里将给出一个方法能够定性定苗的比较几种边缘检测算法,方差分析( a n a l y s i so fv a r i a n c e , a n o v a ) 。这个方法提供像素级别的判断。但是它对丁假刚性和假阴性的情况尚不能做出结论。对 于检测出来的边缘,我们町以给出一个评价,和这个评价相关的参数宵四个:图像本身,采_ i j 的边 缘检测算法,两者之间的作蹦,误差。 这里采用的是组内相戈系数( i n t r a e l a s sc o r r e l a t i o i lc o e f f i c i e n t ,i c c ) 作为判断标准,下面会介绍一 f 组内相关系数。 组内相关系数的定义:如果x 、y 是两个含义相同的观察指标或者是相同观察指标的前后 两次重复测量结果,这时的相关系数表示同一变餐内部的相关系数,称为组内相关系数。i c c 的计 算彤式有很多种,由于在这里判断图像边缘必须涉及一个检测算子的多个参数,因此这里采用的计 算方法必须能够反映整体的边缘检测效果。这里定义的i c c 如式( 3 1 3 ) : i c c :b m s - e m s ( 3 1 3 ) b m s 假设对一幅a * b 的l 茎| 像进行计算,那么: 一 b m s = 二一 ( 彳。一x ) ( 3 1 4 ) a l 乍“ e m s : 1 0 一1 ) ( 6 一1 )( 西- - 一x 1 一一x 4 + i ) 2 f x i 2 ;1 7 x r ;巧5 :1 午x ,;i 2 去莩局 ( 3 1 5 ) ( 3 1 6 ) i c c 的范围为o 1 ,其中0 为完全不相关,l 为完全相关。很明显的,i c c 的值越大显示此边缘 检测算法越好,参数越合适。 表3 i 显示了原图像在不同边缘检测算子情况下的i c c 的值 表3i 原图像在不同边缘检测算子下的i c c 值 s o b e ip r e w l i tl o gc a h n y i c e0 ,5 3 0 90 ,5 3 40 6 0 】5o s 4 6 s 在这张表格中l o g 算法的i c c 值最高,应当是最合适的算法,但是由丁原图像比较平滑,每 个算法的处理结果都比较让人满意,且凭人们主观观测并不能判断哪个算法更合适,因此义对) j n a 了高斯噪卢的图像计算不同边缘提取算子处理过后的i c c 值。 表3 2 显示了加入了高斯噪卢的图像经四个边缘检测算子作用以后得到的i c c 的值: 表3 2 加入噪声的闺像在不同边缘 龟测算于下的i c c 值 s o b e lp r e w l i tl o g c a n n y i c c0 ,4 6 0 10 ,5 0 5 7 o5 5 0 30 5 7 8 8 在表3 7 中,可以发现c a n n y 算子的i c c 值相对较大,和图3 1 2 - 阔3 1 5 显示的结果基本符合。 2 1 东南人学硕十学位论文 3 4 质心提取4 7 _ 5 0 l 质心的概念来自于物理学,指质量分布的中心,图像质心是指| 璺| 像的灰度分布的中心f 以下简称 质心) 。 由丁| 一个物体扩散剑另一个物体上的时候不会仅仅只有一个点,通常它会散布成一个区域或者 一些像素,因此,我们不能简单的对于这个物体给出个位置或者坐标,为了能够精确的表示一个 物体的坐标,那么这个物体的中心就铍提取出来作为它的代表。我们通过这个物体散布成的区域中 的灰度等信息估计它的中心,质心的计算有两种方法一种是带权重的质心计算方法,一种是简单 的不带权重的质心计算方法,不带权重的质心计算公式如式( 3 1 7 ) = 去喜:儿= 击喜弘 ( 3 1 7 ) 这个计算方法计算每比较小,并且比较直观,即对于提取出来的特征点,将其内部所有坐标相 加再做平均,得剑质心,这对于点较小( 只有几个像素) 以及特征点内部灰度值比较均一的情况适合。 但是考虑到内部灰度不均一的情况,实验中主要采川的是带权重的质心计算方法,所谓的带权重的 质心计算方法,就是指不单考虑质心的坐标,同时还考虑到每个像素点的灰度值,具体的计算公式 如式( 3 1 8 ) 氖= 嬲 y 一y l ( x ,y ) ;驴笛着 ( 3 1 8 1 图3 1 9 和图3 2 0 显示了图3 7 的质心,由丁:质一l , r 朋一个像素的白色点表示。在图3 1 9 中并 不明显,因此义用数字标记了每一个质心,得到了图3 2 0 。图中的质心基本符合我们对原图像的观 测所得的质心。 图3 1 9 提取质心以后的幽像 j 生i3 2 0 标记,数,的质心 第三章测序芯片i 玺l 像分析的基奉算法 3 5 测序芯片中的图像配准【5 l - 6 7 1 3 5 1 图像配准的概念 图像配准问题是计算机视觉、图像处理中的基本问题,有两种对应的问题原窄:一是两幅( 或者 多幅) 来自不同采集设备或者不同视角的图像需要对比,经过配准步骤可以得出两幅图像的筹别所 在:一二是根据一幅已知的模板幽像在另外一幅图像中搜索类似的模板结构。这两种基本需求在多个 领域的很多实际问题上都有所反映:如,不同传感器的信息融合:不同时间、场地条件i - 获得圈像 的差异检测;成像系统和物体场景变化情况卜获得的豳像的三维信息;幽像中的模式或目标识别等 等。 简单来说,图像配准就是将同一场景的不同图像“对齐”或进行广义的匹配,以消除存在的儿 何畸变。对同一场景使川相同或不同的传感器( 成像设备) ,在不同条件下( 大气气候、照明、摄像位 置和角度等) 获取的两个或多个图像一般都会有差异。同一场景的多次成像的筹别可以表现在:不同 的分辨率、不同的灰度属性、不同的位置( 平移和旋转) 、不同的尺度、不同的非线性变形等等。多种 成像模式产生的图像( 称之为多模态图像) 会表现出不同的分辨率、不同的灰度属性等等差异。图像配 准的主要目的是消除几何上的著异,对丁二灰度信息的差异并不关心。当然,正是因为图像畸变中的 灰度差异的存在,给几何校l e 增人了难度。 在本文中的图像配准借鉴了医学图像配准技术。 二十世纪八十年代初,图像的配准主要应州在d s a ( 数字减影血管造影1 方面。它采用基于图像 灰度的方法,通过检测相关性和灰度值的差异来决定刚性变换的参数。这些技术都针对二维图像, 值得注意的是这种基丁- 灰度的方法在当今二维配准中仍是研究的主要内容。 二十世纪八十年代中后期到九十年代初。临床医生和图像处理领域的专业人员开始认识剑不同 模态的图像应当融合在一起组成个更简单、更实_ 的显示和分析平台,要达到这个目的首先就要 将不同时间、不同模态的图像的点一一对麻起来,也就是实施图像配准。这个阶段提出了一些基丁 边界特征的配准方法,但是还是采用刚性变换,对象主要还是_ 二维图像。 二十世纪九十年代以来,医学图像配准的研究受剑了国内外医学界和l :程界的高度重视。将图 像配准的方法分为两大类:基于外部特征( 有框架) 的图像配准和基丁内部特征( 无框架) 的图像配准。 近年来,医学图像配准技术有了新的进展,信息学的理论和方法铍麻用丁图像配准,1 9 9 3 年 w o o d s 应用条件熵作为配准的测度,1 9 9 5 年c o l l i g n o n 等采川联合熵作为定世配准测度,几乎同时v i o l a 等发表了互信息应用于多模配准的文章。在配准对象方面从二维图像发展到二维多模医学图像的配 准,例女u 2 0 0 0 年l u o 等利川最人互信息法对c t - m r 和m r - - c t 二维脑部图像进行了配准,结果全部达 到讵像素配准精度。在医学图像配准技术方面已经引入了信号处理技术例如傅垦叶变换和小波变 换。小波技术在空间和频域上具有良好的局部特性,在空间和频域上都具有较高的分辨率。戍用小 波技术多分辨地描述图像细貌,使图像由粗剑细的分级快速匹配,是近年来医学图像配准的发展之 一。国内外学者在这方面做了人照的i :作,如s h a r m a n 等提山了一种基于小波变换的自动配准刚体图 像方法,使用小波变换获得多模图像特征点然后进行图像配准,提高了配准的准确性。 计算机硬件的e 速发展推动了图像配准在二维领域的研究,主要采川的方法仍然是刚性变换的 方法。同时,在二维领域,单纯的刚性变换方法已经不能满足人f j 的需求,特别是不同病人问的图 像配准,图像和图谱图像问的配准方面更是如此。对于腹部以及胸部脏器等变形组织的图像配准, 不同个体之间的配准以及幽谱配准,都需要采用非刚性的配准方法。新的要求推动了人们对非刚性 变换方法的研究,从仿射变换开始,人们陆续推出了一些诈刚性的方法。 非刚性配准方法主要有:b o o k s t e i n 等提出的薄板样条法,b 样条函数法,b a j c s y 等人的弹性配准 方法,c h r i s t e n g 等人的粘性流体模型( v i s c o u sf l u i dm o d e l ) ,h e l l i e r 等的光流场算法等。与刚性配准 相比,非刚性配准还不成熟,如何建立合理的变形模型以适合各种复杂的组织变形,如何提高非刚 性配准的计算速度、配准精度以及对非刚性配准的评估都需要进一步的研究,因此,1 仁刚性配准是 2 3 东南大学硕1 :学位论文 医学图像处理的藿要研究课题。 可以从不同角度对图像配准算法进行分类:( 1 ) 根据空间维数的数目可划分为2 d 2 d ,2 d 3 d , 3 d 3 d 图像配准:( 2 ) 根据配准所基丁i 的图像特征分类可分为基于外部特征的例像配准和基f 内部特 征的图像配准;( 3 ) 根据变换性质分类可以分为刚性变换、仿射变换、投影变换和曲线变换,其中刚 性变换只包括平移和旋转:仿射变换将平行线映射为平行线:投影变换将直线映射为直线;曲线变 换将直线映射为曲线。( 4 ) 根据用户交互性的多少分类可以分为交互的、f 自动的和自动的:( 5 ) 根 据医学剀像模态将配准方法分为单模态图像问配准、多模态图像配准、以及是患者雨i 图谱间的配准, 单模态图像f a j f l a 准一般应丁生长监控减影成像,多模态图像配准可以分为将显示组织形态学不同 方面的| | 像融合利将组纵的新陈代谢与解剖空间倪置联系起来;( 6 ) 根据配准过程中的参数确定方式, 医学配准图像可以分为两种:一种是通过直接公式得剑,另一种是通过在参数空间中寻找某个函数 的最优解得到;( 7 ) 根据主体分类医学图像配准可分为i n t r a s u b j e c t ,i n t e r s u b j e c t ,a t l a s 三种;( 8 ) 根据图 像来白人体的部位可分为头部、腹部平胸部。在以上这些分类中第一二种分类方法使州的比较多。 图像配准的原理如f ,假蹬在不同时间或不同条件f 获取的两幅例像f ( x ) 和g ( x ) ,我们需要定义 一个相似性测度,寻找一个空间变换关系t ,使得经过该空间变换以后,两幅图像间的相似性达到最 大,即图像f ( x ) 上的每个点在图像g ( x ) 上都有唯一的点与之相对应。并且这两点对应同一解剖位置, 即: s ( d = s ( 厂( 工) ,g ( r ( 工) ) ) ( 3 1 9 ) 其中s ( t ) 是相似性测度,t 为空间变换,目标就是求的最佳的空间变换t 。 相似性测度包括灰度方差、互信息、相关系数、联合熵。本文主要研究的是基于互信息值的图 像配准。 3 5 2 互信息配准 互信息配准方法是一种基丁灰度信息统计的图像配准方法。基于灰度信息统计的方法不需要对 图像做复杂的预先处理,只是利用图像本身灰度的一些统计信息来度管图像的相似程度。互信息配 准方法的主要特点是实现简单,但在求最佳变换的搜索过程中往往需要巨人的运算鼙。 互信息理论中的一个重要概念是熵。熵是用来测昔一个信息源所含信息耸的测度,是由s h a n n o n 最早提出的。假设一个信息源a 输出n 个消息,其中有n 种不同的消息,第i 种消息( i _ l ,2 , 1 1 ) 重复 h 次,则h 小为每个输出消息的重复频率,故可用概率替换,目o p i = h n 。则该信息源的平均信息量即 熵为: h ( 爿) = 一鼻l o g i , f 1 1 ( 3 2 0 ) 熵表示的是一个系统的复杂性或不确定性。对灰度图像来说,可以将吲像的灰度看作是一个随 机变量,每个点的灰度取值为该随机变量的一个事件,则可以根据图像的灰度信息计算出每级灰度 发生的概率。如果图像中的灰度级越多,像素灰度值分布越分散,则每级灰度的概率值很接近,或 者说图像中任一点的灰度值具有很大的不确定性,我们所获得的信息肇也就越人,该幽像的熵值也 越大:反之,如果图像中的灰度值分布比较集中,那么一些灰度的概率值较人,不确定性减少,熵 值较小。 联合熵h ( a ,b ) 是检测随机变晕a 和b 相关性的统计量。对于两个随机变量a 、b ,它们的概率分 布分别为p a ( i ) 和p b 0 ) p a b ( i , j ) ,则它们的联合熵为: h ( a ,b ) 2 一艺p a 口( f ,j ) l o g 只8 ( f ,) ( 3 2 1 ) f , 配准的检测依据即为联合熵。 互信息通常用f 描述两个系统间的统计相关性,或者是一个系统中所包含的另一个系统中信息 2 4 第二章测序芯片图像分析的基奉算法 的多少,这里用熵来描述。 如果h ( a b ) 表示已知系统b 时a 的条件熵,那么h ( a ) 与h ( a 仍) 的筹值,就代表了在系统b 中所包 含的a 的信息,即且信息。因此两个系统间的互信息可以川下式来描述: i ( a ,曰) = 日( 彳) + 日( b ) 一h ( a ,口) = h ( a ) 一h ( a b ) = h ( b ) 一h ( b 彳) ( 3 2 2 ) 当两幅图像的空间位置完全一致时,其中一幅图像表达了关于另一幅图像的信息,也廊当是它 们的互信息席当最大的时候。用联合概率分布p ( a ) p b ( b ) 问的广义距离米估计且信息,得到式( 3 2 3 ) 州= 善蹦俐。g 不p a 了t ) 丽( a , b ) ( 3 2 3 ) 对于离散数字图像,联合概率分布p a b ( a ,”可以用归一化的联合直方图表示如下: 圳2 量 2 4 , 其中,边缘概率分布p a ( a ) p “b ) 分别表示为式( 3 2 5 ) 和式( 3 z 6 ) p a ( f ) = p 口( f ,) ( 3 2 5 ) p 。( f ) = z p 。口( f ,) 因此得到i ( a ,b ) 如下: 删瑚3 荨“川。g 丽p a 而s ( i , j ) 丽j ,f 、。,f 口 如图3 2 1 显示了两幅图像之间的且信息戈系: i ( 屯b ) 图3 2 l 两幅图像的互信息关系 东南人学硕十学位论文 本文即采_ l j 式( 3 2 7 ) 的互信息计算方法作为相似性测度来进行图像配准。配准的流程图如图 ( 3 2 2 ) 所示: 图3 2 2 配准流程图 互信息并不直接依赖灰度值来衡量不同图像的一致程度,而是依赖它们在每幅图像中箨自发生 的概率和两幅图像组合产生的联合发生概率。因此它对灰度改变或者一对一的灰度变换不敏感,能 同时处理积极的消极的图像灰度关系,是基于体素的i 璺| 像配准算法,互信息算法没有对不同模态中 相应体素的图像灰度关系特祉的限制性假设,冈此它还适用丁i 多模态图像配准。 但是且信息配准也存在局限性,比如当两幅图像的信息差异很人,这种情况下的算法可能效果 不好,或者当一幅图像灰度1 :常不均匀时,同一场景的历幅多模图像的光度学关系可能是空间变换 的,尤其当待配准图像有人片阴影时,互信息算法也不能达到比较好的效果。 依然将图3 6 作为例子,做一个简单的互信息配准。 第三章测序芯片图像分析的摹本算法 图3 2 3 两幅等待配准的图像 图32 4 配准过后得到的图像 如上图显示了两幅图像的配准结果,第一幅图像作为基准图像,川第一二幅图像进行配准,最后 得到图3 2 4 。得剑相关参数如r : l 田h _ m a x 1 8 6 5 7 1 2 1 2 图3 2 5 配准所得数据 其中岫表示的是计算得到的互信息的值。 x z 墨融 东南大学硕l 学位论文 第四章测序芯片图像采集和处理结果 4 1 测序芯片图像的特征点提取 这里所处理的图像是单分子多拷贝d n a 测序中获得的图像,它是将待测序列同定在载体上,然 后将碱摹置丁探针i - 和j 待测序刊发生袋交反应,然后通过荧光锋手段戍像出来进行分析的方法。测 序芯片得到的图像通常是散布满点的灰度图像,每个白色斑点都可以认为是序列反应所在之处。图 4 1 显示了一幅实验中得剑的测序芯片图像,该图像是州2 0 0n l n 荧光小珠在6 0 倍物镜f 得剑的,其 像素为8 m * 8 1 1 m : 幽4 i 草因芯片原图像 对丁这样一幅图像的特征点,本文先采用了边缘提取算子,依次采_ l j s o b e l ,p r e w i t t ,l o g g g l c a n n y 算子。但是实验中得到的i 圣| 像,f = 不能像圈3 6 那样平滑,如果简单的直接使用上述四种边缘检测锋子, 得到的边缘是十分不满意的,首先是图像的背景并不是理想的黑色,而且由于光线问题,背景也并 不均一,下图取了一张没有任何设定的直接使用s o b e l 算法处理过的图像结果: 第审洲序芯片幽像粟集和处珲结果 图4 2s o b e l 处理过的图像( 无阈值设定) 很显然,图4 2 中的图像并不满足我们对图像特征点提取的要求,有许多背景被当成特征点提取 了出来。特征点在这幅图像中反而变的很不明显了,冈此有必要对边缘提取算子进行闽值的设定。 但是设定闽值的过程会带来一个问题,哪个阈值是比较好的阈值呢? 这里的判断方法使j l f j 的是第三 章提到的求i c c 的方法。 表4 1 列举出了s o b e l 算子在不同阈值下的i c c 值,阈值的变化范围从0 0 5 n 0 2 5 ,每次计算i c c 的阂值变化幅度为0 o l ,其中i 为蚓值变量: 表4 is o b e l 算子在小l 呵阈值下的i c c 值 i = o 0 s0 0 60 0 70 0 8o 0 9 0 1 00 1 1 i c c o 5 8 50 5 5 60 5 4 70 5 5 60 5 8 20 6 0 6 0 6 1 2 o 1 20 1 30 1 40 1 50 1 6o 1 7 0 1 8 i c c0 6 2 5o 6 2 8o 6 2 0o 6 l l0 ,6 0 10 5 9 70 5 9 1 0 1 90 2 0o 2 1o 2 20 ”0 2 40 2 5 i c c0 5 6 60 5 4 10 4 9 70 4 9 20 4 8 8o 4 0 20 3 4 6 东南大学硕j 二学位论文 在这张表中,可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保洁保安报价合同样本
- 促销服务合同样本
- oem合作生产合同样本
- 互赔合同标准文本
- 修井合同样本
- led广告制作合同标准文本
- 买卖小车指标合同样本
- 上海股制合同样本
- 2024年调酒师考试难点试题及答案
- 企业解除劳动 合同标准文本
- 高血压健康教育知识讲座课件
- 肾内科血透室品管圈
- 小学劳动教育一年级下册第二单元第3课《削果皮》课件
- 担任学生干部证明
- 学校消防宣传周活动方案食品安全宣传周方案
- 妇产科医生个人职业发展路径计划
- 装修工程合同范本(中英文版)
- 成人住院患者静脉血栓栓塞症预防护理
- 导游知识与技能训练智慧树知到期末考试答案章节答案2024年丽江文化旅游学院
- 无小孩无共同财产离婚协议书
- 企业多元化与包容性政策
评论
0/150
提交评论