版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
成年线虫高分辨率图像的自动标注什么是秀丽隐杆线虫秀丽隐杆线虫(Caenorhabditiselegans)是一种能够在温和环境中独立生存的土壤线虫,以微生物如大肠杆菌(E.coli)等为食,有雄性及雌雄同体(hermaphrodite)两种性别。自然界中,绝大多数个体为雌雄同体,雄性仅占0.05%秀丽隐杆线虫的优势线虫是一种非常简单多细胞真核生物。线虫结构简单且通身透明体细胞数目恒定,雌雄同体的成虫含有959个体细胞和约2000个生殖细胞;雄性成虫有1031个体细胞和约1000个生殖细胞线虫生命周期短,从一个受精卵发育成可以产卵的成虫只需要两三天,节约了实验所消耗的时间由于具有雄性和雌雄同体这两种性别,线虫在遗传研究上具有无可比拟的优势秀丽隐杆线虫的生命周期研究秀丽隐杆线虫的意义线虫在生命科学的各个领域,包括胚胎发育、性别决定、细胞凋亡、行为与神经生物学等的研究中得到广泛应用。在MAPK信号传导、细胞程序性死亡、TGF-β信号传递途径、RNAi干扰和smallRNA、衰老和寿命及脂肪代谢等方面取得了重大突破。可见线虫作为模式生物对于生命科学领域具有非凡的意义。组合优化问题介绍三要素:变量,约束和目标函数变量:求解过程中选定的基本参数约束:对变量取值的限制目标函数:可行方案衡量标准的函数目标:从组合问题的可行解集中求出最优解组合优化问题介绍组合优化问题是在给定的约束条件下,求目标函数最优值(最小值或最大值)的问题。组合优化问题的一个实例可以表示为一个对偶(S,f),其中解空间S为可行解集,目标函数f是一个映射,定义为f:S->R求目标函数最小值的问题称为最小化向题,记为minf(i),i属于S同理,求目标函数最大值的同题称为最大化间题,记为maxf(i),i属于S算法提出的意义过去标定秀丽隐杆线虫图像上的细胞是手动分割的,这非常的单调并且耗时之前偶匹配算法是适用于L1状态(第一幼虫时期),它是基于位置的算法,L1时期细胞位置和数目是相对固定的。但是到成虫期,细胞数目急剧增长,细胞种类和空间位置也发生明显变化,故在成虫期不适用本文算法介绍本文作者将成年线虫的细胞标定问题转为为组合优化问题,该算法基于先前的偶匹配算法,但丰富了评价函数。加入了诸如细胞尺寸,邻里密度等特征然后,作者介绍了利用最小损失最大流来解决组合优化问题,并且运用一种基于交叉熵–基学习算法来调节模型的参数,提高匹配正确率上图是成年线虫在Z轴上的投影,蓝色部分有由DAPI染色,代表细胞中的DNA,绿色是由绿色荧光蛋白(GFP)染色,代表细胞核算法的表示将细胞标定问题转化为组合优化问题假设图像中有p个细胞
(它们的位置和边界已经在预处理中提取)。表示我们希望预测每个细胞所对应的标签,表示的候选标签代表那些没有被标定细胞,等代表训练集中q种由专业人员标定的不同细胞。于是给每个细胞决定的任务就变成了如下组合优化问题:(i)每个细胞只分配一个来自的标签(ii)每个标签只分配给每个细胞(iii)这个未指定的标签可能对应了多个细胞算法的表示是一个矩阵,当细胞和标签相匹配时,将置1,否则置0。同样的,是由可能的细胞标签分配所组成的损失函数,最后,问题可表示为:
subjectto
注:上面的这些限制确保了每个细胞只能分配惟一的标签,反过来也是一样
损失矩阵的定义众所周知损失值是算法重要因素。所以我们相对之前的算法考虑了更多的特征,列举如下:(1)细胞位置(2)细胞尺寸(3)GFP表达水平(4)DAPI强度(5)附近细胞(6)细胞形状所有上面的因素都是专业标定师在标定成熟线虫所考虑的特征损失矩阵的定义这里,我们先单独考虑细胞的位置(其他的特征的损失矩阵类似)。假设我们已经得到了线虫图像的训练集我们用表示在标准虫坐标空间的3D向量坐标,每一维都是零均值和方差。损失矩阵的一种表示方法是马氏距离:
(2)
表示是一个3D向量,它表示具有标签训练细胞位置的平均值表示样本位置的协方差矩阵,当然上述表达式可简写为
(3)这里的均值和方差都是由基于来自训练数据中标签为细胞估计的。最后,损失函数可以表示为:
(4)这里,是(log)权值。最后,损失函数可以表示为:组合优化算法的求解-最小损失一种方法是应用直接的最大权值的二分匹配。该算法主要思想是构造一个二分图,图的两边各包含p个节点。左边空间每个节点代表每个输入细胞右边空间每个节点代表每个非空标签以及p-q个代表空标签的左边空间第i个节点与右边空间第j个节点匹配的开销记为求最小损失匹配最终的复杂度为,是比较耗时的算法本文算法在求解最小损失的复杂度为,该算法很灵活,允许我们进一步的拓展来处理细胞分裂的特殊情况本文算法-最小损失最大流问题构造一个有向图G=(V,E)包括p个输入细胞节点(表示)q+1个节点代表细胞的可能标签()还有2个节点s和t,分别代表源和底边包括以下几方面:(1)表示从源节点到第i个输入细胞的节点的边(2)表示第i个输入细胞节点到第j个标签节点的边(3)第j个标签节点到底节点边每条边(a,b)都有一个下限,一个上限,损失我们规定:前两行约束确保所有的细胞和非空标签都匹配一次,第三行确保有p-q个细胞匹配空标签最后一行指细胞匹配标签的损失本文算法算法的最小损失最大流问题可以表示如下:
subjectto这里代表了每个节点标记后的补充值,表示如下ifu=sifu=totherwise这里,表示用标签注释细胞分裂细胞的注释虽然成年线虫的细胞谱系是已知的,基本上是固定的,但是仍然有例外,尤其是本文数据中每个线虫有四个细胞可能会经历一次细胞分裂,分别在P={143,146,149,152}
对于标签为j的母细胞,其子女细胞可表示为{j+1,j+2}我们通过增加点和边来改变前面的二分图,对于每个母细胞j,创建两个‘决定”节点,创建的边如下表示:修改:原先所有直接从到底节点t的应该删除空标签到底节点,约束修改为r表示可以进行分裂的母细胞的个数,这里r=4
分裂细胞的注释‘决定”节点被用来加强互斥约束。例如右图中确保了母节点或子节点在最后的注释显示出来,同样的,同样的,决定是否注释特别地,如果被注释了,确保也被注释。同样的,如果没有被注释,即母细胞没有分裂,那么确保母细胞被注释实验结果训练数据:成年雌雄同体线虫25天的图像,这些图像同样被DAPI和GFP染色。每张图像都被注释了142标签包括肠道,肌肉和皮下细胞,另外,一同被注释的还有经历分裂的细胞和12个特殊的额外细胞,我们从这些细胞中提取位置,尺寸等特征。1、采用五倍交叉验证的未经训练的匹配方法上表是利用五倍交叉验证每个单独细胞注释的结果:用20组线虫训练,预测剩下的5组表中前两行表示模型单独用"位置"特征,不包括未标记的细胞损失时(loc-),模型得到了平均每只线虫36%的正确率,否则即(loc+)得到了41%的正确率。其他的在表中可以看出。实验结果2、使用经过训练的特征权值为了提高单个线虫的平均正确率,在以上方法的基础上对损失函数的权值进行训练,结果如下:
上表是包括了未标签细胞的损失,且包括所有特征(full+)从表中数据可以看出,相比用平均特征权重,使用训练后的特征权重单个线虫和细胞的正确率上升了,达到了77%。实验结果黑色代表未经训练的并且只包含位置特征模型,灰色代表未经训练的全特征模型,白色代表使用了经过训练后的全特征模型从表中可以看出,仅仅使用位置特征的模型正确率中位数为35%,对于训练后的模型它为84%。(平均值为77%)。实验结果使用网络流识别分裂细胞的正确率由前面知识可知:每只线虫只有4个细胞可能发生分裂本次试验中,我们观察到54处肠细胞经历了细胞分裂,在25个线虫中只有3个线虫的四个细胞没有发生分裂。Ventral9andVentral10代表两个腹侧细胞,Dorsal9andDorsal10代表两个背肠细胞由表可知,总体的正确率为80%。背肠细胞的正确率分别为80%和88%。最具有挑战性的是Ventral9,只取得了72%的正确率。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论