




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
文献概要形态学分析(Morphologicalprofiling)是表型药物发现中的重要工具。高通量自动成像技术的出现,使得在单细胞分辨率下捕捉细胞在给药后产生的形态特征成为可能。同时,深度学习,特别是计算机视觉技术的显著进展,大大提升了对高通量高内涵图像(HighContentImaging)的分析能力。这些技术对于理解药物的作用机制,新型治疗药物的发现和发展都起到了关键的作用。本综述全面总结了形态学分析领域的最新进展。我们介绍了高内涵细胞图像分析流程,调研了基于特征工程和深度学习方法的不同分析策略,并介绍了有关公开数据集。我们着重介绍了深度学习在此流程中的应用,包括细胞图像分割、图像表征学习和多模态学习等。此外,我们总结了形态学分析在表型药物发现中的应用,并指出了该领域综述背景表型药物发现(PhenotypicDrugDiscovery,PDD)是一种重要的药物发现方式。与基于靶点的药物发现(Target-basedDrugDiscovery,TDD)不同,PDD采用与靶标无关的方法,专注于化合物在疾病相关生物系统中的表型效应。这一策略利用已标注作用机制的参考化合物,来揭示测试化合物的作用机制(MechanismofAction,MOA)。迄今为止,PDD在首创新药(first-in-class)的发现方面已做出重要贡献。例如,PDD是天然产物发现的主要方法,也是其识别新靶点和/或作用机制的基础。天然产物一般都具有生物活性,表型筛选,特别是通过分析高内涵图像中相关的有偏和无偏差异,是发现其未知作自动显微镜和图像分析技术的发展,已经使得基于图像的高通量表型药物筛选(PDD)成为现实。在这一领域中,高内涵筛选(High-ContentScreening,HCS)和形态学分析(Morphologicalprofiling)是两种基于大规模成像实验的方法,但是它们在策略上存在明显差异。HCS是一种针对已知特定表型的测量方法,它专注于与扰动相关的特性。这种方法通常限定于测量那些已经明确与特定生物学扰动相关联的特征。与此相对,形态学分析,是一种无偏的分析方法。它通过捕捉由成百上千个细胞特征组成的高维图像数据,来全面地反映细胞的形态特性。这种方法不受限于已知表型,能够揭示细胞形态的细微差别或未知的表型特征(见图1)。传统上,生物图像信息学工具能够测量这些特征,并用于聚类分析以及预测扰动的生物活性相似性。这不仅提供了一种全面的形态学分析,而且能够以无偏的方式发现那些不易察觉或尚未被认识的表型变化。通过这种方式,形态学分析为药物发现提供了一种更为深入和全面图1:早期药物发现方法作为人工智能(AI)领域的核心技术,深度学习通过深度神经网络以数据驱动的方式,从原始数据中自动提取特征,这一过程通常无需进行传统的特征工程(见图2)。在药物发现领域,深度学习技术已被广泛应用于多个关键环节,包括表型药物发现(PDD)中的生物图像分析,这些应用极大地推动了新药研发的效率和创新性。近年来,计算机视觉技术的飞速发展,不仅在效率上带来了显著提升,更在性能上实现了质的飞跃,这在基于图像的分析领域尤为明显。计算机视觉的进步,为药物发现领域带来了成本效益更高的计算方法,加速了药物研发的进程。在本综述中,我们将全面梳理并介绍当前用于形态学分析的计算方法,特别强调深度学习技术在其中的关键作用和应用潜力。图2:形态学分析流程示意CellPainting(细胞全景绘制)公开数据集及模型评价指标CellPainting,亦称为细胞全景绘制,是一种广泛应用于细胞形态学分析的技术。它通过六种荧光染料对细胞器进行标记,并在高通量显微镜下,通过五个不同的通道对固定和染色的细胞进行成像。在过去十年中,学术界和制药行业的研究者们已经创建并公开了多个CellPainting数据集,包括:),),·Recursion公司发布的RxRx数据集,包含了化合物、遗传和病毒转导扰动的数据;·CytoImageNet数据集,它整合了来自40个公开可用的、具有弱标签的显微图像。特别值得一提的是,形态学分析CellPainting(JUMP-CP)联盟最近建立了迄今为止最大的公共CellPainting数据集。该数据集包含了来自超过116,000个化学扰动和超过15,000个遗传扰动的人类骨肉瘤细胞(U2OS)的图像,这些图像资料来自12个不同的研究机构。这些公共数据集已经成为训练机器学习和深度学习模型的重要资源,用于化合物生物活性和作用机制的预测和图像表征学习。在这些数据集中,BBBC021数据集已成为评估深度学习方法性能的常用基准。这一公开数据集可从BroadBioimageBenchmarkCollection获取,包含了113种化合物在八种不同浓度下处理的人MCF-7乳腺癌细胞的CellPainting图像。大多数表征学习方法是在38种化合物的数据集上进行比较的,这些化合物已被人工标注为12种作用机制(MOAs)之一。当评估不同MOA预测方法的有效性时,常使用以下评估指标:·NSC(Not-Same-Compound匹配精度在NSC设置下,测试化合物在训练阶段被排除。模型的任务是预测测试化合物的MOA类别。在预测阶段,通常使用1-最近邻(1-NN)分类器处理生成的测试化合物表征,测试化合物的MOA取决于其在训练化合物特征空间中的最近邻居。此指标用于评估模型在MOA未知的情况下,预测新化合物类别的能力。·NSCB(Not-Same-Compound-and-Batch匹配精度):NSCB比NSC更为严格,除了NSC的限制外,同一实验批次的特征在训练中也被排除。此指标用于评估模型在不同实验条件和批次设置下的泛化能力,反映批处理效应和其他混杂因素的影响。·Drop:Drop是通过从NSC中减去NSCB来计算的。理想情况下,不应观察到性能下降。Drop值越图3:形态学分析中的关键方法和最新技术形态学分析过程概述精确、高效且通用的成像数据分析流程对于形态学分析至关重要。在过去几年中,深度学习方法的应用取得了显著进展(见图3)。在本节中,我们概述了形态学分析数据分析的几个关键阶段,并特别强调阶段1:特征表征细胞形态变化的测量始于为细胞图像创建有效的特征表征。传统上,这一任务通过特征工程技术来实现,如CellProfiler等软件,它们能够从荧光显微镜图像中提取如形状、大小和纹理等预定义特征。尽管这些方法能够提供有生物学意义的结果,但它们需要针对每次新的实验设置进行图像预处理和参数调阶段2:形态学特征生成特征提取后,单细胞或视野图像的测量值将被整合成一个特征向量,形成细胞板孔级的特征表征,这些阶段3:作用机制(MOA)标注利用汇总的孔级形态学特征,可以执行机器学习任务,如基于已知形态学特征的参考库预测查询扰动剂的MOA或毒性。这通常涉及在形态学特征基础上构建机器学习模型,例如使用最近邻分类器、随机森林或贝叶斯矩阵分解等算法。这些监督学习算法能够将查询扰动剂分类到预定义的、有标注的类别中。此外,形态学特征也可用于推断化合物功能的关联性,通常通过层次聚类算法实现,基于形态学特征相深度学习技术的发展,为形态学分析带来了端到端的解决方案,将上述阶段整合到一个连贯的过程中。在这个框架下,表型分类和聚类任务可以直接利用原始的高内涵图像,无需显式的图像特征表征和中间步骤,从而简化了整个分析流程(图3)。表征学习用于形态学分析特征表征在形态学分析中扮演着至关重要的角色。传统上,形态学特征的提取依赖于特征工程方法,这不仅需要针对每个实验设置手动调整软件参数,还必须依赖于专家知识来确定哪些表型特征是关键的。显然,这种方法受限于人为的主观判断和专业知识的局限。与此相对,深度神经网络提供了一种更为客观和自动化的解决方案。它们能够直接从图像的原始像素中学习特征,从而编码出更为丰富和有意义的数据表征。这种端到端的训练方式,不仅简化了分析流程,而且通过减少人为干预,提高了模型的性能。更进一步,深度神经网络在处理不同类型的扰动(如化学和遗传扰动)时,展现出了卓越的泛化能力。这意味着,即使是在面对新的或未知的扰动类型时,这些网络也能够快速适应并提供准确的预测。此外,在分类任务中,深度学习模型的处理速度也显著优于传统的基于特征工程的模型,这为高通量药物筛选和表型分析提供了强有力的支持。在预训练阶段,我们能够运用多种学习策略来优化深度学习模型的表现(如图4所示):1.监督表征学习:当拥有大量标注数据时,监督表征学习例如,Kraus等人利用BBBC021数据集上的标注图像,训练了结合多示例学习的卷积神经网络,在分类任务中取得了比传统特征工程方法更高的准确性。同样,Godinez等人开发的基于多尺度卷积神经网络的分类器,在BBBC数据集的基准测试中,也2.迁移学习:尽管如此,获取充足的标注图像数据可能成本高昂且耗时。在这种情况下,迁移学习提供了一种有效的解决方案。Pawlowski等人首次提出利用在ImageNet上预训练的CNN进行形态学分析,这种方法在准确性和处理速度上都优于基于特征工程的方法。Ando等人提出的DeepMetricNetwork,也是在大量RGB图像上预训练的模型,用于为BBBC0213.弱监督表征学习:除了迁移学习,弱监督学习(WSL)方法也被提出来训练深度神经网络学习在这种学习方案中,化合物类别标签被视为“弱”或“噪声”标签,因为:为了利用这些弱标签,此类方法将单个细胞图像分类到相应的类别标签成为用来训练网络的辅助从辅助任务中学习到的特征嵌入随后用于推断化合物之间的类别关联。4.无监督表征学习:最后,无监督学习方法通过识别数据中的潜在模式或将相似数据聚类,提供了例如,该类方法可以利用未标注信息,如图像是否属于同一扰动,或通过聚类在嵌入上分配的伪此外,生成模型如GAN或VAE,通过学习数据的分布来学习其内在结构。图4:细胞形态学分析的特征表征学习策略这些策略均在BBBC021数据集上的基准测试中得到了验证,其中Cross-Zamirski等人提出的WS-DINO方法表现最佳。Ando等人的迁移学习方法和Perakis等人的自监督对比学习方法也展现了出色的性能。为了确保深度学习方法在形态学特征分析中取得良好性能,需要综合考虑图像数据集的特性、模型的复杂性以及可用的计算资源。增加训练集的规模和多样性,例如通过整合不同实验室的图像集,可以更有效地提高性能。此外,适当的图像增强技术,如随机亮度变化和强度偏移,对SSL方法的性能有显著的正面影响。在计算资源方面,使用GPU加速的DINO方法在处理速度上具有优势,且尽管需要GPU支持,但其单细胞板的平均分析成本却相对较低。细胞形态学与跨模态数据融合随着生物技术的发展,药物发现领域迎来了多样化的数据模态。化学信息学利用化学结构数据和相似性原则,为预测化合物的生物活性和作用机制提供了有效工具。尽管化学结构与生物功能间的关系复杂,但化学数据的易获取性为虚拟筛选奠定了基础。与此同时,“组学”数据,如转录组学和代谢组学,从多角度揭示了药物作用的复杂性,尽管其检测成本和可扩展性仍是挑战。每种数据模态都有其优势和局限,而整合这些模态能够发挥协同效应,提供更全面的药效理解。最新研究显示,化学结构、形态学和基因表达等数据模态在预测药效方面互为补充。结合机器学习和深度学习技术,整合这些形态数据已成为药物发现领域的一个新兴研究方向(图5)。图5:整合细胞形态学与其他数据模态整合化学结构与细胞形态学研究表明,将结构模型与细胞形态学模型相结合,能够显著提高生物检测结果的预测准确性。Seal等人提出了一种基于相似性的合并模型,该模型融合了在CellPainting图像和化学结构上独立训练的模型的预测概率,同时考虑了测试化合物与训练化合物在形态和结构上的相似性。具体来说,这些独立模型的预测结果和相似性度量被综合应用于逻辑回归模型,用以预测测试化合物的生物活性。研究结果表明,这种基于相似性的融合模型在性能上超越了传统的软投票集成方法、分层模型,以及任何仅基于单一模整合转录组学与细胞形态学除了化学结构数据,将转录组学数据与细胞形态学数据的整合也是一种有效的跨模态组合策略。L1000检测是一种常用的获取基因表达谱的方法。CellPainting和L1000检测都具备良好的可扩展性,并能提供互补的信息。尽管CellPainting的形态学特征在可重复性上表现更佳,但可能受到批次和孔位效应的影响;而L1000检测则能够捕捉到更多样化的生物学特征。研究显示,基于转录组和形态学的模型在MOA预测方面,能够展现出与基于化学结构的模型相媲美甚至更优的性能。这些发现为将转录组学和形态学特征融合用于药物发现提供了实验证明和支持。整合代谢组学与细胞形态学尽管整合形态学和转录组学(L1000)特征在MOA预测中显示出优势,但这一正交平台在实际应用中仍面临挑战。这些挑战包括在识别具有广泛细胞效应的生物活性化合物时分辨率有限,以及在研究那些未引起显著形态学变化的生物活性化合物时灵敏度不足。为了克服这些局限性,研究人员探索了基于代谢组学的方法,将形态学特征与之结合,以揭示细胞在不同条件下的代谢变化。代谢组学分析能够提供关于细胞状态的全面信息,并定义细胞在扰动下的表型。例如,非靶向质谱(Massspectrometry)的代谢组学可以与形态学分析整合,以促进在高通量环境中快速识别和功能注释天然产物。综上所述,将深度学习方法应用于整合形态学数据与其他模态数据,如化学结构、转录组学和代谢组学,在药物发现中的重要性日益凸显。对比学习和数据融合技术的发展,为对齐多模态数据提供了新的工具。随着多模态数据集的不断整理和完善,这一新兴领域的发展将得到进一步推动。形态学分析在药物发现中的创新应用机器学习和深度学习技术在形态学分析中的应用,极大地丰富了表型药物发现,包括识别小分子的作用机制(MOA)、优化先导化合物到预测毒理学效果等。在本文中,我们将重点讨论一些新兴应用的最构建基因型-表型关系和基因功能网络将基因型与疾病相关的表型联系起来,是基因组学中的核心问题。CRISPR筛选技术已被用于在基因组规模上提示基因功能。然而,由于传统筛选方法的维度较低,它们在揭示疾病相关表型方面存在局限性。为了克服这一障碍,基于图像的分析方法为CRISPR筛选提供了高内涵的形态学标注,这不仅增加了数据的维度,还提高了对疾病相关表型的理解。例如,Ramezani等人开发的PERISCOPE方法,通过结合光学聚合CRISPR筛选和基于图像的分析,成功构建了基因功能网络。Sivanandan等人提出的CellPaint-POSH技术,进一步展示了深度学习模型在构建基因功能网络方面的潜力。表征动态扰动影响形态学分析的另一个新兴领域是活细胞表型分析,这可以通过时间序列成像来实现。这种方法增加了时间维度,从而提高了对化学物作用机制的预测能力。例如,通过活细胞成像分析FDA批准的药物库,可以准确推断出多种MOA。此外,活细胞成像还能揭示细胞状态转换的动态过程,这对于发育生物学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年心理健康教育专业硕士入学考试试题
- 2025年物流管理专业考研试卷及答案
- 2025年项目管理与成本控制基础考试试卷及答案
- 2025年图像处理与视觉艺术考试试卷及答案
- 2025年美术教育专业相关考试试题及答案
- 2025年农林经济管理专业考试试题及答案
- 2025年建筑施工安全管理知识测试题及答案
- 2025年机械制造及其自动化专业毕业设计答辩题及答案
- 2025年创业管理与实务综合能力测试卷及答案
- 2025年甘肃省平凉华亭市策底镇招聘专业化管理的村文书笔试备考试题及完整答案详解1套
- 人工肝治疗指南课件
- 2021年新教材人教A版高中数学必修第一册第五章三角函数 教学课件
- 掘进机整机出厂检验报告
- 最新版中小学校服选用自查整改报告
- 旅行社的导游管理制度
- DB4201∕T 645-2021 房地产经纪服务规范
- 拨叉综合课程设计
- 压铸件QC工程图
- 常用标准波导和法兰尺寸
- pH 值对柠檬酸缓凝效果影响的研究
- 705型试验台技术条件及说明书
评论
0/150
提交评论