基因变异鉴定的深度学习方法与研究展望_第1页
基因变异鉴定的深度学习方法与研究展望_第2页
基因变异鉴定的深度学习方法与研究展望_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基因变异鉴定的深度学习方法与研究展望摘要:近年来,深度学习的火热使得传统的基因变异鉴定领域发生了巨大的变化。研究人员将深度学习方法与传统基因变 异鉴定方法相结合,试图寻找基因变异鉴定的新方向。本文首先介绍目前两类不同的深度学习用于基因变异鉴定的 方法,对其进行总结,着重分析两种方法的特点并进行对比。最后对未来深度学习方法的基因变异鉴定的研究方向 进行展望。关键词:基因变异鉴定;深度学习;SNP检测;研究展望0引言作为一种重要的生物实验技术手段,DNA测序 (DNA sequencing)在生物学研究中有着广泛的应用,伴 随着第二代测序技术的日趋完善,许多物种已经完成 了全基因组的从头测序。并且

2、近年来,单分子测序 (SMS)技术已经出现了各种重要的应用。这些技术也 被称为第三代测序技术,产生的测序读数比Illumina 的读数长2到3个数量级(10- 100kbp对100- 250bp)。较长的读数长度使得包括Pacific Biosciences (PacBio)和 Oxford Nanopore Technology(ONT)在内的 新的SMS技术在解决复杂的基因组组装问题和检测大 型结构变异方面具有前所未有的强大功能。常用的群体遗传变异鉴定工具有DNSTAR、 GATK、samtools、freebayes、SOAPsnp、V arscan2、sambam- ba等软件。其中最

3、常用的为GATK、samtools、sambam- ba和freebayes o这四个工具中,sambamba软件在单样 本数据以及多样本数据中,在速度方面均具备显著优 势。而gatk软件只在多样本数据分析上有一定的检测 速度优势。而在变异鉴定结果准确性方面,samtools和 sambamba软件倾向于寻找比较全面的变异,而gatk和 freebayes软件则更倾向于寻找准确性较高的变异0现在在基因组数据中有两个比较具体的挑战:新 型测序技术产生基因数据的高特异性和高灵敏度的 SNPs鉴定及indels鉴定。这两项任务对研究罕见变 异、等位基因特异性转录和翻译以及剪接位点突变至 关重要。目前

4、的方法对于Illumina短read数据中的 SNPs和indel的精度均在99%以上,然而这些方法会 留下大量潜在的假阳性和假阴性。这些方法都依靠专 家建立可靠的将信号与噪声分开的概率模型,这个过 程是很耗时的,从本质上讲是受限于我们对于导致噪 声的因素的理解与建模能力。所以在传统基因鉴定工具愈发成熟的加持下,研 究人员将目光投向了近些年大展身手的深度学习之 上,利用深度学习来构造由数据驱动的无偏噪声模型。1核心思想深度学习是一种机器学习技术,深度学习受到了 越来越多研究者的关注,它在特征提取和建模上都有 着相较于浅层模型显然的优势。深度学习善于从原始 输入数据中挖掘越来越抽象的特征表示,而

5、这些表示 具有良好的泛化能力。它克服了过去人工智能中被认 为难以解决的一些问题。且随着训练数据集数量的显 著增长以及芯片处理能力的剧增|2lo它应用于多种领 域,包括图像分类、翻译、游戏和生命科学。深层神经网络是目前的主要形式,其神经元间的 连接模式受启发于动物视觉皮层组织,而卷积神经网 络则是其中一种经典而广泛应用的结构卷积神经网络 的局部连接、权值共享及池化操作等特性使之可以有 效地降低网络的复杂度,减少训练参数的数目,使模型 对平移、扭曲、缩放具有一定程度的不变性,并具有强 鲁棒性和容错能力,且也易于训练和优化。基于这些 优越的特性,它在各种信号和信息处理任务中的性能 优于标准的全连接神

6、经网络。采用深度学习的算法来处理基因数据并用于基因 变异鉴定的核心思想是:基因变异鉴定问题也可以转 换为分类问题,对于一个变异候选位点来说,其variant call就是在对这个数据进行分类;因此从基因数据中训 练出概率模型,再用概率模型去判断后续数据。本文中介绍这一核心思想下的两种深度学习使用 方法,第一种将格式为bam的变异基因数据和格式为 fa文件的参考序列转换为堆积张量,将堆积张量用于 神经网络的训练和测试。第二种采用工具寻找基因数 据中的特征,并将这些特征矢量化为适合训练网络的 特征,再用于概率模型的训练。2 DeepVariant2016年12月Google旗下的子公司Verily

7、发了一- 篇文章描述了一个针对全基因组测序变异位点(SNP 和small indel)检测的新算法,这个算法不同于一般基 于统计方法的软件,而是利用了卷积神经网络识别变 异位点3。DeepVariant利用谷歌大脑为图像分类而训 练的神经网络架构Inception v2,将候选SNP周围的 reads编码为221x100位图图像,其中每列是一个核苷 酸,每行是一个从样本库中读取的reads序列。前五行 代表参考序列,后95行代表随机抽样覆盖了这个变异 候选位点的reads序列。每个RGBA类型的图像像素 将碱基A、C、G、T编码为不同的红色值,质量分数编码 为绿色值,正负链信息编码为蓝色值,与

8、参考序列的变 异编码为alpha值。堆积图选取的编码信息如下:(1)base:序列碱基(2)base quality:碱基质量分数(3)mapping quality:序列比对质量(4)strand正反向链(5)supports variant:是否支持 alternative allele(6)supports reference:是否支持 reference allele 带有明确变异位点标签的编码堆积图放入13层网络中进行训练,此网络采用Inception v2网络架构。 训练好网络之后,将没有标签的变异候选位点堆积图 放入网络中,即可进行变异鉴定。神经网络输出的结果为每个变异候选位点的

9、基因 型概率。图1 DeepVariant整体过程3 Matcha同样是使用深度学习来处理基因变异鉴定,Remi Torracinta141 的方法与 DeepVariant 却不一样。Remi Tor- racinta设计的方法采用Goby框架来找到reads比对序 列和参考序列的特征,并且将这些特征矢量化为适合 训练前馈神经网络的特征和标签。Matcha的神经网络中最核心的是特征映射器,特 征映射器将样本中的对齐序列转换为一组适合训练神 经网络的固定特征集。不论在基因组上有多少对齐的 reads序列,映射器都会产生一个固定长度的输出,这 些输出可以一致性的转换为一个固定长度的用于神经 网络

10、训练的输入向量。再每个基因组位点,映射器都 会生成每种基因型的reads序列的读数和reads序列中 支持这个基因型的不同位置的数量。每一个基因组位 点会衍生出数百个特征。对于标签映射器来说,有两种不同的方法,一种是 单独调用等位基因,并对等位基因的数量进行编码,另 一种类似于DeepVariant o这两种方法分别适用于任意 倍体基因组和二倍体基因组。模型采用DeepLearning4框架,并于Goby框架进 行集成,网络结构为五层网络。将对齐后的基因文件 输入特征和标签映射器,选择特征映射器,会在训练集 上产生用映射器训练的模型,这个模型可以用于在测 试集上的基因变异鉴定。4对比分析通过现

11、在出现的两种不同的用深度学习方法来进 行基因变异鉴定方法的介绍,笔者对他们在变异鉴定 效果和范围上的优缺点做出如表1对比分析。表1两种深度学习应用方法的比较对比类型DeepVar i antMatcha用于网络训练数据类型堆积图特征训练数据来源IlluminaIllumina适用类型二倍体任意倍体数据预处理流程较多少量预处理Illumina上准确率0. 9960. 924Illumina 的 recall0. 9930. 997Illumina 的 Fl0. 9950. 950变异鉴定类型SNPs、 INDELSNPs注:F1表示准确率和recal 1的调和平方值5深度学习下基因变异鉴定方法分

12、析研究两种方式使用了不同的思路来使用深度学习对基 因数据进行变异鉴定。两者既有相似之处也有不同之 处。两个方法最核心的思想是一样的:从数据中训练 概率模型,并用这个概率模型进行后续判断。不同之 处在于:DeepVariant是将基因数据经过编码转换为堆 积图,再将堆积图用图像分类网络进行训练和鉴定; Matcha是利用Goby框架从数据中寻找特征,然后手动 将特征放入网络。DeepVariant只适用于二倍体生物,而Matcha可以 用于任意倍体生物的基因变异鉴定;DeepVariant能够 寻找变异类型中的SNPs和INDEL,而Matcha专门用 于寻找SNPs。同时计算效率上两者也有较大

13、差异。将数据转换 为堆积图,DeepVariant至少需要使用300万像素,而 Matcha使用了 642个浮点表示特征与标签,所以Matcha 的数量级较小,对硬件的要求也比较低。6结语随着深度学习的火热,基因数据研究者也将自己 的目光放在了深度学习之上。本文对两种不同类型的 采用深度学习进行基因变异鉴定的方法进行了介绍与 对比,深度学习算法有时是比GTAK等工具性能更好 的。结合发展趋势与需求,未来研究工作地重点可能 主要包括:(1)Matcha类似的需要手动寻找特征的方法,虽然 有着更广阔的应用范围,但由于这个特征集在开发期 间至少要经过15次的迭代微调,所以这个模型并不会 泛化。是否有更好地寻找特征集的方法,能够减少微 调过程及次数,使这个模型能够泛化。(2)DeepVariant对Illumina数据的效果较好,但对 于PacBio等reads序列较长的数据来说,DeepVariant 不是最佳选择。下一步研究工作,可以着重考虑修改 网络,使其能够对第三代基因数据和PacBio等基因数 据有较好的效果。(3)DeepVariant所使用网

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论