三代测序第八讲基因组组装和注释案例_第1页
三代测序第八讲基因组组装和注释案例_第2页
三代测序第八讲基因组组装和注释案例_第3页
三代测序第八讲基因组组装和注释案例_第4页
三代测序第八讲基因组组装和注释案例_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PacBio三代组装原理组装完整度和准确度评估PacBio三代组装案例组注释流程组注释案例内容提要目前纯三代组装

,主要包括:Falcon,Canu纯三代组装采用OLC算法(overlap-layout-consensus)以Falcon为例:三代组装根据length_cutoff设定的阈值,将大于该阈值的reads作为long

reads,利用short

reads对long

reads进行校正;Falcon组装原理检验组装的准确度:(1)构建BAC或Fosmid文库,将BAC序列与所拼接出来的contig/scaffold比对来查看

组组装的准确率。(2)将已知的话,说明/CDS序列与拼接出来的scaffolds做比对,如果比对效果好的组组装较好。(3)将二代reads比对到组装

组上,通过比对率和

片段大小分布,间接评估组装准确度组装完整度和准确度评估集,评估组装完整度;组中

的比例,评估检验组装的完整度:利用CEGMA,BUSCO保守CEGMA利用248

CEGs,通过组组装完整度组装完整度和准确度评估组装流程:分别采用Falcon,Canu进行组装;将两种方法组装结果进行整合;对整合后的

组,利用三代subreads进行纠错利用二代reads,再进行纠错某水生动物三代组装案例组装输入文件:input.fofn:三代数据路径e.g.

/HOME/fsgen_1/WORKSPACE/project/file2.fastafc_run_slurm.cfg某水生动物三代组装案例CANU组装某水生动物三代组装案例某水生动物三代组装案例对 和CANU组装结果进行整合利用Arrow和Pillon对组进行纠错某水生动物三代组装案例AssemblycontigScaffoldTotal

number2,2431,035Genome

size

(bp)559,446,068560,771,695Longest

length(bp)10,612,29013,243,080Total

Ns(bp)01,325,526N50(bp)1,802,3572,922,517CEGMA评估组装结果Cegma

–ggenome.fasta–p

24重复序列注释编码

注释非编码RNA注释组注释重复序列根据序列特征分为2类:串联重复(Tandem

repeats)和散布重复(Dispersed

repeats)Tandem

repeats:简单重复序列,

序列Dispersed

repeats:转座子序列(TEs),又分为:DNA

transposons:由DNA介导来转座RNA

transposons:由RNA介导转座(LTR,LINE,

SINE)重复序列注释串联重复分类•:TRF串联重复注释De

novo

prediction组,利用

组自我比对,寻找序列中内在的重复常用 :

RepeatScout、

RECON、PILER目前RepeatModeler集成RepeatScout、RECON,对于>500M采用RepeatModelerHomology-based利用已知的重复序列数据库(Repbase、RepeatPeps),通过比对

Tes常用

:RepeatMasker、RepeatProteinMaskStructure-based基于signature方法,主要用于鉴定特定信号的TEs,

如LTR常用

:LTR_FINDER转座子注释重复序列注释流程:利用De

novo

prediction+Homology-based

prediction:重复序列注释TEs

typeDenov+RepbaseRepeatProteinMaskMerged

TEsLength

(bp)%

of

Genome(%)Length

(bp)%

of

Genome(%)Length

(bp)%

of

Genome(%)LTR131439996.08159603787.39169293787.84LINE008827440.47398970.34SINE000000DNA0038324011.7729948541.38Total131439996.08206755239.57206600679.56TypeRepeat

Length

(bp)%

of

genome

(%)RepeatModeler+RepeatMasker139840396.47RepeatProteinMask2631517112.18Total2646085112.25Repeats统计结果TEs分类统计结果编码

注释常用流程Ab

initio根据

组自身序列特征,常用

:Augustus、SNAP、GlimmerHMM、GeneMark基于同源序列(RNA-seq、ETS)genBlastExonerateGenewise支持的PASATrinityTophat/cufflinksblat编码

注释编码

注释一键化

:Eukaryo_Gene_annotation_v4.pl输入文件:input.cfg编码

注释生成编码

注释更新后的注释结果rRNA:rnammertRNA:tRNAscan-SE其他小RNA:cmscan,利用rfam数据库非编码RNA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论