版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PacBio三代组装原理组装完整度和准确度评估PacBio三代组装案例组注释流程组注释案例内容提要目前纯三代组装
,主要包括:Falcon,Canu纯三代组装采用OLC算法(overlap-layout-consensus)以Falcon为例:三代组装根据length_cutoff设定的阈值,将大于该阈值的reads作为long
reads,利用short
reads对long
reads进行校正;Falcon组装原理检验组装的准确度:(1)构建BAC或Fosmid文库,将BAC序列与所拼接出来的contig/scaffold比对来查看
组组装的准确率。(2)将已知的话,说明/CDS序列与拼接出来的scaffolds做比对,如果比对效果好的组组装较好。(3)将二代reads比对到组装
组上,通过比对率和
片段大小分布,间接评估组装准确度组装完整度和准确度评估集,评估组装完整度;组中
的比例,评估检验组装的完整度:利用CEGMA,BUSCO保守CEGMA利用248
CEGs,通过组组装完整度组装完整度和准确度评估组装流程:分别采用Falcon,Canu进行组装;将两种方法组装结果进行整合;对整合后的
组,利用三代subreads进行纠错利用二代reads,再进行纠错某水生动物三代组装案例组装输入文件:input.fofn:三代数据路径e.g.
/HOME/fsgen_1/WORKSPACE/project/file2.fastafc_run_slurm.cfg某水生动物三代组装案例CANU组装某水生动物三代组装案例某水生动物三代组装案例对 和CANU组装结果进行整合利用Arrow和Pillon对组进行纠错某水生动物三代组装案例AssemblycontigScaffoldTotal
number2,2431,035Genome
size
(bp)559,446,068560,771,695Longest
length(bp)10,612,29013,243,080Total
Ns(bp)01,325,526N50(bp)1,802,3572,922,517CEGMA评估组装结果Cegma
–ggenome.fasta–p
24重复序列注释编码
注释非编码RNA注释组注释重复序列根据序列特征分为2类:串联重复(Tandem
repeats)和散布重复(Dispersed
repeats)Tandem
repeats:简单重复序列,
序列Dispersed
repeats:转座子序列(TEs),又分为:DNA
transposons:由DNA介导来转座RNA
transposons:由RNA介导转座(LTR,LINE,
SINE)重复序列注释串联重复分类•:TRF串联重复注释De
novo
prediction组,利用
组自我比对,寻找序列中内在的重复常用 :
RepeatScout、
RECON、PILER目前RepeatModeler集成RepeatScout、RECON,对于>500M采用RepeatModelerHomology-based利用已知的重复序列数据库(Repbase、RepeatPeps),通过比对
Tes常用
:RepeatMasker、RepeatProteinMaskStructure-based基于signature方法,主要用于鉴定特定信号的TEs,
如LTR常用
:LTR_FINDER转座子注释重复序列注释流程:利用De
novo
prediction+Homology-based
prediction:重复序列注释TEs
typeDenov+RepbaseRepeatProteinMaskMerged
TEsLength
(bp)%
of
Genome(%)Length
(bp)%
of
Genome(%)Length
(bp)%
of
Genome(%)LTR131439996.08159603787.39169293787.84LINE008827440.47398970.34SINE000000DNA0038324011.7729948541.38Total131439996.08206755239.57206600679.56TypeRepeat
Length
(bp)%
of
genome
(%)RepeatModeler+RepeatMasker139840396.47RepeatProteinMask2631517112.18Total2646085112.25Repeats统计结果TEs分类统计结果编码
注释常用流程Ab
initio根据
组自身序列特征,常用
:Augustus、SNAP、GlimmerHMM、GeneMark基于同源序列(RNA-seq、ETS)genBlastExonerateGenewise支持的PASATrinityTophat/cufflinksblat编码
注释编码
注释一键化
:Eukaryo_Gene_annotation_v4.pl输入文件:input.cfg编码
注释生成编码
注释更新后的注释结果rRNA:rnammertRNA:tRNAscan-SE其他小RNA:cmscan,利用rfam数据库非编码RNA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国逆变直流手工弧焊/氩焊双用机数据监测研究报告
- 2025至2030年中国单人型光波浴房数据监测研究报告
- 基于FLAIR血管高信号征的临床模型对急性缺血性脑卒中预后的评估价值
- 二零二五年度爬架租赁业务战略合作框架合同4篇
- 二零二四年度新媒体主播网络直播内容版权合作合同3篇
- 2025年度美国新移民必知的移民政策解析与法律服务合同3篇
- 2025年度科技项目出差补贴与保障服务合同3篇
- 2025年度个人佣金提成及奖励合同3篇
- 二零二五版南汇农业志版权授权合同4篇
- 二零二五年度物业小区门卫安全防护服务合同4篇
- GB/T 45107-2024表土剥离及其再利用技术要求
- 2024-2025学年八年级上学期1月期末物理试题(含答案)
- 商场电气设备维护劳务合同
- 《妊娠期恶心呕吐及妊娠剧吐管理指南(2024年)》解读
- 2023年国家公务员录用考试《行测》真题(行政执法)及答案解析
- 全国教学设计大赛一等奖英语七年级上册(人教2024年新编)《Unit 2 Were Family!》单元教学设计
- 2024智慧医疗数据字典标准值域代码
- 年产12万吨装配式智能钢结构项目可行性研究报告模板-立项备案
- 【独家揭秘】2024年企业微信年费全解析:9大行业收费标准一览
- 医疗器械经销商会议
- 《±1100kV特高压直流换流变压器使用技术条件》
评论
0/150
提交评论