转录组分析流程salmon瑞客_第1页
转录组分析流程salmon瑞客_第2页
转录组分析流程salmon瑞客_第3页
转录组分析流程salmon瑞客_第4页
转录组分析流程salmon瑞客_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(d)不基于比对,

&易om生信e,b毕io生lo缘g;y.培b训io版m权e所d有c xx

(.fastq

(.fafile)

(.gtffile)(可选)

A FASTQxx

CDNA (.fa (.gtf (.fastq

FASTQqualityscores=ASCIIqualityscore-either33or Illumina e=estimatedprobabilityofthebasecallbeingwrongQ40:1errorin10,000basecalls;Q30:1errorin1,000;Q28:1.6errorin1000;Q25:3errorin1000;Q20:1errorin信,毕生缘;培训 FASTQ CDNA (.fa (.gtf xx 信,毕生缘;培训 公共数据从NCBISRA使用NCBI提供的SRA-toolkit中的工具fastq-dump直接SRR文件,并转换双端就自动拆分,如果是单端不受的数据集一般比较大,放入 (nohupcmd&)。nohupfastq-dump-v--split-3--nohup&fastq-dump-v--split-3--& 77 fastqc x-axis:Positionin y-axis:Quality信,毕生缘;培训 (箱线图通过最大值、上四分位示质量得分。将所有reads的第一位碱基质量得分进行箱线 信,毕生缘;培训 信,毕生缘;培训 每个readGC含量的分布图。横坐标表示平均GC含量,纵坐标表示reads数。左图显示每个read的GC分布(红线)与理论分布(蓝线)相契合,GC含量均一。右图出现了GC含量双峰,表示样品可能存在特定的序列污染如混入了引物二聚体,当这一信,毕生缘;培训 ../FastQC/Configuration/adapter_list.txtFastQC工具会与这两个文件里的序列进行比信,毕生缘;培训 信,毕生缘;培训 直方图展示有 量异常高或低的样本 横轴是GC含量的判断,纵轴是碱基横轴表 reads数,纵轴表示给定 数区间内样本数目,即给 深度有多 样本 reads数低于20M的样品没有, 高于40M

信,毕生缘;培训 接头和低质量readsmCommondjava-jartrimmomatic-0.30.jarPE--phred33input_forward.fqinput_reverse.fqoutput_forward_paired.fqoutput_forward_unpaired.fqoutput_reverse_paired.fqoutput_reverse_unpaired.fqILLUMINACLIP:adaptor-PE.fa:2:30:10LEADING:20TRAILING:20MINLEN:36TwoinputfilesandfouroutputRemoveadapters:( um2mismatchesinthe'seed'(16bases)oftheadaptor;palindromeclipthreshold30;simpleclipthreshold10)Removeleadinglowqualitybases(belowquality20);Removetrailinglowqualitybases(belowquality20);Dropreadsbelowthe36base易s生信lo,n毕 (2x(2x150(.fastq

(.fafile)

(.gtf 信,毕生缘;培训 Ensembl(信,毕生缘;培训E。nsemblcDNA指编 的 RNA- GTF(GeneTransferFormat, RNA- CDNA(.faCDNA(.fa(2x150(.fastq 易s生c信.,e毕d生u缘/F;A培Q训版/F权A所Q有 m1-seqname-nameofthechromosomeorscaffold;chromosomenamescanbegivenwithorwithoutthe'chr'prefix.Importantnote:theseqnamemustbeoneusedwithinEnsembl,i.e.astandardchromosomenameoranEnsemblidentifiersuchasascaffoldID,withoutanyadditionalcontentsuchasspeciesorassembly.SeetheexampleGFFoutputbelow.m2-source-nameoftheprogramthatgeneratedthisfeature,orthedatasource(databaseorprojectname)m3-feature-featuretypename,e.g.Gene,Variation, 4-start-Startpositionofthefeature,withsequencenumberingstartingat1. 5-end-Endpositionofthefeature,withsequencenumberingstartingat1. 6-score-Afloatingpointvalue. 7-strand-definedas+(forward)or- 8-frame-Oneof'0','1'or'2'.'0'indicatesthatthefirstbaseofthefeatureisthefirstbaseofacodon,'1'thatthesecondbaseisthefirstbaseofacodon,andsoon.. 9-attribute-Asemicolon-separatedlistoftag-valuepairs,providingadditional6612信,毕生缘;培训 bed–至少3列,另外9列可选,0-start信,毕生缘;培训 信,毕生缘;培训

- (.gtffile)(.gtffile)(.fafile)(.fastqx RNA- A transcripts_index--typequasi-k <LIBTYPE>-1reads1.fq-2reads2.fqo2 定量时考虑到不同样品 长度的改变(比如不同 g易n生e信t,te毕s生/缘D;E培训S版e权q所2有/。 (.fafile)(.fastqx(.fafile)(.fastqx RNA- (.gtf 信,毕生缘;培训 (.fafile)(.fafile)(.fas

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论