2017年转录组入门合辑_第1页
2017年转录组入门合辑_第2页
2017年转录组入门合辑_第3页
2017年转录组入门合辑_第4页
2017年转录组入门合辑_第5页
免费预览已结束,剩余57页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【PPT】文献报告-AsurveyofbestpracticesforRNA-seq 讲解............................................................................................................................................... 内 转录组相关的安 讲解.............................................................................................................................................准 其他安装笔 读文章拿到数 讲解.............................................................................................................................................文 数据.............................................................................................................................................其他学习笔 了解fastq数 讲解.............................................................................................................................................sra文件转换为fastq格 数据校验及备份存 质控 了解参考组及注 讲解.............................................................................................................................................任务列 在UCSChg19参考 从gencode数据库注释文件,并且用IGV去查看感的的结 截图几个的IGV可视化结 ENSEMBL,NCBI的gtf 序列比 任务列 比对.............................................................................................................................................hisat2的用 index文件 比对、排序、索 质量控 载入IGV,截图几个.................................................................................................................reads计 任 代码记 参考资 个人笔记平 博 .........................................................................................................................................【PPT】文献报告-AsurveyofbestpracticesforRNA-seqdataAsurveyofbestpracticesforRNA-seqdataysis我把它叫做RNA-seq数据分析指南。这篇文章是由佛罗里达大学等单位的研究在1月26日在GenomeBiology上的,该期刊的影响因子有10.8分。这是这篇文章的通讯作者,应该挺靠谱的。新一代技术在式发展的同时,也衍生出许多其他技术创新。RNA-Seq就是其中之seq可以获得相当惊人的数据量,而这恰恰是一柄双刃剑。丰富的数据量蕴含着大量的宝贵正因如此,数据分析可以说是RNA-seq的重中之重。RNA-seq有非常广泛的应用,但没有分析策略。现在人们已经了大量的RNA-seq和数据分析方案,对于刚入门的新手来说难免有些无所适从。这篇文章概述了RNA-seq生物信息学分析的准和现有资源,为人们提供了一份RNA-seq数据分析指南,可以作为开展RNA-seq研究的宝贵参考资料。这份指南覆盖了RNA-seq数据分析的所有主要步骤,比如质量控制、读段比对、和转录本定量、差异性表达、功能分析、融合检测、eQTL图谱分析等等。研究绘制的RNA-seq分析通用路线图(标准Illumina),将主要分析步骤分为前期分析、分析从这,横轴是年份,纵轴是仪的通量,圈里面的数字代表读长。可以看到仪的通量和读长都在增加了,其中PacficBiosciences的三代仪读长最长,可以达到14K,illumina的仪通量最大,HiSeqXTen的通量可以达到1.8T。现在Illumina生从左到右,仪的通量逐渐增大,它们适合不同的样品和目的。Miseq通量比较低,适合宏组等微生物;Hiseq通量太高了,如果你送去公司,他们一般要20~30这幅图的横轴是年份,纵轴是高通量技术应用的代表性文章的量。不同的应用技术用颜色进行分类,数据点的大小跟率(率/月)成正比。可以看出RNA-Seq技术的mRNA在生物内RNA的组分中只占很小的一部分,rRNA占绝大多数。一般说RNA-seq指的都是mRNA-seq,后面的流程也都是主要针对mRNA-seq数据分析的。在科学家们的努力下,可以把那些非编码RNA提取出来建库,进序。对于Illumina,片段一般小于500bp。确定合适长度的片段是后续和分析然后呢,设定生物学重复对差异的检出率(真阳性率,TPR)的提高具有明显效果。上数据量分配到的生物学重复样本中,差异分析结果的可靠性在不断提升。对于RNA-seq,设置一些重复,差异不稳定的话有时候设置10个/20个都不够。具体问题具体分析!!深度(Sequencingdepth),也叫乘数,指每个碱基被的平均次数,是用来衡量测序量的首要参数。研究表明,增加深度,量从1.6M条reads增加到20M条reads,(75bp)10Mreads时就已经达到平衡了,80%的鸡转录本被检测到。在此基础上增直观一些说,如果某个在RNA-seq结果显示差异表达,但QPCR结果表明这个表达差异不显著,可以认为这个RNA-seq结果为假阳性;反之,这个结果就是真阳性。如表2、3所示,在一定的生物学重复数(n)的情况下,随着单样本量(Depth)的提高(25%→100%),真阳性率(TPR)都只有有限的提高。例如在n=3的情况下,单个样本的量从25%提高到100%,TPR仅仅从6.24%提高到8.95%。在表3中,如果Depth等于25%不变,当n从2提高到12,TPR的提高则是非常明显的。因此深度对结果改为n*1/n=1,保持不变)。如图A,灰色实线代表不同的生物学重复数(n)和单样本数据量高。例如n=2,TPR约为3%,如果n=6,TPR则提高到22%。但单个样本的数据量不断降低,TPR的降低十分缓慢。例如,n=3,单个样本的数据量从15%,TPR9%5%和单样本量的组合,对假阳性率(FPR)的影响却较小。如图B,灰色实线代表不同生物学重复数(n)和单样本数据量(1/n)组合的情况下,真阳性率(FPR)的变化。虽然n从2变化到96,FPR基本没有太大变化。从图中很容易发现,基于负二项分布的差异分析检验(Pvalue),FPR对生物学重复数和单个样本数据量均不敏感,始终保持低于0.1%水平。或者说,这个算法对FPR的控制还随着单价的下降,目前市场上RNA-seq类项目的单样本量正在不断提高。以2G,PE100的表达谱项目为例,其对应的量为20M条reads。如果一条长度为1kbp的低表达的表达量为RPKM=0.5,其理论上可以检测到的reads数为20×0.5=10。所以低丰度的检测,对RNA-seq这个技术来说并非最大问题。的表达量变化程度,可以使用Qpcr来验证。但往往也使用所有差异来统计某些规律。例如使用差异的pathway富集分析来寻找与性状相关的pathway。如果在全局水平的差异集并不可靠,那么pathway富集分析得出的结论的可靠性自然也受到影响。而全局水平的差异数量巨大,是难以使用Qpcr验证的。因此,定量以及差异分析的准确性是在RNA-seq中更值得关心的问题。run跑不完,为了避免技术误差造成太大的实验误差,要把样品随机分配到每个批次或runs中;(到底怎么设计,要一下!!)如果你的样品是多样品混合,每个样品要单独加上,每个lanes要保证足够的测序深度,为了保证所有的样品在每个lane中都有。如果送给公司去做的话,要选择建库llumina平台用FastQC看;其他平台的数据用NGSQC。一般会有原始数据的序列质量,GC含量,存在的接头以及K-mers子串图并且重复序列太多的reads。在下降,因此数据质量逐渐降低乃是自然趋势。常用的数据过滤的有FASTX-Reads比对后的质量控制(评估比对质量的指标):比对上的reads占总reads的百分比;Reads比对到外显子和参考链上的覆盖度是否一致;比对到组序列:多重比对reads?录本被定量以后,应该看一下GC含量和长度偏差,确定定量的方法是否适用。把所有样本的reads混合用于转录本的拼接。二代的转录组reads用于拼接还是存在一些问题的,最终拼接结果不太理想。一个转录本的拼接结果会是10~100contigs。三代是一样的,FPKM可以转换成TPM。Cufflinks(支持双端数据,并且需要GTF格式的注RNA-seqRNA18~34个碱基,包含了miRNAs,short-interferingRNAssiRNAs),PIWI-interactingRNAs(piRNAs)以及其他种类的**。sRNA-seqlibrariesarerarelysequencedasdeeplyasregularRNA-seqlibrariesbecauseofalackofcomplexity,withatypicalrangeof2–10millionreads.miRTools2.0atoolforpredictionandprofilingofsRNAspeciesusesbydefaultreadsthatare18–30baseslong5.比对到参考组上,比对有:Bowtie2,STAR,orBurrows-WheelerAligner(BWA)PatMaNandMicroRazerSmapshortMoreover,thecombinationofRNA-seqandre-sequencingcanbeusedbothtoremovefalsepositiveswheninferringfusiongenesandto yzecopynumberalterations.Thestatisticallysignificantcorrelationsthatwereobserved,however,accountedforrelativelysmalleffects.(DNAmethylation)一些:CORNA,MMIA,,MAGIA,and代谢组和转录组数据结合进行通路分析,有一些:MassTRIX,Paintomics,VANTEDv2,andSteinerNetRNA-seq技术已经成为转录组分析的标准方法。其相对应的技术和数据分析工具还在不断地发展。对低表达的的定量仍是一个等待解决的问题;三代技术,Smart-seq和Smart-seq2应用于转录组,所需要的样品量少,并且可以测定单细胞内的RNA表达水平;Pacbio技术可以直接测得接近全长的转录本,可以有效解决二代技术拼接较为零碎以及Win10BashonUbuntuonWindows怎么用?(安装和用法mkdirBiosoftmkdirBiosoft&cd /jmzeng/RNA-seq/RNA-seq-example-GSE81916-two-fastqchisatscdcdmkdirsratoolkit&&cd#长度:7647376973Mapplication/x-正在保存至“sratoolkit.2.8.2-1-tar-zxvfsratoolkit.2.8.2-1-cdmkdirfastqc&&cd#unzip6.unzipjava,根据系统提示安装,一般是sudoaptinstallcdmkdirHISAT&&cd#/pub/infphilo/hisat2/downloads/hisat2-2.1.0-cdhisat2-makeg++gcc,同上用sudoaptinstallrm-f*.hcdmkdirsamtools&&cd#/samtools/samtools/releases/download/1.5/samtools-长度:4190142(4.0Mapplication/octet-正在保存至samtools-tarxvfjsamtools-1.5.tar.bz2cdsamtools-1.5sudomakesudoapt-getinstallpython-pipinstall--upgradesudoapt-getinstallbuild-essentialpython2.7-devpython-numpypython-#tarxvzfHTSeq-pythonsetup.pyinstall--~/.local/bin/htseq-count--#viexport condainstall-cbiocondacondainstall-cbiocondahtseq=0.7.2condainstall-cbiocondahisat2=2.1.0condainstall-cbioconda10.condainstall-cjfear /p/27670618?utmsource=wechatsession&utmmedium=so AKAP95regulatessplicingthroughscaffoldingRNAsandRNAprocessing#esearchdbsraqueryPRJNA299273|efetchformatruninforuninfo.txt这个命SRR#catruninfo.txt|cut-f1-d','|grepSRR>~/biosoft/sratoolkit.2.8.2-1-centos_linux64/bin/prefetchoption-filesra.ids数据存在/home/shenmy/ncbi/public/sra这个文件下面,找了半天mkdir/mnt/d/rna_seq/data&&cdperl-lne'$id=substr($_,0,6);print"axelftp://ftp- RR/$id/$_/$_.sra"'SRR_Acc_List.txtbash改成用axel下是ls*.sra|whilereadid;do(/mnt/d/Software/Biosoft/sratoolkit/sratoolkit.2.8.2-ubuntu64/bin/fastq-dump--split-3rmodu-w/ncbinlm /s/LNrQNSHdcdKb25s4mFeqw 了解fastq数sra文件转换为fastq /mnt/d/Software/Biosoft/sratoolkit/sratoolkit.2.8.2-1-ubuntu64/bin/fastq-dump-Legacy3-filesplittingformate-pairs: biologicalreadssatisfyingdumconditionsareplacedinfiles*_1.fastqand*_2.fastqIfonlyonebiologicalreadispresentitisplacedin*.fastqBiologicalreadsandaboveare也就是说如果 Compressoutputusing将这些文件合并成一个tar文件,然后再使用gzip进行压缩,最后生成的.tar.gz或者.tgz文件就是所谓的“tar压缩包”或者“tarball”)Compressoutputusing1.1.ls*.sra|whilereadid;do(/mnt/d/Software/Biosoft/sratoolkit/sratoolkit.2.8.2-1-ubuntu64/bin/fastq-dump--split-3$id);done的数据是Illumina的双端4,所以用fastq-dump--split-3命令来把sra格式数据转换为fastq。perl-F'\t'-alneperl-F'\t'-alne"$F[7]\t$F[6]_$F[13]"}'SraRunTable.txt>Rename.txtperl-F'\t'-alne'print"/mnt/d/Software/Biosoft/sratoolkit/sratoolkit.2.8.2-1-ubuntu64/bin/fastq-dump--split-3--gzip-A$F[1]$F[0].sra"'Rename.txt>rmodu-w在此最开始之前应该做

数据传输完整性验证1.md5sum*.fastq.gz1.md5sum*.fastq.gz质控mkdirmkdir/mnt/d/rna_seq/work&&cdln/mnt/d/rna_seq/data/*mkdirls*.gz|whilereadid;do(/mnt/d/Software/Biosoft/fastqc/FastQC/fastqc/mnt/d/rna_seq/work/1_FastQC_Raw_Data-t-foriin*.zip;dounzip$i;perl|/mnt/d/Software/Biosoft/csvtk/csvtk293cell21.在UCSChg19参考组2.从gencode数据 5.在 hg19参 这个对新手来说,是一个很大的坑,hg19、GRCH37、ensembl75这3种 的是同样的fasta序列, 单位,即NCBI,UCSC及ENSEMBL各自发布的 样,比如BGI做的炎黄 组,还有DNA双螺旋结构提出者 有2016 hg19和hg38,都是UCSC提供的,虽然hg38相比hg19来说,做了很多改进,优点也不少,但因为目前为止很多注释信息都是针对于hg19的坐标系统来的, mkdir/mnt/d/rna_seq/data/reference&&cdmkdir-pgenome/hg19&&cd#nohup nohup tarzvfxcat*.fa>rmGRCh37ist omeReferenceConsortiumHumangenomebuild37.hg19组大小是3G,压缩后百兆。从gencode数据库注释文件,并且用IGV去查看感的的结gzip-dIGV、tar-zxvfbedtools-cd截图几个的IGV可视化结grepgrep-w'gene'gencode.v26lift37.annotation.gtf1,4,5grep-w'gene'gencode.v26lift37.annotation.gtf|grep1,4,5>>gene.bedgrep-w'gene'gencode.v26lift37.annotation.gtf1,4,5-w'TP53'|cut--w'KRAS'|cut--w'EGFR'|cut-/mnt/d/Software/Biosoft/bedtools2/bin/bedtoolsigv-igene.bed#perl-alne'{print"goto$F[0]:$F[1]-$F[2]\nsnapshot$F[3].png"}ENSEMBL,NCBI的gtf#axel/pub/grch37/release-3.axelftp://ftp.ensembl. ## 4. 出来以上里的,还有Bowtie2,BBMap,BWA,CLC,Novoalign,SMALT等,百科hisat2本作业是比对到组,所以使用gappedorsplicesmapper,此流程已经更新。TopHat首次被已经是7年前,STAR的比对速度是TopHat的50倍,HISAT更是STAR的1.2倍。10HISAT2TopHat2/Bowti2BWT算法,实现了更快的速度和更少的资源占用,作者TopHat2/Bowti2和HISAT的用户转换到HISAT2。11HELP$./hisat2-HISAT2version2.1.0byDaehwanKim hisat2[options]*-x<ht2-idx>{-1<m1>-2<m2>|-U<r>|--sra-acc<SRAaccessionnumber>}[-S<sam>]<ht2-idx>Indexfilenameprefix(minustrailing Fileswith#1mates,pairedwithfilesinCouldbegzip'ed(extension:.gz)orbzip2'ed(extension: Fileswith#2mates,pairedwithfilesinCouldbegzip'ed(extension:.gz)orbzip2'ed(extension: FileswithunpairedCouldbegzip'ed(extension:.gz)orbzip2'ed(extension:<SRAaccession Comma-separatedlistofSRAaccessionnumbers,e.g.-sra-acc FileforSAMoutput(default:stdout)<m1>,<m2>,<r>canbecomma-separatedlists(nowhitespace)andcanspecifiedmanytimes.E.g.'-Ufile1.fq,file2.fq-Ufile3.fq'.20.Options(defaultsin ueryinputfilesareFASTQ.fq/.fastq-- ueryinputfilesareinIllumina'sqseq- queryinputfilesare(multi-)FASTA- queryinputfilesarerawone-sequence-per-- <m1>,<m2>,<r>aresequencesthemselves,not-s/--skip skip <int>reads/pairsintheinput-u/--upto stop <int>reads/pairs(no-5/--trim5 trim<int>basesfrom5'/leftendofreads-3/--trim3 trim<int>basesfrom3'/rightendofreads-- qualitiesarePhred+33-- qualitiesare--int- qualitiesencodedasspace-delimited SRAaccessionID--n-ceil funcformax#non-A/C/G/Tspermittedinaln--ignore- treatallqualityvaluesas30onPhredscale-- donotalignforward(original)versionofread donotalign plementversionofread(off)Spliced--pen-cansplice penaltyforacanonicalsplicesite penaltyforanon-canonicalsplicesite--pen-canintronlen<func> penaltyforlongintrons(G,-8,1)withcanonicalsplicesites--pen-noncanintronlen<func> penaltyforlongintrons(G,-8,1)withnoncanonicalsplicesites--min-intronlen minimumintronlength--max-intronlen umintronlength providealistofknownsplice--novel-splicesite-outfile<path>reportalistofsplice providealistofnovelsplice--no-temp- disabletheuseofsplicesites--no-spliced- disablespliced--rna-strandness specifystrand-specificinformation reportsonlythosealignmentswithinknown reportsalignmentstailoredfortranscript reportsalignmentstailoredspecificallyfor triestoavoidaligningreadstopseudogenes(experimentaloption) disablestemplaengthadjustmentforRNA-seq--mp maxandminpenaltiesformismatch;lowerqual=lower--sp maxandminpenaltiesforsoft-clip;lowerqual=penalty65.--no- nosoft-66.--np penaltyfornon-A/C/G/Tsinread/ref67.--rdg<int>,<int>readgapopen,extendpenalties--rfg<int>,<int>referencegapopen,extendpenalties--score-min<func>minacceptablealignmentscorew/r/tread(L,0.0,--k<int>(default:5)reportupto<int>alnsperreadPaired--I/--minins<int>minimumfragmentlength(0),onlyvalidwith--no-spliced--X/--maxins<int> umfragmentlength(500),onlyvalidwith--no-spliced---fr/--rf/-- -1,-2matesalignfw/rev,rev/fw,fw/fw(----no- suppressunpairedalignmentsforpaired suppressdiscordantalignmentsforpairedreads-t/-- printwall-clocktimetakenbysearch--un writeunpairedreadsthatdidn'talignto--al writeunpairedreadsthatalignedatleastonceto--un-conc writepairsthatdidn'talignconcordantlyto--al-conc writepairsthatalignedconcordantlyatleastonceto(Note:for--un,--al,--un-conc,or--al-conc,add'-gz'totheoptionname,--un-gz<path>,togzipcompressoutput,oradd'-bz2'tobzip2compress--summary- printalignmentsummarytothis printalignmentsummaryinanewstyle,whichismoremachine--- printnothingtostderrexceptserious--met-file<path>sendmetricstofileat<path>--met- sendmetricstostderr--met reportinternalcounters&metricsevery<int>secs--no- supppressheaderlines,i.e.linesstartingwith--no- supppress@SQheader--rg-id setreadgroupid,reflectedin@RGlineandRG:Z:opt--rg add<text>("lab:value")to@RGlineofSAMNote:@RGlineonlyprintedwhen--rg-idis put'*'inSEQandQUALfieldsforsecondary-o/--offrate<int>overrideoffrateofindex;mustbe>=index's-p/--threads<int>numberofalignmentthreadstolaunch-- forceSAMoutputordertomatchorderofinput usememory-mappedI/Oforindex;many'hisat2'scan--qc-filteroutreadsthatarebadaccordingtoQSEQ--seedseedforrandomnumbergenerator --non-deterministicseedrand.gen.arbitrarilyinsteadofusingread--remove-remove'chr'fromreferencenamesin--add-add'chr'toreferencenamesin--printversioninformationand-h/--printthisusagecdcdmkdir-pindex/hisat&&cdwget-cwget-ctarzxvftarxvzf把fastq格式的reads比对上去得到sam文件,接着用samtools把它转为bam文件,并且接输出BAM文件12。~/biosoft/HISAT/current/hisat2-p5-x$reference-USRR3589959.fastq-Scontrol_1.sam2>control_1.log~/biosoft/HISAT/current/hisat2-p5-x$reference-USRR3589960.fastq-Scontrol_2.sam2>control_2.log~/biosoft/HISAT/current/hisat2-p5-x$reference-USRR3589961.fastq-SAkap95_1.sam~/biosoft/HISAT/current/hisat2-p5-x$reference-USRR3589962.fastq-SAkap95_2.samls*sam|whilereadid;do(nohupsamtoolssort-n-@5-o${id%%.*}.Nsort.bam$id在上面的基础进行修改,编写bash #!set-uset-set-o11.ls--color=neverHomo*1.fastq.gz|whilereadid;do(~/biosoft/hisat2-2.1.0/hisat2-t-$NUM_THREADS-x$hg19_ref-1$data_path/${id%_*}_1.fastq.gz-$data_path/${id%_*}_2.fastq.gz2>${id%_*}_map.log|samtoolsview--13.ls--color=neverMus*1.fastq.gz|whilereadid;do(~/biosoft/hisat2-2.1.0/hisat2-t-p$NUM_THREADS-x$mm10_ref-1$data_path/${id%_*}_1.fastq.gz-2$data_path/${id%_*}_2.fastq.gz2>${id%_*}_map.log|samtoolsview--15.ls--color=never*.bam|whilereadid;do(samtoolssort--threads$NUM_THREADS$id-16.ls--color=never*_sorted.bam|whilereadid;do(samtoolsindex:bashbamreadsreads比对 组序列,多重比对~/biosoft/qualimap_v2.2.1/qualimaprnaseq-Homo_sapiens_Control_293_cell_sorted.bam-outdirHomo_sapiens_Control_293_cell_sorted_QC-pe-s--java-mem-size=60G-gtfcondainstallcondainstallucsc-gtfToGenePred-genePredExt-ignoreGroupsWithoutExons-geneNameAsName2gencode.v26lift37.annotation.gtfgencode.v26lift37.annotation.gpdgzip-djava-jar~/biosoft/picard_2.8.0/picard.jarCollectRnaSeqMetrics bam_stat.py-i载入IGV 看上去很类似fastq文件,它也有readread名称mate名称,记录matepairchromosomeCIGAR 详情samreadnamereadscountls--color=never*.bam|whilereadid;do(samtoolssort-n--threads40$id-ls--color=never*_sorted_name.bam|whilereadid;do(samtoolsindexreadsname#[E::hts_idx_push]unsorted#samtoolsindex:"Homo_sapiens_AKAP95_KD_miR_12_293_cell_sorted_name.bam"iscorruptedorunsortedsamtoolssort-n--threads30Homo_sapiens_AKAP95_KD_miR_12_293_cell.bam-osamtoolsviewHomo_sapiens_AKAP95_KD_miR_12_293_cell_sorted_name.bam|less-pos排序的文件小些,为什么呢?因为按照位置排序相似的内容会排在一起,按照采用默认的pos排序。提高文件的压缩比例。BAMsort缩比提高了,因此排序之后的BAM文件变小了,相对应的SAM文件就是纯文本文件,对SAM文件进行排序就不会改变文件大小。而且由于RNA-seq中由于表达量的关系,RNA-seq的数据比对结果BAM文件使用samtools进行sort之后文件压缩比例变化会比DNA-seq更甚。另外,samtoolsBAMreads会被放From:Gainingcomprehensivebiologicalinsightintothetranscriptomebyperformingabroad-spectrumRNA-seq FigureTheRNACocktail ysisprotocol.RNACocktailisacomprehensiveprotocolofRNA-seq ysis.ThefiguresummarizesthewidelyusedapproachesforthekeystepsoverthebroadspectrumofRNA-seq ysisandalsosuccinctlycapturesthepossibleworkflowsonecanuseto yseRNA-seqdatabedtoolsusageusage:htseq-count[options]alignment_file<alignment_file>:比对到组后得到的SAM文件(SAMtools包含一些perl可以将大多数的比对文件转换成SAM格式),注意组map时一定要用支持剪接的比对(splicing-awarealigner)进行比对如TopHat.HTSeq-count需要用到SAM格式中的CIGAR区域的信息。<gff_file>:包含单位信息的gff/GTF文件(gff文件格式),大多数情况下就是指注释文件 由GTF文件其实就是gff文件格式的变形,在这里同样可以传入GTFThisscripttakesoneormorealignmentfilesinSAM/BAMformatandafeaturefileinGFFformatandcalculatesforeachfeaturethenumberofreadsmap toit.Seeforpositional PathtotheSAM/BAMfilescontainingthemapped If'iselectd,adfrmstndardinut想通过准输入来传入 组map 到SAM文,用–替换<aligmetfile>即可 Pathtothefilecontainingthefeaturesoptional-h,-- showthishelpmessageand-f{sam,bam},--formattypeof<alignment_file>data,either'sam'or(default:指定输入文件的格式,<format可以是samfortextSAMfiles)bam(forbinaryBAMfiles)-r{pos,name},--order'pos'or'name'.Sortingorderof(default:name).**Paired-endsequencingdatamustbesortedeitherbypositionorbyreadname,andthesortingordermustbespecified.**Ignoredforsingle-enddata.如果你是双端,必须要对SAM进行排序(单端可不必排序,但这里我也对单端结果排序已减少内存消耗并提高效率),对readname或 排序皆可(这里我按readname排序,因为通过位置排序我遇到过错误)。具体需要通过-r参数指定,所以排序请详见参数-r,在sort时用-n则不用修改,默认的排序则修改成pos。When<alignment_file>ispairedendsortedbyposition,allowonlysomanyreadstostayinmemoryuntilthematesarefound(raisingthisnumberwillusemorememory).Hasnoeffectforsingleendorpairedendsortedbyname-s{yes,no,reverse},--strandedwhetherthedataisfromastrand-specificassay.Specify'yes','no',or'reverse'(default:yes).'reverse'means'yes'withreversedstrand是否链特异性,如果不是修改成-aMINAQUAL,--minaqualskipallreadswithalignmentqualitylowerthanthegivenminimumvalue(default:指定一个最低read -tFEATURETYPE,--typefeaturetype(3rdcolumninGFFfile)tobeused,allfeaturesofothertypeareignored(default,suitableforEnsemblGTFfiles:exon)指定最小计数单位类型(gff文件的第3列中的类型如:exon),指定后其他单位类型将被忽略(默认情况下,对于rna-seq分析采用EnsemblGTF: -iIDATTR,--idattrGFFattributetobeusedasfeatureID(default,suitableforEnsemblGTFfiles:最终的计数单位,一般为。默认为:gene_id需要改成gene_name,可以直接识别,如果是gene_id--additional-attrADDITIONAL_ATTR[ADDITIONAL_ATTRAdditionalfeatureattributes(default:none,suitableforEnsemblGTFfiles:-m{union,intersection-strict,intersection-nonempty},--mode{union,intersection-modetohandlereads morethanone(choices:union,intersection-strict,intersection-nonempty;default:判断一个reads属于某个的模型,用来判断统计reads的时候对一些比较特殊的reads定义是否计入<mode>unionintersection-strict、intersectionnonempty(--nonuniqueWhethertoscorereadsthatarenotuniquelyalignedorambiguouslyassignedto-oSAMOUTS[SAMOUTS...],--samoutSAMOUTS[SAMOUTSwriteoutallSAMalignmentrecordsintoanoutputSAMfilecalledSAMOUT,annotatingeachlinewithitsfeatureassignment(asanoptionalfieldwithtag'XF')出所有algnment的reads叫<samout>的sam件中通过个可选的sam ‘XF来标注一对应的位计数,以设-q, s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论