转录组ref作业流程工作基础手册

上传人：1*** IP属地：湖北上传时间：2024-04-27 格式：DOC 页数：30 大小：1.22MB 积分：6 举报 版权申诉

已阅读5页，还剩25页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

转录组ref步骤工作手册一、Reference步骤生物学原理1.1试验步骤图一：转录组试验步骤当我们得到样品时，必需对其测序，才能得到分析所需数据。测序基础过程：提取样品总RNA后，用带有Oligo(dT)磁珠富集真核生物mRNA（若为原核生物，则用试剂盒去除rRNA后进入下一步）。加入fragmentationbuffer将mRNA打断成短片段，以mRNA为模板，用六碱基随机引物（randomhexamers）合成第一条cDNA链，然后加入缓冲液、dNTPs、RNaseH和DNApolymeraseI合成第二条cDNA链，在经过QiaQuickPCR试剂盒纯化并加EB缓冲液洗脱以后做末端修复并连接测序接头，然后用琼脂糖凝胶电泳进行片段大小选择，最终进行PCR扩增，使用建好测序文库进行测序。得到RNA序列后，又能够找到它参考序列（物种本身基因、基因组）时，能够用reference步骤对数据进行具体分析。Reference后面全部步骤全部是基于参考序列进行，所以选择正确参考序列十分关键。1.2信息分析步骤得到测序序列后，即可利用比对软件，将所测序列比对到参考基因或基因组上，并进行后续分析，信息分析步骤图以下：图二：转录组信息步骤1.2.1原始fq序列介绍测序得到原始图像数据经basecalling转化为序列数据，我们称之为rawdata或rawreads，结果以fastq文件格式存放，fastq文件为用户得到最原始文件，里面存放reads序列和reads测序质量。在fastq格式文件中每个read由四行描述：@readIDTGGCGGAGGGATTTGAACCC+bbbbbbbbabbbbbbbbbbb每个序列共有4行，第1行和第3行是序列名称(有fq文件为了节省存放空间会省略第三行“＋”后面序列名称)，由测序仪产生；第2行是序列；第4行是序列测序质量，每个字符对应第2行每个碱基，第四行每个字符对应ASCII值减去64，即为该碱基测序质量值，比如h对应ASCII值为104，那么其对应碱基质量值是40。碱基质量值范围为0到40。REF_Ref\h表1为Solexa测序错误率和测序质量值简明对应关系，具体计算公式以下：Qphred=-10log10(e)表SEQ表\*ARABIC1Solexa测序错误率和测序质量值简明对应关系测序错误率测序质量值对应字符5%13M1%20T0.1%30^0.01%40h1.2.2原始fq序列处理一些原始序列带有adaptor序列，或含有少许低质量序列。我们首先经过一系列数据处理以去除杂质数据，得到Cleanreads。按以下步骤进行处理：去除含adaptorreads去除N百分比大于10%reads去除低质量reads（质量值Q<=5碱基数占整个read50％以上）取得Cleanreads原始序列数据经过去除杂质后得到数据称为Cleanreads，后续分析全部基于Cleanreads1.2.3比对使用短reads比对软件SOAP2/SOAPaligner{Li,#155}将cleanreads分别比对到参考基因组和参考基因序列（许可两个碱基错配）。经过这一步骤，我们能够将测序得到reads对应到基因及基因组上，后续分析全部是基于上述比对结果。1.2.4基础生物信息分析结果基础信息分析结果包含以下内容：1测序数据产量及和Reference比对结果概述统计数据量大小，得到测序数据产量；对soap结果进行处理得到测序数据和Reference序列比正确概况。2评价测序随机性在转录组试验过程中，首先要经过物理或化学方法将转录本打断成短片段，然后上机测序。假如打断随机性差，reads偏向于来自基因特定区域，将会直接影响转录组各项分析结果。利用reads在基因上分布来评价打断随机性。因为不一样参考基因有不一样长度，我们把reads在基因上位置标准化到相对位置（reads在基因上位置和基因长度比值），然后统计基因不一样位置比对上reads数。假如打断随机性好，reads在基因各部位应分布得比较均匀。3基因覆盖度、测序深度分布基因测序覆盖度指每个基因被reads覆盖百分比，其值等于基因中uniquemappingreads覆盖碱基数跟基因编码区全部碱基数比值。测序深度指基因被reads覆盖次数，其值等于reads覆盖到基因碱基数和基因编码区全部碱基数比值。4Reads在参考基因组上分布该分析关键是以图形方法概括给出Reads在基因组各个位置分布情况，和该位置基因分布情况。1.2.5高级生物信息分析结果高级生物信息分析包含以下结果：1对基因结构进行优化经过比较测序结果和现有基因注释结果，对基因5'端或3'端进行延长。图三所表示，首先，将reads比对到基因组，提取基因组中被uniquemappingreads覆盖次数大于或等于某阈值（默认为2）且位置连续区域作为转录活性区(TranscriptionActiveRegion,TAR，图中蓝色方块区域)；然后经过paired-endreads（图中紫色线条）将不一样TAR连接形成潜在genemodel；最终，经过比较潜在genemodel和现有基因注释差异，对基因5'端和3'端进行延长（图中表现仅是基因3’端发生延长情况）。图三：基因结构优化2判定基因可变剪切可变剪切使一个基因产生多个mRNA转录本，不一样mRNA可能翻译成不一样蛋白。所以，经过可变剪切一个基因可能产生多个蛋白，极大地增加了蛋白多样性{Black,#6}{Stamm,#21;Lareau,#22}。即使已知可变剪切在真核生物中普遍存在，但我们可能仍低估了可变剪切百分比，最近，基于高通量测序可变剪切研究在人{Pan,#3}{Wang,#4}{Sultan,#5}、小鼠{Tang,#18;Mortazavi,#19}、拟南芥{Filichkin,#156}中发觉了很多新可变剪切事件。在生物体内，关键存在7种可变剪切类型：A）Exonskipping;B）Intronretention;C)Alternative5’splicesite;D)Alternative3’splicesite;E)Alternativefirstexon;F)Alternativelastexon;G)Mutuallyexclusiveexon.下图是我们利用高通量测序数据判别出来7种可变剪切。图中每个位置ExP.Level等于log2(Reads数)。图四：可变剪切示意图A)ExonSkipping.基因AK070385发生可变剪切形成两种不一样转录本，第1种转录本比第2种转录组本多一个外显子(exon),我们将这种外显子称为inclusiveexon,inclusiveexon两侧两个外显子称为constitutiveexon。B)Intronretention.基因AK072590发生可变剪切形成两种不一样转录本，第2种转录本由retainedIntron和两侧外显子一起形成新外显子。C)Alternative5’splicesite.基因AK067602发生可变剪切形成两种不一样转录本，它们3’端剪切位点一致但5’端剪切位点不一样。D)Alternative3’splicesite.基因AK067602发生可变剪切形成两种不一样转录本，它们5’端剪切位点一致但3’端剪切位点不一样。E)AlternativeFirstExon.基因AK068497发生可变剪切形成两种不一样转录本，它们不一样之处于于第一个外显子不一样。F)AlternativeLastExon.基因AK064908发生可变剪切形成两种不一样转录本，它们不一样之处于于最终一个外显子不一样。G)MutuallyExclusiveExon.基因AK101575发生可变剪切形成两种不一样转录本，两转录本之间相同外显子称为constitutiveexon，不一样外显子称为inclusiveexon，两个inclusiveexon不能同时存在和同一转录本中，只能分别存在于不一样转录本中。下面，概述检测可变剪切算法。首先，我们使用软件“tophat”{Trapnell,#1}判定转录本剪切位点(junctionsite)（使用软件默认参数），剪切位点给出了转录本不一样外显子边界及组合关系，图五，我们检测到三个剪切位点，分别表明Exon1和Exon2连接在一起，Exon2和Exon3连接在一起，Exon1和Exon3连接在一起。图五剪切位点示意图然后，经过分析同一基因全部剪切位点，找出多种可变剪切事件。分析算法以下：A)ExonSkipping.图六ExonSkipping算法示意图转录本1和转录本2分别同时检测到图六所表示三个剪切位点，可认为转录本1Exon1、Exon2和Exon3存在ExonSkipping剪切方法；转录本2Exon1、Exon3和Exon4也存在ExonSkipping剪切方法。B)IntronRetention图七IntronRetention算法示意图图七所表示，1）检测到Junction1存在，表明在某个成熟mRNA中Exon1和Exon2之间Intron被剪切下来；2）Exon1和Exon2之间Intron有90％以上区域全部有uniquemappingreads覆盖，说明在某个成熟mRNA中该intron被保留下来了（考虑到转录exon通常也不是100％被reads覆盖到，所以在这里以90％为阈值）。若同时满足以上两个条件，则认为该基因Exon1和Exon2之间存在IntronRetention可变剪切方法。C)Alternative5’SpliceSite图八Alternative5’SpliceSite算法示意图图八，一个转录本Junction1位点被检测到，而且Junction2和Junction3中有一个被检测到（它们共同点是3’剪切位点和Junction1相同，但5’剪切位点和Junction1不一样），那么就认为Exon1和Exon2存在Alternative5’SpliceSite剪切方法。D)Alternative3’SpliceSite图九Alternative3’SpliceSite算法示意图图九，一个转录本Junction1位点被检测到，而且Junction2和Junction3中有一个被检测到（它们共同点是5’剪切位点和junction1相同，但3’剪切位点和junction1不一样），那么就认为Exon1和Exon2存在Alternative3’SpliceSite剪切方法。E)AlternativeFirstExon图十AlternativeFirstExon算法示意图图十，首先，要求检测到图所表示两个junction位点；其次，不能检测到支持Exon1和Exon2和5’端Exons有连接junction位点。要求以上两个条件同时满足，且这种情况出现在转录本最5’端，但不要求Exon1为这个转录本第一个外显子，也不要求被junction连接外显子全部是相邻，如转录本2中Exon2和Exon4。所以，图中转录本1Exon1、Exon2和Exon3存在AlternativeFirstExon可变剪切方法，转录本2中Exon1、Exon2和Exon4也存在AlternativeFirstExon可变剪切方法。F)AlternativeLastExon图十一AlternativeLastExon算法示意图图十一，转录本1为例，首先，要求检测到图所表示两个junction位点(Junction1和Junction2)；其次，不能检测到支持Exon1和Exon2和3’端Exons有连接junction位点。要求以上两个条件同时满足，且这种情况出现在转录本最3’端，但不要求Exon3为这个转录本最终一个外显子，也不要求被junction连接外显子全部是相邻，如转录本2中Exon1和Exon4。所以，图中转录本1Exon1、Exon2和Exon3存在AlternativeLastExon可变剪切方法，转录本2中Exon1、Exon3和Exon4也存在AlternativeLastExon可变剪切方法。G)MutuallyExclusiveExon图十二MutuallyExclusiveExon算法示意图检测到图十二所表示四个junction位点，且不能检测到支持Exon2和Exon3有连接位点junction位点，则认为该转录本Exon1、Exon2、Exon3和Exon4之间存在MutuallyExclusiveExon可变剪切方法。3发觉新转录本现有数据库中对转录本注释可能还不全方面，经过高通量测序我们能检测到新转录本{Mortazavi,#103}。我们首先从潜在genemodel中挑选出长度大于150bp且平均覆盖度大于2genemodel，再从中找出在基因间区域（一个基因3’端下游200bp到下一个基因5’端上游200bp之间区域）潜在genemodel作为候选新转录本。4基因结构和Reads在基因组上分布正确图形该分析关键是以图形方法概括给出Reads在基因组各个位置分布情况，和该位置基因分布情况。我们画出Reads在最长25条染色体上分布图，该图为SVG矢量图，假如你浏览器不支持SVG，请安装SVGView插件。5基因差异表示分析5.1基因表示量基因表示量计算使用RPKM法（ReadsPerKbperMillionreads）{Mortazavi,#103}，其计算公式为：设RPKM(A)为基因A表示量，则C为唯一比对到基因Areads数，N为唯一比对到基因组总reads数，L为基因A编码区碱基数。RPKM法能消除基因长度和测序量差异对计算基因表示影响，计算得到基因表示量可直接用于比较不一样品间基因表示差异。假如一个基因存在多个转录本，则用该基因最长转录本计算其测序覆盖度和表示量。5.2差异分析差异表示分析找出在不一样本间存在差异表示基因，并对差异表示基因做GO功效分析和KEGGPathway分析。参考AudicS.等人发表在GenomeResearch上基于测序差异基因检测方法{Audic,1997#8}（该文件已被引用超出五百次），我们开发了严格算法筛选两样本间差异表示基因。假设观察到基因A对应reads数为x，已知在一个大文库中，每个基因表示量只占全部基因表示量一小部分，在这种情况下，p(x)分布服从泊松分布：已知，样本一中唯一比对到基因组总reads数为N1，样本二中唯一比对到基因组总reads数为N2，样本一中唯一比对到基因A总reads数为x，样本二中唯一比对到基因A总reads数为y，则基因A在两样本中表示量相等概率可由以下公式计算：然后，我们对差异检验pvalue作多重假设检验校正，经过控制FDR（FalseDiscoveryRate）来决定pvalue域值。假设挑选了R个差异表示基因，其中S个是真正有差异表示基因，另外V个是其实没有差异表示基因，为假阳性结果。期望错误百分比Q＝V/R平均而言不能超出某个能够容忍值，比如1％，则在统计时预先设定FDR不能超出0.01（Benjamini,Yekutieli.）。在得到差异检验FDR值同时，我们依据基因表示量（RPKM值）计算该基因在不一样本间差异表示倍数。FDR值越小，差异倍数越大，则表明表示差异越显著。在我们分析中，差异表示基因定义为FDR≤0.001且倍数差异在2倍以上基因。得到差异表示基因以后，我们对差异表示基因做GO功效分析和KEGGPathway分析。GO功效分析首先给出差异表示基因GO功效分类注释；其次给出差异表示基因GO功效显著性富集分析。GO功效分类注释给出含有某个GO功效基因列表及基因数目统计。GO功效显著性富集分析给出和基因组背景相比，在差异表示基因中显著富集GO功效条目，从而给出差异表示基因和哪些生物学功效显著相关。该分析首先把全部差异表示基因向GeneOntology数据库（）各个term映射，计算每个term基因数目，然后应用超几何检验，找出和整个基因组背景相比，在差异表示基因中显著富集GO条目，其计算公式为其中，N为全部基因中含有GO注释基因数目；n为N中差异表示基因数目；M为全部基因中注释为某特定GOterm基因数目；m为注释为某特定GOterm差异表示基因数目。计算得到pvalue经过Bonferroni校正以后，以correctedpvalue≤0.05为阈值，满足此条件GOterm定义为在差异表示基因中显著富集GOterm。经过GO功效显著性富集分析能确定差异表示基因行使关键生物学功效。我们GO功效分析同时整合了表示模式聚类分析，研究人员能方便地看到含有某一功效全部差异基因表示模式。例，immuneresponse为在差异表示基因中最显著富集一个GOterm（REF_Ref\h表2）。图十三显示了参与immuneresponse差异基因表示模式。表SEQ表\*ARABIC2

在差异表示基因中显著富集GO-termlog2Ratio图十三参与immuneresponse差异基因表示模式聚类图KEGGPathway分析在生物体内，不一样基因相互协调行使其生物学功效，基于Pathway分析有利于更深入了解基因生物学功效。KEGG是相关Pathway关键公共数据库{Kanehisa,#96}，Pathway显著性富集分析以KEGGPathway为单位，应用超几何检验，找出和整个基因组背景相比，在差异表示基因中显著性富集Pathway。该分析计算公式同GO功效显著性富集分析，在这里N为全部基因中含有Pathway注释基因数目；n为N中差异表示基因数目；M为全部基因中注释为某特定Pathway基因数目；m为注释为某特定Pathway差异表示基因数目。FDR≤0.05Pathway定义为在差异表示基因中显著富集Pathway。经过Pathway显著性富集能确定差异表示基因参与最关键生化代谢路径和信号转导路径。结果如REF_Ref\h表3所表示。表SEQ表\*ARABIC3

pathway显著性富集分析列表各列意义以下：#序号Pathway通路名DEGswithpathwayannotation(2085)注释到该通路差异表示基因数目Allgeneswithpathwayannotation(8986)注释到该通路全部基因数目Pvalue超几何检验P值QvalueQ值（Q≤0.05为在差异表示基因中显著富集Pathway）PathwayIDKEGG数据库中PathwayID注：Qvalue≤0.05pathway在差异表示基因中显著富集，见表中红框所表示。差异表示基因pathway显著性富集分析不仅得到最有意义pathway列表，点击其中pathway链接还将得到KEGG数据库中pathway具体信息，如点击REF_Ref\h表3第一列第三行Bcellreceptorsignalingpathway，能够看到图十四所表示具体信息，上调基因所在位置用红色标识，下调基因所在位置用绿色标识。图十四KEGG数据库中Bcellreceptorsignalingpathway具体信息二、Reference工作步骤工作步骤以下：2.1前期工作创建项目目录：因为每个子项目全部有自己子项目代码，且名字简练，提议使用子项目代码为项目创建目录，伴随手头做过项目标增加，假如有需要，提议先以时期为依据创建大目录，再在其下创建项目目录；2)项目统计：伴随项目标增加，所需记得项目各方面信息内容也会增加，假如需要话，提议使用excel电子表格统计平时项目信息，以方便查询，包含：项目名称、子项目代码、项目结果路径、开始时间、阶段性进展、结束时间、截止时间、网址链接等等；2.2写工作文件1）文件模板依据信息任务描述，选好两个文件模板，放于所创建项目目录下；2）找fq文件方法1：(依据文库名查找)find/share/fqdata10/solexa/-name"*ARAcqfTARAAPE*fq"查找结果：/share/fqdata10/solexa/HSZ09076_ARAcqfT_transcriptome_Transcriptome/ARAcqfTARAAPE/100114_I649_0002_FC42T26AAXX/100114_I649_FC42T26AAXX_L7_ARAcqfTARAAPE/100114_I649_FC42T26AAXX_L7_ARAcqfTARAAPE_1.fq/share/fqdata10/solexa/HSZ09076_ARAcqfT_transcriptome_Transcriptome/ARAcqfTARAAPE/100114_I649_0002_FC42T26AAXX/100114_I649_FC42T26AAXX_L7_ARAcqfTARAAPE/100114_I649_FC42T26AAXX_L7_ARAcqfTARAAPE_2.fq方法2：(依据项目编号查找)cd/share/fqdata10/solexa/cdHSZ09076敲入tab键查找结果：dr-xr-xr-x3solexasolexa41Jan2513:28ARAcqfTARAAPEdr-xr-xr-x3solexasolexa41Jan2513:28ARAcqfTBRAAPE方法3：(依据子项目代码查找)cd/share/fqdata10/solexa/cd*_ARAcqfT_*查找结果：dr-xr-xr-x3solexasolexa41Jan2513:28ARAcqfTARAAPEdr-xr-xr-x3solexasolexa41Jan2513:28ARAcqfTBRAAPE数据存放路径：通常在以下多个库中：/share/fqdata12/solexa/（2-3月数据）/share/fqdata10/solexa/（1-2月数据）/share/fastdata1/solexa（11月份下机数据）/share/solid2/solexa-work/Project_solexa_fq（10-11月份下机数据）/share/solid1/solexa-work/Project_solexa_fq（9-10月份下机数据）以下是9月之前能够查找：/share/raid007/solexa-work/Project_solexa_fq/share/raid009/solexa-work/Project_solexa_fq/share/raid7/solexa-work/Project_solexa_fq3）找参考序列（包含参考基因组、参考基因、psl文件）如合作伙伴提供参考序列，则使用合作伙伴提供参考序列。如合作伙伴未提供，找到相关数据后，将链接发送给合作伙伴确定可行后方能使用。4）依据要求修改模板不熟悉各个参数作用，能够输入以下代码查看程序帮助： Perl/ifs1/DGE_SR/hezengquan/bin/ref/reference_transcriptome_pipeline.pl /ifs1/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap2.3投任务运行运行文件shmaid.shcdresult/nohupsh *_final.sh >*_final.sh.nohup&2.4查看任务进展操作任务命令行：查看个人全部在跑任务：qstat-u*（用户是*）查看某一个在跑任务：qstat-j24832|less（任务号是24832）杀掉个人全部在跑任务：qdel-u*杀掉某一个在跑任务：qdel24832假如是因为某一个运行文件犯错造成需要杀掉所要相关在跑任务，应该先杀掉这个在公共节点上跑任务如：上面*_final.sh犯错了，能够按以下步骤处理：top-udaichm按c键查看具体信息，找出所要杀掉任务，假设*_final.sh对应任务号是23849则可按k键，输入工作号，回车然后按9再回车即可杀掉该任务，再去做上面操作。查看整个任务进展：查看*_final.sh.nohup进入part_shell目录，查看对应任务运行信息，关键有能够查看以下多个文件：*.globle*.log进入下一层目录，查看.o和.e文件。找出问题所在并进行处理。2.5任务完成1）结果检验： a,结题汇报是否完整生成？b,打包数据中，相关文件是否齐全？c,分析要求是否全部做好了，差异分析有没有遗漏？d,有没有空文件产生？2）数据备份：因为各方面原因，产生数据有可能会丢失，提议对部分关键数据在相对稳定盘阵里做多一个备份，以免发生无须要大麻烦。三、Reference步骤程序模块说明配置文件：ref.lib主程序脚本：maid.shperlreference_transcriptome_pipeline.pl-namehuyang-libref.lib-outdir/ifs1/DGE_SR/daichm/project/HUYlfvT/result-diff-filter-2bwt-soap2.20-genomePopulus_euphratica.0114.genome-genePopulus_euphratica.0114.cds-pslPopulus_euphratica.0114.gff.psl-doall-verbose关键程序：reference_transcriptome_pipeline.pl其各项参数代表意思：Usagebasicparameters:－－基础参数-name<string>speciesname(necessary!)－－即物种名，注意不是文库名-lib<string>inputlibfile(necessary!),aformatexample:file"inputlib".－－配置文件-outdir<string>resultdir(necessary!)－－结果输出目录-genome<string>genomesequence(necessary!)－－参考基因组-gene<string>genesequence(necessary!)－－参考基因-psl<string>genepsl(necessary!)－－psl文件analysisoptions:－－分析选项-soap<string>soapversion(2.01|2.20|...)－－soap版本选择，现在用soap2.20-filterFilterreads－－过滤数据，得到cleanreads，通常也是必需选项-divDivideanalysisbychromosomename,ifallchromosomes'sizeislarge.－－基因组大时按染色体分块处理-doallDoallanalysisbelow,including5parts.－－包含以下五个选项-basicDobasicanalysis.－－基础生物信息分析-alterAlternativeSpliceanalysis－－高级生物信息分析中可变剪切-novelNovelTranscriptanalysis－－高级生物信息分析中发觉新转录本-utrExtendGeneanalysis－－高级生物信息分析中基因结构优化-svgProduceSVGfigure－－基因结构和Reads在基因组上分布正确图形-diffGeneexpressiondifference－－高级生物信息分析中差异表示基因-verboseoutputverboseinformationtoscreen－－输出运行信息到标准输出上-help<h|help>outputhelpinformationtoscreen－－帮助文档分析步骤图：使用参数说明：命令示例：1)bwt,filter对应程序：/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/bwt_filter.sh具体情况：a).基因组建库：/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/2bwt-builder/ifs1/DGE_SR/daichm/project/HUYlfvT/Populus_euphratica.0114.genomeb).基因建库：/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/2bwt-builder/ifs1/DGE_SR/daichm/project/HUYlfvT/Populus_euphratica.0114.cdsc).样本数据过滤(举其中一例)：sh/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/Filter.huiyang_chuli_L1.sh2)soapa).对基因组所建库跑soap：(举其中一例）/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap-a/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Reads/huiyang_chuli_L1_1.fq-b/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Reads/huiyang_chuli_L1_2.fq-D/ifs1/DGE_SR/daichm/project/HUYlfvT/Populus_euphratica.0114.genome.index-m0-x10000-s40-l35-v3-o/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Alignment/Genome/huiyang_chuli_L1.Genome.PESoap-2/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Alignment/Genome/huiyang_chuli_L1.Genome.PESoapSingleb).对基因所建库跑soap：(举其中一例）/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap-a/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Reads/huiyang_chuli_L1_1.fq-b/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Reads/huiyang_chuli_L1_2.fq-D/ifs1/DGE_SR/daichm/project/HUYlfvT/Populus_euphratica.0114.cds.index-m0-x1000-s40-l35-v3-r2-o/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Alignment/Gene/huiyang_chuli_L1.Gene.PESoap-2/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Alignment/Gene/huiyang_chuli_L1.Gene.PESoapSingle关键程序：/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap其各项参数代表意思：Usage:soap[options]-a<str>queryafile,*.fq,*.fa-b<str>querybfile-D<str>referencesequencesindexingtable,*.indexformat-o<str>outputalignmentfile(txt)-M<int>matchmodeforeachreadortheseedpartofread,whichshouldn'tcontainmorethan2mismaches,[4]0:exactmatchonly1:1mismatchmatchonly2:2mismatchmatchonly4:findthebesthits-u<str>outputunmappedreadsfile-toutputreadsidinsteadreadsname,[none]-l<int>aligntheinitialnbpsasaseed[256]meanswholelengthofread-n<int>filterlow-qualityreadscontaining>nNsbeforealignment,[5]-r[0,1,2]howtoreportrepeathits,0=none;1=randomone;2=all,[1]-m<int>minimalinsertsizeallowed,[400]-x<int>maximalinsertsizeallowed,[600]-2<str>outputfileofunpairedalignmenthits-v<int>maximumnumberofmismatchesallowedonaread.[5]bp-s<int>minimalalignmentlength(forsoftclip)[255]bp-g<int>onecontinuousgapsizeallowedonaread.[0]bp-RforlonginsertsizeofpairendreadsRF.[none](meansFRpair)-e<int>willnotallowgapexistinsiden-bpedgeofaread,default=5-p<int>numberofprocessorstouse,[1]-hthishelp3)posCoveragea)对单样本处理/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/samples_pos.sh其中用到程序为：/nas/DGE_SR01/daichm/ref/posCoverageb)合并全部样本/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/posCoverage.sh其中用到程序为：/nas/DGE_SR01/daichm/ref/merge_poscoverage.pl4)transcript-unit/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/TranscritUnit.sha).PosCoverage.TAR其中用到程序为：/nas/DGE_SR01/daichm/ref/Mask2Tar.plb).Filter其中用到程序为：awk'$3>35{print}'/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Poscoverage/AllChr.AllTissue.PosCoverage.TAR>/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Poscoverage/AllTissue.PosCoverage.TAR.Filterc).PairEndJoinTAR其中用到程序为：/nas/DGE_SR01/daichm/ref/PairEndJoinTAR.pld).TAR2Genes其中用到程序为：/nas/DGE_SR01/daichm/ref/TAR2Genes.ple).TARGenes2psl其中用到程序为：/nas/DGE_SR01/daichm/ref/TARGenes2psl.pl5)importantanalysisstep/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/analysis5.pla).BasicAnalysis&&DiffBasicAnalysis:/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/basic.sh其中用到程序为：perl/nas/DGE_SR01/daichm/ref/MapReadsStat.plperl/nas/DGE_SR01/daichm/ref/ReadsRandomInGene.plperl/nas/DGE_SR01/daichm/ref/Soap_Coverage.plperl/nas/DGE_SR01/daichm/ref/CoverageList.plperl/nas/DGE_SR01/daichm/ref/chromosome_graph_wb.plDiff:/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/diff.sh其中用到程序为：/nas/DGE_SR01/daichm/ref/DiffExp/DiffExp_pipeline.plb).Extend/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/extend.sh其中用到程序为：/nas/DGE_SR01/daichm/ref/getGene.pl/share/raid1/genome/bin/blat/nas/DGE_SR01/daichm/ref/pslbest.pl/nas/DGE_SR01/daichm/ref/TarBGFortholog.pl/nas/DGE_SR01/daichm/ref/UTR.plc).AlternativeSplicing/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/GeneSpliceSite.sh其中用到程序为：/nas/DGE_SR01/daichm/ref/GeneSpliceSite.pl/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/JoinSplice.sh其中用到程序为：/nas/DGE_SR01/daichm/ref/JoinTARForSoap.pl/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/2bwt-builder/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/TrimNomap.sh其中用到程序为：/nas/DGE_SR01/daichm/ref/search_reads_TrimNomap.pl/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/JunctionSoap.sh其中用到程序为：/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/AlternativeSplice.sh其中用到程序为：/nas/DGE_SR01/daichm/ref/JunctionReadsStat.pl/nas/DGE_SR01/daichm/ref/SikppedExon.pl/nas/DGE_SR01/daichm/ref/MutuallyExclusiveExon.pl/nas/DGE_SR01/daichm/ref/AlternativeFirstLastExon.pl/nas/DGE_

人人文库> 全部分类> 应用文书 > 作业报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

转录组ref作业流程工作基础手册

文档简介

温馨提示

最新文档

评论

转录组ref作业流程工作基础手册

文档简介

温馨提示

最新文档

评论

相关文档