基因组序列的差异分析_第1页
基因组序列的差异分析_第2页
基因组序列的差异分析_第3页
基因组序列的差异分析_第4页
基因组序列的差异分析_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基因组序列的差异分析mVISTA的在线使用说明当然,除了在线版的,我们还可以在网站上填写信息中请离线的软件。但我试用了一下,需要先自己比对,然后要按照一定的格式来制作文 件,当然你还必须得安装java才能运行软件;总之,我感觉没有在线 版的方便。1将数据放入服务器中在首页,你将被要求确龙你想要分析的基因组序列的数量。输入这个数字之后,点击“提 交”,将带你到主提交页面。mVISTA服务器最多可以同时处理100条序列。mVISTA SubmissionRankVISTA regions are now autoinaiically computed for all mVISTA submissi

2、ons. Add die rankVISTA curve in the VISTABrov/ser io view them. or click the rankVISTA link in the Text Browser to download the results of the coinputationPlease enter the number of species you would like to compare and click the Submit button. This will take you to a form where you may input your s

3、pecie Sequences.Total number of I I fJ要求你填入需要分忻的序列骸量sequences: w (2 -100 ) SubmitRsuipd fields are forked1.1主提交页面必填的内容E-mail地址通过ErnaiL我们可以提示你的在线处理已经得到结果。序列你可以用2种方式来上传你的序列:使用“Browse按钮从你的电脑上,上传纯文本的Fasta格式文件。如果是一个作为参考的 生物体的DNA序列必须作为一个contig提交(可以进行一泄的左向排列将多个片段合并为 一个cont回,而英他非参考序列可以在一个或多个contig中提交(draft)

4、。Fasta格式的示例序列(您可以在NCBI站点上找到关于该格式的更多细节):mouse ATCACGCTCTTTGTACACTCCGCCATCTCTCTCT注意:序列里而我们只接受字母CAGTN和X。请确保提交序列是作为一种纯文本格 式,而不是Word或HTML文件格式。如果您以FASTA格式提交序列,我们建议您为它取一个有意义的名称(比如直接是你 的物种名之类的),因为这些需称将出现在我们生成的图形中。如果您使用的是一个draft 草图序列,那么结果中每个contigs的命需都将按照您在“”符号后指示的命名进行。您可以给出它的GenBank登录号,系统将自动从GenBank数据库里进行检索

5、序列。在这两种情况下,序列的总大小都不应超过10M,而且任何一条序列都不应超过2M。1.2主提交页面选填的内容这些选项允许您自定义您的VISTA分析。您可以使用独立获得的基因注释,选择合适的Repeat Masker选项,给分析的序列指泄爻且称,并改变序列保存分析的参数。如果您没有填写这些选填 选项,我们将使用它们的默认值。比对程序根据您分析的具体内容(参见“about”-链接中的详细信息),您可以选择以下比对程序之一:1、AVID-全局两两比对。如果您选择使用这个程序,其中一个序列应该被完成比对,其他所 有序列可以完成或以草图draft格式完成。对于集合中所有已完成的序列,AVID生成所有

6、相对所有成对的比对结果,可以使用任何序列作为基础(参考)来显示。如果某些序列是 草图格式,AVID将生成它们与最终序列的比对,这将被用作基础(参考)。这是该服务器 上唯一可以处理草图序列的比对程序。(小知识:草图序列与完整序列 DNA sequence, draft: Sequence of a DNA with less accuracy than a finished sequenee. In a draft sequenee, some segments are missing or are in the wrong order or are oriented incorrectly.

7、A draft sequenee is as opposed to a finished DNA sequence)2、LAGAN-完成完整序列的全局两两比对和多重比对。如果某些序列是草图格式,您的查询 将被重泄向到AVID以获得两两比对。多重比对将由VISTA可视化,它将计算并显示序列的 保守区,以您指示的任何序列作为参考。这是该服务器上唯一能够产生真正的多重比对的程序。3、Sheffle-LAGAN-完整序列的全局比对。它检测序列中的重排和逆序,同时产生一个全局的端 到端映射图。如果你输入几个序列,所有成对的组合将被处理,结果将在VISTA中可视 化。这是该服务器上唯一可用于检测重排和逆序

8、的比对程序。(叶绿体基因组差异分析论 文中好像一般都选这个)对每条序列你可以选择:名字你选择的物种统字将会显示在图例中。我们建议您使用一些有意义的内容,例如这个生物 体的爻且称、您的实验编号或数据库标识。当您使用GenBank标识符来输入序列时,默认情况下 我们将使用它作为序列的名称。(页面默认的是sequencel, sequence2, sequence3.)注释如果有序列的基因注释信息,您可以将其以简单的纯文本格式提交,以便在绘图中显示。 每个基因由其在序列上的起始和结束坐标以及列在一行上的需称来左义。一行前应放置大于 ()或小于(V)的符号,以表示正链或负链,但编号应根据正链来排列。在

9、每个外显子的开始和 结束坐标之后,外显子以单词“exon”单独列出。UTRs的注释方式与外显子相同,用utr代替 “外显子”。例如:le ge*n shownFil?OCkpbAid0Calt?c1iaft3 . Analpii Tac:匚5|网d 1 ng矣 jmjlGcliBtati 厂SummaryiqucnccGeriBwhGerCank (til)FASTAASH 1XMLIMSDS制 XM.TinySeq MLFeature TaMeAccession LotGl WGFF3OtionBicRojoctBwSsrrpkTAxonoiACompcncrts (Coro)OencmeR

10、ecent activity目 Panax notoginscng iso 匕cvosome 9. whole 沪Q Panax(123355)注意:但是我下载后导入mVISTA,结果显示只注释了前而一半的基因,后一半序列没有注释,我 也暂时没搞懂,所以,后来就在网上下了一个perl脚本,来自于简书的mVISTA格式文件:由 Perl脚本处理GenBank注释文件而来,然后把NCBI上下载的参考序列的gb文 件转换成了 mVISTA格式文件。重复序列(RepeatMasker的选择)我们建议掩蔽一个碱基序列以获得更好的比对结果。您可以提交掩码或非掩码序列。如果 提交了一个掩码序列,英重复的碱基

11、序列被替换为字母“N”,请在下拉菜单中选择“one- celled/do not maskn选项。我们还接受轻度掩蔽序列,其中重复的元素以小写字母显示,而序列的苴余部 分以大写字母显示。在这种情况下,你需要在菜单中选择 softmasked 选项。如果你的序列是非掩码的,我们的服务器将用RepeatMasker来掩盖重复序列。请在菜单中 为您的具体序列选择一个特任的掩码。如果你不希望你的序列被掩码,选择“one- celled/do not mask”。反向互补选择您想要对第二个序列进行反向互补的比对(如果没有同源性,请尝试这样做)。监管 VISTA(rVISTA)访问 RegulatoryV

12、ISTA(rVISTA)access我们的服务器可以预测转录因子结合位点,通过对结果序列运行Regulatory VISTA (rVISTA)o rVISTA的最大尺寸限制是20IG有关此工具的信息,请参阅rVISTA说明。结果在提交你的序列几分钟后,你将收到来自vista的电子邮件,提供给你一个个人 网 络链接,从那里你可以访问你的分析结果。下而是结果页。它列出了您提交的每个生物体,并为您提供了三个查看选项。这三个选项 是:文本浏览器(TextBrowser):提供所有详细信息一一序列、比对、保守序列统汁等;VISTA浏览器 (Vista Browser):是一个交互式可视化工具,可以动态浏

13、览结果的比对,调整VISTA曲线和保存序 列参数;和一个PDF文件(PDF):这是一个静态的VISTA比对结果图。Base (reference)Input and output files DynamicVistaorganism(sequences八 alignments, etc.)VisualizationImagesequencelTextBrowse rVista BrowserPDFsequence2TextBrowserVista BrowserPDFsequenc&3TextBrowserVista BrowserPDF在表的底部有一个链接,允许您凋整保存和可视化参数。通过点

14、击它,用户可以改变某些 参数,这些参数用于计算保守区域和显示每对提交序列的VISTA图。谙注意,这些参数也可以在 使用VISTA浏用器(VISTA Browser)时动态调整。TextBrowser这个链接将以文本格式显示分析的结果。You are browsing diiinp_r Chimp is the basealigned with:galagomouseother organismsInunanratusing the SLAG AN alignment pm gram Al 1 gnment prog ram在页而的顶部是一个横幅,显示比对好的生物体。在较暗的标题区域中列出的序列

15、充当基础或 叫参考(要选择一个不同的参考,返回到结果页而并单击所需的参考序列划称旁边的文本浏览器 链接L这个横幅还列出了用于比对序列的程序。Coordinates on base sequeneo/sequence 1 ligl7_liia: 1-504513ATi?taBrowser-view region in vista BrowserGet CNS: seauence 1Get Dotplots: seau 如 e 1 七 eauencJcns & dotplots for all displayed alignments下面是导航区域,它显示了当前显示区域的坐标,提供了一个到Vist

16、a浏览器的链接(见下面). 以及一个到所有保守区域列表的链接。此外,如果使用Shuffle-Lagan作为比对程序,将会有一 个链接来下载生成的比对结果的点状图0:hgL7 dna:l 30626L (+)mm5_dna:101829-347929 (-)Sequence length: 246.10Kbp Vista BrowserScore: 81754 alignment: sequencel- sequence2 irifa:length: 306.26Kbp抨 17 dna:293043 . 32f973 (+)cns:pdf:sequencel-sequenceQsequetice

17、l-sequeticeQseqmcel-sequenceQSequence length: 31.93KbpOverlap=13218bp1115人:101859.133436 (+)Sequencelength: 31.58KbpVista ErowsetScore: 425alignment: sequencel- sequence2mfa:sequencel- sequence2cns:s e queue e 1 - s e接下来是主表,其中列出了相对参考生物体生成的每次比对。每一行都是一个单独的比 对 结果。除最后一列外,每一列都是指提交分析的序列。最后一列包含与整个比对有关的信息。每

18、一行的第一个单元格还包含这个特泄比对的VISTA图的预览,这允许你快速评估这个比 对的质量,并看到重合部分。通过观察表格中的一行,你可以看到每个生物体的哪个部分与哪个部分比对上了。“Sequence链接将返回一个参与比对的fasta格式的生物体序列片段。单击VISTABrowser”链接将 启动设置为以所选有机体为参考的VISTA浏览器,并将坐标设亶为所选比对的坐标。最后一列提供了一些关于人类可读的、MFA (multi-fasta对齐)格式的链接,一个单独使用 这种比对的保守区域列表,以及单独使用这种比对的pdf图的链接。如果被检查的区域是20K或 更少,可以执行rVISTA分析,并且rVI

19、STA的链接也会显示在这里。最新! !最后一栏还提供了对比对rankVISTA分析结果的链接。点击这里阅读更多关于 RankVISTA 的信息。VISTA Browser单击VISTA浏览器链接将启动程序,并选择相应的生物体作为基础/参考序列。VISTA浏 览 器是一个交互式的Java程序,设计来可视化多个比对结果。浏览器清晰的显示界而可以 很容易 地跨多个物种识别高度保守的区域。详细的帮助和说明可以在这里获得: HYPERLINK /vgb2help.shtmL /vgb2help.shtmLPDFPDF文件是比对结果和找到的保守区域的可视化显示方式。mVISTA图片最明显的特征是 “峰谷”

20、图。这张图显示了在任何给左的坐标下,两种生物之间的保守区域百分比(或者是差异 百分比,如果你使用cVISTA选项)。顶部和底部百分比界限显示在每一行的右边。不同保存区域的颜色对应于该区域的注释。默认情况下,粉色区域是保守的非编码序列” (“CNS” ),深蓝色区域是外显子exons,浅蓝色区域是非翻译区UTRs。碱基序列中的空格由图下 面的红色线条部分表示。颜色图例汇总在显示器的左上角。表示基因的箭头画在图的上方,指向基因的方向。外显子和非翻译区在mVISTA主图上都是 彩色的。如果有足够的空间,基因名称都会出现在箭头下方。重复直接显示在图的正上方,根据 图左侧的方案着色。图下的灰色线显示contigs,在草图draft序列的情况下,contigs会被编号。注意:最后得到的结果都是一个pdf的文件,pdf格式是矢量图格式,因此你就可以尽情编借啦, 只要你用的pdf编借器有编辑功能(如下图所示),你就能随意调动那些基因注释的大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论