浅谈细菌基因组的finish.doc_第1页
浅谈细菌基因组的finish.doc_第2页
浅谈细菌基因组的finish.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浅谈细菌基因组的finish随着我国承担的1%人类基因组计划的完成,我国基因组科学取得了长足发展,特别是以中科院基因组研究所为代表的科研院所和以华大为代表的企业像雨后春笋一样,不断发展壮大。近年来,我国先后完成了人类基因组1%计划、水稻基因组计划、炎黄计划、大熊猫基因组计划等重大项目。这为我国基因组学的发展带来了空前的机遇,也使我国科学家在基因组学方面积累了丰富的知识。454、solexa和solid等第二代测序仪的出现,使得基因组测序成本大大下降,这也使某个实验室或者课题组独立完成一个物种的基因组特别是像细菌这样的小基因组成为可能。这也为我国科学家在测序技术方面提供了强有力的支持和保证。在这种背景下,为了更好的研究某一物种,对这一物种进行基因组测序往往成为我国科学家们的共识。但是,如何将海量的测序结果组装成一条完整的染色体就成了基因组测序工作中的重中之重,也是制约基因组测序工作的瓶颈问题。有幸的是,目前我参加了中科院北京基因组研究所的一个细菌基因组合作项目,在这个项目中,我走了很多弯路,也遇到了很多问题,下面我想就我在这个细菌基因组项目finish阶段从北京基因组研究所学到的一些经验给大家介绍一下,希望能对大家能有所帮助。下面我将按照我认为最合适的细菌基因组finish步骤给大家逐一介绍。首先是测序。在这一阶段,我们要注意的就是细菌基因组DNA的提取:第一要避免污染,第二要做好纯化。这一步做好了,对我们后期的基因组finnish 有事半功倍的效果。第二步是组装。现在可用来组装的程序很多,如果你对这些程序不是很了解,推荐你用测序仪自带的组装程序,比如454测序仪用Newbler程序。我们也可以用phred、phrap、consed程序包,但是通过我的比较,phred、phrap、consed程序包不如Newber程序,但是后期的gap finish我推荐用phred、phrap、consed程序包。第三步是finish,这也是今天要介绍的重点。Finish阶段是最繁琐,也是最耗时的阶段。在这阶段,如果你是第一次做基因组finish,我推荐你至少要看看基因组方面的文章,对自己这个基因组要finish到什么程度有个了解,其次,和有经验的人多聊聊,他们遇到的问题,一定是你也要遇到的问题,然而,他们多走的弯路,你可以通过询问少走一点。下面就是具体操作:第一,我们需要登陆NCBI官方网站,下载这个基因组的所有数据,包括已知的基因组(如果有就是重测序,没有就是de novo,即第一次测序)、质粒、基因、RNA、蛋白质、EST等。如果有近缘物种或株系的基因组数据,我们也要下载下来。第二,就是你要对自己的组装结果有个大致的了解:知道组装好的每个contig的长度、reads数和reads的base数,总contig的长度、reads数和reads的base数。这样,你就可以计算出这个基因组所有contig的平均coverage和每个contig的coverage。通过每个contig的coverage与平均coverage的比值,我们可以知道这些contig那些在基因组上是unique的,那些是重复序列,重复序列的coverage大概是平均coverage的多少倍,即大概在基因组上出现了多少次。第三,如果有近缘物种或株系的基因组,那么用我们组装的所有contig和近缘基因组进行序列比较(如blast),将所有contig定位到近缘基因组上,从而帮助确定contig之间的关系(精确到contig的哪一端和哪一端连接)。如果没有近缘物种,那么用我们组装的所有contig和NCBI的nr/nt库进行序列比较,用那些能和两个或两个以上的contig比对上的序列来定位contig之间的关系。此外,我们还要提取能和contig比对上的那些序列的信息,这可以帮助我们了解我们的contig是什么序列,如rRNA、转座子、重复序列等,也可以帮助我们去除DNA污染,将那些和其他物种基因组完全比对上的contig作为DNA污染去除。如果这些都没能帮助我们很好的定位contig之间的关系,那么我们就只能通过第四步来确立contig之间的关系了。第四,根据那些能在两个或者两个以上contig中出现的reads,提取contig之间可能的连接关系。第五,这也也是最关键的一步,就是补洞。我们只对那些长度大于500bp或者1kb的contig进行后继分析,因为小于500bp或者1kb的contig在我们后期测序过程中通常可以跨过去。首先,我们要对这些contig进行归类,分为unique contig和重复contig。对那些unique contig,我们需要在每个contig 的两端大概300bp左右设计并合成向外的PCR引物。合成引物时,我们可以将contig默认的起始部位认为是contig的头部,终止部位认为是contig的尾部,这在后续设计PCR测序引物对时会用到。在设计时,一定要保证这些引物在所有contig中都是unique的。其次,我们要根据第三步和第四步定位的contig之间的关系,对那些unique contig之间可能的连接进行引物配对设计(注意,一定是contig之间的具体连接,即头头连接或头尾连接),并利用这些引物对来对基因组DNA进行PCR反应。如果涉及到重复contig,我们需要得到所有和重复contig头部及尾部连接的unique contig,然后根据他们与重复contig之间的关系确定所有可能的unique contig之间的连接关系,并根据这些连接关系进行引物配对,同样,利用这些引物对来对基因组DNA进行PCR反应。如果到目前为止,还有一些contig不能确定它们之间的关系,那么就只能通过随机进行引物配对设计或者通过随机PCR来确定它们之间的关系了。再次,对PCR反应产物进行电泳,根据电泳结果,进行上机测序。这里值得注意的是,如果有杂带,可能是PCR引物设计不好,在整个基因组上不唯一;最好的办法就是将所有引物序列与所有contig之间进行blast序列比对,如果blast结果中一个引物在所有contig中有大于一个位置能够match,那么我们需要重新设计引物,保证引物的unique。如果还是不唯一,我们就只能通过改变PCR反应中变性、退火和延伸的温度、时间等条件来获得唯一条带,或者我们分别对每个条带进行测序。此外,在上机前,我们需要对PCR产物进行纯化,将那些杂序列如引物互相连接的序列等除去。纯化结果会直接影响测序结果的好坏。最后,将测序结果与所有contig之间进行比对,根据比对结果,修补gap,将所有contig连成完整的一条染色体。这一步推荐用phred、phrap和consed软件来完成。在这个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论