利用BLAST工具寻找新基因_第1页
利用BLAST工具寻找新基因_第2页
利用BLAST工具寻找新基因_第3页
利用BLAST工具寻找新基因_第4页
利用BLAST工具寻找新基因_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物工程二班生物工程二班2010472020820104720208郭广兴郭广兴 这篇这篇PPT从一个例子出发,介绍了从一个例子出发,介绍了 如何如何利用利用BLAST工具寻找新基因,以供大家参考。工具寻找新基因,以供大家参考。由于本人能力有限,由于本人能力有限, 其中可能有部分观点理其中可能有部分观点理解不到位,介绍的也不够详细,解不到位,介绍的也不够详细,仅供参考仅供参考。不足之处还请大家批评指正不足之处还请大家批评指正 。 本人保留对这篇本人保留对这篇PPT的所有的所有权利(权利(),仅),仅限于交流、学习之用,未经允许,限于交流、学习之用,未经允许,严禁分享、上传,希望大家尊重严禁分享

2、、上传,希望大家尊重他人的劳动成果,谢谢!他人的劳动成果,谢谢! 发现发现新基因是指在数据库中发现新基因是指在数据库中发现一些还没有一些还没有被注释被注释的的DNA序列。序列。新基因序列,新基因序列,是指在数据库中是指在数据库中已经存在,但在蛋白质水平上已经存在,但在蛋白质水平上还没有完全匹配的基因序列,还没有完全匹配的基因序列,或者是在蛋白质水平上也有完或者是在蛋白质水平上也有完全匹配的但却来自于另一个物全匹配的但却来自于另一个物种的基因序列。种的基因序列。BLAST (Basic Local Alignment Search Tool)是一是一套在蛋白质数据库或套在蛋白质数据库或DNA数据

3、库中进行相似数据库中进行相似性比较的分析工具。性比较的分析工具。 首先从一个已知的蛋白质序列出发,搜首先从一个已知的蛋白质序列出发,搜索一个索一个DNA数据库;找到尚未注释的、与查数据库;找到尚未注释的、与查询序列相关的序列匹配,得到新发现的基因询序列相关的序列匹配,得到新发现的基因和对应的蛋白质;采用多种措施来验证匹配和对应的蛋白质;采用多种措施来验证匹配结果,证实确实发现了新的基因。结果,证实确实发现了新的基因。我采用的我采用的数据库为美国国立生物技术信息中数据库为美国国立生物技术信息中心(心(The National Center for Biotechnology Informatio

4、n 网址网址:/)GenBank数据库。数据库。使用使用的的工具为工具为BLAST(Basic Local Alignment Search Tool 网址:网址:/)。)。Step1:选择一条已知蛋白序列:选择一条已知蛋白序列 这里给大家的例子是这里给大家的例子是视黄醇结合蛋白视黄醇结合蛋白( retinol-binding protein )。 视黄醇结合蛋白是血液中视黄醇结合蛋白是血液中维维生素的转运蛋白生素的转运蛋白,由肝脏合成、,由肝脏合成、广泛分布于血液、脑脊液、尿液广泛分布

5、于血液、脑脊液、尿液及其他体液中。测定视黄醇结合及其他体液中。测定视黄醇结合蛋白能早期发现肾小管的功能损蛋白能早期发现肾小管的功能损害,并能灵敏反映肾近曲小管的害,并能灵敏反映肾近曲小管的损害程度,还可作为肝功能早期损害程度,还可作为肝功能早期损害和监护治疗的指标。损害和监护治疗的指标。视黄醇结合蛋白(人类)视黄醇结合蛋白(人类)retinol-binding proteinHomosapiens1246aaproteinAccession:AAA59188.1GI:307075在在NCBI的搜索栏中搜索的搜索栏中搜索“Protein”中的中的“retinol-binding protein”

6、,如图如图点击进入人类视黄醇点击进入人类视黄醇结合蛋白的详情页面,结合蛋白的详情页面,会发现该基因的会发现该基因的FEATURES注释的很注释的很详细,包括详细,包括source、Protein、Region、Site、CDS等属性,可等属性,可以和后面的新基因进以和后面的新基因进行对比。行对比。Step2:将选择的蛋白质序列用:将选择的蛋白质序列用TBLASTN进行进行搜索搜索 BLAST主页主页选择选择HTGS,EST,GSS 或者特定物种的基因序列或者特定物种的基因序列搜索结果返回页面搜索结果返回页面 :图中三项依次是图中三项依次是图表摘要、描述和图表摘要、描述和比对信息比对信息,这三项

7、在返回的页面中,这三项在返回的页面中默认是展开的,这里为了在同一截默认是展开的,这里为了在同一截屏显示,把这三项手动折叠了屏显示,把这三项手动折叠了搜索结果返回页面搜索结果返回页面 :接下页接下页搜索结果返回页面搜索结果返回页面 :上说这些匹配的上说这些匹配的蛋白质可能:蛋白质可能:在一些数据库中得到的结在一些数据库中得到的结果完全匹配或者几乎完全匹果完全匹配或者几乎完全匹配。这就不是新基因了。配。这就不是新基因了。一些数据库的结果也非常一些数据库的结果也非常匹配,而该数据库中编码这匹配,而该数据库中编码这些蛋白质的些蛋白质的DNA还没有被还没有被注释过。这种情况可能是新注释过。这种情况可能是

8、新基因。基因。一些搜索结果并不是非常一些搜索结果并不是非常匹配。这就需要依赖经验来匹配。这就需要依赖经验来判断哪些数据库中的匹配是判断哪些数据库中的匹配是真正的匹配,哪些不是。真正的匹配,哪些不是。逐个序列的验证逐个序列的验证是最经典而有效的方法是最经典而有效的方法:具体来说,就是点击最右边具体来说,就是点击最右边一列一列Accession,进入该基,进入该基因的详情页面,主要看因的详情页面,主要看FEATURES,如果,如果FEATURES 下面只有下面只有source(有的还有(有的还有gap 或或misc_feature等等 ),不含),不含有有Protein、Region、Site、C

9、DS等注释属性,则可初等注释属性,则可初步判定它是未被注释的新基步判定它是未被注释的新基因。因。按照上述方法初步判定,除了下图中标注出按照上述方法初步判定,除了下图中标注出的的6个基因,其他的均有可能是新基因个基因,其他的均有可能是新基因此处选择此处选择 ACSSTION为为CU539131.1的的Human gut metagenome(人类肠道宏基因组)(人类肠道宏基因组)Step3:用数据库搜索来判断它是否是真的:用数据库搜索来判断它是否是真的新蛋白质新蛋白质用CU539131.1进行BLASTP搜索,搜索的结果表明它和其它一些蛋白质相当近源,但它在GenBank数据库中还没有被注释过。

10、具体措施:具体措施:将将CU539131.1在在Alignments(比对信(比对信息)息)中出现的序列(中出现的序列(红色标出部分红色标出部分)作为输入项在作为输入项在一个一个非冗余非冗余(nr)数据库数据库中中逐一逐一进行进行BLASTP搜索。搜索。 BLAST主页主页在这里也可切换在这里也可切换BLAST的不同功能的不同功能CU539131.1的第一条的第一条sbjct序列序列非冗余的蛋白质序列库非冗余的蛋白质序列库 (nr)BLASTP结果:结果: 在此页面中用在此页面中用“页面查找页面查找”功能功能(Ctrl+F),看页面中是否有属于),看页面中是否有属于Human gut meta

11、genome(人类肠道宏基因组)的(人类肠道宏基因组)的蛋白。结果显示蛋白。结果显示“未找到未找到”。() 用用CU539131.1蛋白质进行蛋白质进行BLASTP搜搜索的结果表明它和其它一些蛋白质相当近源,索的结果表明它和其它一些蛋白质相当近源,但它在但它在GenBank数据库中还没有被注释过。数据库中还没有被注释过。在在BLASTP结果中,虽然有许多与结果中,虽然有许多与CU539131.1高度高度 匹配的蛋白,甚至匹配的蛋白,甚至有有100%匹配的蛋白,但是这些蛋白都不属于匹配的蛋白,但是这些蛋白都不属于Human gut metagenome(人类肠道宏基因组)。也就是说,虽然有和我们

12、发现的蛋白具有一模(人类肠道宏基因组)。也就是说,虽然有和我们发现的蛋白具有一模一样特征的蛋白,但是他们是通过其他物种被发现和被注释的,我们发一样特征的蛋白,但是他们是通过其他物种被发现和被注释的,我们发现的这个物种的这个蛋白还没有被注释,那么这个蛋白质所对应的基因现的这个物种的这个蛋白还没有被注释,那么这个蛋白质所对应的基因就是没有被注释的新基因。(这是我的理解,言不尽意,大家认真思考)就是没有被注释的新基因。(这是我的理解,言不尽意,大家认真思考)接下来我们把接下来我们把 CU539131.1的其他几个的其他几个sbjct序列逐个进行序列逐个进行BLASTP,步骤同上。,步骤同上。考虑到最

13、后一个考虑到最后一个sbjct序列太短,没有参考价序列太短,没有参考价值,值,可以忽略。可以忽略。 CU539131.1的三个主要的三个主要sbjct片段片段 验证验证结果均未找到该物种的相同蛋白,从某种意结果均未找到该物种的相同蛋白,从某种意义上,我们就可以确定义上,我们就可以确定CU539131.1所对应的所对应的基因是一个新基因。基因是一个新基因。Step4:找到:找到 CU539131.1对应的基因,开展对应的基因,开展后续研究工作后续研究工作这个基因还是最近提交到数据库的这个基因还是最近提交到数据库的在该基因的在该基因的FEATURES下,只有下,只有source一项,一项,可以和人

14、的是视黄醇结可以和人的是视黄醇结合蛋白基因对比,新基合蛋白基因对比,新基因的特征还是很明显的。因的特征还是很明显的。点击点击FASTA可获取该基因的可获取该基因的FASTA格式格式FASTA格式:格式:视黄醇结合蛋白(猪)视黄醇结合蛋白(猪)retinol-binding proteinSusscrofa201aaproteinAccession:AAA31113.1GI:164633在在NCBI的搜索栏中搜索的搜索栏中搜索“Protein”中的中的“retinol-binding protein”,如图如图 按照上述方法步按照上述方法步骤进行探索,发现新骤进行探索,发现新基因是非常容易的,基

15、因是非常容易的,大家加油!大家加油! 示例中发现的新基因存在于人类肠道的示例中发现的新基因存在于人类肠道的宏基因组中,宏基因组中,宏基因组宏基因组 ( Metagenome)(也称也称微生物环境基因组微生物环境基因组 Microbial Environmental Genome, 或元基因组或元基因组) 。是。是由由 Handelsman 等等 1998 年提出的新名词年提出的新名词, 其定义为其定义为“the genomes of the total microbiota found in nature” , 即即生境中全生境中全部微小生物遗传物质的总和部微小生物遗传物质的总和。 如果人类如

16、果人类 肠道的宏基因组可以产生与视黄醇结合蛋白类肠道的宏基因组可以产生与视黄醇结合蛋白类似的有转运维生素功能的蛋白质产物,那么,它会对人体有似的有转运维生素功能的蛋白质产物,那么,它会对人体有什么影响呢?什么影响呢? 我们可以大胆推测,我们可以大胆推测,一方面一方面,维生素等营养物质大都是,维生素等营养物质大都是在小肠被机体吸收的,如果肠道内存在在小肠被机体吸收的,如果肠道内存在 由由CU539131.1表达表达的具有转运维生素功能的分泌型蛋白,那么,这些蛋白质有的具有转运维生素功能的分泌型蛋白,那么,这些蛋白质有可能有利于肠道对维生素的摄取;可能有利于肠道对维生素的摄取;另一方面另一方面,该

17、蛋白质是由,该蛋白质是由微生物菌群产生的,很有可能它会辅助微生物菌体摄取维生微生物菌群产生的,很有可能它会辅助微生物菌体摄取维生素,其结果可能是造成机体本该摄取的维生素的量降低,危素,其结果可能是造成机体本该摄取的维生素的量降低,危害人体健康。我们可不可以改造它的这一特性为我们所用。害人体健康。我们可不可以改造它的这一特性为我们所用。 当然这就需要进一步深入的当然这就需要进一步深入的 研究了,但我想说的是如研究了,但我想说的是如果在找到一个新基因之后,能够引发这样的思考,这才真正果在找到一个新基因之后,能够引发这样的思考,这才真正的体现出了寻找新基因的意义。的体现出了寻找新基因的意义。 作为新基因寻找的第一步,起始蛋白的作为新基因寻找的第一步,起始蛋白的选择是至关重要的。选择的是否得当将严重选择是至关重要的。选择的是否得当将严重影响到新基因的发现与否。影响到新基因的发现与否。 使用多种方法以及多种数据库使用多种方法以及多种数据库也会

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论