山西师大郜刚生物信息学-05-2-NCBI-COG_第1页
山西师大郜刚生物信息学-05-2-NCBI-COG_第2页
山西师大郜刚生物信息学-05-2-NCBI-COG_第3页
山西师大郜刚生物信息学-05-2-NCBI-COG_第4页
山西师大郜刚生物信息学-05-2-NCBI-COG_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学课件

郜刚

EST对应基因产物的系统分析—COG分析观点祖先序列在漫长的进化过程中,可能产生直系同源和旁系同源两类蛋白质。直系同源:简而言之,由不同物种的垂直家系进化而来的蛋白质,具有祖先蛋白质类似的功能旁系同源:从相关物种基因组中复制的蛋白质,可能会产生新的功能种系发生学中的同源(Homology)

传统的种系发生学是研究生物的形态结构为主的,所以认为如果两个或多个结构具有相同的祖先,则称它们同源(Homology)。这里相同的祖先既可以指进化论意义上的祖先,即两个结构由一个共同的祖先进化而来(翅膀与手臂是同源的),强调了结构的相似性,不强调功能的相似性也可以指发育意义上的祖先,即两个结构由胚胎时期的同一组织发育而来(乳房与睾丸同源)。人类鸟类蛙类蜥蜴蝙蝠猫科鲸类肱骨桡骨腕骨尺骨脊椎动物除了鱼类之外,是两栖类、爬虫类、哺乳类及鸟类在演化是具有系统性的,其同源器官(homologousorgans)即使功能不同但在结构上仍保有原本的原始架构。其外观上的差异仍是建立于原始架构之上。进化上强调了结构的相似性种系发生学,进化,强调结构的相似性,不强调功能的相似性同源这一概念需与相似区分开来。比如说,昆虫的翅膀、蝙蝠的翅膀和鸟类的翅膀是功能相似的,但却不同源,这种现象被称为非同源相似(或同形质,英文:Homoplasy)。这些相似的结构由不同的渠道演化而来,这种演化过程叫做趋同演化。遗传学中的同源

在经典遗传学中,同源这一概念既不强调结构相似性,也不强调功能相似性,只是强调亲子关系的有无或者亲缘关系的远近。比如同源染色体,异卵双生、同卵双生的双胞胎等。只有当遗传学中涉及到DNA水平的序列时,才逐渐强调了DNA结构的相似性。生物信息学中的同源生物信息学中,尤其是比较基因组学中,涉及到蛋白质和DNA的同源性时,常常通过它们序列结构的相似性来判定,并且强调结构相似、功能相似、进化上来源的祖先的相似。考虑的比较多,比较麻烦,homolog因此就有了Ortholog和Paralog之分。所以我们要澄清的有几个方面:相似性(similarity)和同源性(homology)是两个完全不同的概念数据库搜索的基础是序列的相似性比对,而寻找同源序列则是数据库搜索的主要目的之一。我们经常用相似性描述同源性,但是,相似性(similarity)和同源性(homology)是两个完全不同的概念。同源与相似的区别相似性是指序列比对过程中用来描述序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。相似性不要求与进化起源是否同一,不要求与亲缘关系的远近,不要求与结构、功能有什么联系。而同源就恰好相反,它要强调这些。同源或者同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。同源性可以用来描述染色体—“同源染色体”、基因—“同源基因”和基因组的一个片断—“同源片断”同源与相似的联系同源性是要用相似性来描述的。当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。但是类似于“具有xx%同源性”,或“这些序列高度同源”等说法,都是不确切的,应该避免使用。要么同源,要么不同源,没有高度低度之分。生物信息学中的同源有两类Ortholog

Homolog

Paralog同源直系同源旁系同源垂直方向的水平方向的Orthology通常译作直系同源、直向同源、垂直同源;Paralogy通常译作旁系同源、并系同源、横向同源。直系同源(orthology)是比较基因组学中最重要的定义。直系同源的定义是:在进化上,同一个始祖基因垂直传递(verticaldescent)的到两种或两种以上物种的基因组,结构上高度相似,功能上高度保守乃至相同,甚至在近缘物种可以相互替换;而且在发育上具有组织特异性与亚细胞分布相似。旁系同源(paralogy)是指同一基因组(或同系物种的基因组)中,由于某个始祖基因的加倍(复制)而横向(horizontal)产生的几个同源基因。有平行的意思直系同源旁系同源直系同源同源直系与旁系的最大的共同点是同源,都源于各自的始祖基因。其区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。旁系同源的功能变异可能是横向加倍后的重排变异或进化上获得了另一功能,其功能相似也许只是机械式的相关(mechanisticallyrelated),或非直系同源基因取代新产生的非亲缘或远缘蛋白在不同物种具有相似的功能。9、鉴定直系同源的实际操作标准(practicalcriteria)如基因组Ⅰ中的A基因与基因组Ⅱ中的A‘基因被认为是直系同源,则要求:(1)A‘的产物比任何在基因组Ⅱ中所发现的其它基因产物都更相似于A产物;(2)A‘与A的相似程度比在任何一个亲缘关系较远的基因组中的任一基因都要高;(3)A编码的蛋白与A‘编码的蛋白要从头到尾都能并排比较,即含有相似以至于相同的模序(motif)关于“同源”的解释earlyglobingeneA-chaingene B-chaingenefrogAchickAmouseAmouse

BchickBfrogBparalogsorthologsorthologsgeneduplicationhomologsIntroductiontoCOGsGeneralTopicsWhatareCOGs?HowareCOGscreated?WherecanIgetmoreinformation?UsingCOGsWhatkindofinformationcanbeobtainedusingtheCOGdatabase?HowdoIfindaparticularproteinintheCOGdatabase?SelectingCOGsHowcanaparticularsetofCOGsbeselected?AretherewaystocombinecriteriatoselectasubsetofCOGs?COGnamesWhatshouldIknowaboutCOGnames?WhatdothevariousabbreviationsinCOGnamesstandfor?ProteinnamesWhatshouldIknowaboutproteinnames?Whatisthesignificanceofanunderscoreandanumberappendedtoaproteinname?Howweregenesnamedwithrespecttothespeciesoforigin?Terminology/GlossaryWhatterminologywillIneedtoknowtousethesepageseffectively?什么是COG?

“COG”是ClusterofOrthologousGroupsofproteins(蛋白相邻类的聚簇,蛋白质直系同源簇)的缩写。COG蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的66个(截止到2009年9月9日)完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序,可以把某个蛋白质与所有COGs中的蛋白质进行比对,并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询,基于Web的COGNITOR服务,系统进化模式的查询服务等。COGClustersofOrthologousGroupsofproteins(COGs)weredelineatedbycomparingproteinsequencesencodedincompletegenomes,representingmajorphylogeneticlineages.EachCOGconsistsofindividualproteinsorgroupsofparalogsfromatleast3lineagesandthuscorrespondstoanancientconserveddomain.实质

Phylogeneticclassificationofproteinsencodedincompletegenomes缘起/COG

大范围重视是从NCBI建立蛋白质直系同源簇数据库的时候。最初,蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG数据

构成每个COG的蛋白都是被假定为来自于一个祖先蛋白,并且因此或者是orthologs或者是paralogs。Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。Paralogs是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。请参考文献获得更多的信息。都是homeologCOG的建立及特点?建立:COG是通过把所有完整测序的基因组的编码蛋白一个一个的互相比较确定的。因此需要用完整的基因组来定义COG,这正是它的限制性特点:在考虑来自某一个特定基因组的某一个特定蛋白时,COG通过同源比较,就能够找到其他基因组中与之最相似的蛋白每一个COG必须包含来自于3个种系发生上有关系的基因组的同一个蛋白。因此,完全测序的全基因组的物种越多,COG才越有价值浏览NCBI-COG网站基本上是原核生物的真核生物的原核生物的COG真核生物的COGClustersoforthologousgroupsforeukaryoticcompletegenomes拟南芥ath线虫cel果蝇dme人hsa面包酵母sce裂殖酵母spo微孢子虫ecu视网膜母细胞瘤蛋白LIN-9/chromatin-associated染色质相关通路蛋白EST对应蛋白质产物的COG分析登录COG网站/COG/选择初始版本initialversion(在这里可以把EST对应的蛋白质进行COG蛋白同源簇分析)在COGnitor中输入EST所对应的基因产物的氨基酸序列在COGnitor中输入氨基酸序列,然后点击comparetoCOGsSaccharomycescerevisiae

Alcoholdehydrogenasemssvtgfyippisffgegaleetadyiknkdykkalivtdpgiaaiglsgrvqkmleerdlnvaiydktqpnpnianvtaglkvlkeqnseivvsigggsahdnakaiallatnggeigdyegvnqskkaalplfainttagtasemtrftiisneekkikmaiidnn

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论