基因家族的定义_第1页
基因家族的定义_第2页
基因家族的定义_第3页
基因家族的定义_第4页
基因家族的定义_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

什么是一种基因家族呢由一种共同的祖先基因通过重复(duplication)和突变(mutation)产生的、外显子中含有相似的序列的一组有关基因被称为基因家族(genefamily)。基因重复重要有三种方式:片段复制、串联重复和逆转录转座或其它转座事件等,基因重复后能够彼此形成基因簇(geneclusters),同一家族中的组员有时紧密的排列在一起,成为一种基因簇;更多的时候,它们却分散在同一染色体的不同部位,甚至位于不同染色体上,含有各自不同的体现调控模式。基因突变是基因分子进化的第一因素,由核苷酸替代、插入/缺失、重组和基因转换等引发的突变基因或DNA序列,通过群体水平的遗传漂变和/或自然选择进行扩散,并最后在物种基因组中得以固定,这种方式产生的新基因普通拷贝数目不会增加,相对基因重复是非常少的,重要是影响基因的序列以及其编码的蛋白。基因家族重要是指一组功效相似且核苷酸序列含有同源性的基因,是含有明显相似性的一组基因,编码相似的蛋白质产物。有时定义基因家族,从构造域角度来刻画。如:一类基因,其编码蛋白都含有同一种构造域,这一类基因是一种基因家族。例如MADS-box基因家族,这类基因都含有MADS-box构造域,尚有SET构造域基因家族。这个定义信息更偏向功效信息,普通来说构造域决定某种功效,由于构造域序列保守,易形成稳定的三维构造。这与共同祖先的定义有些差别,诸多构造域难找得到其共同祖先。另外一种基因的共同祖先定义比较复杂的,越是历史久远的祖先,由于物种的在进化过程中发生了诸多丢失和增加事件。共同祖先是个相对的概念,例如植物的共同祖先,普通涉及藻类及其它绿色植物,而被子植物共同祖先,根据已经测序的基因组,普通指单双子叶之前就能够。如果从共同祖先定义基因家族,诸多已知的基因家族就要被分成诸多个基因家族。有诸多网站(数据库)专门收集构造域,例如Pfam和InterPro,这两个数据库内容差不多。这些数据库以Hmmer算法为基础,根据Uniprot中包含的蛋白,进行序列连配找到保守的片段(构造域),再以这些序列使用Hmmer构建种子,保存这些种子。一种蛋白拿过来后,与这些种子比对,根据打分能判断出这个蛋白是不是含有这个构造域,这也是判断一种基因编码蛋白是不是属于这个家族。基因家族定义基因组进化中,一种基因通过基因重复产生了两个或更多的拷贝,这些基因即构成一种基因家族。是含有明显相似性的一组基因,编码相似的蛋白质产物。在真核细胞中许多有关的基因常按功效成套组合,被称为基因家族(genefamily)。同一家族中的组员有时紧密的排列在一起,成为一种基因簇;更多的时候,它们却分散在同一染色体的不同部位,甚至位于不同染色体上,含有各自不同的体现调控模式。一组功效相似且核苷酸序列含有同源性的基因,可能由某一共同祖先基因经重复和突变产生。多基因家族真核基因组的特点之一就是存在多基因家族(multigenefamily)。多基因家族是指由某一祖先基因通过重复和变异所产生的一组基因。多基因家族大致可分为两类:一类是基因家族成簇地分布在某一条染色体上,它们可同时发挥作用,合成某些蛋白质,如组蛋白基因家族就成簇地集中在第7号染色体长臂3区2带到3区6带区域内;另一类是一种基因家族的不同组员成簇地分布不同染色体上,这些不同组员编码一组功效上紧密有关的蛋白质,如珠蛋白基因家族。在多基因家族中,某些组员并不产生有功效的基因产物,这些基因称为假基因(pseudogene)。假基因与有功效的基因同源,原来可能也是有功效的基因,但由于缺失,倒位或点突变等,使这一基因失去活性,成为无功效基因。与对应的正常基因相比,假基因往往缺少正常基因的内含子,两侧有顺向重复序列。人们推测,假基因的来源之一,可能是基因通过转录后生成的RNA前体通过剪接失去内含子形成mRNA,如果mRNA经重复转录产生cDNA,再整合到染色体DNA中去,便有可能成为假基因,因此该假基因是没有内含子的,在这个过程中,可能同时会发生缺失,倒位或点突变等变化,从而使假基因不能体现。多基因家族的进化在进化过程中,基因家族如编码rRNA的基因或编码组蛋白的基因都是从共同的祖先基因通过重复(duplication)和歧化(divergence)进化而来的,它们含有相似或有关的功效。即使如此,但它们在发育过程中并不总是同时体现的,不同的组员可能在不同的发育阶段和(或)不同的组织中体现,如有些血红蛋白基因家族组员在成体中体现,而另某些则只在胎儿期体现,这一事实阐明在基因调控水平发生了进化歧化(evolutionarydivergence)。在足够时间的进化过程中,基因家族中某些组员的DNA序列可能歧化为可编码一种含有新功效的蛋白,例如,乳清蛋白(lactalbumin)基因与溶菌酶基因就属于同一种家族,前者编码催化乳糖合成的酶的一种亚基,后者编码的溶菌酶能降解某些细菌细胞壁的多糖化合物,但它们含有一种共同的特点就是都作用于碳水化合物。我们也已经懂得,基因家族中的某些组员并不转录或转录本不翻译成有功效的蛋白,即成为基因家族中的假基因。研究发现,这些无功效的假基因缺少必要的启动序列和缺少一种或多个具活性的组员中特有的内含子序列。DNA重复普通是指DNA片段数的增加,它能够是一种完整基因的重复(基因重复)、基因的一部分重复、一种完整染色体的重复(非整倍体)、或整个基因组的重复(多倍体)。基因家族是由于持续的基因重复所造成的。非整倍体常造成生物体的不育,而基因组重复只是使基因增加拷贝数,并不产生新的基因,对基因组的复杂性并没有变化。从基因组进化的角度来看,更多的是考虑单个基因或某些基因的重复,而不是整个基因组的重复。珠蛋白是一种多基因家族,在人类的第16号染色体上发现了7个类a珠蛋白基因,在第11号染色体上发现了6个类b珠蛋白基因,在动物甚至植物中也发现了珠蛋白基因,表明这是一种非常古老的基因家族。在多个动物中几乎全部有功效的珠蛋白基因构造都相似,由3个外显子构成,中间间隔着两个内含于。但珠蛋白基因的数量和次序在多个动物中是不同的。由于全部的珠蛋白基因的构造和次序都是相似的,因此它们存在着一种祖先珠蛋白基因(多半和现在存在的肌红蛋白基因有关)。在约5亿年前,祖先珠蛋白基因经重复和歧化产生了原始的a珠蛋白基因和b珠蛋白基因,再追溯至8亿年前,这个祖先珠蛋白基因本身也是通过基因重复而产生的,它的另一份拷贝进化为现今的肌红蛋白(myoglobin)基因,肌红蛋白基因的构成和珠蛋白基因相似,其重要功效也同珠蛋白同样是贮存氧,因此我们能够将三个外显子构造当作是它们共同的祖先。植物的豆血红蛋白(leghemoglobin)基因是和珠蛋白基因有关的,植物豆血红蛋白基因存在着诸多原始的类型,它比肌红蛋白基因多一种内含子,但它与肌红蛋白很相似。某些原始的鱼类只有单个类型的珠蛋白链,因此它们必然是在珠蛋白基因尚未发生重复前就歧化了出来。在某些两栖动物中含有a和b连锁的珠蛋白基因,这是由祖先珠蛋白基因重复后经突变形成的。后来进一步重复,在哺乳动物中形成了a珠蛋白家族和b珠蛋白家族。重复在进化中是经常发生的,事实上,珠蛋白基因的拷贝数在某些人类群体中是有变化的,例如大部分人在16号染色体上有2个a基因(a1、a2,图12-9),但有些个体在此染色体上只有1个,而另某些个体有3个甚至有4个a珠蛋白基因。此表明在多基因家族中基因的重复和缺失是恒定的进行过程。重复也能够通过转座而产生。基因组中的基因家族(来源于首席医学网)在人及高等有机体基因组中,有许多基因家族。有的基因家族组员多,有的基因家族组员少;有的基因家族组员功效相似,有的基因家族组员功效各异[1]。所谓多基因家族是指一类含有序列同源性及相似功效的基因;而基因超家族是指一类含有序列同源性而不具相似功效的基因。如果一类蛋白或基因含有共同来源的一种构造域,就属于一种基因超家族,同一种基因可归属于两个或多个基因超家族。有关基因家族的研究起始于二十世纪七十年代,目的是为阐明个体或群体遗传差别与基因冗余(generedundancy)的关系。文献表明:免疫球蛋白基因超家族与其它多基因家族进化的分子机制相似,染色体不等交换和基因转换(geneconversion)造成了免疫球蛋白基因的进化。为阐明基因家族进化和变异的分子机制,应同时考虑染色体不等交换、基因突变、自然选择及随机漂变等因素。同一基因家族中不同组员的序列同源性取决于基因突变与染色体不等交换的频率,也与自然选择及随机漂变有关[1]。基因超家族的一种重要特点是不同组员含有不同的体现模式(expressionpatterns),而同一多基因家族的不同组员往往含有相似的体现调控机制。因此,有必要阐明基因超家族组员其体现模式变化的诱因。某些大的基因超家族普通涉及数个单基因和几个多基因家族,这些基因家族的形成是有机体进化的分子基础。基因组中几乎全部的基因可归属于一种或更多的基因超家族。同源性比较可用于分析不同基因间的进化关系;系统发生分析可剖析基因家族不同组员的有关性;基因进化树可澄清基因拷贝数增加或基因重复(geneduplication)的历史,同时,为识别不同种属同源基因提供有益信息。1.基因家族在基因组中的分布成簇存在的基因家族许多重要的基因家族在基因组中成簇存在,也即同一基因家族的不同组员在基因组中重复串联排列。这些成簇存在的基因是种系生殖细胞在减数分裂过程中,通过染色体不等交换和基因转换形成的。某些多基因家族组员的拷贝数巨大,如核糖体RNA或组蛋白基因家族,这是由于有机体需要其大量的基因体现产物。在真核生物中,rRNA基因普通形成一种多基因家族。rRNA基因的一种重复单位包含一种转录区和一种非转录间隔区,转录区涉及18S、和28SrRNA基因,该重复单位在基因组中重复数百次。rRNA多基因家族不同组员进化的分子机制一致,尽管不同种属rRNA基因重复单位的序列有所差别,但同种属rRNA基因重复单位之间的同源性很高。在高等有机体基因组中,核小体的四种核心组蛋白基因普通成簇存在,该基因簇在基因组中重复数十次,这些基因在细胞周期的S期同时体现。也有几个组蛋白基因的体现与细胞周期无关,这类组蛋白基因的体现与普通的组织特异性基因相似。某些成簇存在的基因超家族组员功效各异,最典型是珠蛋白基因超家族(globingenesuperfamily)。哺乳类珠蛋白基因超家族由α样珠蛋白基因家族、β样珠蛋白基因家族和肌红蛋白家族三个基因家族构成。前两个基因家族由成簇存在的基因编码,而肌红蛋白由单个基因编码。每个基因簇涉及胚胎期、成人期α或β珠蛋白基因及假基因。一种珠蛋白的编码基因不止一种,例如:有两个基因α1、α2编码成人期α-珠蛋白,这两个基因构成一种较小的多基因家族,含有共同的进化途径[2]。含有成簇及散在存在组员的基因超家族某些基因超家族普通含有成簇和散在存在的组员,成簇存在的基因(普通构成多基因家族)含有相似功效的,而散在存在的基因往往含有不同的功效。但也有例外,如成簇存在的Hox基因家族组员其功效可能完全不同[3]。在人体基因组中,免疫球蛋白基因超家族包含有成簇及散在存在的组员,是含有多个功效各异的基因,该基因超家族的许多组员含有非免疫球蛋白的构造域,含有多个不同功效。免疫球蛋白基因家族是最大的基因超家族之一,该家族基因所编码的多肽是血液中的不同抗体。免疫球蛋白由可变区(varible,V)、恒定区(constant,C)、多样区(diversity,D)、结合区(joining,J)基因片段编码。V、D、J区基因片段存在多个拷贝,免疫球蛋白由V、D、J区及轻、重链的不同组合构成,体细胞的突变也与免疫球蛋白的多样性有关。通过不同组合产生足够的多样化抗体,进化过程中突变的积累尤为重要。分析可变区基因序列得知,抗原识别区多样性的提高与自然选择有关。MHC(majorhistocompatibilitycomplex)多基因家族属于免疫球蛋白基因超家族,该多基因家族与临床医学亲密有关,且有高度的多态性,引发了研究人员的关注。研究成果显示:MHC等位基因中含有差别极小的短片段序列,很明显是由其同源基因突变所致,基因重组促使MHC基因经历着动态的演变。序列相似性研究表明,使抗原识别位点氨基酸多样性升高的自然选择,促使MHC基因保持高度多态性[4]。同时,涉及抗原识别位点在内的基因转换也可产生有用的变异,为自然选择提供物质基础。另一典型的既含基因簇又含散在存在基因组员的基因家族是嗅觉受体(olfactoryreceptor)基因。该受体是一种含有七个跨膜域的膜蛋白,属于G蛋白耦联受体(G-protein-coupledreceptor,GPCR)基因超家族。其功效的多样性由基因本身编码,而并非由体细胞突变或不同基因片段组合使用所致。哺乳动物大概共有几百个GPCR基因。这类基因在基因组中形成许多个基因簇,每个基因簇中含有多个组员及假基因。鲇鱼基因组中的GPCR基因比哺乳类少得多,该基因家族在哺乳类动物祖先基因组内完毕了扩展[5]。散在存在的基因家族许多散在存在的基因家族,普通认为是通过RNA逆转录、随即整合到基因组中形成的。整合序列(integratedsequence)或逆转录序列(retrosequence)来源于基因的RNA转录本,因此无内含子。大多数逆转录序列已变为不具功效的逆转录假基因(retropseudogene),只有极少数逆转录序列保存了其功效。有功效的逆转录序列被称为逆转录基因(retrogene)或剪接过的基因(processedgene)。位于人常染色体上的磷酸甘油酸激酶基因没有内含子,是一种逆转录基因,与其在X染色体上的原始基因相比,该基因的体现模式(expressionpatterns)发生了变化。与预期的状况一致,大多数逆转录序列已变为逆转录假基因[6]。例如:细胞色素C、甘油三磷酸脱氢酶、核糖体蛋白L32、β微管蛋白、精氨酰琥珀酸合成酶等基因。2.基因家族形成的分子机制基因重复和点突变基因发生重复的重要分子机制涉及多倍体化、串联重复及逆转录转座三种。在多倍体化过程中,基因组中全部基因皆被重复。基因较社区域的重复由上述后两种机制完毕。多倍体化造成了许多基因家族的形成。串联重复参加了成簇存在的基因家族的进化,重复的DNA区域能够不大于或不不大于一种基因的长度,但在基因家族的进化过程中,整个基因的重复尤为重要。在种系生殖细胞的减数分裂过程中,染色体不等交换引发基因串联重复。一旦一种基因簇形成,不等交换率就会升高。在含有相似功效组员的多基因家族中,频繁的染色体不等交换造成了家族组员的协同进化。普通而言,点突变与染色体不等交换可引发同一基因家族内的遗传性变化,自然选择和遗传漂变对于同一基因家族组员的变异也有重要影响。在人体基因组中,含有功效的逆转录序列或整合序列极少,但有大量来源于逆转录的重复序列。丰度最高的重复序列有短的散在重复序列(shortinterspersedrepeats,SINES)和长的散在重复序列(longinterspersedrepeats,LINES),在这些重复序列中,Alu重复序列最多,基因组中超出了50万个。人体Alu基因家族与7SLRNA含有序列相似性,7SLRNA在胞质中含量最多。在其它生物中,tRNA与SINES含有同源性,故7SLRNA、tRNA被认为是SINES的模板。人基因组LINES中含有一种逆转录酶基因,能够完毕其序列本身的逆转录转座。人体基因组中LINES的拷贝数大概有10万个。大多数LINES发生缺失,不含有功效。总之,当一种种系生殖细胞中含有适宜的RNA转录本及逆转录酶活性时,即可完毕逆转录转座,大多数逆转录序列在其形成的过程中变成了无功效的逆转录假基因。自然选择和随机漂变任何重复基因或多拷贝基因,如果被体现且含有功效,则正经历着纯化性自然选择(purifyingselection),多拷贝基因的进化率比单个基因的突变率低诸多。多拷贝基因与单个基因受到的自然选择限制程度有差别。自然选择限制程度随基因冗余而削弱,只要有一种基因保存其功效,有害的突变就有可能富集。对于大的多基因家族:如rRNA基因和组蛋白基因,有害突变的积累可被纯化性自然选择制止,纯化性自然选择能够检测到含有功效的完整基因的数目。使突变基因拷贝数增加或减少的协同进化有助于自然选择。正向自然选择(positiveselection)是在重复基因获得新功效时发生的[7]。事实上,许多重复基因产生后,即加紧了氨基酸替代,氨基酸替代能够通过计算同义及非同义突变的频率进行预计。这类基因涉及灵长类胚胎血红球蛋白,反刍动物肠溶菌酶、哺乳类视觉色素等等。某些状况下,难以拟定氨基酸替代率的增加是由正向自然选择引发,或许是由基因冗余造成自然选择限制程度削弱所致。基因重复的另一种后果是基因体现模式(expressionpatterns)发生变化,也即多拷贝基因的功效特化或亚功效化(subfunctionalization)。这种变化对于参加发育过程的转录因子及其它蛋白尤为重要,这类基因功效的变化与生物的形态学进化直接有关。分析果蝇转录因子的调控元件得知,其调控元件的序列正在发生颠换(turningover),在稳定选择条件下,该转录因子的功效仍能维持。当稳定选择条件发生变化时,该转录因子可被另一种转录因子替代,从而造成靶基因体现模式或体现调控机制发生变化,自然选择和随机漂变也与靶基因体现调控机制的变化有关。【参考文献】1OhtaT.Evolutionofgenefamilies[J

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论