第四章基因与基因组的结构_第1页
第四章基因与基因组的结构_第2页
第四章基因与基因组的结构_第3页
第四章基因与基因组的结构_第4页
第四章基因与基因组的结构_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一节、基因与基因的结构基因(gene):是DNA分子中含有特定遗传信息的一段核苷酸序列,是遗传物质的最小功能单位。

根据基因是否具有转录和翻译功能分为:①编码蛋白质的基因,它具有转录和翻译功能,包括编码酶和结构蛋白的结构基因以及编码阻遏蛋白的调节基因;②只有转录功能而没有翻译功能的基因,包括tRNA基因和rRNA基因;③不转录的基因,对基因表达起调节控制作用,包括启动基因和操纵基因,有时被统称为控制基因。1目前一页\总数五十一页\编于十一点一、基因概念及其发展(一)经典遗传学关于基因的串珠理论经典遗传学认为基因是遗传信息结构和功能的基本单位;即基因是最小的突变单位、重组单位和功能单位;基因位于染色体上,从结构和功能来看,它们以线性的形式相互连接(串珠理论,thebeadsonastringtheory)。(二)近代基因概念上述“三位一体”的基因概念在上世纪四十年代以前占统治地位。Benzer在上世纪50年代初通过噬菌体重组实验,发现突变和重组可以发生在同一个基因内的不同亚单元中,从而对以上结果提出了挑战。研究表明:基因可被分为更小的单位,串珠理论必须修正。Benzer提出了突变子(muton),重组子(recon)和顺反子(cistron)来分别定义突变、重组和功能作为不可分割单位。2目前二页\总数五十一页\编于十一点1.顺反子(Cistron)一个顺反子是一段遗传区域,在这一遗传区域中的突变位点之间没有互补作用。(1)顺反子的概念来自顺反测验(cis-transtest):它是用于说明在同一染色体上(顺式)或相对染色体上(反式)排列的突变位点之间的互补试验。顺式试验实际是对照,如果两个突变均在同一个基因组中,那么另一个基因组的两个基因座均为野生型,其产物为正常的基因产物,细胞表现出野生表型;反式试验才是真正的互补试验,可以确定功能单位的边界,如果反式排列时有互补作用,说明两个突变位点处于不同的顺反子中,如不能互补,说明它们属于同一顺反子。如果两个突变在同一个基因中,那么它们以反式构型出现在细胞中时,每一基因组都携带有这一基因的突变体拷贝,因而在细胞中不能产生具有功能的产物,即不出现互补。如果突变位于不同基因中,当它们以反式构型出现时,那么每个基因组均可补偿另一个基因组缺少的正常产物。当细胞具有所有基因产物时,表现为野生型。

3目前三页\总数五十一页\编于十一点顺式试验反式试验 突变位点位于同一顺反子中突变位点于不同顺反子中 ABABABAB+–++(2)不能互补的突变必然影响的是同一功能单位,能够互补的突变必定影响不同的功能单位,通过顺反试验发现的遗传功能单位称为顺反子。(3)基因是一个顺反子,它是一个功能单位。一个顺反子内存在许多突变位点,即存在许多突变子;一个顺反子内可以发生交换出现重组,因此也可以有许多重组子。4目前四页\总数五十一页\编于十一点2.突变子(muton)突变子是基因内部变化后产生突变表型的最小单位,顺反子内可能发生突变的最小单位,即核苷酸对。3.重组子(recon)

重组子是基因内部不能由重组而分开的基本单位,可进行重组的最小遗传单位,可小到只有单个核苷酸对。(三)基因与顺反子的关系1.在简单基因组中基因与顺反子等价

(1)在细菌中:基因是编码区(多顺反子)。(2)在真核细胞中:基因是转录的单位(单顺反子)。2.复杂基因组中基因与顺反子不等价在高等真核细胞的基因组中,基因和产物之间的关系较为复杂。(1)在反式剪接与RNA编辑的中,单个多肽链的合成需要多个基因表达,每个基因都是同一功能单位的部分并构成单个顺反子。(2)一个基因通过多种剪接方式或其他选择性信息的利用方式产生多种产物。5目前五页\总数五十一页\编于十一点6目前六页\总数五十一页\编于十一点3.重叠基因(overlappinggenes):也称为嵌套基因(nestedgene),指是指两个或两个以上的基因共有一段DNA序列,或是指一段DNA序列成为两个或两个以上基因的组成部分。重叠基因有多种重叠方式。例如,大基因内包含小基因;前后两个基因首尾重叠一个或两个核苷酸;几个基因的重叠,几个基因有一段核苷酸序列重叠在一起,等等。重叠基因中不仅有编码序列也有调控序列,说明基因的重叠不仅是为了节约碱基,能经济和有效地利用DNA遗传信息量,更重要的可能是参与对基因的调控。7目前七页\总数五十一页\编于十一点三、基因的结构(Geneorganization)1.基因的数量基因的功能取决于DNA的一级结构,一个DNA分子能携带多少基因呢?若以1000~1500bp编码1个基因计算,猿猴病毒SV40基因组DNA有5000bp,可编码5种基因。人类基因组DNA含3×109bp,理论上可编码200万以上的基因,因存在内含子而每个基因可长达5000~8000bp,少数可达20000bp。这样推算人类基因组相当于40~60万个基因;而现在知道人类基因组所含基因只有2~2.5万个,只占全部基因组的3%,其余90%多属于非编码区,其功能仍不清楚。2.编码区和非编码区一个基因组的核酸可分为编码区和非编码区两类序列。(1)编码区为mRNA、rRNA、tRNA以及其他各种RNA编码。(2)非编码区又可分为信号序列和非信号序列两类。信号序列包括:复制起点、增强子、启动子、终止子及一切由调节蛋白识别和结合的序列;非信号序列是指间隔区。8目前八页\总数五十一页\编于十一点3.一个完整基因的结构一个完整的结构基因常具备以下几个组成部分:启动子、编码序列、终止子,以及基因在启动子的上游或其它区域的调控序列。(1)编码区,又称为开放阅读框(ORF):可以翻译成蛋白质的DNA区域,在细菌中,即为一个基因;在真核细胞中,编码区可以被内含子隔断。(2)转录单位(转录区域):可以转录为RNA的一段DNA区域。在真核细胞中即为一个基因;在细菌中可能包含多个基因。(3)非翻译区或非编码区(UTR,NCR):指转录单位中不能翻译成蛋白的部分。又可分为5’UTR和3’UTR,这些序列往往具有调控功能;5’UTR控制核糖体的结合,还可能促进衰减子控制;而3’UTR在mRNA的稳定性中起重要作用。(4)基因间隔区:间隔区并非不含有信息,这信息不表现为核苷酸的顺序,而表现为序列的长度。如MS2外壳蛋白结构基因上游的非编码序列不得少于30nt,否则,翻译效率要降低10倍;真核基因的内含子含有重要信息,如剪接位点等都有严格要求;果蝇乙醇脱氢酶基因Adh有两个内含子,如缺失其中之一或两个都缺失,则转录水平下降5倍。9目前九页\总数五十一页\编于十一点一个完整真核生物基因的结构包括:

(1)启动子(promoter):是RNA聚合酶特异性识别和结合的DNA序列,位于结构基因转录起始点的上游-25bp处,本身不被转录;启动子必须与转录因子结合才能被RNA聚合酶识别与结合;具有TATA盒。(2)上游启动子元件(upstreampromoterelements):TATA盒上游的一些特定的DNA序列;反式作用因子能与这些元件结合调控基因的转录效率;上游启动子元件包括CAAT盒(GCNCAATCT)、CACA盒(CCGCC)及GC盒(GCCACACCC)。(3)反应元件(responseelement):能介导基因对细胞外的某种信号产生反应的DNA序列,称为反应元件。如糖皮质、激素反应元件。(4)增强子(enhancer):指能使和它连锁的基因转录频率明显增加的DNA序列。其中含有多个能被反式作用因子识别与结合的顺式作用元件,能增强邻近基因的转录。(5)沉默子(silencer):又称负增强子,负调控序列。(6)加尾信号:结构基因的最后一个外显子中有一个保守序列AATAAA与下游一段GT丰富区或T丰富区共同构成polyA加尾信号;与RNA聚合酶结合的延长因子能识别这种结构并与之结合,然后在AAUAAA下游10~30个碱基的部位切断RNA并加上polyA尾巴。10目前十页\总数五十一页\编于十一点4.基因命名法

基因的命名一般根据种属习惯来命名。常用斜体表示基因的名称,等位基因及其基因型,或在必要时表示基因转录而成的mRNA,而蛋白产物和表型用正体来表示。但是在研究不同生物的同一遗传机制时,往往会产生一些混淆。在许多种属中,基因由包括几个字母和数字的符号来表示,一些种属命名惯例(如果蝇、大肠杆菌)认为使用小写字母表示隐性突变,而用第一个字母大写来表示显性突变。在其他一些种属包括人的基因命名中,基因全由大写字母表示。现在,通过大规模的测序方法,更多的基因不断被鉴定,因而十分需要一个统一的命名方法。11目前十一页\总数五十一页\编于十一点大肠杆菌和其他细菌:用三个小写字母表示一个操纵子,接着的大写字母表示不同基因座。例如:lac操纵子;基因座lacZ,lacY,lacA;蛋白质LacZ,LacY,LacA。酵母:用三个字母表明基因功能,数字表示不同的基因座。啤酒酵母基因GAL4,CDC28;蛋白质GAL4,CDC28;非洲粟酒酵母基因gal4,cdc2;蛋白质Gal4,Cdc2。线虫:用三个小写字母表示突变表型,如存在不只一个基因座,用连字符后接数字表示。例如:基因unc-86,ced-9;蛋白质UNC-86,CED-9。果蝇:来自突变表型的描述可以用1-4个字母代表。例如基因white(w),tailless(tll);蛋白质White,Tailless。植物:虽然没有适用于所有植物的惯用法,但大多数用1-3个小写字母表示。Arabidopsis基因用果蝇的方法命名但使用大写字母,例如基因AGAMOUS(AG),蛋白AGAMOUS。脊椎动物:一般以描述基因功能的1-4个小写字母和数字表示其基因功能。例如基因sey,myc,蛋白Sey,Myc。人类:方法如脊椎动物但需大写。例如基因MYC、ENO1,蛋白MYC、ENO1。12目前十二页\总数五十一页\编于十一点5.基因的突变基因突变是指出现在单个基因内部任何可遗传的改变,又称为点突变。基因突变可以自然发生,也可通过理化因素诱发。主要包括两种情况:一是碱基替换:一个碱基对被另一碱基对替换,包括转换和颠换。二是移码突变:增加或减少一个或几个碱基对。基因突变与氨基酸顺序的关系:(1)同义突变(samesensemutation):密码子发生改变,但所编码的氨基酸不变。(2)错义突变(missensemutation):DNA中碱基对替换,使mRNA的某一密码子改变,由它所编码的氨基酸不同。很多错义突变造成蛋白质的部分或完全失活,从而表现出突变性状。(3)无义突变(nonsensemutation):碱基替换改变了mRNA上的一个密码子,成为3个密码子UAG,UAA和UGA中的一个时,就出现无义突变。13目前十三页\总数五十一页\编于十一点第二节、基因组及其结构基因组(genome):是指含有一个生物体生长、发育和繁殖所需要的全部遗传信息的整套核酸。核基因组是单倍体细胞核内的全部DNA分子;线粒体基因组和叶绿体基因组分别是指一个线粒体和叶绿体所包含的全部DNA分子。基因组中不同的区域具有不同的功能,有编码区和非编码区,有些区域的功能尚不清楚。功能基因组:是指表达一定功能的全部基因所组成的DNA序列,包括编码基因和调控基因。基因组结构:是指不同功能区域在整个DNA分子中的分布情况。

C值:是指单倍基因组DNA含量(haploidDNAcontent,C值)。不同的生物体,其基因组的大小和复杂程度各不相同。进化程度越高的生物体一般其基因组越大也越复杂,但不尽然,如肺鱼的C值居然比人高10多倍;在亲缘关系相近的物种间,C值仍然相差很大,两栖类的不同物种间C值可相差100倍,被子植物不同物种间C值相差达1000倍,藻类5000倍,鱼类350倍,节肢动物250倍,在原生动物不同物种间C值相差竟高达5800倍。因此,C值的大小并不说明遗传复杂性的高低,而只说明基因组中DNA的多少。14目前十四页\总数五十一页\编于十一点一、病毒基因组的结构

(一)病毒简介病毒是最小的生命体,直径只有20-300nm,其基本构造为一层外壳蛋白(capsid)包围着核酸和数种酶;有些病毒在外壳蛋白外还有一层被膜(envelope),被膜内有病毒基因编码的糖蛋白。病毒必需进入宿主细胞中借助宿主细胞内的一些酶和细胞器才能使病毒得以复制;外壳蛋白(或被膜)有保护病毒基因组和识别、侵袭特定宿主细胞的功能。15目前十五页\总数五十一页\编于十一点1.病毒分类:病毒的遗传物质是单链或双链的DNA或RNA,根据病毒所含的核酸及复制策略分成7类:双链DNA、单链DNA、双链RNA、正单链RNA、负单链RNA、反转录RNA及反转录DNA病毒。16目前十六页\总数五十一页\编于十一点2.病毒基因组的结构特点①不同病毒基因组大小差异较大。病毒的基因组很小,但不同病毒基因组相差甚大。如乙肝病毒DNA只有3kb大小,只编码4种(6种)蛋白质;痘病毒的基因组为300kb,可编码病毒复制所涉及的酶类,甚至包括核苷酸代谢的酶类等几百种蛋白质,因此痘病毒对宿主的依赖性比乙肝病毒小。②病毒基因组是DNA或RNA。每种病毒颗粒中只含一种核酸,可以是单链或双链、环状或线性分子。大多数DNA病毒的基因组是双链DNA分子;大多数RNA病毒的基因组是单链RNA分子。乳头瘤病毒是环状双链DNA病毒,腺病毒的基因组是线性双链DNA,脊髓灰质炎病毒是单链RNA病毒,呼肠孤病毒的基因组是双链RNA。③多数RNA病毒的基因组是由连续的核糖核酸链组成,但有些病毒的基因组RNA由不连续的几条核酸链组成。流感病毒由8条RNA分子构成;呼肠孤病毒由10个双链RNA片段构成。17目前十七页\总数五十一页\编于十一点④基因重叠:病毒基因组有基因重叠现象,即同一段DNA片段能够编码2种甚至3种蛋白质分子。线粒体和质粒DNA也有基因重叠现象;基因重叠使较小的基因组能够携带较多的遗传信息。⑤病毒基因组的大部分是编码蛋白质的,只有非常小的部份不被翻译。如X174中不翻译的部份只占217/5375,不到5%,不翻译的DNA顺序通常是基因表达的控制序列。⑥病毒基因组DNA序列中功能相关的基因往往丛集存在,形成一个转录单元,称为多顺反子mRNA,然后再加工成各种蛋白质的模板mRNA。⑦除了反转录病毒外,病毒基因组都是单倍体,每个基因在病毒颗粒中只出现一次。反转录病毒基因组有两个拷贝。⑧噬菌体的基因是连续的,而真核病毒的基因具有内含子,除正链RNA病毒外,真核细胞病毒的基因都是先转录成mRNA前体,再经加工才能切除内含子成为成熟的mRNA。有些真核病毒的内含子或其中的一部分,对某一个基因来说是内含子,而对另一个基因却是外显子,如SV40和多瘤病毒的早期基因。18目前十八页\总数五十一页\编于十一点二、原核基因组的结构

原核基因组的结构特点在许多方面与病毒的基因组特点相似,但又有其独特的结构和功能。1.原核染色体基因组结构特点①原核染色体基因组通常由一条环状双链DNA分子组成。整个染色体DNA几乎全部由功能基因与调控序列所组成,有密码子重叠和基因重叠现象;染色体聚集成一个类核(nucleoid)区域。19目前十九页\总数五十一页\编于十一点②功能相关的基因构成操纵子,或高度集中,并常转录成为多顺反子的mRNA。几乎每个基因序列都与它所编码的蛋白质序列呈线性对应状态。③结构基因一般是单拷贝,但rRNA的基因往往是多拷贝。多拷贝的rRNA的基因有利于核糖体的快速组装,便于在急需蛋白质合成时在短时间内生成的大量核糖体。④只有一个复制起始点;⑤基因是连续的,无内含子,转录后不需剪接;编码顺序一般不会重叠;⑥编码区在基因组中所占比例远远大于真核基因组,小于病毒基因组;基因组中重复序列少;⑦细菌基因组中存在可移动的DNA序列,如:插入序列和转座子。20目前二十页\总数五十一页\编于十一点2.质粒(plasmid)(1)定义:存在于细菌染色体外能独立复制、稳定遗传的共价闭合环状DNA分子;(大小在1~200kb)。(2)质粒的分类a.按功能分为:R质粒:抗药性质粒;F质粒(fertilityfactor):性质粒可决定细菌的性别;Col质粒:为大肠杆菌素质粒。b.根据质粒能否在细胞间进行传递分为:接合型质粒、可移动型质粒、自传递质粒。c.按复制机理分为:严紧型质粒(stringentplasmid):即低拷贝数质粒;松弛型质粒(relaxedplasmid):高拷贝数质粒。(3)质粒的特性a.能自主复制;b.质粒的不相容性(incompatibility)两种亲缘关系密切的不同质粒不能共存于一个宿主菌;c.质粒可以转移。21目前二十一页\总数五十一页\编于十一点三、真核生物基因组结构

(一)真核生物基因组的特点①基因组远大于原核生物的基因组,具有多个复制起点,而每个复制子的长度较小。如人的单倍体基因组有3×109bp,大约含有2~2.5万个基因;而E.coli基因组约4×106bp,约有4000个基因。②真核生物基因组DNA与组蛋白等构成染色质,被包裹在核膜内,核外还存在遗传成分(如线粒体DNA等);体细胞一般是二倍体(diploid),即有两份同源的基因组。③真核生物基本上不存在操纵子结构,一个结构基因转录生成一条mRNA,即mRNA是单顺反子,许多蛋白是由相同或不同的亚基构成,因此涉及多个基因的协调表达。④非编码区存在大量重复序列,重复序列或集中成簇,或散在分布于基因间。⑤基因组中不编码的区域多于编码区域。并且,编码蛋白质的基因一般是不连续的,即有外显子和内含子,在转录后经剪接成成熟mRNA后,才能翻译成蛋白质。人类基因组中可能仅有3%左右的序列是编码区(codingregion)。22目前二十二页\总数五十一页\编于十一点(二)重复序列(repeatsequence)1.高度重复序列(highrepetitivesequences)高度重复序列在基因组中重复频率可高达106以上,因此复性速度很快;序列长度一般为10~300bp的较短序列,在基因组中所占比例随种属而异,约占10~60%,人基因组中约占20%。(1)高度重复序列的种类

①反向重复序列:由两个相同顺序的互补拷贝在同一DNA链上反向排列而成;这种重复顺序复性速度极快;序列长度100~1000bp,约占人基因组的5%。23目前二十三页\总数五十一页\编于十一点②串联重复序列:由2~172bp重复单位排列成串而形成的。由于碱基组成不同于其他部份,在等密度梯度离心时与主体DNA分开,称卫星DNA。串联重复序列包括:

a.卫星DNA(satelliteDNA):重复区涵盖100kb~5Mb,大部分位于染色体着丝点。重复单位2bp~172bp。其中一种重复单位在170bp左右,为灵长类所独有,非洲绿猴重复单位为172bp。人类为171bp,约占每个染色体的3~5%。

b.小卫星(minisatellite)DNA:重复区域在0.1kb~20kb间。主要包括重复单位在9~80bp之间的可变数目串联重复序列(variablenumberoftandemrepeats,VNTR)和端粒。VNTR大多位于非编码区,重复的数目随个体差异很大,可用于DNA指纹分析;人类端粒的重复序列是TTAGGG,涵盖10~15kb,老化后可能变短。

c.微卫星(microsatellite)DNA:重复单元1~6bp的短串联重复(shorttandemrepeats,STR),涵盖区域小于150bp。微卫星DNA里的重复数目亦随个体而异,广泛被用於DNA指纹;在人细胞组中卫星DNA约占5-6%。卫星DNA只发现于真核生物,占基因组10%~60%。24目前二十四页\总数五十一页\编于十一点③散布重复序列:可看成是一种转座子(transposableelements),它们借DNA重组机制而转移;经过许多代的遗传累积,DNA的某段序列会散布各处;由于突变的结果,每个重复单位的序列并非完全相同。原位杂交技术证明卫星DNA位于染色体的着丝点和端粒处

25目前二十五页\总数五十一页\编于十一点(2)高度重复顺序的功能①参与复制水平的调节:反向序列常存在于DNA复制起点区的附近;许多反向重复序列也是一些蛋白的结合位点。②参与基因表达的调控:DNA的重复顺序可以转录到hnRNA分子中,有些反向重复顺序可以形成发夹结构,对稳定RNA分子免遭分解有作用。③参与转座作用:转座子的末端一般都包括反向重复顺序;由于这种顺序可以形成回文结构,因此在转位作用中即能连接非同源的基因,又可被参与转位的特异酶所识别。④与进化有关:高度重复顺序的核苷酸序列具有种属特异性,但相近种属又有相似性。⑤同一种属中不同个体的高度重复顺序的重复次数不一样,这可以作为每一个体的特征,即DNA指纹。⑥卫星DNA成簇的分布在染色体着丝点附近,可能与减数分裂时染色体配对有关,即同源染色体之间的联会可能依赖于具有染色体专一性的特定卫星DNA顺序。26目前二十六页\总数五十一页\编于十一点2.中度重复序列(moderaterepetitivesequences):指在基因组中重复频率10~105的顺序,序列长100~5000bp;在基因组中所占比例约占10~40%,分布于结构基因之间、基因簇中、以及内含子中。中度重复顺序一般具有种特异性;在适当的情况下,可以应用它们作为探针区分不同种哺乳动物细胞的DNA。中度重复序列一般不编码蛋白质,功能可能类似于高度重复顺序;但也有些中度重复顺序可以编码蛋白质或rRNA的结构基因,如rRNA基因,tRNA基因,组蛋白基因,免疫球蛋白基因等。重复顺序的长度不同,有重复顺序平均长度为300bp的短分散片段(shortinterspersedrepeatedsegments,SINES),如Alu家族、Hinf家族等;以及重复顺序平均长度3500~5000bp的长分散片段(LINES),如KpnⅠ家族等。几种典型的中度重复顺序如下:(1)Alu家族:Alu序列分散在整个哺乳动物基因组中,平均每5kb就有一个Alu序列;在间隔DNA、内含子中都有Alu序列,约占人基因组的3~6%;Alu序列长度约300bp,每个序列中有一个限制性内切酶Alu的切点(AG↓CT)而定名为Alu家族。27目前二十七页\总数五十一页\编于十一点a.Alu顺序具有种的特异性:如人的Alu序列制备的探针只能用于检测人的基因组中的Alu序列。b.Alu家族的功能:由于在许多hnRNA中含有大量的Alu序列,而且,Alu序列含有与某些真核基因内含子剪接接头相似的序列,因而,Alu序列可能参与hnRNA的加工与成熟。(2)KpnⅠ家族:用限制性内切酶KpnⅠ切灵长类动物的DNA,在电泳谱上可看到4个不同长度的片段,这就是KpnⅠ家族,占人体基因组的1%。KpnⅠ家族成员序列比Alu家族长,而且不均一,呈散在分布,属于中度重复顺序的长分散片段型。(3)Hinf家族:这一家族以319bp长度的串联重复存在于人体基因组中,用限制性内切酶HinfⅠ消化人体DNA,可以分离到这一片段。Hinf家族在单位基因组内约有50~100个拷贝,分散在不同的区域。(4)多聚dT-dG家族:这一家族多个dT-dG双核苷酸串联在一起,分散于人体基因组中。在人基因组中,多聚dT-dG家族序列的平均长度为40bp。28目前二十八页\总数五十一页\编于十一点(5)rRNA基因:rRNA基因集中成簇存在,各重复单位中的rRNA基因都相同,这样的区域称为rDNA,如染色体的核仁组织区(nucleolusorganizerregion)即为rDNA区。真核生物的18S、5.8S和28SrRNA基因构成一个长7.5kb转录单位。在高等生物中,5SrRNA单独转录的,而且其在基因组中的重复次数高于18S和28S基因。多个转录单位和不转录的间隔区(21~100bp)构成一个rRNA基因簇(rDNA簇),间隔区类似卫星DNA的串联重复顺序,由于间隔区中的串联重复次数不同,因此,不同间隔区的长短差异很大。29目前二十九页\总数五十一页\编于十一点(6)组蛋白基因:组蛋白基因在各种生物体内的拷贝数因种而异;组蛋白基因没有一定的排列方式,在拷贝数大于100的基因组中串联重复形成基因簇。在果蝇和非洲爪蟾中,5种组蛋白组成一个重复单位,也存在间隔区,而且组蛋白基因的转录方向不一样,多个重复单位形成串联重复排列。哺乳动物的组蛋白基因一般呈散在分布或集成一小群;所有组蛋白基因都不含内含子,而且在序列上相应的组蛋白基因都很相似,从而编码的组蛋白在结构上和功能上极相似。30目前三十页\总数五十一页\编于十一点(三)单拷贝序列(singlecopysequences)1.单拷贝序列在单倍体基因组中只出现一次或数次,又称低度重复顺序,占哺乳类基因组的50~80%,人基因组中约占65%,序列长750~2000bp,相当于一个结构基因的长度。2.单拷贝序列中只有一小部分编码蛋白质,其它部份的功能尚不清楚。3.在基因组中,单拷贝序列一般与重复序列相间排列。4.单拷贝基因通过基因扩增仍可合成大量的蛋白质,如一个蚕丝心蛋白基因可作为模板合成104个丝心蛋白mRNA,每个mRNA可存活4d,共合成105个丝心蛋白,这样,在几天之内,一个单拷贝丝心蛋白基因就可以合成109个丝心蛋白分子。(四)多基因家族与假基因

1.多基因家族(multigenefamily):多基因家族是一群具相似序列的基因,编码结构和功能上相关联的一个蛋白质家族;来源于某一祖先基因经过重复和变异所产生的一组基因(包括在结构和功能上相关的rRNA和tRNA基因)。31目前三十一页\总数五十一页\编于十一点①简单多基因家族:各成员相同或基本相同,如5SRNA基因,在爪蟾中5SrRNA基因与非转录间隔区相间排列,组成一个重复单位,5SrRNA基因后面是一段并不转录的假基因。②复杂的多基因家族:各成员不完全相同,但功能相关,串联在一起成为一个重复单位;如H2A、H2B、H3及H4属于相同的组蛋白家族;果蝇的tRNA基因家族。③由发育阶段控制的多基因家族:如人的-珠蛋白基因家族。成人的血红蛋白A(HbA)占总血红蛋白的97%,血红蛋白A2(HbA2)占2%,其余1%是HbF。HbA是由2条链和2条链组成的四聚体(22),HbA2为22四聚体,HbAF为22四聚体。在哺乳动物中编码血红蛋白的-样和-样亚基的基因分别形成两个不同的基因族,并存在于不同的染色体上。这两个基因族是按不同的发育时期表达不同的基因。32目前三十二页\总数五十一页\编于十一点2.假基因(pseudogene):在多基因家族中,某些成员并不产生有功能的基因产物,这些基因称为假基因。①非处理过假基因(nonprocessedpseudogenes):由成簇的重复基因突变而来,也称传统性假基因(conventionalpseudogenes),如珠蛋白基因家族里的。重复基因有多个副本,若其中几个发生突变个体仍能生存而将此变异传至后代。②处理过假基因(processedpseudogenes):处理过假基因大多来自于DNA重组。假基因可能是mRNA经反转录产生cDNA,再整合到DNA中形成的,因此该假基因没有内含子;在这个过程中,可能同时会发生缺失,倒位或点突变等变化,而使假基因不能表达。3.超基因(Supergene):在一个基因簇内含有几百个功能相关的基因。如人类主要组织相容性抗原复合体HLA和免疫球蛋白重链及轻链基因都属于超基因。来源于一个共同的祖先基因通过各种各样的变异,产生了结构大致相同但功能却不尽相似的一大批基因。这一大批基因分属于不同的基因家族,但可以总称为一个基因超家族33目前三十三页\总数五十一页\编于十一点(五)自私DNA(selfishDNA)在哺乳动物基因组中有大量的非编码序列,如高度重复序列,内含子,间隔DNA等,其中只有很小一部分具有调节功能,绝大部分都没有功能。在这些非编码序列中虽积累了大量缺失、重复或其它突变,但对生物并无影响,它们的功能似乎只是为了自身复制,称这类DNA为自私DNA或寄生DNA(parasiteDNA),自私DNA的功能目前还不了解。(六)限制性片段长度多态性在同种生物的不同个体间,尽管其蛋白质产物的结构和功能完全相同或仅存在细微的差异,但在DNA水平却存在差异,尤其在非编码区差异更大;由于DNA顺序上的大多数突变是不影响生物体表型的中性突变,因而无法用传统的遗传学方法来研究。分子生物学技术可从DNA水平上直接分析生物体的突变,若DNA序列中的某个碱基突变产生了某种限制性内切酶的位点。利用此限制性内切酶消化时会产生与正常不同的限制性片段;这样,在同种生物的不同个体中会出现不同长度的限制性片段类型,即限制性片段多态性(RestrictionFragmentLengthPolymorphism,RFLP)。34目前三十四页\总数五十一页\编于十一点RFLP分为两类型:①点多态性;②由于DNA分子内部发生较大的序列变化所产生的多态性。35目前三十五页\总数五十一页\编于十一点1.点多态性(pointpolymorphism):是由于限制性内切酶位点上发生了单个碱基突变而使这一限制性位点发生丢失或获得而产生的多态性;这类多态性实际上是双态的,即有(+)或无(-)。如:珠蛋白第6个Glu→Val引起贫血。对应于第5~7个aa的序列5‘-CCTGAGGAG-3’,包含MstII的识别序列CCTNAGG,两旁最近的MstII切点是5’端1.2kb处和3’端0.2kb处,因此MstII能将正常的DNA切成1.2kb和0.2kb。变异的珠蛋白第6个aa的GAG突变成GTG,使MstII无法在此处切下,于是产生一个1.4kb的片段,这个差别能够以珠蛋白的DNA做探针显示出来。36目前三十六页\总数五十一页\编于十一点2.高变区DNA与DNA指纹(1)DNA分子内部发生较大的序列变化产生的多态性又可分成两类:①由于DNA序列上发生了缺失、重复、插入所致。②是近年发现的所谓“高变区”。高变区(highlyvariableregion)是由多个串联重复序列组成的,不同个体高变区内串联重复的拷贝数不同而造成高变区长度不同,而使高变区两侧限制酶识别位点的固定位置随高变区的大小而发生相对位移。这一类型的RFLP是由于高变区内串联重复顺序的拷贝数不同所产生的,其突出特征是限制性内切酶识别位点本身的碱基没有发生改变,改变的只是它在基因组中的相对位置。(2)DNA指纹:人的卫星DNA是由短的DNA片段(10bp左右)多次重复构成的,重复片段的组成和拷贝数在不同个体及基因组的不同位置上不同,提取不同个体的基因组DNA,用其切点能识别序列为4个碱基而又不切割该重复片段的限制性内切酶在重复片段的两侧切割基因组DNA,电泳分离,再与含有这些重复序列的特异性探针杂交,显示有个体特异性的图谱,即DNA指纹。37目前三十七页\总数五十一页\编于十一点DNA序列中有大量的单个碱基的替换,通常的技术只能检测出影响到限制性内切酶识别位点上的突变;因为DNA的中性突变常以孟德尔共显性遗传方式遗传给下一代,所以对这类突变检测已广泛用于遗传病的诊断、产前诊断、亲子鉴定以及法医学上对罪犯的确认等。38目前三十八页\总数五十一页\编于十一点a.DNA指纹的图谱取决于所用探针的核心序列(即重复序列中的重复单位)。目前有两种探针,其核心序列分别为AGAGGTGGGCAGGTGG和AGGGCTGGAGG,这两种序列在人体基因组中不同的位置重复次数不同,而在不同个体的基因组中,对应位置上这两种核心序列的重复次数也不同,用这两种探针之一与合适的酶切的人基因组DNA片段杂交,在不同的个体将得到不同的DNA指纹。b.对由于高变区重复片段长度不同所引起的RFLP来说,在基因组上,某位置核心序列的重复次数在不同的个体不同。如在个体A为10个拷贝,个体B为15个拷贝,而个体C又可能为18个拷贝等。因此,在不同个体同一个相应位置上核心序列的重复次数是多态的;即使在基因组上的某位置核心序列的重复次数相同,被酶切出的长度相同,但在其它位置该序列重复次数可能不同,产生完全相同的机会小于6×10-9。39目前三十九页\总数五十一页\编于十一点c.DNA指纹技术用于亲子鉴定和法医上对罪犯的确认等领域。例如:总统、传闻儿子及卫星DNA:长久以来人们便一直认为EstonHemings是美国的杰佛逊总统和他的女黑奴SallyHemings所生。另外,ThomasWoodson家族的人亦认为他们是杰佛逊总统的后代。分析Y染色体的微卫星DNA,杰佛逊总统并无其他儿子,因此用他的叔叔的后代的染色体来分析。共分析11个微卫星区域,每个区域里的重复数目如下:杰佛逊总统的叔叔的后代15、12、4、11、3、9、11、10、15、13、7EstonHemings的后代15、12、4、11、3、9、11、10、15、13、7ThomasWoodson的后代14、12、5、11、3、10、11、13、13、13、740目前四十页\总数五十一页\编于十一点第三节、细胞器基因组一、线粒体基因组及其功能1.线粒体DNA的分子特点

(1)线粒体DNA(mtDNA)是双链分子,是裸露的,一般为闭合环状结构,但也有线性的。其分子量约为60×106道尔顿,长度为15~30m。mtDNA与核DNA有明显的不同:(2)mtDNA与原核生物的DNA一样,重复序列少;(3)mtDNA的浮力密度比较低;(4)mtDNA的碱基成分中G、C的含量比A、T少,如酵母mtDNA的G、C含量仅为21%;(5)mtDNA两条单链的密度不同,一条称为重链(H链),另一条称为轻链(L链);(6)mtDNA单个拷贝非常小,仅为核基因组的十万分之一。(7)线粒体基因组大小变化较大,从哺乳动物的约16kbp到高等植物的数10万bp(如玉米的为570kbp)。41目前四十一页\总数五十一页\编于十一点

2.mtDNA的基因组的构成

(1)闭合环状DNA;(2)基因数目和排列顺序相同;(3)有D环和2个复制起始点;(5)基因间没有间隔,不是每个基因都有自己的起动子。(6)某些蛋白质的密码子与核基因通用密码子不同;(7)mtDNA主要编码rRNA和tRNA分子,同时还编码少部分氧化呼吸链所需要酶类的亚基。

(8)人、鼠和牛的mtDNA的全序列是最早被测出来的,三种mtDNA均显示相同的基本遗传信息结构。每个都含有2个rRNA基因、22个tRNA基因和13个可能的蛋白质结构基因。5个基因编码已知的蛋白质,但其他可能的蛋白质结构基因的产物及功能目前尚未确定。42目前四十二页\总数五十一页\编于十一点(9)高

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论