




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二节基因组基因组(genome)
(1922年出现在遗传学的文献中):
一个细胞或病毒所包含的全部基因。通常在真核生物中指一个物种的单倍体染色体组所含有的一整套基因,所以,genome被译作染色体组,指的是单倍体细胞中所含的整套染色体,但现在基因组这个名词逐渐替代了染色体组。原核生物一般只有一个环状的DNA分子,其上所含有的基因为一个基因组。真核生物细胞中的细胞器如叶绿体、线粒体中的DNA一般也为环状,构成叶绿体基因组和线粒体基因组
基因组DNA测序的结果表明基因组中不仅包含着整套基因的编码序列,同时还包含着大量非编码序列,即基因之间的序列。这些序列同样包含着遗传指令(geneticinstruction)。因此,基因组(应该)是整套染色体所包含的DNA分子以及DNA分子所携带的全部遗传指令。Genome:Thetotalcomplementofgenescontainedinacellorvirus;commonlyusedtorefertoallgenespresentinonecompletehaploidsetofchromosomesineukaryotes.
1、基因组的大小与C值悖理基因组的大小一般用碱基对(bp)的数量来表示。千碱基对表示103个碱基对,英文简写1kb.百万碱基对表示106个碱基对,英文简写Mb。大多数真核生物的基因组都比原核生物的基因组大,比原核生物的基因组复杂,对病毒、细菌、低等真核生物和高等真核生物的基因组DNA含量的进行测定后,使我们得到这样一个概念:基因组的大小大致上与进化的复杂性有关(见表2—1)基因大小和内含子——外显子结构
细菌基因较小平均lkbp大小上变化不大高等真核生物基因较大平均16kbp且大小变化很大哺乳动物中最小的基因,如人类的—干扰素基因<lkbp与细菌基因相当,但很多超过100kbpDNA目前发现的最大基因:人类的肌营养不良蛋白基因,有2500kbp长。高等真核生物基因一般比细菌基因大得多,但从它们中得到的mRNA并不比细菌mRNA大。差异是由内含子(introns)引起的:内含子是打断转录单位的间插序列,必须在RNA水平上去除。转录单位余下部分通过剪接结合起来并表达称为外显子(exons)。基因大小与基因中外显子比例成反比。细菌基因一般缺乏内含子,100%是外显子。内含子在很多真核微生物中也很少返回表8-3不同真核生物中内含子—外显子的组织。酿酒酵母很少有被打断的基因,基因长度与mRNA长度一致。高度真核生物基因大小逐步加大,但mRNA大小保持恒定。
一般基因大小与内含子数量成正比例与外显子含量成反比物种基因平均长度(kbp)平均内含子/基因平均mRNA长度%外显子酿酒酵母1.5>95%不被打断1.5100线虫43--4377果蝇113--4325人类166--72.513注:线虫与果蝇有类似的内含子数量,但内含子更小,使基因平均大小要小一些。基因数目和密度几种微生物基因组测序计划已完成。细菌基因数目变化有一个数量级:枝原体473个基因粘液球菌大约8000大肠杆菌大约有4400个基因在基因数目上:最大的细菌基因组与低等真核生物相差不多酿酒酵母有6340个基因果蝇和线虫:预计有酿酒酵母两倍的基因数量脊椎动物:预计有大约70000个基因
维持一个独立生命有机体所需的最小基因数目是多少?细菌基因组比较发现了一系列必需生化途径,并有256个基因编码其中的成分。真核生物细胞建立复杂的细胞内结构似乎需要更多的途径多细胞生物调节发育和分化细胞的功能就需要更多。然而关键生化途径的数目在所有后生动物中类似,因为脊椎动物中大量基因被认为是通过整个基因组的两轮重复,加上不同染色体区域和单个基因的重复产生的。起初过剩的基因被用于特殊的功能,经常是因为表达模式的分化,但途径是高度保守的。
生物体的单倍体基因组所含DNA总量称为C值
每种生物各有其特定的C值
不同物种的C值之间有很大差别能营独立生活的最小的生物——枝原体(Mycoplasma)的C值不到106bp一些显花植物和两栖类动物的C值则可多达1011bp,
相差10万倍。
C值同生物的进化有什么关系?生物的C值,即基因组的DNA总量是不是随着生物的进化而相应地增加?
图2—1概括地回答了这两个问题。2、序列复杂性(sequencecomplexity)同一类生物中基因组大小相差悬殊,其主要差别在于“多余”(excess)DNA的量的差别。“多余”DNA量多,则基因组大;反之,则小。所谓“多余”DNA主要是重复序列,即这种DNA序列在基因组中可以有不止一个拷贝。不同序列的总长度称为序列复杂性或者说:DNA分子中不重复碱基的总量(用bp来表示)或者说:最长的没有重复序列的核苷酸对的数值例()其总长为160bp,但不重复的碱基:AT
所以序列复杂性x=2(bp)
而()序列复杂性x=4(bp)若一个DNA分子长度为106bp,完全不含重复顺序,则x=106(bp)ATATTATA40ATCGTAGC40由此可见,序列复杂性的高低反映了序列包括的遗传信息量的多少。此外,生物体基因组的复杂程度还表现在基因的外显子数目的多寡(见图5—3)。哺乳动物基因的外显子数目远远多于其他生物,原核生物的基因基本上没有外显子和内含子之分。外显子数目多表现在RNA剪接时可以有更多种剪接方式,一个基因可以产生更多种的RNA,编码更多种蛋白质分子,也就是一个基因可以不止有一种功能。从进化角度看,更多的外显子有助于形成更多的外显子组合,生成新的基因,对生物在多种环境下生存是有利的。
因此C值悖理可以用很多真核生物基因组中主要是非编码DNA来解释。非编码DNA可能是重复DNA或单一顺序DNA。基因组的复杂性(complexity)由单一顺序DNA的总和来定义,可以用物理单位(参见碱基对、皮克)或更经常是总基因组的百分比来表示。重复DNA的存在最早是通过复性动力学被发现并部分解释了C—值悖理。同一门类中C—值的差异主要反映了对基因组复杂性没有贡献的重复顺序DNA的含量的差异。当将重复顺序DNA考虑在内时,在有类似生物复杂性的物种间仍存在基因组大小的不一致性,特别是在一群单细胞有机体中间进行比较时。
例如:酿酒酵母:C—值大约为13.5Mb裂殖酵母:C—值接近20Mb这两种酵母有类似的结构复杂性和较少的重复序列DNA。差异反映了非编码的单一顺序DNA之间的不同如基因间DNA片段和内含子:
裂殖酵母40%的基因有内含子而酿酒酵母只有4%基因有内含子在更高等的真核生物中,基因间区域和内含子更大,内含子数量更多,使基因的平均大小和基因间距离增加。3、DNA复性动力学
基因组内单一序列和重复序列的组成情况,可通过DNA复性动力学研究来确定。DNA复性:当变性DNA的两条互补链在除去变性因素后,可以重新或部分恢复成双螺旋结构。复性的必要条件:足够的盐浓度;温度适中(低于Tm20-25℃)复性过程缓慢:成核作用→拉链作用当两条单链DNA接触时,如果某个区段可以互补配对,就先形成一个双链核心区,然后扩展其互补配对区段而复性形成双链。复性过程很复杂,但基本符合二级反应动力学dSDNA2SSDNA复性的速率可用下列公式表示:dC/dt=-kC2
k1k2这里,C是在t时单链DNA的浓度,k是二级反应常数。上述公式可以重排为-dC/C2=kdt对上式积分整理得:C/C0=1/(1+kC0t)这里C0是t=0时DNA的初始浓度这个公式表明反应中单链DNA所占百分数(C/C0)是DNA浓度(C0)同反应时间(t)乘积的函数,通常用C0t来表示。在一个特定的实验中,C0是已知的,C是可以测定的,如C/C0对C0t作图可以得到下图的曲线,称为Cot曲线(见图5—4)。当C/C0=0.5即复性反应完成一半时(t1/2)的Cot值定义为C0t1/2
(2)在不存在重复序列的情况下,C0t½值与基因组的大小成正比,也即与反应体系中的复杂度成正比:X=K’C0t½A.在一般标准条件下(阳离子浓度为0.18mol/L,片段大小为400bp)K’=5x105
则有:X=5x105C0t½B.在非标准条件下,通常用大肠杆菌DNA作为标准测定未知DNA的复杂度:
C0t½
(欲测基因组DNA)复杂度(欲测基因组DNA)C0t½(大肠杆菌DNA)4.2x106bp(3).在有重复顺序的复性中,在同一个复性曲线上的各动力学组分的C0t1/2并不因基因组的大小而增减,而是与DNA序列的重复频率成反比:C0t½(1):C0t½(2)=f(2):f(1)式中(1)和(2)代表两个不同的动力学组分,f代表其重组频率(拷贝数)复性动力学研究表明
=原核生物基因组的C0t曲线是单一的S形曲线真核生物基因组的C0t曲线是多S形曲线,由若干个(一般2-3个)S形加合成的曲线。求每一S’的动力学复杂性:C0t(C)’1/2=630x45%=283CDNA复杂性=4.2x106
x283/4.0=3.0x108(bp)C0t(B)’1/2=1.9x30%=0.57BDNA复杂性=4.2x106x0.57/4.0=6x105(bp)C0t(A)’1/2=0.0013x25%=0.000325ADNA复杂性=4.2x106x0.000325/4.0=340(bp)S’(A)S’(B)S’(C)根据化学长度和复杂性求重复频率:B化学长度=7.0x108x30%=2.1x108(bp)B动力学长度=6x105(bp)f(B)=2.1x108/6x105=350A化学长度=7.0x108x25%A动力学长度=340f(A)=7.0x108x25%/340=5x105由此可见,在真核生物中复性反应最快的组分是一些高度重复序列,复性反应次之的是中度重复序列,复性反应最慢的组成则是单一序列以及在基因组中出现2-3份拷贝的一些序列。4、基因组DNA序列的分类基因组DNA分子可以根据其结构和功能从不同角度分成不同的类别。(1)基因序列和非基因序列
基因序列指基因组里决定蛋白质(或RNA产物)的DNA序列,一端为ATG起始密码子,另一端则是终止密码子。在分析基因组序列时,当一个DNA序列以ATG起始密码子开始,随后是一个个密码子,但还未发现与这个序列对应的蛋白质产物,此时,这种DNA序列称为可读框(openreadingframe,ORF)。一般说,一个ORF相当于一个基因,只是其产物还有待发现和证实。非基因序列则是基因组中除基因以外的所有DNA序列,主要是两个基因之间的间插序列(interveningsequence)。
(2)编码序列(Codingsequence)和(Non-codingsequence)非编码序列
编码序列指编码RNA和蛋白质的DNA序列。由于基因是由内含子和外显子组成,内含子是基因内的非蛋白质编码序列。所以基因的内含子序列以及居间序列的总和统称为非蛋白质编码序列。(3)单一(unique)序列和重复(repetitive)序列
单一序列是基因组里只出现一次的DNA序列。基因序列多半是单一序列,但也不全是单一序列,因为有些基因在基因组内的拷贝数不止一个。同时,非基因序列中也有单一序列。比如用作遗传标记或作图界标的短串联重复序列(shorttandemrepeat,STR)和序列标定位点(sequencetaggedsite,STS)等。重复序列:是指在基因组中重复出现的DNA序列基因组内的重复序列有的是散在分布,有的是成簇存在。以人类基因组为例,单一序列约占基因组的50%左右;两栖类和显花植物基因组中单一序列所占比例要低得多,主要是一些重复序列。根据DNA序列在基因组中的重复频率,可将其分为:
轻度重复序列、中度重复序列和高度重复序列。
①轻度重复序列一般指一个基因组内有2—10份拷贝,但有时2—3份拷贝的DNA序列也被视作非重复序列。组蛋白基因和酵母tRNA基因属于轻度重复序列。②中度重复序列一般指10份到几百份拷贝的DNA序列,通常是非编码序列。这类重复序列平均长度约300bp,往往构成序列家族,同单一序列相隔排列,分散在基因组中。可能在基因活性的调控中起作用。高度重复序列一个基因组中有几百份甚至几百万份拷贝的高度重复序列。既有重复几百份拷贝的基因,如rRNA基因和某些tRNA基因,更多的则是很短的非编码序列的重复。这些序列往往是许多份拷贝呈头尾衔接的串联形式,也就是串联重复序列(tandemrepeat)。不同生物基因组中重复序列所占比例有很大差别。原核生物基因组中基本上不含有重复序列;低等真核生物基因组中,重复的组成不超过20%,且多半是中度重复序列;动物细胞的基因组中,中度和高度重复序列约占50%;在一些显花植物和两栖类基因组中,中度和高度重复序列几乎可以高达80%。
真核生物基因组成分根据含量和功能分类
DNA类型定义
根据含量单一顺序(单拷贝,低拷贝,非重复顺序DNA):
每个基因组中顺序出现一次或很少次。包括大部分基因和内含子,节顺序和其他未知功能的DNA。中等重复顺序DNA
:每个基因组中出现10~10000个拷贝。一般是代表高度保守的多基因家族的分散重复顺序(功能假基因)和转座因子。偶尔成簇排列。高度重复顺序:每个基因组中出现10000~1000000个拷贝的序列。一般作为随机重复顺序被发现,一些超丰度的(弥散的)转座因子也属于这类(如Alu元件)。根据功能
基因DNA:
基因,即可以表达的DNA。基因DNA可以进一步分为mDNA(编码蛋白)、rDNA、tDNA、snDNA等,代表了不同的基因产物。
调节DNA
:DNA的功能是调节基因表达(如启动子、增强子)或调节DNA功能(如复制起始区,核基质结合区域)
基因内DNA,间隔DNA
:
内含子和分隔基因的DNA。卫星DNA
:靠近着丝粒、端粒和其他位置的高度重复DNA,有些卫星DNA在染色体功能中发挥作用。自在DNA
:功能是介导自身在基因组中的复制和生存,如一些卫星DNA和转座因子。无用DNA:没有确定功能的DNA5、重复顺序DNA
⑴基因家族(genefamily):由同一个祖先基因经过重复(duplication)与变异进化而形成结构与功能相似的一组基因,组成了一个基因家族。基因家族中的各个成员可以聚集成簇也可以分散在不同染色体上,或者两种情况兼而有之。结构基因家族中各个成员通常具有相关的甚至相同的功能。(2)基因族(genecluster):由相同或相关的邻近基因组成的一个基因群或一组基因
(3)多基因家族
(multigenefamily)
多基因家族是一个基因组中功能相似、进化上同源的一组基因。在这些基因中,拷贝数、顺序保守性、构成、分布状态和功能相关性有很大差异。例如:在一些子中,家族成员可能非常相似或完全一样(如rRNA基因)。在其他一些例子中,保守性非常差,即使通过序列比较也不能发现。经典的多基因家族是结构相似,在整个编码顺序中保守。它们可以在特殊座位上成簇排列(如人类—珠蛋白基因)、分散的(如人类肌动蛋白基因)或者两者都有(玉米醇溶蛋白基因)。成簇的多基因家族的偶尔分散的成员称为孤独基因(orphon)。注(孤独基因与孤儿基因(orphan)不同,孤儿基因是在基因组测序计划中发现的,在其他有机体中没有对应的基因,已确定它没有功能)。其他多基因家族只在特殊的对应保守的蛋白结构域的亚基因区域相同(如同源异形基因在编码DNA结合的结构域的180bp同源盒相关)。更有其他一些只在一个非常短的氨基酸基序相关(如MADS盒和DEAD盒RNA螺旋酶基序)。更为复杂的是,很多基因呈现为对应不同蛋白结构域的相对独立功能单位的嵌合分子,使它们能够同时成为几个不同家族的成员。这样的基因被认为是通过祖先基因间的重组产生的(参见外显子改组),可以包含重复的编码信息(参见外显子重复)。Figure3.16showsthattheproportionofuniquegenesdropssharplywithgenomesize.Whengenesarepresentinfamilies,thenumberofmembersinafamilyissmallinbacteriaandlowereukaryotes,butislargeinhighereukaryotes.MuchoftheextragenomesizeofArabidopsisisaccountedforbyfamilieswith>4members(1403).(4)超基因家族(supergenefamily)DNA序列相似,但功能不一定相关的若干基因家族或单拷贝基因总称。(5)假基因(pseudogene)
多基因家族经常包含结构保守的基因,它们是通过积累突变产生,来满足不同的功能需要。在一些例子中,突变使基因功能完全丧失,这样的无功能的基因拷贝称为假基因,经常用希腊字母表示。根据起源和结构的不同,假基因分为两类:未加工的假基因加工的假基因
Figure3.20Themousegenomehas~30,000protein-codinggenes,whichhave~4000pseudogenes.Thereare~800RNA-codinggenes.ThedataforRNA-codinggenesarereplottedontheright,atanexpandedscaletoshowthatthereare~350tRNAgenesand150pseudogenes,and~450othernoncodingRNAgenes,includingsnRNAsandmiRNAs.①未加工的假基因(nonprocesspseudogenes)也称为常规假基因(conventionalpseudo—genes),是通过基因组DNA复制产生,经常位于相同基因有功能拷贝的附近。它们与有功能的同源基因有类似的结构,可以包括内含子和调节元件。这样的假基因在细菌和真核生物中都有发现,因为它们是积累突变,包括使转录消失的调节突变和产生截短编码产物的无义突变,所以能够被识别。偶尔未加工的假基因可以通过一个有利的突变重新激活。产生未加工假基因的过程也可能产生部分基因或截短的拷贝。②加工的假基因(processedpseudogenes)也称为反转录假基因(retropseudogenes),是通过对mRNA的反转录和获得的cDNA的随机整合而产生;它们经常是分散的。加工假基因是由反转录因子(参阅)编码的反转录酶和整合酶的外来活性而产生的,只在真核生物中被发现。加工的假基因结构对应于起源基因的转录单位,缺乏内含子和侧翼顺序。因为缺乏侧翼顺序,加工假基因一般不表达,尽管它们偶尔整合在内源性启动子附近,并受它的控制(人类编码丙酮酸氢化酶的基因被认为是这种方式产生的)。RNA聚合酶有Ⅲ内在的启动子,所以它的加工的假基因可以表达。人类高度重复Alu元件是表达的RNA聚合酶Ⅲ加工的假基因的例子。⑷、结构和功能的冗余性
冗余(redumdant)序列是在基因组中出现超过一次的序列,也就是增加基因组大小,并不增加复杂性的序列。冗余基因并不必定是功能冗余。一些基因被发现有冗余拷贝,以产生足够基因产物(rRNA基因属于这一类),另一些进化以实现不同功能。功能冗余可以通过当特定基因或元件缺失造成表型缺失来建立。完全或部分功能基因冗余在多细胞有机体的很多定向突变中可以看到,即使同样的基因在异位表达时表现出显著的功能效应的增加。另一个例子是转录因子MyoD,它可以通过激活生肌途径使很多不同的细胞类型转变成肌肉。当小鼠myoD基因删除(参见基因敲除),同源基因无效的个体是正常的。这是因为另一个转录因子,Myf-5能够对MyoD缺失进行补偿。功能冗余经常反映了结构冗余(祖先基因通过复制产生的两份拷贝,如同上述例子1),它们可以补偿相互的功能缺失)。在其他的情况中,不同的基因在相同的功能上汇集,例如几种不相关的蛋白从两栖动物织原中分泌——腱蛋白,成头蛋白,囊泡抑制素;它们的共同功能是阻断TGF-p信号。功能冗余在有重要发育作用的基因中是普遍存在的,而在看家基因中较少。(5)、重复DNA顺序的结构
重复DNA顺序由特定大小序列(重复位,repeatunit),以特定拷贝数目在空间上以特殊的方式组成。重复单位可以以三种方式被组织:
串联重复(tandemrepeats)在单个重复单位间没有间隔;
不完善的重复(hyphenatedrepeats)被小间隔分离,但还是成群排列;
分散重复(dispersedrepeats)散布在整个基因组中。单个重复顺序间可以是相同方向(正向重复)或者是相反方向(反向重复)排列(图12.1)。作为分散重复DNA的转座因子
如上文所讨论的,一些基因组范围分散的重复DNA对应于多基因家族的成员,包含功能基因和假基因。另外它可以代表在DNA水平上起作用的基序。大多数分散重复DNA对应于有功能的转座因子或它们的“空壳”形式(通过突变失活的因子)。这种序列类型的优势在不同生物体中变化很大。在细菌基因组中,转座因子的拷贝数经常<10,而脊椎动物一般分布广泛(尽管在河豚鱼基因组中不存在)。
在哺乳动物中,两类特殊的逆转录因子是不同类型的分散重复。SINEs是短散布核元件(shortinterspersednuclearelement),对应于加工的7SLRNA假基因的拷贝,它在人类中称为Alu元件,在小鼠中是B1元件。Alu元件大约300bp长度,像其他转座因子一样两侧是正向重复,反映了其整合机制(参见移动遗传因子)。它主要位于GC丰富的DNA区域,估计有106的拷贝数,平均每4kbp有一个元件。LINEs是长散布核元件(longinterspersednuclearelements)
对应于称为LINE—1(L1)的丰富反转录转座子的拷贝。L1元件最大长度为6kbp,拷贝数105(尽管全长的元件只占一小部分,<5000拷贝)。L1和Alu元件都是与基因相联系的,但它们的分布是相关的,与基因组的等容线结构有关(参阅),可能是因为整合靶位点的倾向性。这些元件都不在基因的编码区——它们经常出现在内含子和两侧区域,Alu元件偶尔出现在基因的3’非翻译区域,可以被RNA聚合酶Ⅱ作为基因的一部分转录。
等容线模型(isochoremodel)将哺乳动物基因组分成不同的区域,长度>300kbp,以相对均一的碱基组成为特征。哺乳动物基因组平均的GC含量是约40%,但不同区域间在37%和55%之间变化。片段化DNA可以通过浮力密度梯度分为五个等容线类型:L1和L2(AT丰富)和H1、H2、H3(GC丰富)。所有的哺乳动物显示了类似的等容线表现。通过确定克隆基因的GC含量和将YACs分成等容线类型,可以研究等容线类型中基因分布。AT丰富的等容线组成了人类基因组的65%,但只包含30%的基因。在H2和H3等容线中基因密度最大。在H3等容线类型中,预计密度是每10kbp一个基因6)卫星DNA
是高等真核生物基因组重复程度最高的成分,由非常短的串联多次重复DNA序列组成。高度重复DNA在物种间变化,但一般占了基因组的10%~30%。因为它的低复杂性,有时称为简单序列DNA,又因为其不寻常的核苷酸组成,它经常在浮力密度梯度离心中从整个基因组DNA中分离成一个或多个“卫星”条带,也称为卫星DNA。卫星DNA由重复单位5-10bp组成,有的长达100bp,成串排列,重复次数105-107一般位于染色体的异染色区。①卫星DNA(SatelliteDNA):
大多数位于着丝粒区或核仁组织者
②小卫星DNA(MinisatelliteDNA):
一般位于端粒处,由几百个核苷酸对的单元重复组成。
③微卫星DNA(MicrosatelliteDNA):由2-20个左右的核苷酸对的单元重复成百上千次组成卫星DNA
④
隐蔽卫星DNA(crypticsatelliteDNA):有与大多数基因组DNA相当的浮力密度,离心时并不象卫星DNA那样被分开,它不形成卫星条带,但它的属性却类似卫星DNA,其组成包含了多种串联重复序列的DNA分子;它通过其他方法被鉴定,如限制性作图。卫星DNA以大的基因簇(100~3000kb)分布,经常位于异染色质的着丝粒,可能在染色体功能中起作用。大多数人类染色体的中心粒DNA包含了隐蔽卫星DNA,称为阿尔法DNA(-卫星DNA:灵长类特有的单元为171bp的高度重复序列,分布在人染色体的着丝粒区),尽管另一种成分—卫星DNA在至少人类8条染色体的中心粒也很丰富。—和—卫星DNA家族中染色体特异性序列存在差异。
在昆虫中,卫星DNA由很多非常短的显著链不对称序列(5—15bp)组成。哺乳动物卫星DNA的组织方式更复杂。简单重复序列表现出一些可变性,经常形成些串联重复的一定程度可变的区域。卫星DNA因此是由分层结构的简单序列块组成,被认为通过持续突变和扩增的循环产生,可能涉及不对称交换和基因转换。不等交换小卫星DNA和微卫星DNA
大多数卫星DNA是以染色体着丝粒区域或核仁组织者的重复序列组成的大基因簇存在,但也经常出现在称为小卫星DNA的小基因簇(100bp~10kbp)中,一般位于端粒处。有两种形式的小卫星DNA。在每个染色体臂的末端是端粒DNA。在大多数真核生物中,它由特征性的几千碱基的串联五核苷酸或六核苷酸DNA重复组成(见表5.2),它的功能是在随后的DNA复制周期中阻止染色体缺损(参见端粒、端粒酶)。第二类高度可变的小卫星DNA位于亚端粒区域。高度可变DNA的重复单位在不同的位置不同,但都包含了共同的GC丰富的核心共有序列。每个位置的拷贝数是高度多态性的,因此又称为VNTR序列(variablenumberoftandemrepeats,同向重复序列可变数)。高度可变小卫星DNA的功能(VNTRDNA)还不清楚,但它可能可以促进重组(在染色体的亚端粒区域交换趋向于成簇)。端粒位置的倾向性意味着小卫星DNA不仅对基因组范围的遗传作图有用,它还可被广泛用于DNA印记的诊断标记。VNTRs呈孟德尔遗传,也可用作遗传作图。
DNA分型(DNAtyping)或DNA分布图(DNAprofiling)涉及用小卫星DNA(VNTR)产生DNA片段组,以电泳分离时,提供任何个体的独特模式(有时称为DNA指纹,DNAfingerprints)。小卫星DNA是高度多态性的(每个位置重复单位的数目),而在基因组中有很多小卫星DNA,倾向于分布在亚端粒区域。如果足够的位点被同时分型,不相关的个体极不可能产生相同的分布图,但因为小卫星是以盂德尔性状传递的,相关个体会有类似分布图,并且相匹配的DNA片段数目与对应于它们亲缘关系的紧密程度呈正相关。应用可应用在犯罪研究中。DNA可以从犯罪现场的组织和体液中提取(经常是血液、精液或毛发),然后与怀疑对象取得的对照样品比较。同样的,DNA也可以从动物和植物中获得,与保存的参照比较确定它们的起源。帮助确立亲子关系,证实家谱或显示个体的相关性)。DNA分型方法学原先的DNA分型方法涉及用限制性酶剪切DNA,通过基因座特异性探针进行Southern杂交分型。PCR分型方法类似于分布图,但可以应用于微量样品(如干了的一滴血,一根毛发),并可容忍一定程度的DNA降解。微卫星DNA
出现在更小的基因簇(<200bp)中,以非常短的重复单位(1~4bp)为特征。它们有高度的多态性,分布在整个基因组中,所以它们是理想的遗传标记。在两种可能的同源多聚体,ploy(A)/poly(T)远比ploy(C)/poly(G)普遍,且二核苷酸微卫星ploy(CG)/poly(GC)因为CpG基序的损耗而稀少。三和四核苷酸微卫星DNA相对稀少,但作为标记比通常出现的二核苷酸微卫星更有用,因为在PCR基因型印记中链的跳格较少。MicrosatellitesDNAelementscomposedof15-100tandemrepeatsofone-,two-,orthree-basesequencesareknownasmierosatellites.ExamplesareAAAAAAAAAAAAAAAorCACACACACACACACA-CACACACACACACACACACACACA.Alsoknownassimplesequencerepeats(SSRs),microsatellitesarisespontaneouslyfromrandomeventsthatduplicateamono-,di-,or(lessoften)trimericsequenceonetoafewtimes.Atsomeloci,theseinitialtandemduplicationsincreaseinnumberthrougherrorsinreplication.Inthemammalian
genome,forexample,theCA-repeatmicrosatelliteoccursonceinevery30,000bp.Researchershavedeterminedthisfrequencybyprobinggenomiclibrariesandcalculatingthenumberofpositiveclones.Althoughthetandemrepeatsofmicrosatelliteshavenoknownfunction,theyarefoundthroughoutthegenomesofallvertebrates;thehumangenomecontainsroughly100,000microsatelliteloci.Microsatellitestendtobehighlypolymorphicinthenumberofrepeatstheycarry,withmanyallelesdistinguishableateachmicrosatellitelocus.ResearchshowsthatfaultyDNAreplicationisthemajormechanismgeneratingthemanyalleles(Fig.9.3).Becausethesameshorthomologousunit(CA,forexample)isrepeatedoverandoveragain,DNApolymerasemaydevelopastutterduringreplication,thatis,itmayslipandmakeasecondcopyofthesamedinucleotide,orskipoveradinucleotide.(7)NoncodingFunctionalsequences—端粒DNA:
Telomeres端粒:是真核生物染色体上的末端结构,能将染色体末端封住,使之不能与其它染色体片段相连接,而保持各染色体的相对完整性和独立性,是真核生物染色体复制和稳定性的必需结构。TelomereshavetandemarraysofsimpleDNAsequencesthatdonotcodeanRNAoraproteinproduct,butneverthelesshaveadefinitefunction.在这里端粒的重复序列解决了线状DNA分子复制中遗传的功能问题端粒酶:是一个核糖核蛋白,既含有蛋白质成分也含有RNA分子,
在RNA上含有复制端粒亚单位所需要的关键核苷酸模板。因此端粒酶可以看作一种特殊的DNA聚合酶,即自身携带RNA模板的反转录酶。(8)、超基因(supergene)操纵子是细菌中与同一种生化功能有关的几个基因(如控制色氨酸合成的有关基因)在基因组内聚成一簇而紧密连锁,并受一个基因调控。操纵子只在细菌中发现。在真核生物基因组内很少发现,真核生物的结构基因一般是单独调控的,但真核生物中也有称为超基因的结构。超基因是指作用于一种性状或作用于一系列相关性状的几个紧密连锁的基因。人类基因组的超基因如血红蛋白基因簇。在个体发育的不同时期,基因簇中的不同基因进行表达。一个祖先基因经过重复(duplication)和变异而产生的一组基因,组成了一个基因家族(genefamily)。基因家族中的各个成员可以聚集成簇也可以分散在不同染色体上,或者两种情况兼而有之。结构基因家族中各个成员通常具有相关的甚至相同的功能。
一个共同的祖先基因通过各种各样的变异,产生了结构大致相同但功能却不尽相似的一大批基因。这一大批基因分属于不同的基因家族,但可以总称为一个基因超家族(superfamily)。
原核生物基因组的结构特点E.coli2.4×109Da,42000Kb(1300微米),闭合环状,约编码4000个基因。类核(nucleoid)。支架(scafford)100个DNA环组成,每个环长40Kb,13微米。每200bp就有一个负超螺旋(=0.05),即基因组中含
5%的负超螺旋。超螺旋以两种状态存在:(1)自由状态的超螺旋,可在环内传递张力。(2)超螺旋受到束缚,不能传递张力。一.类核的结构返回表10-1
E.coli含有的各种DNA结合蛋白蛋白结构功能含量/每细胞相当于其核蛋白基因HUα和β亚基,每个9KD使DNA压缩、类核凝聚,刺激复制,和1HF有关4万个二聚体H2BhupA.BH两个相同亚基,各28KD促使双链的互补、复性3万个二聚体H2A?IHFα:10.5KD;β:9.5KD有助于att位点配对重组??himA.D.H1(H-NS)15KD亚基和DNA结合,与DNA拓扑结构有关1万?osZbglYpilGHLP117KD单体?2万?firAP3KD亚基??鱼精蛋白(DNA结合蛋白)?
1977年Sanger首先发现重叠基因他对单链环状的噬菌体X174进行了测序。5386Nt11基因,3个转录单位,由3个启动子(pA,pB,pD)启动。X174含有的5386Nt最多能编码1795个氨基酸,若每个氨基酸的平均分子量为110,则总的蛋白质分子量为197,000Da,但实际蛋白质总分子量却为262,000D。将全部DNA顺序和蛋白质的氨基酸顺序进行比较,发现了重叠基因二重叠基因(overlappinggene)重叠基因OverlappingGenes三.质粒(plasmid)1.抗性质粒(Resistance(R)plasmids):2.
致育因子(Fertility(F)plasmids)3.
Col质粒:有编码大肠杆菌素(colicins)基因。4.
降解质粒(degradativeplasmids)。这种质粒编码一种特殊蛋白,可使宿主菌代谢特殊的分子,如甲苯或水杨酸。5.
侵入性质粒(virulenceplasmids)。这些质。如Ti
质粒,此是在根癌农杆菌(Agrobacterium
tumefaciens)中发现的
真核基因组的复杂性
分子量约为3×1012道尔顿长度为2×106Kb,形态为线状,约编码10万个以下的基因。人类细胞在二倍体的核中DNA长约30亿个碱基对估计编码3万个基因,每条染色体含碱基8千万至3亿不等。现已有5千个基因被编目,1900个基因已进行了染色体定位,600个已被克隆分离出来。若将一个细胞中每条染色体的DNA首尾彼此相接,全长约200cm。RenatoDulbecco于1986年首先提出了“人类基因组计划”,原计划约10-15年完成,耗资30亿美元,其宏伟的程度堪与Manhatto原子弹计划和Appolo登月计划相提并论。
1990年开始实施1999
破译出人类第22号染色体的遗传密码。2000
完成了人类第21号染色体的测序。预计从原定的2003年6月提前到2001年6月完成。2000年6月26日美,英,日,德,法,中六国共同宣布人类基因组工作草图绘制成功。2000年3月塞莱拉公司宣布完成了果蝇的基因组测序。12月14日英美等国科学家宣布绘出拟南芥基因组的完整图谱。这是人类首次全部破译一种植物的基因序列。2001年:1、2月,HGP和美国塞莱拉(Sequencing)公司将各自测定的人类基因组工作框架图分别发表在Nature和Science上,这表明人类基因组计划(HGP)进入了一个展新的阶段。2000,4,5:以杨焕明为首的中国科学家在Science发表了水稻全基因组框架序列图。基因总数:46022~55615,约为人类的2倍;其中10000个基因的功能已确定;水稻的“垃圾”序列多位于基因外,人类的“垃圾”序列多位于基因内;水稻的基因平均长度为4500bp,人类基因平均长度为72000bp,拟南芥约有25000个基因,80%在水稻中都存在,二者之间有关信号传导的基因差别最大一.
组蛋白组蛋白类型碱性氨基酸氨基酸数分子量(Da)LysArgH129%1%21523,000H2A11%9%12913,960H2B16%6%12513,775H310%13%13515,340H411%14%10211,280表12-2小牛胸腺DNA的组蛋白的特点二.
核小体(nucliesome)1956年Wilkins和VittorioLuzzati对染色质进行了X衍射研究,发现染色质具有间隔为100埃的重复性结构。这意味着甚麽?Clark和Felsenfeld于1971年首先用葡萄球菌核酸酶(Staphylococcalnuclease)来作用染色质,不敏感的区域比较均一。这暗示甚麽?接着Hewish和Burgoyun(1973年)用内源核酸酶消化细胞核,再从核中分离出DNA,结果发现一系列DNA片段,它们相当于长约200bp的一种基本单位的多聚体。表明甚麽?M.Noll(1974年)用外源核酸酶处理染色质,然后进行电泳,测得前三个片段的长度分别为205,405,605bp长,表明甚麽?Olins夫妇(1974)和PierreChambon等(1975)在电镜下观察到染色质的“绳珠”状结构,小球的直径为100埃,Olins并把这种小球称为小体。X衍射图表明组蛋白的多聚体是紧密相联,并无可容纳像DNA分子那样大小的孔洞,表明甚麽?1974年Kornberg和Thomas
先用小球菌核酸酶稍稍消化一下染色质,切断一部分200核苷酸对单位之间的DNA,使其中含有单体、二聚体、三聚体和四聚体等。然后经离心将它们分开。每一组再通过凝胶电泳证明其分子大小及纯度。然后分别用电镜来观察各组的材料;结果单体均为一个100埃的小体,二聚体则是两个相联的小体,同样三聚体和四聚体分别由三个小体和四个小体组成,表明甚麽?1984年Klug和Butler进行了修正核小体模型。核小体的
梯度离心
和电泳6、原核生物基因组与真核生物基因组的特点原核生物基因组:(1)不具备明显的核结构,只有DNA的集中区,形成拟核Nucleoid(2)基因组小,例E.coli4639Kb,多数基因都包括在单一个环状DNA分子上,单一DNA复制起点,一个复制子。(3)重复序列和不编码序列很少。DNA的绝大部分是用来编码蛋白质的,只有非常小的部分不转录。一般无内含子和重复基因,即原核生物基因是连续的基因。(4)功能上密切相关的基因构成操纵子或高度集中,常转录成多基因mRNA(多顺反子mRNA)(5)有重叠基因(6)结构基因通常是单一的DNA序列,除rRNA和tRNA基因外,原核生物结构基因都是单拷贝。真核生物基因组:(1)真核生物基因组数目庞大,结构复杂,基因组大部分位于细胞核中,一般由多条染色体组成,每条染色体又是由DNA分子与蛋白质稳定的结合成染色质的多级结构(2)每条染色体的DNA分子具有多个复制起点,基因内存在着不表达的插入序列,即内含子。真核基因多为断裂基因(3)编码序列仅占基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论