Gene7-02从基因到基因组_第1页
Gene7-02从基因到基因组_第2页
Gene7-02从基因到基因组_第3页
Gene7-02从基因到基因组_第4页
Gene7-02从基因到基因组_第5页
已阅读5页,还剩136页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Lecture2FromGenestoGenomes(7)Interruptedgenes(8)Introduction引言RestrictionendonucleasesareakeytoolinmappingDNA通过限制性内切作图Howvariableareindividualgenomes?分子标记,分子标记作图与应用(?)InterruptedGeneExonsequencesareconservedbutintronsvary

Genescanbeisolatedbytheconservationofexons

因在尺寸大小上分布广泛53断裂基因是如何发展进化的?58本讲主要内容Introduction1993NobelRichardJ.RobertsandPhillipA.SharpGenomic2.2

RestrictionendonucleasesareakeytoolinmappingDNA

Wecanthinkaboutmappinggenesandgenomesatseverallevelsofresolution:

Geneticmap

Acytogenetic

Agenetic(orlinkage)mapidentifiesthedistancebetweenmutationsintermsofrecombinationfrequencies.

AlinkagemapcanalsobeconstructedbymeasuringrecombinationbetweensitesingenomicDNA.

Physicmap

ArestrictionmapisconstructedbycleavingDNAintofragmentswithrestrictionenzymesandmeasuringthedistancesbetweenthesitesofcleavage.

Transceiptionmap

TheultimatemapistodeterminethesequenceoftheDNA.Fromthesequence,wecanidentifygenesandthedistancesbetweenthem.A

restrictionmaprepresentsalinearsequenceofthesitesatwhichparticularrestrictionenzymesfindtheirtargets.Distancealongsuchmapsismeasureddirectlyinbasepairs(abbreviatedbp)forshortdistances;longerdistancesaregiveninkb,correspondingtokilobase(103)pairsinDNAortokilobasesinRNA.Atthelevelofthechromosome,amapisdescribedinmegabasepairs(1Mb=106bp).我们现在可以制作一个完整的5000bp区域图谱。前面那长张图显示了特异的限制性酶切DNA的位置,这些切点的距离由碱基对进行测量。这样DNA被分割成一系列由限制性酶决定的确定长度的区域,这些长度区域由限制酶切割。2.2RestrictionendonucleasesareakeytoolinmappingDNA

32.

Restrictionmapping5000bp长的DNA分子由两个限制性酶A和B切成片段,而后DNA进行电泳。每一条片段的大小由已知大小的片段的位置来决定,如中部所示。酶A将DNA切成4段(长为2100,1400,1000,500pb),酶B切为3段(长为2500,1300,1200bp)。那么是否能根据这些数据制作一个图谱,来显示DNA分子的特定的断裂点呢?双单酶切做physicalmap真正构建限制性图谱时需要许多酶,所以解决由各种各样酶产生的十分复杂的覆盖片段是十分必要的。许多更进一步的技术就用来构建图谱。另一种方法是用部分(酶切)消化,通过在一些条件下,一种酶并不确认每一种DNA分子的目标切点而是不能在目标切点上进行切除。这种条件可以设置,这样这种酶有一个特殊的可能性,例如,只切它所识位点的50%。单酶切也可实现作图单酶切也可实现作图应用单酶切不完全消化技术,酶A可能产生3500,3100,1400bp等的分裂片段,通过比较完全消化的部分产品,1000-2100bp片段可被认作3100bp部分片段的邻近成分。同样,2100,1400bp片段可被置于3500bp部分片段作为邻近成分。这样该技术允许单切酶切点按序排列。如果一种酶的两个些切点离得非常近(比如,小于50bp),则所产生的非常小的片段就在琼脂糖凝胶上丢失。当然,当其它片段的分子量相加时,这种情况会导致脱节。这个问题可以通过应用其他一些限制性酶来构建图谱而被克服掉,所以用不同酶产生的片段中有总够的覆盖来保证所有的DNA都被包含进来。另一有用技术是末端标记,而DNA分子的末端用放射性P元素进行标记(一定的酶可将P单元特定地加到5`或3`端)。这允许了包含末端的片段由于放射标记而被识别。这样在片段A准备中,A-1000,A-500将迅速置于图谱两端,片段B-1200,B-1300将被认为是末端片段。通过用末端标记技术比较部分酶切消化,一系列的由一种酶所确定的切点可以直接相对末端而在图上做出来,图2.4显示了仅由它们放射性的标记末端而识别出的片段,那些分子内的切点被忽略掉,然后而一系列片段确定了距标记末端的每一个切点。如果图6.4的左端5000bp片段被做上标记,酶A的部分断裂将立即确定出距末段的1000,3100,4500bp切点。Figure2.4Whenrestrictionfragmentsareidentifiedbytheirpossessionofalabeledend,eachfragmentdirectlyshowsthedistanceofacuttingsitefromtheend.Successivefragmentsincreaseinlengthbythedistancebetweenadjacentrestrictionsites.2.2RestrictionendonucleasesareakeytoolinmappingDNA

1000,3100,4500bpDNA结构在不同种类的生物体内存在着相当大的差异随着对基因及基因组认识的不断深入,发现同种的不同个体之间,尽管其蛋白质产物的结构和功能完全相同或仅有微小差异,但在DNA水平却存在着差异或明显差异,尤其在不编码蛋白质的区域以及没有重要调节功能的区域表现更为突出。DNA顺序上的大多数突变是中性突变,即不影响生物体的表型,因而过去长期对这些突变不太重视,也无法用传统的遗传学方法来研究。2.3Howvariableareindividualgenomes?个体基因组如何变化?(thoughHPG)Forexample,youandme与酶切有关(小基因组)分子操作技术的不断发展,从DNA水平上直接分析生物体的突变成为可能。假如DNA顺序中的某个碱基发生了突变,尤其是在某种限制性内切酶的位点(突变或缺失)。这样,利用该限制性内切酶消化此DNA时,便会产生与正常不同的限制性片段。这样,在同种生物的不同个体中会出现不同长度的限制性片段类型,即限制性片段多态性(RFLP)。其他的显示DNA差异(多态性的)?分子标记构建高分别率遗传图谱(80年代,Botsein提出DNA限制性片段长度多态性(RFLP)可以作为遗传标记,从此开创了直接应用DNA多态的新阶段.90年代,DNA多聚酶链式反应(PCR)的发展,使直接扩增DNA的多态性成为可能,并在此基础上产生了许多种新型分子标记,诸如扩增片段多态性(ALFR)、串联重复序列(VNTR),RAPD是较为突出的一种.SNP单链构型多态性(PCR-SSCP)、序列特异扩增区域(SCAR).限制性片段长度多态性限制性片段长度多态性的分类RFLP分为两类型:一类是由于限制性内切酶位点上发生了单个碱基突变而使这一限制性位点发生丢失或获得而产生的多态性,故称之为点多态性(pointpolymorphism

)。这类多态性实际上是双态的,即有(+

)或无(-

)。另一类是由于DNA分子内部发生较大的顺序变化所致。这一类多态性又可以分成两类:第一类是由于DNA顺序上发生突变如缺失、重复、插入所致。反映的是在RLFP多态

第二类是所谓“高变区”。高变区(highlyvariableregion),是由多个串联重复顺序组成的,不同的个体高变区内所串联重复的拷贝数相差悬殊,因而高变区的长度变化很大,从而使高变区两侧限制性内切酶识别位点的固定位置随高变区的大小而发生相对位移。所以这一类型的RFLP是由于高变区内串联重复顺序的拷贝数不同所产生的,其突出特征是限制性内切酶识别位点本身的碱基没有发生改变,改变的只是它在基因组中的相对位置。即可反映在RLFP上,也可PCR扩增高变区DNA与DNA指纹人的卫星DNA或称随体DNA是由一些短的DNA片段(10bp左右)多次重复所构成的。重复片段的组成和拷贝数在不同的个体及基因组的不同位置上不一样。DNA指纹的图谱取决于所用探针的核心序列(即重复序列中的重复单位)。目前所用的探针有两种,即探针33.5。其核心序列为

AGAGGTGGGCAGGTGG,

33.6,即AGGGCTGGAGG。这就是说这两种序列在人体基因组中不同的位置上分别重复不同的次数,而在不同个体的基因组中,对应位置上这两种核心序列的重复次数也不相同。这样用这两种探针之一与合适的酶切割的人体基因组DNA片段杂交,在不同的个体将得到不同的DNA指纹,而且探针33.5的DNA指纹图也不相同。DNA指纹具有细胞稳定性和种系稳定性,是按孟德尔规律遗传的,而且杂合性高。对于由点突变引起的RFLP,就某一个多态性切点来说只有两种多态性,即切点有(+)或切点无(-)。而对由于高变区重复片段长度不同所引起的RFLP来说,在基因组上某一个位置核心序列的重复次数在不同的个体不一样,比如在个体A为10个拷贝,个体B为15个拷贝,而个体C又可能为18个拷贝等等。因此,在不同个体同一个相应位置上核心序列的重复次数就是多态的,而不是双态的。即使在基因组上的某一个位置处核心序列的次数一样,从而被酶切出的长度相同,但在基因组的其他位置上该核心序列重复次数又可能不同。由于DNA指纹是按孟德尔规律遗传的,子代的DNA指纹图可以追溯到其父母DNA指纹图上,而在不是其父母的DNA指纹图上则很难找到与其一样的小随体DNA片段。在父亲的5条可分辨的小随体DNA片段中,有4条处于杂合状态,即这4条DNA片段有不同的个体长度。因此,因高变区核心序列重复次数不同引起的RLFP才是真正的多态性。在不同个体,这种RLFP即DNA指纹可以说不存在相同的。即使使用一种探针产生的DNA指纹图无法鉴定这两个个体,如再用另一种探针便有可能将这两个个体区分开。DNA指纹技术已被应用于亲子鉴定和法医学上对罪犯的确认等领域。Haplotype(单元型,单倍型一条染色体或DNA分子的基因型)

istheparticularcombinationofallelesinadefinedregionofsomechromosome,ineffectthegenotypeinminiature.OriginallyusedtodescribedcombinationsofMHCalleles,itnowmaybeusedtodescribeparticularcombinationsofRFLPs.

丰富的多态性(或高频率)意味着每个个体有独特的限制性位点。在特殊区域发现的位点组合称为单体型(Haplotype)。单体型概念最初用于描述主要组织兼容性座位(编码在免疫系统中很重要的蛋白质区域,见第24章)的遗传组成。现在延伸到描述基因组限定区域的等位基因或限制性位点(或者任何其他遗传标记)的特殊组合。

(个体某些位点或基因的组成)

2.3Howvariableareindividualgenomes?个体基因组如何变化?SNP

(singlenucleotidepolymorphism)isanysiteatwhichasinglenucleotidehaschangedwhentwo(haploid)genomesarecompared.SNPsandHaplotypesASingleNucleotidePolymorphism(SNP),pronouncedsnip,is

asingleDNAbasevariationobservedinthehumanpopulation.AhaplotypestandsforasetoflinkedSNPsonthesamechromosome.SNP1SNP2SNP3-ACTTAGCTC--AATTTGCTC--ACTTTGCTT--ACTTTGCTC-Haplotype2Haplotype3CACATCCTTHaplotype1SNP1SNP2SNP3Haplotype4CTCSNP,RLFP,VTRP实际上,在DNA顺序中,存在着大量的单个碱基的替换,但用通常所用的技术只能检测出影响到限制性内切酶识别位点上的突变。不同的多态性切点在一特定人群中出现(+)的频率不一样。一段DNA,切点A=0.6(即60%的人含有该切点,而另外40%的人在同一位点处不含该切点);切点B=0.4。随机:A、B同时存在(++)0.6×0.4=0.24,即24%的人同时含有A、B两个切点。非随机相关的,那么同时存在的可能性将和预期的频率相差较大。这种相关的非随机性称为:连锁不平衡。n,2n组合,每种组合称为一种单元型,每种单元型随机相关的预期出现频率为各个位点频率乘积。但是,实践证明多态性切点之间并非随机相关。例如,在β珠蛋白基因簇内多态性切点2到9共8个,理论应有28=256种组合,即256种单体型。但实际上有3种单体型在希腊、意大利和亚洲印度人βA染色体(携带正常β-珠蛋白基因的染色体)中就有94%,而有些理论上的组合在实际上却是不存在的。在理论上,单体型(从切点2到9)的频率为0.46×0.48×0.7×0.27×0.83×0.52×0.37×0.32=0.0021,而实际上该单体型的频率为0.64,两者相差甚大。这说明各个多态性切点之间是非随机相关的(连锁不平衡)。Mappinghumangenesbylinkageanalyisis Physicaldist. Geneticdist.Chromosome1: 283Mb 270cM(0.95cM/Mb)qarmofchromosome21: 30Mb 62cM(2.1cM/Mb)Humangenome 3200Mb

3615cM(1.13cM/Mb)Femalegenome 4460cMMalegenome

2590cMLinkageequilibriumanddisequilibriumDA=Da=f(D)*f(A)or(a)dA=da=f(d)*f(A)or(a)DA=\=Da=\=f(D)*f(A)or(a)dA=\=da=f(d)*f(A)or(a)-Ratioformgeneticdistancetobasepairsrangefrom0.01cM/Mbto60cM/MbLinkageequilibriumanddisequilibrium90%ofallSNPsaresharedamongdisparatepopulationsAfricanpopulationshavesmallersblocks(average7.3kb)comparedwith16.3kbinEuropeanswhereastheChineseandJapaneseblockshaveanaveragesizeof13.2kb.

Whatdoyouusewiththesemarkers?CandidategeneanalysisBasedonpriorlocalizationinformationfromaffectedfamiliesGenome-widescan定位克隆辅助选择疾病诊断。。。。。分子标记的重要作用:·为发现疾病提供了诊断过程。有些遗传描述详细但是分子机制描述困难的人类疾病很难诊断,如果一个限制性片段与表型可靠地相关,那么它的存在可用来诊断该种疾病,无论是在出生以前还是出生后。·为分离基因提供依据。如果两个位点很少或者从不重组,在遗传图谱中限制性片段应该距离基因相对很近。尽管遗传中“相对很近”用DNA碱基对表示可能是有一定距离,但它提供了一个使我们沿着DNA找到基因的起点。RELPs在人类基因组内发生频繁,对遗传作图是很有用。但HapMapCatalogofcommonhumangeneticvariationacrossthegenome“Common”wastakentomeanthatthemorerareallelewasinatleast5%ofthepopulation1MillionSNPsweregenotypedin269samplescomprising4populationsAssociationsbetweenSNPshavebeenidentifiedandcataloguedMarkerSelectionforWholeGenomeStudiesUsinginformationfromtheHapMap,itispossibletoselectasetof~300,000-600,000SNPsthatwillrepresentallvariationinthegenomeUsingarraytechnologies,itispossibletogenotypethismanySNPsatoncebasedonCommonDisease-CommonVariantHypothesisMultiplePopulationsTheDNAsamplesfortheHapMaphavecomefromatotalof270people.TheYorubapeopleofIbadan,Nigeria,provided30setsofsamplesfromtwoparentsandanadultchild(eachsuchsetiscalledatrio).InJapan,45unrelatedindividualsfromtheTokyoareaprovidedsamples.InChina,45unrelatedindividualsfromBeijingprovidedsamples.ThirtyU.S.triosprovidedsamples,whichwerecollectedin1980fromU.S.residentswithnorthernandwesternEuropeanancestrybytheCentred'EtudeduPolymorphismeHumain(CEPH).大量的SNP连锁不平衡构成了丰富多态性ThehapMap(haplotypemapPost-genome确定限制性图谱的突变点更困难一些。偶然它们将改变限制性酶的目标切点,但它们就保持不可探测性,因为限制性片段的在野生型和突变型保持着同样大小。有时,探测通过它们对单链DNA较短的片段的移动的影响是可以探测其顺序变化的,在一项叫作单链构型多态性(SSCP)的技术即可达到此项目的。但是在DNA更大区域内寻找碱基替代物时,决定核苷酸DNA的顺序将非常必要了。聚合酶链反应-单链构象多态性分析(SingleStrandConformationPolymorphismAnalysisofPolymeraseChainReactionProducts,PCR-SSCP)是近年来发展起来的一种基因分析方法。

PCR-SSCP分析的基本程序为:首先PCR扩增特定靶序列,然后将扩增产物变性为单链,进行非变性聚丙烯酰胺凝胶电泳。相同长度的DNA单链其序列不同,甚至单个碱基不同,所形成的构象不同,电泳迁移率也不同。PCR产物变性后,单链产物经中性聚丙烯酰胺凝胶电泳,靶DNA中含单碱基置换,或数个碱基插入或缺失等改变时,因迁移率变化会出现泳动变位,从而可将变异DNA与正常DNA区分开。PCR-SSCP分析技术是一种DNA单链凝胶电泳技术,该技术已被广泛用于癌基因和抗癌基因变异的检测、高分别率的分子标记遗传图谱Usingmicrosatelliterepeatsasmolecularmarkersformapping.Ahybridizationpatternisshownforafamilywithsixchildren,andthispatternisinterpretedatthetopoftheillustrationwiththeuseoffourdifferent-sizedmicrosatellite“alleles,”M′throughM′′′′,oneofwhich(M′′)isprobablylinkedincisconfigurationtothediseaseallele

P.

Fourallelesforarestrictionmarkerarefoundinallpossiblepairwisecombinations,andsegregateindependentlyateachgeneration.PhotographkindlyprovidedbyRayWhite.图2.7限制片段长度多态性(RFLP)可以按孟德尔方式遗传,四种等位基因在每代中独立地分离,但图中经限制消化后所有Figure2.7RestrictionsitepolymorphismsareinheritedaccordingtoMendelianrules.Figure2.8

Arestrictionpolymorphismcanbeusedasageneticmarkertomeasurerecombinationdistancefromaphenotypicmarker(suchaseyecolor).ThefiguresimplifiesthesituationbyshowingonlytheDNAbandscorrespondingtothealleleoftheothergenomeinadiploid.

图2.8可用限制酶多态性作为遗传标记,测量两个重组子表型(如眼睛的颜色)所对应的遗传学距离。图2.8中做了简化,仅将有关的等位基因列出。Figure2.9

Ifarestrictionmarkerisassociatedwithaphenotypiccharacteristic,therestrictionsitemustbelocatednearthegeneresponsibleforthephenotype.

图2.9如果某限制性标记与一个表型相关,则该限制酶位点必定位于决定此表型的基因附近。图中,突变将正常人普遍存在的带转换成病人中普遍存在的带。Themutationchangingthebandthatiscommoninnormalpeopleintothebandthatiscommoninpatientsisverycloselylinkedtothediseasegene.Figure2.13Allfunctionalglobingeneshaveaninterruptedstructurewiththreeexons..2.4Organizationofinterruptedgenesmaybeconservedinterruptionsoccurathomologouspositionsinallknownactiveglobingenes:mammals,birds,andfrogs.Thefirstshort,andthesecondlonger,buttheactuallengthscanvary.Mostofvariationfromthesecondintron.Inthemouse,thesecondintronintheα-globingeneisonly150bplong,tatol850bp,comparedwiththemajorβ-globingenewheretheintronlengthof585bpgivesthegeneatotallengthof1382bp.ThevariationinlengthofthegenesismuchgreaterthantherangeoflengthsofthemRNAs(α-globinmRNA=585bases,β-globinmRNA=620bases).

Introntypes,universalandconservationAllclassesofgenesmaybeinterrupted:nucleargenescodingforproteins,nucleolargenescodingforrRNA,andgenescodingfortRNA.Interruptionsalsoarefoundinmitochondrialgenesinlowereukaryotes,andinchloroplastgenes.Interruptedgenesdonotappeartobeexcludedfromanyclassofeukaryotes,andhavebeenfoundinbacteriaandbacteriophages,althoughtheyareextremelyrareinprokaryoticgenomes.2.4Organizationofinterruptedgenesmaybeconserved高等真核生物多数基因都有内含子,没有内含于的仅占极少数。裂殖酵母较多酿酒酵母只有少数基因有内含子,大肠杆菌T4噬菌体、枯草杆菌spo1噬菌体和蓝细菌少数基因有内含子。线粒体、叶绿体基因也有内含子。不但编码蛋白质的基因有,编码tRNA的基因也有内含子。不同生物的同一基因,内含子长度尽管变化很大,但数目、位置往往相同。一般,一内含子序列不会见之于另一内合子,而外显子则往往和蛋白质的功能性结构域相对应。因此曾设想内含子对于外显子重新组合以促进基因大步伐进化起着重要作用。由于内含子中信息量小,在此处改组(shuffling),不会危及外显子的功能结构域。此看法是认为一切生物原来都有内含子,以后不断进化,原核生物由于基因组小、复制快,内含子成为快速复制的包袱,因此逐渐失去。不同生物同一基因的内含子数目、位置一致,是其旁证。与此相反的一种看法认为生物本来没有内含子,内含子是由于外显子改组位置不准确而来的。所以原核生物内含子极少,低等真核生物少,高等真核生物多.酵母细胞色素c基因无内含子,而人、鼠有之。内含子回归与传染这又是个鸡生蛋、蛋生鸡的问题。因此,自然而然地出现了中问路线。孰是孰非,一时难于作出正确判断。内含子按其连接位点的结构和剪接方式来分,可以分为三类,即I类、II类和一般核Pre-mRNA类。I类:4个保守序列2个不大保守序列E-E’P(AUGGUGG-AAA),排列:Q(AAUCAGCAGG),5’-E-P-Q-R-E’-S-3’R(UCAGAGACUACA),真菌线粒体/叶绿体/四膜虫rRNAS(AAGAUAUAGUCC)/T偶数噬菌体II类:少数真菌线粒体/大多数叶绿体/植物线粒体70个II类内含子分析:6个区IABC(C1/C2)D(D1/D2)IIIII……..VIII类内含子按其大小和结构来说,又可分为普通的II类、III类和孪生内含子(twintron)三类。II类内含子比较大,可达600核苷酸以上,有6个结构域。III类内含子可以看作是II类的缺失突变体,除II类的结构域VI保持完整外,结构域I、Il、III、IV、V可以缺失,因此比II类内含子小很多,一般不超过150个核苷酸。孪生内含子是在III类内含子(称为外内合子,)结构域VI的上游,插入了另一个甚至几个II类(也有I类)内含子(称为内内含子)。其实由两个I类内含子组成的孪生内含子也是有的。原生动物有I类内含子。最近报道小球藻的病毒编码蛋白质(和TFIIS同源)的基因和14.2kDa可读框有I类内含子。各类内含子剪接的共同点是二步转酯键反应;不同点是I类、Il类都是自我剪接,一般核pre-mRNA类则得有剪接体参加;Il类和核pre—mRNA的剪接都有套索中间体。以前以为只有线粒体和叶绿体才有II类内含子。后来按II类内含子中员为保守的序列合成引物,用聚合酶链式反应从叶绿体的祖先蓝细菌和线粒体的祖先紫细菌都扩增、克隆到了II类内含子.因此,认为现代核基因内含子可能来源于II类内含子。从剪接反应的立体化学来看,Pre—mRNA的剪接和II类内含子的剪接相似。但三类内含子剪接是否有进化上的联系,迄今还没有明确的答案。有些pre-tRNA也有内含子。由于pre-tRNA的结构相对恒定,内含子位置一定,剪接的信息不在内含子而在外显子,剪接由酶进行,与上面三类内含子剪接的关系很小。

GT-AG

有些基因的外显子不但被内含子隔开,而且彼此相距甚远。例如,地钱的叶绿体核糖体蛋白s12基因由3个外显子组成;3‘端的两个外显子由一股DNA编码,5’端的外显子由另一股DNA编码;两者相距30kb,莱茵衣藻MA基因的三个外显子分别相距50、90kb;这类pre—mRNA要经过反式剪接,才能成为成熟的mRNA。锥虫只有反式剪接,线虫有10一15%的Pre—mRNA是反式剪接;甚至同一基因、既可顺式、又可反式剪接,得到不同的mRNA。内含子由此一基因转移到另一基因,称为转座。用PCR法证明酵母线粒体II类内含子al1转座到cox1。Podosporaanserina线粒体cox1基因的II类内含子a转座到tRNAIle基因和tRNASer基因之间。Figure2.14MammaliangenesforDHFR(dihydrofolatereductase)

.geneisorganizedinto6exonsthatcorrespondtothe2000basemRNA.ButtheyextendoveramuchgreaterlengthofDNAbecausetheintronsareverylong.Inthreemammalstheexonsremainessentiallythesame,andtherelativepositionsoftheintronsareunaltered,butthelengthsofindividualintronsvaryextensively,resultinginavariationinthelengthofthegenefrom25-31kb.2.5Exonsequencesareconservedbutintronsvary外显子序列保守,内含子序列多变比较大的基因DHFR球蛋白和DHFR基因说明了一个普遍现象:那些在进化过程中相关的基因有着相类似的结构,至少包括了一些内含子位置的保守性,基因长度的变化主要取决于内含子长度的变化。结构基因在其基因组中是独特的吗?答案可能是模棱两可的。既是又不是整个基因的长度是独特的,但其外显子通常与其它基因外显子相关。一般而言,当两个基因是相关的,它们外显子的关系比内含子的关系更紧密。在特殊情况下,两个基因的外显子可能编码同一个蛋白质,但其内含子可能不同。说明这两个基因可能起源于一个共同的祖先基因,拷贝间内含子差异积累,但因编码蛋白质功能的需要,其外显子区域是保守。外显子可能是基因进化的基础,它们可以通过不同的方式进行组合。一个基因可能含有几个与其他基因相关的外显子,但也存在一些并不相关的外显子。一般而言,此时其内含子也不相关。这些基因可能是由同一些外显子经复制和转移产生的。两个基因的相似性可用点阵作图进行比较(图2.15)。一个点表明该位置上基因的序列相同。如果两个序列完全相同,则点组成一条45度的直线。若存在不相似区,则直线会被打断,并且另一个相关序列的缺失或插入会使其平行或垂直地被替换。Figure2.15Thesequencesofthemouse

majand

minglobingenesarecloselyrelatedincodingregions,butdifferintheflankingregionsandlargeintron.

Thelinepetersoutintheflankingregionsandinthelargeintron

Thisisatypicalpattern,inwhichcodingsequencesarewellrelated,therelationshipcanextendbeyondtheboundariesoftheexons,butitislostinlongerintronsandtheregionsoneithersideofthegene.内含子趋异的模式也包括大小的变化(由插入和缺失产生)以及碱基组成。内含子比外显子进化快。当不同种间的基因进行比较,有时其外显子同源,而内含子间变化巨大,甚至不存在任何相关序列。外显子和内含子中突变率是相同的,但在外显子中经过选择使突变被更有效地剔除。如此相反,内含子不受编码功能的限制,其自由积累点突变和其他变异更快。这暗示内含子没有序列特意性功能,其存在对基因是否是必要的目前尚无定论。GenescanbeisolatedbytheconservationofexonsSupposeweknowbygeneticdatathataparticulargenetictraitislocatedinagivenchromosomalregion.Ifwelackknowledgeaboutthenatureofthegeneproduct,howarewetoidentifythegeneinaregionthatmaybe(forexample)>1Mb?Zooblot

describestheuseofSouthernblottingtotesttheabilityofaDNAprobefromonespeciestohybridizewiththeDNAfromthegenomesofavarietyofotherspecies.2.6Genescanbeisolatedbytheconservationofexons可利用保守的外显子分离基因Figure2.17AzooblotwithaprobefromthehumanYchromosomalgenezfyidentifiescross-hybridizingfragmentsonthesexchromosomesofothermammalsandbirds.ThereisonereactingfragmentontheYchromosomeandanotherontheXchromosome.DatakindlyprovidedbyDabidPage.2.6Genescanbeisolatedbytheconservationofexons鉴定基因的主要方法大都以外显子的保守性和内含子的多变性比较为基础。一个功能在不同种内是保守的基因,其代表的蛋白质序列应该有两个性质:具有一个开放读框,并与其他种属有相关的序列。这些特点可以用来分离基因。围饶的一个克隆开始,沿着染色体这个区域步移(ChromosomeWalking),从文库中鉴定重复基因(如图2.16)。Westartwithaclonethatliesinthegeneralvicinityofthisregionandthenwe"walk"throughtheregionbyidentifyingoverlappingclonesfromalibrary.AsshowninFigure2.16,asubfragmentfromoneendofthefirstcloneisusedtoisolateclonesthatextendfartheralongthechromosome.Theseclonesinturnareusedtoisolatethenextset.Ineachcycle,anewcloneisselectedbecauseitsrestrictionmapcoincidesatoneendwiththeendofthepreviousclone,butattheotherendhasnewmaterial.Itispossibletowalkforhundredsofkb,typicallyatarateof>100kbpermonth.Chromosomewalkingallowslargecontiguousregionsofthechromosometoberepresentedinalibraryofclones.Figure2.16Chromosomewalkingisaccomplishedbysuccessivehybridizationsbetweenoverlappinggenomicclones.2.6Genescanbeisolatedbytheconservationofexons当然,如果染色体的全部序列被确定,鉴定一个独特的基因就更加容易。可从染色体步行中获得的连续系列克隆进行测序,或者通过其他方式(比如直接比较序列)使克隆相联系。若序列已知,基因可以通过比较其RNA或蛋白质产物来确定,或者通过序列中的一个突变进性鉴定。第一条可以用动物印迹法(zooblot)来证明,首先我们从上述区域克隆出一小段序列作为探针(放射性标记的)。利用Southernblotting的方法和别的物种的相关DNA杂交,这个探针常是人的DNA,若发现在许多物种中都存在与之杂交的片段,我们可以认为它是基因的外显子。这类确定的外显子经测序后,若证明它们含可译框,就可被用来分离这个区域周围的基因。若这些都显示出是外显子的一部分,则可以继续鉴定整个基因,然后分离相应的cDNA或mRNA,最后鉴定蛋白。上述方法对鉴定那些遗传上暗示存在但其实质未知的基因来说是宝贵的。一个例子是利用位于人Y染色体上的zfy基因作探针,与其它动物的性染色体杂交的结果(图2.17),该探针能与哺乳动物和其他种类的性染色体特异性杂交,含有开放读框,用于鉴定一个保守基因。当目标基因含有很多大的外显子且很长时,Zooblot方法特别有用。Duchenne肌肉营养不良(DMD,一种肌肉退化失调症)基因鉴定,就是其中一例(图2.18)DMD基因与X染色体连锁,并影响1/3500男子出生。连锁分析表明DMD位点位于X染色体Xp21条带上。患DMD疾病的病人通常在该条带上产生DNA重排(Rearrangement)。通过比较X-连锁DNA探针与患者DNA和正常人的杂交能力,可以获得重排或患者体内相关的克隆片段。染色体步移用来建立探针两端的限制性图谱,范围可超过100kb的区域。通过对一系列患者中获得的DNA分析,确定该区域有一很大缺失,并在两个方向上延伸。最值得一提的是,缺失切除了一个对基因功能很重要的片段,并且该基因或至少基因的一部分包含在这个区域内

Figure2.18ThegeneinvolvedinDuchennemusculardystrophyhasbeentrackeddownbychromosomemappingandwalkingtoaregioninwhichdeletionscanbeidentifiedwiththeoccurrenceofthedisease.2.6GenescanbeisolatedbytheconservationofexonsThisapproachisespeciallyimportantwhenthetargetgeneisspreadoutbecauseithasmanylargeintrons.ThisprovedtobethecasewithDuchennemusculardystrophy(DMD),adegenerativedisorderofmuscle,whichisX-linkedandaffects1in3500ofhumanmalebirths.ThestepsinidentifyingthegenearesummarizedinFigure2.10.基因在染色体上的大致区域确定后,我们需要鉴定它的内含子和外显子。采用zooblot方法确定了与小鼠X染色体和其他哺乳动物DNA杂交的片段(图2.19),详细检查片段内是否存在开放读框和典型的内含子-外显子边界序列。将符合这些标准的片段作为探针,进一步在肌肉mRNA构建的cDNA文库中检测同源序列。Figure2.19

TheDuchenemusculardystrophygenehasbeencharacterizedbyzooblotting,cDNAhybridization,genomichybridization,andidentificationoftheprotein.

2.6Genescanbeisolatedbytheconservationofexons杂交筛选鉴定了一个与基因cDNA相关、非同寻常的大mRNA,约14kb。与基因组杂交表明,这个mRNA含60个以上得外显子,2000kb的DNA,是目前已知DNA中鉴定为最长的基因,其长度是其他已知基因的10倍。这个基因编码一个大约500kD的蛋白质,称为营养不良蛋白质(Dystrophin),是肌肉的成分之一,但其含量甚微。所有DMD患者在这个位点上都有缺失或无效,并且影响营养不良蛋白质功能。另一种在遗传片段上迅速找到外显子的方法是外显子捕获(Exontrapping)技术(图2.20)。该技术从一个携带强启动子,在两个外显子间仅有一个内含子的载体开始。用这种载体转染细胞时,其转录产生大量含有两个外显子序列的RNA。内含子上有一个限制性克隆位点,用来插入一段感兴趣区域的片段。如果这个片段不包括外显子,那么剪接模式不会改变,并且RNA仅包含亲本载体一样的序列。当插入片段具有由两部分内含子包围的外显子时,其两端的剪接点就会被识别,将外显子序列插入到载体外显子之间的RNA中。所获得的RNA可通过逆转录成cDNA,使用PCR扩增载体两个外显子之间的序列进行检测。因此若能扩增出来自目标片段的序列,则表明外显子被捕获。由于动物细胞中内含子通常很大而外显子很小,基因组DNA可能含有这种所需要的结构,即一个外显子两端被部分内含子包围是有可能的。Chambon等分析比较了大量结构基因的内含子切割位点,发现有2个特点:①内含子的两个末端并不存在同源或互补序列。在剪切的初始阶段,可能直接连接;②连接点具有很短的保守序列(图13-20)也称为边界顺序。100种内含子的5′端都是GT;3′端都是AG,因此称为GT-AG法则(GT-AGrule),又称为Chambon法则。这两个位点序列是不同的,左边的剪接位点称供体(donor)位点,右边的剪接位点称受体(acceptor)位点。这两个位点对于剪接是十分重要的,一旦发生突变无论在体内还是在体外,会抑制剪接。此法则几乎适合于所有真核生物的核基因,这意味着它们切除内含子的机制是相同的,但不适用于Ⅰ类内含子。

Figure2.20

Aspecialsplicingvectorisusedforexontrapping.Ifanexonispresentinthegenomicfragment,itssequencewillberecoveredinthecytoplasmicRNA,butifthegenomicfragmentconsistssolelyofanintron,

2.6Genescanbeisolatedbytheconservationofexons外显子捕获P39(Exontrapping)2.8SomeDNAsequencescodeformorethanoneprotein有些DNA序列编码多种蛋白质Figure2.25

Twoproteinscanbegeneratedfromasinglegenebystarting(orterminating)expressionatdifferentpoints.

2.8SomeDNAsequencescodeformorethanoneprotein有些DNA序列编码多种蛋白质Figure2.26TwogenesmaysharethesamesequencebyreadingtheDNAindifferentframes.2.8SomeDNAsequencescodeformorethanoneproteinFigure2.27Alternativesplicingusesthesamepre-mRNAtogeneratemRNAsthathavedifferentcombin-ationsofexons.2.8SomeDNAsequencescodeformorethanoneproteinFigure2.28Alternativesplicinggeneratestheaandbvariantsoftroponin

Example:大鼠肌钙蛋白(Troponin)T基因的3’端包括5个外显子,但只有四个用于mRNA的构建。虽然三个外显子——WXZ表达模式一致,但上边模式中α外显子被剪接到XZ之间,而下边模式中β外显子被剪接到XZ之间。因此α型和β型肌钙蛋白T在序列WZ之间的氨基酸序列不同,取决于α和β外显子的替换模式。两者中的任何一个都可以形成独立的mRNA,但是二者不能同时用于一个mRNA中。Studiesonexpressedsequencesandproteincontentinhumancellssuggestedthatthereshouldbebetween100.000and150.000protein-codinggenes.However,resultsfromsequencingexperimentsshowedthatthehumangenomeonlycontainsaround30,000genesAlternativesplicing(交替\选择\可变AS)Theremustbeawaytoregulateanddiversifythefunctionofgenesofdifferentiallyspecialisedcelltypes.Evolution’ssolutionforthegivenproblemisalternativesplicing(AS),whichisthemostimportantposttranscriptionalregulatorymechanismthatcausesproteomediversityandfunctionalcomplexity.AlternativesplicingmeansthatduringRNAsplicingdifferentcombinationsofexonsarejoinedtocreateadiversearrayofmRNAsfromasinglepre-mRNA.ResultingmaturemRNAsareeithernon-functionalormightgiverisetoproteinswithdifferentactivitiesandfunctions.Morethan70%-95%ofthehumanprotein-codinggenesarealternativelyspliced.Thisexplainsthefactthattherelativelysmallnumberof~30,000genescanleadtoaproteome(thetotalofallproteinsinacellororganism)ofseveralhundredthousandsofproteins.Anotherexampleisthefruitfly’s(Drosophilamelanogaster)genome(14,000genes)containingabout5,000geneslessthantheoneofasimpleprimalnematode(19,000genes).AnoutstandingexampleofanalternativelysplicedgeneisthesocalledDscamgeneofthefruitfly.Thisonegenecanbeprocessedintoabout38,000(38016)splicedvariants

2XofthetotalgenesinwholegenomeThestructureoftheDscamgeneinsixDrosophilaspp.ThematuremRNAofeachgenecontains22exons,fourofwhich(exon4,exon6,exon9andexon17,showningreen,blue,yellowandred,respectively)arechosenfromaclusterofalternativeexons.Theremaining18exons,showninmetallicgray,arealwaysselected.Intronsarenotshown.Redlinesindicateanexamplechoiceofexons.Useofalternativepromoters,poly-Asitesandterminalintronssplicing-processedontheir5’-and3’-ends(5’cappingand3’polyadenylation).ThesemodificationsarenecessaryfortheprotectionofmRNAsandalsoforregulationoftranslation.AlternativesplicingcausinganalterationatanyofthetwoRNAendscanthusleadtochangesinproteinproduction.Ontheotherhandchangesinthe5’regionofthenewtranscriptinfluencesIntronretentionThisiswhenanintronisnotremovedfromthemRNA.Thiscanleadtotheincorporationofaproteinsequenceorachangeinthereadingframe.cassettealternativeexonsThemostcommontypeofalternativesplicingevents(aroundonethird)involvescassettetypealternativeexons.InthiscaseanexoniseitherincludedorexcludedfromthemRNA.Splicingofacassetteexoncanresultinthecompleteinclusionorlossofaspecificfunctionalproteindomain.alternativesplicesites

Inthiscasealternative5’-or3’-splicesitesinexonorintronssequencesarechosenleadingtotheinclusionorexclusionofapartofanexonorintron.TheuseofanalternativesplicesitecanleadtosubtlechangesintheproteinactivityandthereforetoafinetuningoftheproteinfunctionMutualexclusionofexonsInthissplicingevent,eitheroneorotheroftwoexonsisincludedinthefinalmRNA–bothmutuallyexclusiveexonsarenotfoundtogetherinthemRNA.(e)alternativesplicesites(f)MutualexclusionofexonsGU-AG第一种类型为:盒式剪接。即发生可变剪接的时候会跳跃这个外显子。如图1.1第二种类型为:可变3’端剪接。即按照GU-AG规则,内含子在发生切割的时候可以在下一个外显子的上选择不同的AG端:图1.2第三种类型为:可变5’端剪接。即按照GT-AG规则,内含子在发生切割的时候可以在上一个外显子的上选择不同的GT端:图1.3第四种类型为:内含子保留式剪接。即在发生连续的两个外显子拼接的时候中间的内含子不被切除却被保留下来。图1.4第五种类型为:互斥性剪接。即图中的绿色外显子和红色外显子存在一种“有你没有的关系,在任何情况下只能存在一个外显子。图1.5第六种类型为:可变5’末端。即这个基因的开始末端是可变的。图1.6第七种类型为:可变的polyA末端剪接。即可以选择不同的polyA末端作为这一转录本的结束。图1.72.9Howdidinterruptedgenesevolve?现在割裂基因的原始形式是怎样的呢?目前有两种模型,“内含子占先(Intronsearly)”模型支持内含子总是基因的整体部分。认为基因起始于割裂的结构,没有内含子的基因是进化过程中丢失的。“内含子滞后(Intronslate)”模型认为原始蛋白质编码单位由非割裂的DNA序列组成,内含子是随后插入进去的。这些模型的检验,明确真核和原核基因的区别,是否等同于真核基因中内含子的获得或者原核基因中内含子的丢失。内含子占先的结构表明,基因的镶嵌结构是基因重组从而产生新蛋白质的一种原始方法。试想,早期细胞有许多不同的蛋白质编码区域,其进化的一个方面很可能是不同多肽链单位重新组合,拼接,从而产生新的蛋白质。如果蛋白质编码单位必须是连续的密码子序列,重新创造这种序列将需要精确的DNA重组,从而使两个蛋白质编码单位并列,以同样的读码框头尾相接。并且,如果这种重组没有成功,却失去了原始的蛋白质编码单位,细胞必然受到破坏。但是如果DNA重组能将两个蛋白质编码单元置于一个转录单位中,剪接模式将在RNA水平上获得突破,从而将两种蛋白质放在一条多肽链中。而且如果重组并不成功,原始的蛋白质编码单位仍能被应用。这种方法必然使细胞尝试限制RNA删除,而不至于在此过程中引起DNA稳定性破坏。

exontrapping

illustratestheoutcomewhenarandomsequencethatincludesanexonist

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论