人类基因组概况_第1页
人类基因组概况_第2页
人类基因组概况_第3页
人类基因组概况_第4页
人类基因组概况_第5页
已阅读5页,还剩42页未读 继续免费阅读

VIP免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DepartmentofMicrobiology

FuquanHoo

人类基因组概要

OutlineofHumanGenome

有科学史以来的过去几百年中,人们对于人类基因组的认识大多限于染色体和个别基因的认识。真正对于人类基因组有“整体序列水平”的认识是在人类基因组计划完成之后。因此,我们要讨论人类基因组就不得不先谈一谈“人类基因组计划”(HumanGenomeProject,HGP)1.什么是人类基因组计划?HGP是研究人类基因组(及相关的大肠杆菌、酵母、线虫、果蝇及拟南芥基因组)的、宏大的跨国科研计划,它可与阿波罗计划媲美。HGP在20世纪80年代中期提出,自1990年正式开始,计划用15年时间,耗资30亿美元,完成人类基因组的测序和基本注释,完成4套图谱:遗传图谱、物理图谱、序列图谱及基因图谱。一.人类基因组计划

美国马萨诸塞州的Cambridge基因组研究中心的

WhiteheadInstitute英国剑桥的SangerCenter美国密苏里的WashingtonUniversity美国加州的DOE联合基因组研究所美国得州的BaylorCollegeOfMedicine美国的一些其它单位中国、德国、法国、日本2.哪些国家和单位参加了HGP?3.谁的DNA被用来测序?

在构建文库实验室附近刊登了为HGP捐献DNA的广告,选择了不同人种的健康捐献者。采集样品经匿名处理:取样实验室撕去所有样品标记,记以随机号码,交样品处理室。样品处理室再撕去原标记并重新标记。最终使用的每一样品大约收集了5~10个样本。捐献者与DNA样品之间不再有任何联系,所以捐献者的身份是不被知道的。而Celera的测序样本来自5个人:分别属于西班牙裔、亚洲裔、非洲裔、美洲裔和高加索裔(2男3女),是从21个志愿者样本中挑选的。

最后公布的序列图谱中还标记了140万个SNP位点,因此,它不是某一个确定人物的图谱,而是“人类”的图谱。4.HGP的目标

determinethesequencesofthe3billionchemicalbasepairsthatmakeuphumanDNA,identifyallthegenesinhumanDNA,storethisinformationindatabases,improvetoolsfordataanalysis,transferrelatedtechnologiestotheworldpublicaddresstheethical,legal,andsocialissues(ELSI)thatmayarisefromtheproject.两个“人类基因组计划”

前面提到的由多个国家合作进行的计划,称为“国际合作”计划。这个计划是由国家拨款资助,自1990年开始,轰轰烈烈干了整8年,做了大量艰苦、细致的工作,也使得测序方法得到相当的完善,大规模自动化测序仪已经出现,不用做遗传图和物理图的“鸟枪法测序”技术于1995年在流感嗜血杆菌中获得成功.1998年有一个私人公司Celera突然宣布,要用3年时间抢在“国际合作组织”之前完成人类基因组测序计划,并将人类基因专利注册。

私人公司的介入,引入了竞争机制,迫使“公共合作组织”不得不加大投资、加快速度。结果两个计划都在2001年完成了“草图”。TheHGPconsortiumpublisheditsworkingdraftinNature409(15February).CelerapublishesitsworkingdraftinScience(16February).“草图”(DraftGenomeSequence)意味着什么?“草图”还不是完成图,还有1000多个“缺口”,缺口主要集中在异染色质区域。目前,没有一个真核生物的基因组被测序到100%。有一些区域-通常是高度重复区域-用当今的技术很难或根本不可能被克隆或测序。但是,公布的草图中,90%~93%常染色质区域(富含基因区)已经被测序。

2003年,人类基因组计划完成它的“完成图”,98%以上的基因编码区已被测序,精度达99.99%,至此,人类基因组计划宣告它的完成。这一年,正值JamesWatsonandFrancisCrick发表DNA双螺旋结构50周年。人类基因组计划的完成为50周年庆典送了一份大礼!Nature和Science分别发表了专文,介绍了人类基因组计划在2001~2003这两年中又取得的进展及人类基因组学今后的发展方向。

基因组的完成图1.BarbaraR.JasnyandLeslieRoberts:

Introduction,ScienceApr112003:277。2.FrancisS.Collins,MichaelMorgan,AristidesPatrinos:TheHumanGenomeProject:LessonsfromLarge-ScaleBiology。ScienceApr112003:286。3.MarvinE.Frazier,GaryM.Johnson,DavidG.Thomassen,CarlE.Oliver,AristidesPatrinos:RealizingthePotentialoftheGenomeRevolution:TheGenomestoLifeProgram。ScienceApr112003:290。4.FrancisS.Collins,EricD.Green,AlanE.Guttmacher,MarkS.Guyer

:AVisionfortheFutureofGenomicsResearch.Ablueprintforthegenomicera.NatureApr242003:835.5.SeanB.Carroll:GeneticsandtheMakingofHomosapiens.NatureApr242003:849.

6.JonathanArnold,NelsonHilton:GenomeSequencing:RevelationsfromaBreadMould.NatureApr242003:821.

Itisessentiallyimmoralnottogetit(thehumangenomesequence)doneasfastaspossible.

JamesWatson

人类基因组计划的完成,使得我们今天有可能来探讨基因组的概,但我们仍然无法来谈论细节。基于我们人类今天知识的局限性,目前我们还无法完全读懂这本天书基于我们个人的知识局限性,没有任何一个人能完全读懂这本天书既使是集人类集体之智慧,我们也无法将目前人类能够认识到的有关基因组的全部知识集中到一篇论文中来。因此,今天只能讨论有关基因组的概况。二.人类基因组概况(对草图的统计)基因组大小2.91GbpA+T含量54%G+C含量38%不能确定的碱基9%重复序列(不含异染色质)35%编码序列(基因)数目26588功能未知基因比例42%外显子最多的基因Titin(234)SNP数量约300万个SNP密度1/12500bp最长的染色体2(240Mbp)最短的染色体Y(19Mbp)基因最多的染色体1(2453)基因最少的染色体Y(104)基因密度最大的染色体19(23/Mb)基因密度最小的染色体13,Y(5/Mb)重复序列含量最高的染色体19(57%)重复序列含量最低的染色体2,8,10,13,18(36%)编码外显子序列的比例1.1~1.4%基因的平均长度27Kb女平均男染色体上距着丝粒越远,重组率越高

在遗传作图中,各遗传标记之间的距离是用重组率来表示的,将遗传标记距着丝粒的实际距离对重组率作图,不难看出下述关系:

着丝粒附近的重组受到抑制,距着丝粒序列距离越远,重组率越高染色体长臂的平均重组率为1cM/Mb染色体短臂的平均重组率为2cM/Mb女性染色体重组率比男性高三.人类基因组GC含量与CpG岛人类基因组的GC含量围绕平均含量41%长距离波动。存在GC富含区及GC贫乏区。GC富含区及GC贫乏区具有不同的生物学意义。

GC富含区与基因密度程正相关

GC贫乏区存在大量重复序列染色体深色G带对应的是低GC含量区染色体浅色G带对应的是高GC含量区

GC含量的“板块”变化是由于基因组进化过程中转座事件导致的“区域镶嵌”。GC含量与基因密度呈正相关

基因组序列GC含量直方图(20Kb窗口)基因组中的CpG岛人类基因组中的CpG岛出现率很低。预计值:胞嘧啶与嘌呤的比列的乘积,约4%

实际值:约0.8%这是因为:基因组中大多数二核苷酸CpG中的胞嘧啶是甲基化的,被脱氨基成为胸腺嘧啶T,即CpGTpGCpG多出现于基因的5‘端,故对于预测基因很有意义。基因组内有CpG岛50267个重复序列内的CpG岛21377个,一般不具功能非重复序列内的CpG岛28890个

CpG岛的分布密度与染色体上的基因密度高度相关染色体上的CpG岛数量与基因数程正比四.人类基因组中的重复序列生物学中的一个困惑现象是基因组的大小与物种复杂性的不一致,如人基因组比Amoebadubia小200倍。其中一个解释是基因组中含有大量重复序列。重复序列是指基因组中不编码蛋白质且有多个拷贝的序列,是人类基因中的主要成分,占据全基因组的大部分区域。重复序列的生物学意义有待阐明重复序列是一种重要的分子标记。散在插入重复序列:多由转座子插入引起的重复大片段复制性重复:约10~300Kb,基因组不同区域间重复串联重复:高度重复的串联重复,也称卫星DNA,多存在于着丝粒、端粒、近着丝粒短臂等位置。人类基因组中的散布重复序列类型家族单位长度拷贝数总长度比例SINEAlu0.13kb1百万288Mb9.9MIR40万66Mb2.3LINELINE10.8kb35万466Mb16.1LINE20.25kb27万LTRHERV1.3kb5万155Mb5.3RTLV,LTR0.5kb20万DNATnMER,THE等0.25kb20万50Mb1.7总记1025Mb35.3SINE:shortinterspersednuclearelements.LINE:longinterspersednuclearelements.Alu:含AGCT.MIR:mammalian-wideinterspersedrepeats.LTR:longterminalrepeat.HERV:humanendogenousretroviruses.RTLV:retrovirus-likeelements.MER:mediumreiterationfrequencysequence.THE:transposablehumanelement.转座子来源的重复序列人类的大多数重复序列(包括LINE,SINE,LTR)都是来源于转座单元,在进化历程中,基因组的45%都来源于转座。人类DNA转座子类似细菌转座子,含有末端反向重复,编码一个转座酶,该酶在可以在反向重复处通过剪切和粘贴实现转座。转座子不仅在基因组内部转移,还常常横向转移到新的基因组。反向重复G1转座酶G2G3反向重复

这是指非同源染色体之间的片段复制性重复,大小约1Kb~200Kb。这种现象在非同源染色体之间是广泛存在的现象。

可以发生在染色体之间:如Xq28位置上的一个9.5Kb片段被复制重复到2,10,16和22号染色着丝粒的附近区域。

也可发生在染色体之内:如17号染色体上有一个200Kb的片段被复制三次(中间间隔5Mb),另一个24Kb片段被复制两次(中间间隔1.5Mb)着丝粒周边和端粒附近是片段复制性重复存在的区域,可占据该区域中90%的序列。“片段复制性重复”(segmentalduplication).染色体内外重复序列比例染色体染色体内(%)染色体间(%)全部(%)简单重复序列(singlesequencerepeat,SSR)简单重复序列是基因组重复序列中的特殊类型。也称为卫星DNA,进一步分为:

微卫星DNA:

重复单位较短(n=1~13)

小卫星DNA:重复单位较长(n=14~500)二核苷酸重复有:AC(50%),AT(35%),AG(15%),GC(0.1)三核苷酸重复有:AAT(33%),AAC(21%),ACC(4%),AGC(2.2)多聚A可是通过逆转录进入染色体中的其他各种SSR是复制过程中的滑动造成的约437个/Mb.重复序列较之于编码序列,由于不经受功能选择的压力,故较编码序列更稳定。在不同物种基因组中,可以出现同一重复序列,但可能个别或某些碱基发生了替换(突变)。根据碱基替换率和替换碱基的数目,可以计算出该重复序列的进化年代。因此,重复序列提供了进化历程中的“化石记录”。五.人类基因组中的基因人类基因组中到底有多少基因?根据脊椎动物组织mRNA的复杂度,估计有10000~20000个基因,故推算人类应当有40000个基因20世纪80年代,Gilbert根据典型基因长度为30Kb,基因组约30亿bp,故估计人类有100000个基因,虽缺乏直接证据,但它是一个令人满意和被接受的数字。HGP揭示:人类基因组约有24500个基因,42%功能未知。拟南芥:28000个基因线虫:18500个基因果蝇:13500个基因国际合作组织的初步推定了大约32000条基因,其中大约15000个是已知基因,17000个是预测基因(predicatedgene),预测的敏感性约60%,还有6800条(17000的40%)可能不是基因或者是“假基因”,因此,人类基因约24500左右(32000-6800)。非编码RNA(noncodingRNA,ncRNA)非编码RNA是指它们不编码蛋白质,但同样是基因,包括:tRNA:适配器,转运氨基酸rRNA:

构成核糖体,蛋白译制中心,最近X-线晶体衍射研究显示肽键的形成有rRNA催化完成,而非蛋白质。snoRNA(smallnucleolarRNA):小核仁RNA,担负核仁中RNA加工与碱基修饰。snRNA(smallnuclearRNA):小核RNA,剪接体,参与把mRNA前体中的内含子剪切掉。VaultRNA:

以核糖核蛋白形式存在,质量是核糖体的3倍,功能未知。关于tRNA基因:在人类基因组中找到497个tRNA基因,还有324个tRNA来源的假基因。过去估计人类tRNA基因有1310个,这个数据高估了。一是把假基因估计在内了,二是早前对基因组的大小高估了。1号和6号染色体上含有超过半数(280)的tRNA基因。其余tRNA基因分布于其他各染色体。但22和Y染色体上没有tRNA基因。已知基因的特性许多基因长度超过100Kb,最常的基因(肌营养不良蛋白基因,DMD)长2.4Mb肌连蛋白基因(Titingene)含有最大编码序列80780bp,外显子数量最多(178),最长单外显子(17106bp)人体基因外显子平均长度145bp.分析了53295个内含子,98.12%的内含子的剪切位点是GC-AT模式人类许多基因存在选择性剪接:22号染色体:642个转录子(in245gene),2.6个转录子/基因19号染色体:1859个转录子(in544gene)3.2个转录子/基因人类基因组编码序列的功能六.人类基因组的单核苷酸多态性

(singlenucleotidepolymorphisms,SNP)

什么是SNP?

将来自两个不同个体的两条DNA序列进行“对位比较”(alignmentpositionbyposition),在大面积相同的背景下,出现了单个核苷酸的差异,这种差异以一定的频率出现在群体中,这就是SNP.物种SNP反映的是进化历史上点突变带来的遗传进化标志,对于研究人种进化非常有用。许多基因变异造成的人类表型变化可以追述到SNP的变异。个体特性、疾病易感性以及对特定药物的敏感性等特质都与SNP相关。SNP数量巨大

SNP的出现频率约1/1000~1/2000,也就是说在32亿碱基对中存在约3.2M个SNP。这还仅仅是两套基因组之间的比较,多套基因组进行比较,SNP位点肯定要大得多。目前估计人类基因组中的SNP会超过7百万。如果两、三万个基因不足以解释人类个体的多样性,那么巨大数量的SNP的存在是足以解

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论