(动物学专业论文)人类基因组多态性数据库hgpd的构建及数据挖掘研究.pdf_第1页
(动物学专业论文)人类基因组多态性数据库hgpd的构建及数据挖掘研究.pdf_第2页
(动物学专业论文)人类基因组多态性数据库hgpd的构建及数据挖掘研究.pdf_第3页
(动物学专业论文)人类基因组多态性数据库hgpd的构建及数据挖掘研究.pdf_第4页
(动物学专业论文)人类基因组多态性数据库hgpd的构建及数据挖掘研究.pdf_第5页
已阅读5页,还剩93页未读 继续免费阅读

(动物学专业论文)人类基因组多态性数据库hgpd的构建及数据挖掘研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中山人学硕士学位论文 摘要 人类基因组计划完成后,生物信息的挖掘研究成为新的热点。研究重心从揭 示生命的所有遗传信息转移到从分子整体水平对功能的研究上。内容包括基因功 能发现、基因表达分析及突变检测,分子进化等。本项研究建立了一个可拓展的、 高效的、从基因组和染色体的宏观角度,以及单个基因的微观角度,研究分子进 化和基因功能的生物信息学平台。并且在这个平台的基础上对基因组多态性信息 进行了分析。 采用p e r l 语言为工具进行建库和c g i 编程以及统计分析程序的设计,操作 平台为r e d h a tl i n u x 。在n c b i 的原始人类基因组数据的基础上开发出本地的人 类基因组二级和三级多态性数据库h g p d ,h g p d 构建的对象是人类编码基因的 序列多态性,所以包含信息远比一般的单核苷酸多态性数据库要丰富。其中包括 了常见的单核苷酸多态性数据,而且还包括了基因内部的内含子和重复序列,还 有假基因等多态性数据。而且数据库具有良好的可拓展性,可以方便的加入不同 种类生物的基因组多态性信息。 人类基因组多态性数据库( h g p d ) 数据库现在包含有对人类基因组2 2 条常 染色体和两条性染色体分析所得的数据,共由两大子数据库组成,一个是人类基 因组基因多态性数据库( h g g p d ) ,另外一个是人类基因组假基因多态性数据库 ( h g p p d ) ;每个库内都包含了基因的s n p 、内含子、重复序列及其相关多态性 数据。数据库中内容主要为通过本地分析获得的丰富多态性信息,如s n p 发生 的密码子位置、所在基因长度、所在c d s 长度、所在基因的间隔内含子总长、 内含子长度、重复序列的侧翼序列、重复序列长度、内含子剪切位点、相位等。 提供h g g p d 和h g p p d 的w w w 接口,同时提供基于w w w 的b l a s t 序列比 对服务。 设计了系列程序对数据进一步分析,生成子数据库或者获得新的描述信息。 以所有染色体上的假基因和1 、x 、y 染色体上的c d s 区为研究对象,对g c 含 量、假基因长度、s n p 密度、s n p 类型、内含子剪切位点、内含子长度、内含 子和重复序列位置分布,以及它们的相互关系等做了分析,并进行了一些深入的 探讨。 对人类基因组2 4 条染色体假基因的g c 含量做分析,可得:g c 含量的平均 i i 中山大学硕上学位论文 值为0 4 6 2 7 ,一半假基因的g c 含量都在4 5 6 1 以内,假基因的g c 含量最 高的是1 6 号染色体,为5 4 _ 3 ,最低的是人类的y 染色体,为4 0 3 5 。假基因长 度集中分布在2 0 0 0 b p 以内,而y 染色体上的假基因平均长度9 3 2 1 4 b p ,是所有 染色体中次高的一个。 染色体上内含子g c 含量有明显的峰值出现在4 0 的g c 含量处,g c 含量 的平均值为4 5 5 4 ,内含子同假基因一样出现g c 含量的偏低现象。而且其峰 值十分接近。在基因组、染色体的层面观察到假基因和内含子的长度和g c 含量 存在着负相关性,内含子剪切模式在各个染色体上变化不大。s n p 的分布主要集 中在内含子区,而y 染色体上面的s n p 相比较而言更加倾向于在外显子区分布。 关键诃:人类基因组,多态性,数据库,数据挖掘,分子进化 i i 中山人学硕十学位论文 a b s t r a c t d a t am i n i n go ft h eu s e f u li n f o r m a t i o na b o u tt h eh u m a ng e n o m eb e c a m eah o ts p o ta f t e rt h e c o m p l e m e n to fh g e s o m er e s e a r c h e sf o c u so nm i n i n gi n f o r m a t i o nf r o mm o l e c u l a rl e v e l ,w h i c h i n c l u d e sg e n ef u n c t i o nd e t e r m i n a t i o n ,g e n ee x p r e s sa n a l y s i s ,m o l e c u l a re v o l u t i o n i nt h i sp a p e r , a b i o i n f o r m a t i c sp l a t f o r mh a db e e nc o n s t r u c t e d ,t h a ti sah i g he f f i c i e n ta n de x t e n s i b l ed a t a b a s e ,t ob e u s e dm a i n l yt o r e s e a r c h i n gm o l e c u l a re v o l u t i o na n dg e n ef u n c t i o nf r o mt h ev a r i a n tl e v e l so f g e n o m e ,c h r o m o s o m e a n d g e n e r e s e a r c h e s f o rd a t a m i n i n g a b o u tt h eh u m a n g e n o m e p o l y m o r p h i s mw e r e d o n eb a s e do nt h ep l a t f o r m t h es e r v e rw a sb u i l to nt h er e d h a tl i n u x t h es o u r c ed a t ac a m ef r o mn c b i t h e c o n s t r u c t e d l o c a lh u m a n g e n o m ep o l y m o r p h i s md a t a b a s e ( h g p d ) f o c u s e do nt h es e q u e n c ep o l y m o r p h i s mo f c o d i n gs e q u e n c er e g i o n ,t h u s ,t h ei n f o r m a t i o ni nt h el o c a ld a t a b a s ei sm u c hm o r er i c h e rt h a nt h e t r a d i t i o n a ls n pd a t a b a s e s t h e p o l y m o r p h i s m i n f o r m a t i o no fs n i , i n t r o n ,r e p e a t s e q u e n c e , p s e u d o g e n ew a s i n c l u d e d h g p dc o n s i s t so ft w os u bd a t a b a s e s :h u m a n g e n o m eg e n ep o l y m o r p h i s md a t a b a s e ( h g g p d ) a n dh u m a n g e n o m ep s e u d o g e n ep o l y m o r p h i s md a t a b a s e ( h g p p d ) ,t h ei n f o r m a t i o no fs h i p , i n t r o n , r e p e a ts e q u e n c ea n dt h ea s s o c i a t e dp o l y m o r p h i s md a t aa r ei n c l u d e di nt h es u bd a t a b a s e s t h e c o n t e n c s o f t h ed a t a b a s e s ,s u c ha s t h ec o d o n p o s i t i o n o f s n p , t h e l e n g t ho f g e n e ,t h e l e n g t ho f c d s , t h el e n g t ho fa l li n t e r v e n i n gi n t r o n si n8g e n e ,t h el e n g t ho f i n t r o n ,t h ef l a n k i n gs e q u e n c e so fr e p e a t s e q u e n c e ,t h el e n g t ho fr e p e a t ,t h ec u t t i n gs i t eo fi n t r o n ,c o m ef r o mt h el o c a la n a l y s i s w w w a c c e s st ot h eh g p d a n dw w wb l a s ta r ep r o v i d e s u s i n go fp r o g r a m m i n gl a n g u a g ep e r la n dc + + h a dd o n et h ed a t am i n i n gr e s e a r c hw o r k s s e r i e sp r o g r a m sw e r ed e s i g n e df o rt h ed a t am i n i n ga n a l y s i so ft h ep o l y m o r p h i s md a t a ,g e t t i n g o t h e rs u bd a t a b a s eo rn e w d e s c r i p t i v ei n f o r m a t i o n t h ea n a l y s i so b j e c tw a sa l lt h ep s e u d o g e n e s a n dt h ec d s r e g i o n so ft h e1 ,x ,yc h r o m o s o m e s o t h e ri n f o r m a t i o nw e r ea l s oa n a l y z e d ,w h i c h i n c l u d e dt h eg cc o n t e n t , t h el e n g t ho fp s e u d o g e n e ,t h e d e n s i t yo fs n p , t h et y p eo fs n p , t h e c u t t i n gs i t e o fi n t r o n ,t h e l e n g t ho fi n t r o n ,t h e d i s t r i b u t i o no fi n t r o n ,r e p e a ts e q u e n c e ,a n dt h e c o r r e l a t i o ni n f o r m a t i o n ,s o m e i n - d e p t hd i s c u s s i o n sw e r em a d e s o m ec o n c l u s i o n sw e r em a d ea f t e rt h ea n a l y s i so ft h eg c c o n t e n to ft h ep s e u d o g e n e s t h e a v e r a g eg cc o n t e n tp e r c e n t a g ei s4 6 2 7 ,t h eg cc o n t e n tp e r c e n t a g eo fm o r et h a nh a l fo ft h e i l l 中山大学硕士学位论文 p s e u d o g e n e s i sl e s st h a n4 5 ,6 1 ,t h e h i g h e s ta v e r a g e g cc o n t e n tp e r c e n t a g ew a sf o u n di n c h r o m o s o m e1 6 ,w h i l et h el o w e s t a v e r a g eg cc o n t e n tp e r c e n t a g e w a sf o u n di nc h r o m o s o m e y m o s to ft h e p s e u d o g e n e s l e n g t h a l el e s st h a n 2 0 0 0 b g t h ea v e r a g el e n g t h i s 9 3 2 1 4 b p i n c h r o m o s o m ey t h es e c o n d h i g h v a l u ea m o n gt h ec h r o m o s o m e s t h ep e a kv a l u eo ft h eg cc o n t e n tp e r c e n t a g eo ft h ei n t r o n si sa b o u t 0 4 ,t h ea v e r a g ev a l u eo f t h eg cc o n t e n tp e r c e n t a g ei s4 5 5 4 ,t h es a m el o wg cc o n t e n t p e r c e n t a g ew a sf o u n d i ni n t r o n sa s i np s e u d o g e n e s t h en e g a t i v ec o r r e l a t i v i t yw a so b s e r v e db e t w e e nt h eg c c o n t e n tp e r c e n t a g ea n d t h e l e n g t h o f p s e u d o g e n e ,s o d i db e t w e e nt h eg cc o n t e n t p e r c e n t a g e a n dt h e l e n g t h o f i n t r o n s s n p sw e r em a i n l yf o u n di n i n t r o n s ,a n dt h es n p sd e n s i t yi s h i g h e r i nt h ee x o n so f c h r o m o s o m eyt h a ni no t h e rc h r o m o s o m e s k e y w o r d s :h u m a n g e n o m e ,p o l y m o r p h i s m ,d a t a b a s e ,d a t am i n i n g ,m o l e c u l a re v o l u t i o n i i i 中山大学硕士学位论文 1 1 生物信息学发展 1 前言 1 1 1 后基因组时代的生物信息学 生物信息学是综合运用生物学、数学、物理学、信息科学以及计算机科学等 诸多学科的理论方法的崭新交叉学科,其核心是基因组信息学。 图1 1 信息挖掘原理 f i g u r e l - 1p r i n c i p l eo fi n f o r m a t i o nm i n i n g 广义的生物信息学指从事对基因组研究的相关生物信息的获取、加工、储存、 分配、分析和解释。生物信息学利用基因组中编码区的信息进行蛋白质空间结 构的模拟和蛋白质功能的预测,并将此类信息与生物体和生命过程的生理生化信 息相结合,阐明其分子机理,最终进行蛋白质、核酸的分子设计、药物设计和个 体化的医疗保健设计。 基因组信息学、蛋白质的结构计算与模拟以及药物设计,这三者连接在一起。 随着人类基因组计划的实施并取得巨大成就,同时模式生物基因组计划也在进 行,并先后完成了几个物种的序列分析,研究重心从开始揭示生命的所有遗传信 息转移到从分子整体水平对功能的研究上。 3 中山大学硕士学位论文 1 1 2 基因组测序与生物学数据的收集、存储、管理 包括生物信息的收集、存储、管理与提供;建立国际基本生物信息库和生物 信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统:生物信息 的在线服务:生物信息可视化和专家系统。基因组测序中,序列拼接和填补序列 间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据,而且在于它含 有高度重复的序列。 表1 1 完成测序基因组( h t t p :w w w e b i 8 c u k g e n o m e s ) 截至2 0 0 4 年5 月 t a b l e1 - 1h n i s h e dg e n o m e s ( u n t i lm a y , 2 0 0 4 ) 1 1 3 基因组相关信息分析 对人类基因组来说,人们真正掌握规律的只有d n a 上的编码蛋白质的区域 ( 基因) ,最新资料说明这部分序列只占基因组的1 1 。,9 8 非编码区蕴含的 成果数量将是十分可观的,因此寻找这些区域的编码特征、信息调节与表达规律 是未来相当长时间内的热点课题,是取得重要成果的源泉。 完整基因组的比较研究。举例来说,鼠和人的基因组大小相似,都含有约 3 0 亿碱基对,基因的数目也类似,且大部同源。可是鼠和人差异却如此之大, 这种差异不仅应从基因、d n a 序列寻找原因,也应考虑到整个基因组、考虑染 色体组织上的差异。这一工作开创了比较基因组学。玉米和人类基因组的大小几 乎完全相同,但是由于玉米和人类有不同的进化历史,从而导致了它们的基因组 4 中山大学硕士学位论文 里面的反转座原件的内容、基因的平均大小、遗传多样性等都有很大不同。 1 1 a 新基因和新s n p 的发现 发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现 新基因的必要手段。现在普遍认为s n p 研究是人类基因组计划走向应用的重要 步骤。这主要是因为s n p 将提供一个强有力的工具,用于高危群体的发现、疾 病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。s n p 在基因组 中分布相当广泛。大量存在的s n p 位点,使人们有机会发现与各种疾病,包括 肿瘤相关的基因组突变;从实验操作来看,通过s n p 发现疾病相关基因突变要 比通过家系来得容易;有些s n p 并不直接导致疾病基因的表达,但由于它与某 些疾病基因相邻,而成为重要的标记。s n p 在基础研究中也发挥了巨大的作用, 近年来对y 染色体s n p 的分析,使得在人类进化、人类种群的演化和迁徙领域 取得了一系列重要成果。 1 1 5 生物大分子结构模拟和药物设计 现阶段揭示序列数据所隐含的生物学意义的主要方法是模式识别技术。将已 知蛋白质的特征序列模式和特征结构模式搜集起来,构建成数据库,可用来确定 新测定的蛋白质序列中是否有某种特征模式,从而确定该蛋白属哪个蛋白家族。 生物信息学所提供的数据资料,可以指导对药物作用靶位的选定和药物分子 的设计。这种方法有快速高效的特点,它的研究包括大分子结构功能的模拟和预 报,药物分子与大分子结合的模拟,关键性基因的致病机制,及生物分子同源性 的分析,生物分子在指定细胞的分布和位点以及个体差异等等。人类基因组信 息为药物发展提供了新的候选分子和新的候选药靶基因。 1 1 6 分子进化 根据多种生物的基因组数据及对垂直进化和平行演化的研究,可以对生命至 关重要的基因结构及它的调控进行研究,对此需要建立较完整的生物进化模型, 用基因组的数据来鉴别出环境因素对其进化的影响。分子进化的研究成果对生态 环境和环境卫生具有指导性作用,对研究生命起源也有科学意义。在某些情况 中山大学硕士学位论文 下,利用构建进化树的方法,可以揭示细菌、酵母、昆虫、动物、植物之间的关 系。这些关系只能从分子水平才能得以阐明。 1 2 基因组计划 1 2 1 人类基因组计划 人类基因组计划于1 9 9 0 年1 0 月在美国正式启动,其核心内容是构建d n a 序列图,即分析人类基因组d n a 分子基本成分碱基的排列顺序,绘制成序列图。 英、日、德、法等国随后积极响应,使人类基因组计划逐步演变成为一项大型国 际科技合作计划。中国承担的工作区域位于人类3 号染色体短臂上。该区域约占 人类整个基因组的1 。 2 0 0 0 年6 月,人类基因组计划完成了人类基因组序列的“工作框架图”,2 0 0 2 年2 月又公布了人类基因组“精细图”,在包括中国在内的有关国家科学家的共 同努力下,人类基因组序列的“完成图”现也已经初步提交。人类基因组内共有 2 3 对染色体,3 2 1 0 9 b p ,含有约3 万个基因。1 人类基因组学是生物技术产业和健康产业的知识核心,蕴涵着无比巨大的产 业化潜能和商业利益。基于基因组研究成果的基因工程药物、基因治疗、生物芯 片诊断技术等,有着极其广阔的应用前景i 这些成果和进展已经显示出基因组的 研究将会从根本上改变疾病诊断、治疗和预防的传统健康产业模式,提高其质量, 带来巨大的社会、经济效益。0 1 图1 2 人类基因组的组成 f i g u r e1 - 2e l e m e n t so f h u m a ng e n o m e 6 中山大学硕士学位论文 1 3 分子进化 1 3 1 分子进化 分子进化学说的主要观点如下: ( 1 ) 基因突变是无所谓“好”与“坏”的“中性突变”。 ( 2 ) 这种突变不受自然选择的作用,只是通过在群体中的“遗传漂变”被固定和 积累,使群体的基因频率发生改变,从而导致种群分化,直至形成新的物种。 ( 3 ) 分子进化的速率取决于蛋白质或核酸大分子的种类,相同种类的大分子,其 替换速率相同。否定了“自然选择”的筛选作用。 此外。“中性论”者所持的“生物进化速率恒定”的观点似乎也有悖于达尔 文主义者“生物进化速率受环境等因素影响与控制”的传统观。1 ” 基于生物的遗传距离所建立的分子进化速率,可用于进一步推测不同生物类 群在进化历史上的分歧时间。这一间接时间数据可与化石记录所反映的直接数据 进行比较。分子钟研究为探究早期生命演化提供了一个新的途径,然而,利用分 子钟方法所得出的不同门类起源时间总是早于化石记录,因此分子钟与化石记录 的矛盾仍十分突出。“” 利用分子钟研究早期生命起源时间,及其与化石记录间根据分子钟利用序列 间的分歧度及平均置换速率来估计物种分歧时间,相对速率检验是一个不可缺少 的步骤。相对速率检验,是一种统计检验方法,用于检测分子系统树中不同分枝 上核苷酸置换速率的差异显著性。检验各类群的进化速率,寻找进化速率恒定的 谱系。根据系统发生分析结果选择参照分歧点,推测各类群问的分化时间。该方 法是检验分子钟假设正确与否的有效工具,随后又有许多作者对该方法进行了改 进,提出了更为简便、可行的方法。o ”“ 1 3 2 分子钟 与分子进化速率相关的分子钟的概念源于对蛋白质序列的研究。在比较了几 种动物的血红蛋白、细胞色素c 的序列后最先注意到:这些蛋白质的氨基酸取代 速率在不同的种系间大致相同,即分子水平的进化存在恒速现象。于是提出了 进化在分子水平存在“时钟”。若认为平均取代速率基本是恒定的,称这个恒定 7 中山大学硕士学位论文 取代速率为分子钟。近年来的研究表明,不同的生物大分子,特别是不同的基因、 基因的不同区段其变异的速率各不相同,甚至同一基因或基因片段在不同的生物 谱系中其变异的速率也有明显的差异。4 蚓 1 3 3 进化速率 中性理论的主要支柱是6 0 年代中期提出的“分子进化钟”假说。为了判断 减速进化的普遍性,有研究通过使用四种不同蛋白质从单细胞原核生物到单细胞 真核生物、植物、节肢动物、直到灵长类中人的绝对分子进化速率的变化情况, 证明了“减速进化”在不同蛋白质钟,在不同物种之中进化钟均普遍存在,因而 推测为一种普遍的规律。” 中性学说局限于对中、短期进化的研究。宏观进化的灾变学说和点断平衡论 之处,长期进化中灾变是突然发生的,属于线性范畴的中性学说难以在微观水平 上说明这种突发事件,同样也无法解决种化的问题。而较近亲缘关系的分子序列 属于分子钟的线性范畴,适合用中性理论来进行研究。研究热点为分子进化和表 型进化、分子钟、微进化和宏进化、进化的动力与机制”1 ” 有研究通过对序列数据的分析,总结出四种分子进化规律,也就是造血免疫 生长因子的发育相关迸化,细胞活性因子与手提的协同进化,m r n a 编码区与 飞编码区的协调进化。”概率论和商级统计学被广泛地应用于分子进化生物学并 取得了显著成果。似然比检验和贝叶斯推论在假说检验中的应用,代表了方法论 上的重要进展,为很多过去难以处理的重要问题提供了强有力的解决方法。”1 1 1 4 s n p 与假基因 1 4 1 定义和分类 单核苷酸多态性是指个体基因组内特定核苷酸位置上的单个碱基发生突变, 这种突变包括单碱基的转换、颠换、插入或缺失等。研究表明,人类每对等位染 色体上每1 0 0 0 bp 就会出现1 个s n ps ,而整个人类基因组每3 0 0 bp 就会出现 1 个s n ps 。在任意两个个体之间,就有好几百万的单碱基先进手段。在任意两 个个体之间,就有好几百万的单碱基差异和十万个氨基酸的不同,所以s n ps 在 8 中山大学硕士学位论文 一定程度上反映了人类个体或群体的特异性。” s n p s 按变异的碱基类型分为四种形式,其中c t ( g a ) 转换最常见,约占 三分之二,原因是cpg 中c 即胞嘧啶常是甲基化的,它能自发地脱氨基从而替 换为胸腺嘧啶。其余三种颠换为c a ( g t ) ,c i g ( g t c ) 和t a ( a t ) ,人类 的s n ps 通常表现为双等位基因多态性,三等位或四等位基因的s n ps 极其罕 见。s n ps 不仅存在于基因的非编码区,而且也存在于基因的编码序列中,称为 编码s n ps 。s n p 中转换占比例更高,以假基因为例,转换为全部s n p 的5 9 3 。“。 人类基因组共有约2 5 4 0 万个cs n ps ,其中有2 0 3 0 能引起氨基酸的编 码序列发生改变,导致蛋白质功能的变化,这部分cs n ps 称为非同义编码s n p s 。 可能是选择压力的原因,s n p 在单个基因或整个基因组中的分布是不均匀 的。s n p 在非转录序列中要多于转录序列,而且在转录区也是非同义突变f 有氨基 酸序列的改变) 的频率比其他方式突变的频率低得多。“7 弼1 1 4 2 s n p 检测分析技术 基因内多种变异类型的遗传标记研究。s n p 分析技术按究对象主要分为两大 类,即:对未知s n p 进行分析,即未知的s n p 或确定某一未知s n p 与某遗传病的 关系;知s n p 进行分析,即对不同人群s n p 遗传多样性检测或床上对已知致病 基因的遗传病进行基因诊断。 新的检测方法如结合单核苷酸引物延伸和电喷雾质谱测定。”,基于芯片的 s n p s 检测技术也得到了充分的发展,如单分子微阵列检测。变性高效液相色谱 技术不但可以用于筛查未知s n ps ,还可同时检测到cpg 的甲酰化。另一种 s n ps 检测方法是动态等位基因特异性杂交法。”。 1 4 3 s n p 的优点及其应用 人类的遗传连锁i 蛩谱至今已发展到了第三代。第一代是限制性酶切片段长度 多态性( r f l p ) 图谱,第二代是微卫星标记图谱,第三代图谱就是s n p 图谱。s n p 用作遗传标记具有以下优点: ( 1 ) s n p 在人群中具二等位基因性,在任何人群中其等位基因频率都可估计出来。 9 中山大学硕士学位论文 国它在基因组中的分布较微卫星标记广泛得多。 ( 3 ) 与串联重复的微卫星位点相比,s n p 是高度稳定的,尤其是处于编码区的 s n p ( c s n p ) ,而前者的高突变率容易引起对人群的遗传分析出现困难。 ( 4 ) 部分位于基因内部的s n p 可能会直接影响产物蛋白质的结构或基因表达水 平,因此,它们本身可能就是疾病遗传机制的候选改变位点。 ( 5 ) 易于进行自动化分析,缩短了研究时间。 有研究认为,1 个二核苷酸重复多态性标记的信息量大约是s n p 的2 2 5 2 5 倍,也就是说,1 个有9 0 0 10 0 0 个均匀分布的s n p 的图谱在进行基因组扫描 时,其所能提供的信息量就足以和目前最常用的有4 0 0 个标记位点的多态性图谱 的信息量相当。所用s n p 数量虽多,但因检测速度快,故它将能最终取代s s l p , 用于复杂性状的多基因遗传病研究。“3 5 删 由于s n p 具有以上优点,所以其应用范围较微卫星标记更加宽广,它对群 体遗传学、制药业、法医学、癌症及遗传性疾病甚至进化的研究都将产生不可估 量的影响。预计今后s n p 将在下列领域发挥重要作用: ( 1 ) 进行简单和复杂疾病的遗传连锁分析及关联分析,用于疾病易感基因定位; 而且其定位的精度高。 ( 2 ) 在“药物基因组学”研究中,可通过检测s n p 的遗传多态性标记揭示人群中 不同个体对不同药物的敏感性差异的根本原因。 ( 3 ) 也可用于法医研究的罪犯身份的鉴别、亲子鉴定等,此外在器官移植中供体 和受体间的配对选择及物种进化的研究中都将具有重要意义。 为医学、药学等研究提供了新的方向,其在复杂疾病、遗传病研究及法医中 个体识别、亲权鉴定和药学研究方面都有重要作用。“4 ” 1 4 4 对于y 染色体与s n p 的研究 y - s n p 用于种族起源预测和男性鉴定到目前为止,对它的研究主要集中在 种族起源的预测上。有研究利用y - s n p 单倍型进行种族起源分析,y 染色体在 男性决定中起重要作用,其为单倍型,y 染色体的大部分免于重组,引起y 染 色体多样性在谱系中积累,并产生男性特异性单倍型,由于人群遗传和行为因素 这种单体型非随机分布在人群中。目前,y - s t r 数据库是法医中男性个体识别非 1 0 中山大学硕士学位论文 常有力的工具,y - s n p 复合扩增,有利于男性物质含量少的混合斑的鉴定。其分 布有种群特异性,利用它可帮助推断犯罪现场某个体所属种群。y 染色体与常染 色体和线粒体进行d n a 多态性比较,其随地理距离改变而出现的遗传差异最大。 世界上不同地区的单体型分布是非常不同的,如某y - s n p 在非洲人中出现率为 1 5 ,而在世界其他地方并没找到;另一单体型在撒哈拉人中出现率为5 3 ,而 在欧洲人中出现很少。随着更多的发现并进步分亚型,将使种群特异性分析的 可信度增加。 国内研究人员采用p c rr f l p 法观察了由1 3 个单核苷酸多态位点( s n p s ) 组 成的y 染色体单倍型在中国布依族人群中的分布,结果表明中国布依族人的单倍 型分布与我国同属侗傣语系的壮族、侗族、黎族及金秀的瑶族最为接近,提示布 依族人与上述人群有一定的亲缘关系。啪3 1 4 5 假基因 随着人类基因组计划不断深入,对于占人类基因组9 7 的非表达序列的研究 也逐渐成为热点。通常所说的假基因就属于一种非自主的返座子。在基因克隆和 基因表达研究的过程中,返座假基因是我们经常碰到的问题。假基因共同的特点。 ( 1 ) 大多数假基因本身存在多种遗传缺陷。这些遗传缺陷包括:a ) 阅读框中的 无义突变;b ) 非3 的整数倍的核苷酸的插入或缺失,导致阅读框的移码。但是 到目前为止,至少有以下几个返座假基因无上述有害的遗传缺陷:人多肽链延伸 因子e e f l a 假基因, 大鼠r c 9 细胞色素c 假基因,鼠l 3 2 核糖体蛋白的一个 假基因r p l 3 2 4 a 等等。其中大鼠r c 9 细胞色素c 假基因的编码区与其功能基因 完全致。 ( 2 ) 除了多种多样的遗传缺陷外,大多数返座假基因具有以下4 个较鲜明的特 征:a ) 完全缺失存在于功能基因中的间隔序列,即内含子序列;b ) 假基因的 序列只与功能基因转录产物的起点和终点之间的序列相似,而与其5 ,端调控序列 无关。但是鼠t t , a 3 一珠蛋白假基因,鼠促皮质素b 脂蛋白前体假基因、人免疫球 蛋白e 及甲1 假基因是其中的例外:c ) 假基因的3 末端紧接着有多聚腺嘌呤 尾。以上3 个特征明显提示这些序列是从成熟m r n a 衍生而来,因此这类假基 因又被称为处理后的假基因。d ) 这类假基因的序列两端常被7 2 1 b p 的正向重 中山大学硕士学位论文 复序列包围。这种正向重复序列也在s n r n a 假基因家族和a l ui 家族中被发现, 提示正向重复序列的产生可能是一种共同的插入机制的结果。“3 1 1 5 重复序列与内含子研究 1 5 1 分类和进展 重复序列可以分为: ( 1 ) 简单重复序列,包括微卫星序列,短串连重复序列; ( 2 ) 移动原件,包括转座子和反转座子,其中反转座子又包括长末端反转座子, 长散布核元件,短散布核元件。 几乎所有的关于散布重复序列多态性的研究都和a l u 序列有关,人类基因组 钟大约含有5 0 0 0 0 0 个拷贝的u ,l i n e 序列约占基因组1 5 。 根据重复序列出现的频率可以分为: ( 1 ) 高度重复序列,这类序列一般较短,长1 0 - 3 0 0 b p ,在哺乳类基因组中重复 1 0 6 次左右,占基因组d n a 序列总量的1 0 6 0 ,人的基因组中这类序列约占2 0 , 功能还不明了。 ( 2 ) 中度重复序列,这类序列多数长1 0 0 5 0 0 b p ,重复1 0 1 1 0 5 次,占基因组 1 0 4 0 。例如哺乳类中含量最多的一种称为a l u 的序列,长约3 0 0 b p ,在哺乳类 不同种属间相似,在基因组中重复3 - 5 x 1 0 5 次,在人的基因组中约占7 ,功能 也还不很清楚。 ( 3 ) 单拷贝序列,这类序列基本上不重复,占哺乳类基因组的5 0 8 0 ,在人基 因组中约占6 5 。 绝大多数真核生物为蛋白质编码的基因在单倍体基因组中都不重复,是单拷 贝的基因。“1 1 5 2 短串连重复序列及其应用 人类基因组约有5 0 万个短串连重复序列位点,其中以( c a ) i 3 重复序列最 多,约有五万到十万个,四核苷酸重复序列位点有( g a t a ) 。 家系连锁分析是目前最常用的基因定位方法,连锁分析是用被定位的基因与 中山大学硕士学位论文 同一条染色体上另一个基因或遗传标记相连锁的特点进行定位。目前连锁分析定 位基因所用的遗传标记主要是短串联重复序列,通过全基因组连锁分析,一般能 把致病基因或相关位点定位在1 0 - - 2 0 c m 的范围内。在这一范围内进一步选择更 多的多态位点进行分析,可把致病基因或相关位点限制在1 - 3 c m 的区域。”1 短串联重复序列与法医学鉴定法医学鉴定的主要内容是个人识别和亲子鉴 定,传统的方法有化学方法、形态学方法、血清学方法、生物化学方法等八十年 代起,随着分子遗传学的发展,一系列新的d n a 分析技术的建立,d n a 分析逐 渐取代传统的鉴定方法,成为法医学鉴定的主要手段。“8 “7 3 极低密度脂蛋白受体基因的5 非编码区起始密码子上游1 9 b p 处存在c g g 撒重复序列,一般正常人中该基因重复5 到1 1 此,多态性分布且有民族差异, 对汉族分析检查出5 、8 、9 、1 1 的4 种等位基因,和其他国家人群种的分布不尽 相同。1 1 5 3 反转录转座子 自主性反转录转座子可以分为二类:含l t r s 的转座子和不含l t r s 的转座 子。人体中含量最多的l t r s 自主性反转录转座子为人类内源性逆转录病毒 f f m a v s ) ,约占1 2 。虽然还未发现体内h e r v s 具有反转录转座能力,但 已发现h e r vs 中有些元件活性表达,提示人体内可能存在活性h e r v s 。“” 不含l t r s 的自主性反转录转座子主要为长散布元件,全长5 7kb ,称为 l 1 。人类基因组中有1 0 万份以上的l1 ,约占总序列的1 5 左右,主要分布于 a t 富集区。l1 是进化上保守的一个超基因家族,5 、3 端为非编码区,中 间含二个开放读框。由于9 5 以上的l1 5 端存在缺失,其中约有1 0 l1 还存 在重排,因此具有序列全长及转座活性的l1 非常少见。据估计人类基因组中约 有3 0 0 0 4 0 0 0 份l1 具有全长序列,可能只有3 0 6 0 份l1 具有反转录转座能 力。已发现7 份活性l 1 。“” 非自主性反转录转座子也通过d n a _ r n a - d n a 方式转座,但本身不能编码 蛋白质,因而必须借助胞内酶才能实现转座。这类转座子序列长1 0 0 3 0 0bp , 拷贝数达数十万份。人类基因组中的非自主性反转录转座子主要为舢u 家族f 7 0 万份左右,占1 0 ,主要分布于gc 富集区) 和加工后的假基因,结构中均无l t r , 中山大学硕士学位论文 无编码蛋白质能力,但3 端有长短不一的p o l y a 尾序列。据推测,a l u 等非自 主性反转录转座子转座所需的胞内逆转录酶很可能由活性l1 编码。鉴于人类基 因组中含有丰富的反转录转座子,1 4 以上的基因组序列来源于活性l1 直接转 座或由l 1 逆转录酶辅助灿u 等非自主性反转录转座子转座,目前认为l 1 是人 类基因组中的主导转座子。“2 1 a l u 序列为人类基因组中一族散布的、长度大约为3 0 0 b p 的中等重复序列, 约占基因组的3 一6 。u 序列的两端为a l u 限制酶的切点序列a g c t a c g a , 故而得名。9 0 以上的人类基因克隆都能与a l u 探针杂交。a l u 序列具有种特异 性。a l u 家族的功能是多方面的,主要涉及转录调控,h n r n a 的剪接加工和遗传 重组等;与染色体不稳定性也有关。a l u 序列的某些区段有形成z d n a 的能力。 1 5 4 内含子 内含子通常分为如下类:i 类和i i 类内含子主要分布在细胞器,细菌和某些 低等真核细胞,它们有一个共同特点:能自我剪切,不需要酶和蛋白因子参加。 i i i 类内含子在纤细裸藻的叶绿体基因组中发现,i i i 类内含子从结构上看是从原 始i i 类内含子进化而来的,而且剪接过程与u 类内含子相似,但不能自我剪接, 需其它因子的参与。另外还有核t r n a 前体内含子和原细菌内含子。最后一类最 为常见,即大多数真核生物细胞核内前m r n a 中的内含子,又称剪接体内含子。 值得一提的是:这类内含子只存在于真核生物细胞核内。“”1 目前就这几类内含予进化关系上,有较多事实支持核m r n a 内含子起源于 i i 类内含子,核t r n a 前体内含子和原细菌内含子很可能有共同起源,i 类与i i 类及核m r n a 内含子关系则争论较多,而它们互相之间的进化关系更加扑朔迷 离。”5 ” 关于内含子起源的争论主要有两种观点:“内含子早”假说又称为基因的外 显子理论,认为低等生物原来也有内含子,但是后来丢失了,“内含子晚”假说 认为内含子是在高等生物中才进化出现的。 1 4 中山大学硕士学位论文 1 6 。多态性数据库 1 6 1 细菌基因组数据库 1 9 9 2 年开始建立的g e n o l i s t 是由法国巴斯德研究所建立和维护的细菌基因 组数据库系统,是目前国际上细菌基因组最详尽的数据库,收集了细菌全基因组 d n a 序列、基因定位、功能、调控序列、蛋白序列和功能以及大量相关文献信 息。其包含的信息量中包括了一部分由从事细菌基因组研究的科学家提交的最新 研究成果,这部分成果在其它公共数据库中无法找到“1 。 基于s y b a s e 数据库管理系统,每个数据库包括十多张表,分别包含了不同 的信息,用c 和c + + 作为应用程序接口和公共网关接口的编程语言。提供数据 查询,基因组数据浏览,序列搜索的服务( h t t p :g e n o l i s t p a s t e u r f r ) 。 1 6 2 人类基因组数据库 人类基因组数据库g d b 于1 9 9 0 年建立,现由加拿大负责维护,g d b 的数 据量比g e n o l i s t 大。收录了详细的人类基因组图谱信息和与基因功能研究密切 相关的其他注释信息。 基于s y b a s e 数据库管理系统,包括h g d 、c i t a t i o n 和r e g i s t r y 3 个数据库。 h g d 是最主要的数据库,用面向对象的方式组织和管理数据,将数据分成类, 通过属性加以表示,其网络应用是典型的面向对象系统,分成网页生成部分,数 据库通讯和数据格式转换部分,基于s y b a s e 的数据库部分。使用a p a c h e 作为 h t f p d 服务器,查询显示中的图形功能是通过j a v a a p p l e t 实现的。” 1 6 3 e n s e m b l 真核基因组注释数据库 由欧洲生物信息学研究所和英国桑格中信合作开发。1 9 9 6 年开始。在已经 得到的基因组序列的基础上,定位所有的已知序列,并且预测未知基因,同时对 这些基因提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论