(概率论与数理统计专业论文)基因型带有误差时单倍型分析的统计方法.pdf_第1页
(概率论与数理统计专业论文)基因型带有误差时单倍型分析的统计方法.pdf_第2页
(概率论与数理统计专业论文)基因型带有误差时单倍型分析的统计方法.pdf_第3页
(概率论与数理统计专业论文)基因型带有误差时单倍型分析的统计方法.pdf_第4页
(概率论与数理统计专业论文)基因型带有误差时单倍型分析的统计方法.pdf_第5页
已阅读5页,还剩110页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 单倍型在现代遗传流行病学研究中起着非常关键的作用,尤其是在进行复杂 疾病基因定位研究时,基于单倍型的连锁分析或关联分析方法比基于单个s n p 位点的分析方法有更大的功效但实际中我们直接得到的不是个体的单倍型而是 基因型,因此单倍型分析的首要任务就是根据已知的基因型数据推断个体的单倍 型,其次是利用得到的单倍型进行连锁分析和关联分析的研充然而目前已有的 单倍型分析的统计方法( 包括单倍型推断方法和基于单倍型的连锁分析与关联分 析方法) 几乎都没有考虑基因型测量误差给单倍型分析带来的影响,它们均是在 基因型不含有测量误差的假设下进行的,问题是目前所用的大部分基因型数据都 含有一定的误差本文的主要目的就是给出基因型带有测量误差时单倍型分析的 统计方法,其中主要包括单倍型推断方法和单倍型关联分析的方法 本文分别就群体数据结构和家系数据结构给出了基因型含有测量误差时的 单倍型推断方法,并且给出了降低基因型误差影响的单倍型关联分析的方法首 先在群体结构的单倍型推断研究中,我们提出了两种全新的设计方法。双重抽样 设计和多次测量设计,并基于这两种设计方法提出了适合于含有误差基因型的单 倍型推断的d s e m 算法和m g e m 算法对于家系数据结构,我们充分利用家 系中个体之间有用的相关信息提出了基因型含有误差时单倍型推断的g s p e m 算法在进行单倍型关联分析的研究时,我们就病例一对照研究中基因型含有误 差情况下考虑了基于单倍型的l o g i s t i c 回归模型,给出了单倍型关联分析研究的 似然方法上述各种方法我们都通过模拟研究或实例分析考察其在实际中的可行 性,并且通过和其他方法的模拟比较研究去分析其优劣性无论是理论分析还是 模拟研究都说明我们的方法在实际中是可行的,并且能够大大降低基因型测量误 差给单倍型分析带来的影响 关键词:单倍型推断;单倍型关联分析;基因型误差;基因图谱;误分类;双 重抽样;e m 方法;l o g i s t i c 回归 i a b s t r a c t h a p l o t y p ep l a y sav e r yi m p o r t a n tr o l ei nm o d e r ng e n e t i ce p i d e m i o l o g ys t u d i e s e s p e c i a l l y , i nt h es t u d yo fm a p p i n gc o m m o nc o m p l e xd i s e a s eg e n e s ,h a p l o t y p e - b a s e dm e t h o d s ,s u c ha sl i n k a g ea n a l y s i sa n da s s o c i a t i o na n a l y s i s ,a r ei n o r ep o w e r f u lt h a ns i n g l es n pm a r k e rm e t h o d s i np r a c t i c e ,h o w e v e r ,w h a tw ec a no b t a i n e d d i r e c t l ya r eg e n o t y p ed a t ab u tn o th a p l o t y p ed a t a t h eb a s i cp r o b l e mo fh a p l o t y p ea n a l y s i si st h a tw es h o u l di n f e rh a p l o t y p e so fe a c hi n d i v i d u a la c c o r d i n g t ot h ea v a i l a b l eg e n o w p ed a t a ,t h e nw es h o u l dp e r f o r mh a p l o t y p e b a s e dl i n k a g ea n a l y s i sa n dh a p l o t y p e b a s e da s s o c i a t i o na n a l y s i s n e v e r t h e l e s s ,a l m o s ta l l o ft h ee x i s t i n gh a p l o t y p ea n a l y s i s ( h a p l o t y p ei n f e r e n c e ,h a p l o t y p e - b a s e dl i n k a g e a n a l y s i sa n dh a p l o t y p e b a s e da s s o c i a t i o na n a l y s i s ) n e g l e c tt h ei m p a c ti n d u c e d b yg e n o t y p i n ge r r o r s ,w h i c hp e r f o r mh a p l o t y p ea n a l y s i su n d e rt h ea s s u m p t i o n t h a tg e n o t y p ed a t ad on o tc o n t a i ne r r o r s t h em a j o ri s s u ei st h a ta l ll a r g eg e n o - t y p ed a t a ,e s p e c i a l l yf o rs n pm a r k e r s ,c o n t a i ne r r o r sd u et of a l l i b l eg e n o t y p i n g t e c h n o l o g i e s t h i sd i s s e r t a t i o na i m st op r o p o s es o m en e ws t a t i s t i c a lm e t h o d sf o r h a p l o t y p ea n a l y s i sw i t hg e n o t y p i n ge r r o r s i nt h i sd i s s e r t a t i o n ,w ep r e s e n ts e v e r a lh a p l o t y p ei n f e r e n c em e t h o d sf o rp o p u l a t i o nd a t aa n dp e d i g r e ed a t ar e s p e c t i v e l yw h e ng e n o t y p ed a t ac o n t a i ns o m e e r r o r s ,f u r t h e r m o r e ,w ep r e s e n tan e wh a p l o t y p ea s s o c i a t i o nm e t h o dt or e d u c e t h ei m p a c ti n d u c e db yg e n o t y p i n ge r r o r s i nt h es t u d yo fh a p l o t y p ei n f e r e n c e f o rp o p u l a t i o nd a t a ,t w on o v e ls t r a t e g i e s ,d o u b l es a m p l i n gs t r a t e g ya n dm u l t i g e n o t y p i n gs t r a t e g y , a r ep r o p o s e df o rc o n s t r u c t i n g g e n o s p e c t r u m ”o fe a c hi n d i v i d u a l ,t h e na c c o r d i n gt ot h en e ws t r a t e g i e s ,t w oa l g o r i t h m s ,d s e ma n dm g e m ,a r ep r o p o s e df o rh a p l o t y p ei n f e r e n c ew i t hg e n o t y p i n ge r r o r s f o rp e d i g r e e d a t a ,w ep r e s e n tag s p e ma l g o r i t h mt op e r f o r mh a p l o t y p ei n f e r e n c ew i t hg e n o i i i t y p i n ge l t o r st h r o u g ht a k i n ga c c o u n to ft h ed e p e n d e n c eb e t w e e nr e l a t i v e s ,i n t h es t u d yo fh a p l o t y p e - b a s e da s s o c i a t i o na n a l y s i s w ec o n s i d e rah a p l o t y p e - b a s e d l o g i s t i cr e g r e s s i o nm o d e lf o rc a s e - c o n t r o ld a t aw i t hg e n o t y p i n ge r r o r s ,t h e nw e p r o p o s eal i k e l i h o o d - b a s e da p p r o a c ht oa s s e s s i n gt h ea s s o c i a t i o n sb e t w e e nt r a i t s 汹dh a p l o t y p e s + w ec a r r yo u ts i m u l a t i o n st oe v a l u a t e 蚰lt h ep r o p o s e dm e t h o d s a n dt oc o m p a r et h e mw i t ho t h e rm e t h o d s 、a n dw e 幽oa p p l yo u rm e t h o d st o r e a ld a t as u c c e s s f u l l y b o t ht h e o r e t i c a la n dn u m e r i c a ls t u d i e ss h o wt h a to u rp r o - p o s e dm e t h o d sw o r kw e l li np r a c t i c ea n dc a l lr e d u c et h ei m p a c ti n d u c e db yt h e g e n o t y p i n ge r r o r si nh a p l o t y p ea n a l y s i ss t u d i e s k e yw o r d s :h a p l o t y p ei n f e r e n c e ;h a p l o t y p e - b a s e da s s o c i a t i o n ;g e n o w p i n g e r r o r ;g e n o s p e c t r u m ;r a i s c l a s s i f i c a t i o n ;d o u b l es a m p l i n g ;e ma l g o r i t h m ;l o g i s t i c r e g r e s s i o n i v 独创性声明 本人声啜瞬呈交的学位论文是举人在导姆指导下进行的研究工佟及取得的 研究成果糖我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人殴经发表或撰写避的研究成果,也不包含为获得东j b 炳范大学或其他教育机构 的举位或诚书而使。嗣过的材料与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了疆确的说嚷搏表示谢意 学位论文作者签名黯期:窦哩。未: 学位论文版权使用授权书 本学袋毒全文傺纛宠金了薅东j 熙藏大学蠢荧曝聱、夔震学经论文鳃娥定,鄂: 米d b 师范大学有权保留并向阐家有哭部门或机构送交学位论文的复印件和磁盘, 允许论文被套阕秘偻阙本人授权东i e 耀莛大学可以姆学位论文躲全部竣部分内 容编入有关数据库避行检索,可以采用影印、缩印或冀它复制簪段保存、汇编学 位论文 ( 保密的学位论文在解密后适用举授权书) 学位论文作者签名:奎主垒指导教师煞名:强建羹 霉 麓:;璃0 主五# 一霹 赣:j 艘坠蔓受 学位论文作者毕业后去向; 工作单位:主煎举程戳赵盏谨j 聋垒菠电话:i 墅鳋鹾卑墨f 通谖媲垃:自编 第一章绪论 1 1 概述 与大自然角力 破解那道 困惑哲人久矣的生命哑谜 追溯它的源头 揭开万疾之因 这,就是我们的梦想 一威廉奥斯华爵士 自古以来人类就在和疾病作着顽强的斗争,早在史记中就已经用“疫”、。大 疫”等来表示疾病的流行,在这不断的斗争过程中,人们对疾病的认识在不断的 加深,流行病学( e p i d e m i o l o g y ) 也得到了相应的发展 进入2 0 世纪,随着遗传学( g e n e t i c s ) 的飞速发展,人们对疾病的认识上升 到了分子水平各方面的研究也越来越让人们相信,人类大多数疾病都与遗传有 关,遗传学家根据孟德尔遗传规律阐明了许多单基因遗传病的遗传原理,诸如多 指病、白化病、黑尿病和镰刀型细胞贫血症等等大多数单基因病的基因都得以 定位或克隆但是仍有许多常见的疾病,比如出生缺陷、高血压、心脏病、肿瘤、 精神分裂症、糖尿病等,其遗传规律受多个基因的共同控制,它们的遗传规律不 能按照简单的孟德尔定律分析2 0 世纪7 0 年代以来,分子遗传学研究蓬勃发展, 产生了一些新的生物技术如d n a 重组技术、核酸分子杂交技术、d n a 片断或 基因片断的聚合酶链反应技术( p o l y m e r a s ec h m nr e a c t i o n ,p c r ) 等与此同日寸j 人们提出了人类基因组计划( t h eh u m a ng e n o m ep r o j e c t ,h g p ) ,这一伟大计划 的完成,使得人们可以在整个基因组上认识和研究人类常见的复杂疾病,进而在 整个基因组上寻找和定位基因、研究基因与疾病之间的关系以及研究基因与环境 如何共同作用导致疾病成为2 1 世纪迫在眉睫的问题 基因定位( g e n em a p p i n g ) 1 ,2 】已经有了几十年的研究历史,并且产生了许多 有效的基因定位方法但是传统的单基因病的基因定位方法不再适用于复杂疾病 基因的定位随着人类基因组计划的完成,人们在基因组上找到了大量的多态性 位点,特别是单核苷酸多态性( s n p s ) ,这为我们给出更好的基因定位方法创造 了可能进一步研究表明,基于单倍型( h a p l o t y p e ) 的基因定位方法比基于单个 标记位点( m a r k e rl o c u s ) 的基因定位方法能够给我们提供更大的功效【3 “】但 是实际中我们直接得到的只是基因型数据,要想直接从实验中得到单倍型却费时 又费钱因此需要我们给出行之有效的单倍型推断方法去确定个体的单倍型,进 而基于单倍型去作连锁分析( 1 i n k a g ea n a l y s i s ) 和关联分析( a s s o c i a t i o na n a l y s i s ) 的研究 本文主要给出在遗传流行病学研究中当基因型带有测量误差时的一些单倍 型分析的统计方法不仅讨论了基因型含有误差时的单倍型推断方法,并且还讨 论了基因型带有误差时基于单倍型的关联分析的研究下面首先让我们了解一些 必要的背景知识 5 1 2 遗传学发展简史与遗传流行病学 2 l 世纪是生命科学的时代,在刚刚过去的2 0 世纪生命科学得到了迅猛发 展,特别是最后2 0 年,其发展速度更加令世人瞩目而生命的本质特征是遗传 和变异,故而生命科学的核心是遗传学, 我国古代劳动人民对生命遗传和变异的现象就有了一些朦胧的认识,自古民 间就流传着“种瓜得瓜,种豆得豆”、“一母生九子,连娘十个样”等谚语但是 长期以来人们对生命现象本质的认识还是相当浮浅的,生命科学的发展相对来说 也是比较缓慢的,很长一段时期被“神创论”所统治尽管1 8 5 9 年达尔文的物 种的起源首次以唯物的观点认识到“物竞天择,适者生存”的现象,但是因为 2 其瓣零爨不爨霜数学寒遘行攘象秘壤掺,困i l :整列2 0 氆纪,宅还没毒蔽鸯一薅 理性的学科,更没有我们现襁的遗传学 谈起遗传学,大家裁会苓约瑟露赫想起熟建裂学器盂薅拳( m e n d e l ) + 缝在 1 8 6 5 年的植物杂交试验中发现和总结出遗传学的两大基本规律,即分离定律 秽囊虫级台定律,为蕊 弋遗传学奠定了大厦掇蕊,孟答尔本大璁皴詹人称之鸯瑰 代潦传学之父但是滚憾的怒其工作并没有被时人所认可2 0 世纪初期,人们对 孟德尔的遗传规律努始重薪认识+ 英隧动物学家贝森糁( b a t e s o n ) 于1 9 0 6 年首 次撼出“遗传学”( g e n e t i c s ) 邀一名词,于是遗传学这一新的学科开始皇溉在世人 面翦 1 9 5 3 举,沃森( w a t s o n ) 和克基克( c r i c k ) 两位年轻的科学家提出了脱氧核 糖核算d n a 的双螺旋分子模型结构,使得人们开始在分子水平上认识和研究遗 传稍变异,蕻两人也函此而获得了1 9 6 2 年豹诺强尔生疆学或渡举奖2 0 麓纪蔼 年代以来,分子遗传学研究蓬勃发展,新的生物技术浪潮迭涌般的出现。如d n a 重缀技术、梭酸分子鸯 交荻拳d n a 片断或蒸霹片辑静聚合酶鲢反应技术等等 这个时期分子医学也迅速发聪起来,并且渗遴到了生命科学研究的每一个角落, 不段研究庆瘸静诊鼗,还关,疾病豹汝疗嚣瑟貉 随着遗传学的飞速发展,越来越多的研究袭明人类的疾病大多数都与遗传有 关t 巽簿胃黻分鸯三类;第一蹙是摹麓嚣窥( s i n g l eg e n ed i s o r d e r ) 或者稼佟孟黪 尔疾病( m e n d e l i a nd i s o r d e r ) ,这类痰病的遗传规律遵循孟德尔的分离定律和自 鑫缀合是鬻,其是交攀个基瓣d n a 漤裂菜个缓基黠懿改变翳致,芳虽辍把这 种改变遗传给后代,因此研究起来相对比较简单,如早老症、多指症、白化病等 曩藏巴经定经了谗参与单基因痰鸯关戆基因,劳豆每年郝毒瑟鳃发理。第二类楚 染色体疾病( c h r o m o s o m ed i s o r d e r ) ,主要是由于染色体在数量上的增加或缺失, 或赣染色俗在结梅上姻异誉蹲致枧体蕊些系统毂疃形,或由此i l 霆产生的僚 霹一耪 症状,例如先天愚型或d o w n 综合瘟,k l i n e f e l t e r 综合症等第互类是多基因病 ( m u l t i f a c t o r i a ld i s o r d e r ) 或张作人类发杂疾病( h u m a nc o m p l e xd i s e a s e ) ,这类疾 病趋由多个慕园的络构或者液达调控的改变弓f 起的,缀常还会爨环境的影响多 基因病在人群中比较常见。并且发病率极高,比如天擞缺陷、癌症、高赢压、心 3 脏病、哮喘、糖尿病等等 遗传流行病学( g e n e t i ce p i d e m i o l o g y ) 是研究与遗传有关的疾病在人群中的 分布、病因、以及制定预防和控制对策的学科 1 3 ) 它以与遗传有关的疾病为研究 对象,以预防和控制这些疾病为目的,统计学在其中发挥着重要作用因此说遗 传流行病学是遗传学、流行病学和统计学三门学科相互渗透形成的- 1 7 交叉学科 。是用来研究人类遗传疾病的主要方法之一,特别是对那些在人类中常见的但 不能用孟德尔遗传规律简单解释的复杂疾病的研究提供了可能 为了更好的认识和研究人类复杂疾,人们发现不能只针对单个基因进行研 究,而必须要考虑基因之间的相互关系以及基因与环境之间的关系,因此要从整 个基因组上去寻找和定位致病基因在此启发下,通过激烈的讨论和严格的审批, 价值3 0 亿美元被誉为生命科学“阿波罗登月计划”的国际人类基因组计划( t h e h u m a ng e n o m ep r o j e c t ,h g p ) 于1 9 9 0 年正式启动该计划旨在精确测序由3 0 亿个碱基对构成的人类基因组序列,发现所有人类的基因,并且确定这些基因在 染色体上的位置,最终弄清所有基因的具体功能人类基因组计划草图于2 0 0 0 年6 月2 6 日提前宣告完成,2 0 0 1 年发表人类基因组初稿,并于2 0 0 3 年全部宣 告完成测序的完成只是人们认识自我的第一步,打个比方来说,人体就好像一 本3 0 亿个字母的字典,而人类基因组计划的完成只是告诉我们字典中的单词组 成,下一步的任务就是解释每个单词的意义是什么,也就是说我们要搞清楚每个 基因的功能人类基因组的研究重,c , - 应该由结构转向功能,即进入所谓的“后基 因组时代”( p o s t g e n o m i c s ) ,不仅要研究单个基因与疾病的关系,最重要的是研 究多个基因之间是如何相互作用共同导致疾,以及基因与环境因素的共同作用机 理这也正是现代遗传流行病学在2 1 世纪所面临和亟待解决的问题 1 3 单倍型分析的重要性与发展现状 单倍型指的是同一条染色体上不同位点上的一列等位基因在遗传流行病学 的研究中,特别是在寻找致病基因的研究中( c a n d i d a t eg e n es t u d i e s ) ,单倍型起 着非常重要的作用因此目前国际上有许多学者都在从事单倍型分析的研究,并 4 且取得了大量的优秀成果 1 3 1 单倍型分析的重要性 随着人类基因组计划测序的完成,人们开始从整个基因组上去寻找、定位以 及研究致病基因但是研究发现。不同人的基因组序列惊人的相似人类基因组 3 0 亿个碱基序列约9 9 9 都是相同的,而仅有约0 1 的差异,也就是说,在每 一个有差异的位点上有些人的碱基是a 而另外一些人的碱基可能是g ,而这样 的差异位点只占人类基因组3 0 亿个碱基序列的0 1 如果在个位点上碱基差 异在人群中所占的比例超过1 ,或者说,在人群中至少有1 的人在该位点上的 碱基与他人不同,通常称这一现象为多态性( p o l y m o r p h i s m ) 在人类基因组上最 常见的多态性为单核苷酸多态性( s i n g l en u c l e o t i d ep o l y m o r p h i s m s ,s n p s ) ,研究 发现在人类基因组上大约有一千万个s n p s ,平均每隔2 0 0 个碱基对就会出现一 个s n p ,但是常见的s n p s 大约有6 百万个少数s n p 位点上等位基因( a l l e l e s ) 的变异是导致疾病的直接原因,但是太部分的s n p s 并没有这种功能,科学家们 通常把这些s n p s 做为标记物( m a r k e r ) 去寻找和定位致病基因,因为致病基因 往往位于这些标记位点的附近,我们可以形象的以下图来解释, 图1 3l :利用标记物寻找和定位致病基因示意图 图1 3 ,l | 1 5 3 中“c a n c e rg e n e ”是我们要寻找和定位的致病基因,两边离它很近 的是我们选取的标记物以前的研究中人们曾经选用过多种遗传标记物( g e n e t i c m a r k e r ) ,比如a b o 血型、主要组织相容性复合体( m a j o rh i s t o c o m p a t i b i l i t y c o m p l e x ,m h c ) 、限制性片断长度多态性( r e s t r i c t i o nf r a g m e n tl e n g t hp o l y - 5 m o r p h i s m ,r f l p ) 、可变数串联重复序列( v a r i a b l en u m b e ro ft a n d e mr e p e a t s , v n t r s ) 或称作小卫星( m i n i s a t e u i t e s ) 、短串联重复序列( s h o r tt a n d e mr e p e a t s , s t r s ) 或称作微卫星( m i c r o s a t e l l i t e s ) ,而目前最常用的遗传标记物是s n p s 在实际中,如果我们要检测人类染色体上所有的一千万个s n p s ,其费用 是相当昂贵的进一步研究发现,一些相邻的多态性位点趋向于在一起共同遗 传,于是人们想从这一连锁区域中选取一些能够特异识别这一区域的标签s n p s ( t a g s n p s ) ,这些标签s n p s 包含了大部分遗传变异的模式信息,并把这些变异 连锁的区域称作单倍型,而这些标签s n p s 也称作h t s n p s 于是2 0 0 2 年1 0 月又 正式启动了国际人类基因组单倍型图计划( t h ei n t e r n a t i o n a l “h a p m a p ”p r o j e c t , h a p m a p ) ,这是继人类基因组计划完成以来人类所采取的又一伟大壮举这一计 划的实施必将给遗传学和遗传流行病学的发展带来新的生机 尽管利用单个s n p 可以寻找和定位致病基因,也可以直接研究s n p 和疾 病之间的关联性,但是许多研究指出,单倍型比单个s n p 甚至比多个s n p s 的 简单相加含有更多的信息,基于单倍型的研究比基于单个s n p 位点的研究能为 我们提供更大的功效 3 ”1 1 1 ,因为单倍型含有连锁不平衡( 1 i n k a g ed i s e q u i l i b r i u m , l d ) 信息 3 ,“如果我们从统计学来理解,s n p 可以视为一随机变量,而单倍型 则可以理解为一个随机向量的取值【1 6 t 因为随机向量包含了变量之间的相关 信息,因此必能为我们提供更多的信息m o r r i s 和k a p l a n 5 】曾经指出,当多个 疾病易感变异( d i s e a s e - s u s c e p t i b i l i t yv a r i a n t s ) 发生在同一个基因内部时,基于单 倍型的方法要优于单个位点的方法e p s t e i n 和s a t t e n l 9 】也指出,当疾病是由于 基因内部同一染色体( c s a c t i n g ) 上多个易感变异的交互作用引发时,单倍型对 我们的研究会更有用在盂德尔疾病的基因定位问题中,无论是群体数据的连锁 不平衡定位还是通过确定家系中的重组信息进行基因定位,单倍型都起着非常重 要的作厢可以想象,在寻找和定位入类常见的复杂疾病的基因时,单倍型必会 发挥其更加重要的作用。最近人们还利用单倍型信息进行整个基因组的关联分析 研究( g e n o m e w i d ea s s o c i a t i o ns t u d i e s ) 另外c l a r k 1 0 j 指出在寻找致病基因的研 究中,从统计检验问题来看,如果我们基于多个s n p s 去作关联分析的检验,则 我们必须要考虑多重检验问题,而单倍型可以降低在关联分析研究中检验问题的 6 维数,因此必然能够提高检验的功效 1 3 2 单倍型推断的研究现状 单倍型在遗传流行病学研究中的重要性我们不必再赘述,但是统计学的研究 是建立在数据的基础上,我们应该怎样去获得单倍型数据? 在实际的研究中,目 前的生物技术为我们提供的数据大部分都是基因型( g e n o t y p e ) 数据,而基因型 不合有连锁相( p h a s e ) 信息,这将导致个体单倍型的不确定性,就两个位点来说 我们可以形象的用下图来说明, 心刊 1 2 一i 呤 一 2 2 l 2 2 l 基固型单倍霭! 对l单倍型对2 图1 3 2 :单倍型不确定性示意图 从基因型1 2 1 2 我们不能够确定每个位点上等位基因1 和2 分别位于那一条染 色体上面,而与之相匹配的单倍型对有两种,即1 1 2 2 和1 2 2 1 ,并且如果位点数 目较多时,情况会变得更复杂因此我们的首要任务就是根据基因型数据去推断 或构建个体的单倍型,给出一些简单且有效的单倍型推断( h a p l o t y p ei n f e r e n c e ) 方法,从而消除个体单倍型的不确定性 当前人们已经给出了许多推断单倍型的方法它们大致可以分为下面三类:1 ) 独立个体的分子实验室检测方法;2 ) 基于家系之间亲属关系的推断方法;3 ) 单 倍型推断的统计方法c r a w f o r d 指出单倍型推断的分子实验室方法可以做为所 有单倍型推断方法的。金标准”( g o l ds t a n d a r d ) i ”1 特异等位基因聚合酶链反 应( a l l e l e - s p e c i f i cp o l y m e r a s ec h a i nr e a c t i o n ,a s p c r ) 方法和体细胞混合法( s o _ m a t i cc e l lh y b r i d s ) ”,2 0 】是目前广泛应用的分子实验室单倍型推断方法但是分 子实验室方法的缺点在于其花费相当高,并且检测速度比较慢。只适用于少量个 7 体的单倍型研究,对于大范围的群体研究显然是不可取的利用家系之间的亲属 关系也能有效的估计单倍型频率进行单倍型推断,但是h o d g e 等人 2 1 1 研究指 出当标记位点比较多时,特别是对于含有缺失数据的情况,个体的单倍型仍然不 能被唯一的确定目前最简单最省钱省时也是最常用的单倍型推断方法是统计方 法下面让我们来了解一下统计推断方法的研究现状 单倍型推断的统计方法起初是由群体数据( p o p u l a t i o n b a s e dd a t a ) 逐渐发 展起来的,因为独立的情况统计学处理起来最为简单,而在群体数据的研究中, 我们认为个体之间是相互独立的 1 ) 最早的单倍型推断的统计方法是c l a r k 2 2 】在1 9 9 0 年给出的约简法( p a r s i m o n ya l g o r i t h m ) c l a r k 的方法非常容易理解并且操作起来非常简单,但是 它并非万能的,因为c l a r k 方法要求所有抽样个体中至少有一个个体的单 倍型结构是提前已知的( 比如纯合基因型或者仅有一个杂合位点的基因型情 况) ,并且它还与样本中个体的顺序有关,致使得到的结果可能不唯一尽管 c l a r k 方法没有h a r d y - w e i n b e r g 平衡( h w e ) 的假设,但是n i u 等人口3 】曾 指出,它对h a r d y - w e i n b e r g 平衡还是比较敏感的 2 ) 鉴于单倍型推断的重要性,许多学者开始致力于单倍型推断的研究,e x c o k i e r 和s l a t k i n 2 ,l o n g 等人1 2 5 1 ,以及h a w l e y 和k i d d 2 6 于1 9 9 5 年分别给出了 e x p e c t a t i o n - m a x i m i z a t i o n ( e m ) 方法去推断单倍型该方法把观测不到的连 锁相信息做为缺失数据处理,通过补充数据来估计参数单倍型频率,最终利 用最大似然的原则推断个体的单倍型这种方法建立在牢固的统计理论之上, 但是和通常的e m 方法一样,当似然函数出现多峰的情况有可能收敛到局部 最大值,所以其结果依赖于初值的选取,这便要求我们在实际应用中合理地 选取几组初值加以比较另外当处理的杂合位点比较多时,其计算时间和计 算中存储所占用的空间是相当惊人的,用目前的计算机难以实现n i u 等人 1 2 3 同时指出尽管e m 方法做了h a z d y - w e i n b e r g 平衡的假设,但是当实际偏 离这一假设时,该方法效果仍然不错 3 ) 区别于上述两类方法,s t e p h e n s 等人【2 1 提出了一种伪贝叶斯方法( p s e u d o - b a y e s i a na l g o r i t h m ) 或称作伪g i b b s 样本法( p s e u d o - g i b b ss a m p l e r ,p g s ) 8 该方法基于c o a l e s c e n c e 理论来选取先验分布,利用g i b b s 抽样产生近似后 验分布当群体数据符合c o a l e s c e n c e 模型假设时,p g s 方法明显优于上述 两类方法,但是如果群体不符合c o a l e s c e n c e 模型假设,其结果并没有想象 的那么好,并且该方法的收敛速度极慢n i u 等人 2 3 于2 0 0 2 年提出了一种 完全的贝叶斯方法,在其g i b b s 抽样过程中选用d i r i c h l e t 分布做为先验分 布,并且采用模拟退火( p r i o ra n n e a l i n g ) 的思想来加速收敛速度而他们工 作的最大贡献在于n i u 等人首次给出了处理大量位点单倍型推断问题的p l ( p a r t i t i o n - l i g a t i o n ) 方法,把较长的染色体片断分割成多个较短的片断分别 去处理,然后再逐个拼接起来同年,基于p l 思想q i n 等人【2 8 】给出了处理 多位点单倍型推断的e m 推断方法( p l e m ) 但是就p l 方法来说,具体该 如何去分割才能更好的提高算法的效率目前仍是有待解决的问题 关于群体数据的单倍型推断问题,除了上述方法之外还有许多学者从不同角度去 思考,并且提出了各自独特的方法,这里不再赘述,详见参考文献f 2 9 3 1 1 尽管对于个体间相互独立的群体数据统计学处理起来比较方便,但是h o d g e 等人曾经指出,对于一个独立个体来说,与他有亲缘关系的个体的基因型信 息有助于推断该独立个体的配子的( g a m e t i c ) 连锁相信息我们很容易想象,当 我们欲推断父母的单倍型结构时,如果已知孩子的基因型,这必然能够减小父母 单倍型的不确定性因此基于家系( p e d i g r e e ) 数据去作单倍型推断能为我们提供 更多的信息b e e k e r 和k n a p p ”,s c h a i d 3 3 】最近研究表明t 如果我们附加考虑孩 子的信息,则可以提高单倍型频率估计的精度但是从统计意义上来讲,家系中 个体之间并非相互独立,这就需要我们去寻找适合于家系结构的统计推断方法 早期的基于家系的单倍型推断方法,比如g e n e h u n t e r 或者l a n d e r g r e e n 算法p “,均假设了各位点之间是完全连锁平衡的( 1 i n k a g ee q u i l i b r i u m ) 最近也有 一些作者给出了一些基于家系数据进行单倍型推断的方法b e c k e r 和k n a p p a 2 】 于2 0 0 4 年给出了利用核心家庭进行单倍型推断的最大似然方法,其中假定了连 锁不平衡并且没有重组的发生该方法还可以处理多个位点的情况,在他们的研 究中曾经考虑了6 3 个位点z h a n g 等人【3 6 】基于1 3 条逻辑规则给出了一般家系 的单倍型推断方法,在其方法中同样假定了没有重组发生,并且也没有突变发生 9 在这些已存在的方法中,其中只有部分方法考虑了基因型数据在某些位点上 有缺失的情况【3 7 】,但是所有方法均假定了所利用的基因型数据不含有测量误差 z o u 和z h 【3 8 2 0 0 3 年提出一种基于基因型误差的单倍型推断方法,但是在他们 的方法中必须要提前知道基因型误差率的大小k a n g 等人4 0 】为了避免测量 误差给单倍型推断带来的影响,建议根据群体的荧光( f l u o r e s c e n ti n t e n s i t y ,f i ) 数据去推断单倍型 1 3 3 单倍型关联分析的研究现状 基因定位问题的重要性已经是不言而喻了利用统计方法去研究基因定位问 题大致可以分为两大类方法;连锁分析( 1 i n k a g ea n a l y s i s ) 和关联分析( a s s o c i a t i o n a n a l y s i s ) ,而关联分析又可以分为群体关联分析( p o p u l a t i o n b a s e da s s o c i a t i o n a n a l y s i s ) 与家系关联分析( f a m i l y - b a s e da s s o c i a t i o na n a l y s i s ) 川传统的连锁分 析方法h 2 对于定位单基因病的基因效率很高,但是最近研究表明在进行常见的 复杂疾病的基因定位时,关联分析的方法比连锁分析的方法更有效 8 ,“因为复 杂疾病通常是由多个基因或者是由基因内部多个变异相互作用共同导致的,而单 个基因或者单个变异对疾病的作用却非常小 关联分析主要是通过研究遗传标记物与疾病( 或性状( t r a i t ) ) 之间的统计相 关性去寻找和定位致病基因,而其中的统计相关性可能是由于标记位点的变鼻直 接导致疾病引起的,也可能是由于标记位点与临近的致病基因位点之间的连锁不 平衡( l d ) 引起的对于复杂疾病基因定位的研究,在连锁不平衡的假设下我们 通常利用关联分析去寻找候选致病基因( c a n d i d a t eg e n e ) 所在的大概区域,如果 关心的性状与标记位点之间是相关的,则我们就认为致病基因位于这些遗传标记 位点的附近,这是进行复杂疾病基因定位的第一步,基于连锁不平衡假设的候选 基因的关联分析研究方法也是目前大家最感兴趣和最为实际的方法【“我们可 以根据图1 3 3 来形象的理解,其中y 表示我们关心的性状变量。g 是我们要寻 找和定位的致病基因,当然g 是观测不到的,而m 是我们能够观测到的遗传标 记物位点,我们的前提条件是g 和m 之间是连锁不平衡的,也就是说致病基因 1 8 g 离我们选取的m 很近关联分析就是通过研究y 和m 之间的相关性去寻找 和定位致病基因g ,如果y 和m 之间是统计相关的,则我们就在m 附近的区 域寻找和定位致病基因人类基因组计划的完成已经为我们提供了丰富的s n p s 资源,我们可以利用这些s n p 标记位点去进行关联分析但是许多研究表明基 于单倍型的关联分析研究比基于单个s n p 位点的关联分析研究更加有效i s n , 因为单倍型是多个s n p s 位点上位于同一条染色体上的一列等位基因,它含有连 锁不平衡的信息基于单倍型的关联分析相当于利用多个s n p s 位点去寻找和定 位基因,并且还考虑到各个s n p 位点之间的相关性,这当然比单个s n p 的定位 更精确并且检验的功效也会随之增加在关联分析的研究中,环境也是一个非常 重要的因素,因此人们通常还考虑基因和环境因素之间的交互作用,研究基因与 环境如何共同导致疾病的发生 o ym 单倍型关联分析根据数据结构的不同又可以分为群体数据的关联分析和家 系数据的关联分析最简单的群体数据关联分析方法是病例一对照研究( c a s e c o n t r o ls t u d y ) 的单倍型关联分析,f a l l i n 等人【4 】分别估计病例组和对照组中的 单倍型频率,然后构造似然比检验统计量进行关联分析的研究,该方法也属于单 倍型关联分析的似然方法目前广泛应用的群体数据的单倍型关联分析方法主 要考虑广义线性模型,s c h a i d 等人 s 1 2 0 0 2 年给出了单倍型关联分析的得分检验 ( s c o r et e s t ) ,并且在2 0 0 4 年又进行了更详尽的讨论与推广 1 1 1 ,其方法不仅考虑 性状与单倍型之间的相关性,同时还可以考虑环境等协变量的影响,不仅可以进 行性状与单倍型是否相关的全局检验,还可以进行特定单倍型效应( h a p l o t y p e e f f e c t ) 的检验最近l i n 等人4 钟对单倍型关联分析的似然方法做了较为全面 的分析和研究,其中包括截面研究( c r o s s - s e c t i o n a ls t u d y ) 、病例一对照研究以及 队列踪研究( c o h o r ts t m y ) 等,不仅考虑了环境因素,并且还从理论上证明了他 们的极大似然估计具有渐近无偏性、渐近正态性和统计有效性帆4 “但是我们必 须认识到,对于群体数据的关联分析,特别是群体数据的病例一对照研究,由于 群体的分层结构( p o p u l a t i o ns t r a t i f i c a t i o n ) 通常会带来假阳性关联( f a l s e - p o s i t i v e a s s o c i a t i o n ) 4 9 ,” 为了减小群体分层结构带来的影响,许多作者给出了家系结 构的关联分析方法,起初

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论