




已阅读5页,还剩52页未读, 继续免费阅读
(概率论与数理统计专业论文)一种通过寡核苷酸多态性芯片识别基因型的方法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
m a s t e rt h e s i so f 抬a r2 0 1 0 u n i v e r s i t yi d :1 0 2 6 9 s t u d e n ti d :5 1 0 7 0 6 0 5 0 0 5 an e wg e n o t y p ec a l l i n gm e t h o df o ra f f y m e t r i x snpa r r a y s d e p a r t m e n td e p a r t m e n to fs t a t i s t i c sa n da c t u a r i a l m a j o rp r o b a b i l i t ya n dm a t h e m a t i c a ls t a t i s t i c s r e s e a r c hd i r e c t i o nb i o s t a t i s t i c s s u p e r v i s o r a u t h o r j i nx u b i l i nf u a p r ,2 0 1 0 华东师范大学学位论文原创性声明 洲i l l l l 1 1 i l i m | i l l i 0 i 17 4 3 2 7 1 郑重声明:本人呈交的学位论文一种通过寡核苷酸多态性芯片识别基冈型的 方法,是在华东师范大学攻读硕士膊士( 请勾选) 学位期间,在导师的指导下 、 进行的研究工作及取得的研究成果。除文中已经注明引用的内容外,本论文不包含 其他个人已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集 体,均已在文中作了明确说明并表示谢意。 作者躲逝日期:洲p 年娟刁日 华东师范大学学位论文著作权使用声明 一种通过寡核苷酸多态性芯片识别基因型的方法系本人在华东师范大学 攻读学位期间在导师指导下完成的砭博士( 请勾选) 学位论文,本论文的研 v 究成果归华东师范大学所有。本人同意华东师范大学根据相关规定保留和使用此 学位论文,并向主管部门和相关机构如国家图书馆、中信所和”知网”送交学位论 文的印刷版和电子版;允许学位论文进入华东师范大学图书馆及数据库被查阅、 借阅;同意学校将学位论文加入全国博士、硕士学位论文共建单位数据库进行检 索,将学位论文的标题和摘要汇编出版,采用影印、缩印或者其它方式合理复制 学位论文。 本学位论文属于( 请勾选) ( ) 1 经华东师范大学相关部门审查核定的”内部”或”涉密”学位论文术, 于年月日解密,解密后适用上述授权。 c ) 2 不保密,适用上述授权。 ,s 作者签名:硇鳆亚圣 导师签名:亟选 日期:2 里绎苎b 盈日日期:2 f ! 妻五旦! f 3 木“涉密”学位论文应是已经华东师范大学学位评定委员会办公室或保密委员会审定过的学位论文( 需 附获批的华东师范大学研究生申请学位论文“涉密”审批表方为有效) ,未经上述部fj 审定的学位 论文均为公开学位论文。此声明栏不填写的,默认为公开学位论文,均适用卜述授权) 。 符碧琳硕士学位论文答辩委员会成员名单 姓名职称单位备注 张日权教授华东师范大学主席 张应山教授华东师范大学 丁邦俊副教授华东师范大学 目录 摘要 a b s t r a c t 目录 第一章s n p 芯片基因型识别简介 1 1 背景概述 1 1 1s n p 的定义和作用 1 1 2s n p 基因芯片的定义和作用 1 1 3s n p 基冈芯片研究发展现状, 1 2 问题描述 1 3 现有研究 1 4 我们的工作 第二章通过s n p 芯片识别基因型的方法 2 1s n p 芯片的数据结构 2 2 数据降维及建模 2 3 基因型识别算法设计 2 3 1 以h a p m a p 数据作为训练样本的识别算法 2 3 2 自适应机制的识别算法 第三章结果和结论 3 1 直接利用h a p m a p 作为样本的测试结果 3 1 1h a p m a p 基因型数据 3 ,1 2s n p 识别结果 3 1 3 与其他方法的比较 3 2 使用独立于h a p m a p 数据测试的结果 3 2 1 数据说明 3 2 2 基因型识别结果 3 3 讨论 3 3 1 计算量方面 x d 1 1 1 l 2 3 3 5 6 6 7 9 o 1 5 5 5 5 7 0 0 0 0 o r 、 1 1 1 1 l 1 1 2 2 2 2 2 目录 3 3 2 更新机制2 1 3 3 3 扩展和应用2 1 3 4 结论2 1 第四章s n p 基因型识别在关联性分析中的应用 2 2 4 1s n p 单体型2 2 4 1 1s n p 单体型的概念2 2 4 1 2s n p 单体型的概率估计2 3 4 2 与疾病的关联分析2 3 4 2 1 基本假定与符号定义2 3 4 2 2 统计推断2 5 结束语 参考文献 致谢 在学期间的研究成果及发表的论文 2 6 2 7 3 0 3 1 插图旦录 插图目录 2 - 1 样本n a 0 6 9 8 孓h i n d 中的s n p a - 1 7 2 1 3 5 0 的不同等位基因的相同位置探针 的光密度信号对数值折线图 2 - 2 样本n a 0 6 9 8 5 h i n d 中所有s n p 的对数信号差中位数散点图 2 - 3 样本n a 0 6 9 8 5 一h i n d 中所有s n p 的对数信号差( 皿,肌) 概率密度图 2 - 4 s n p 芯片基因型识别流程图一一以h a p m a p 数据作为训练样本 2 - 5s n p 芯片基因型识别流程图一一自适应机制 3 - 1 第一阶段识别出的样本百分比的s n p 分布图 3 23 0 个h a p m a p 数据的s n p _ a 1 6 5 3 7 1 7 的对数信号差和真实的基因型 3 _ 3 本文算法与c r l m m 法计算3 个样本的丢弃比例与准确率折线图 4 1 单体型构建图 8 9 1 0 1 2 1 4 1 6 1 9 1 9 2 2 表格目录 表格目录 2 - 1h i n d 型s n p 5 0 k 芯片数据结构6 2 2 正链与负链的探针数目比 7 3 - 1 新算法经过h a p m a p 数据检验得到的精确性结果1 7 3 - 2 新方法,c r l m m ,d m 的正确率比较1 8 中文摘要 摘要 现在,很多的基因型识别方法,如r l m m 和c r l m m 为a f f y m e t r i xs n p 芯片的基 因型识别提供了准确的识别方法。但是在小样本情况下,精确度会有很明显的降低, 同时,当样本量改变时,同一样本的识别结果可能会不一致。而且这些方法由于使用 了过多的预处理程序如数据归一化等其他复杂的统计方法,使得计算量非常大。在芯 片密度越来越集中的今天,这个问题显得尤为严重。 本文提出一种针对a f f y m e t r i xs n p 芯片的新基因型识别方法。采用两步法来节省 得到识别结果的时间。在第一步无指导性阶段,该方法可以以极高的精确度识别出超 过5 0 的s n p s 。在第二步有指导性阶段,利用h a p m a p t l l i 练样本中等位基因频率等信 息,通过修正马氏距离的方法,产生较好的分类识别结果。 在精确度方面,与最为流行的c r l m m 方法有一定的可比性,而且在小样本情况下 优于c r l m m 。对于每一个识别出来的基凶型,置信分数同时给出。在某种程度上,该 算法是便于计算且独立于其他样本信息的。由于这种算法可以利用一种自适应机制, 再不需要任何其他训练样本的情况下完成基因识别。更为重要的是,当有新的基凶型 信息出现时,基于h a p m a p 数据的训练样本可以很方便的更新。自适应过程在样本量中 等以上的情况下是非常有效的。 关键词:s n p 芯片,基因型,马氏距离,聚类,判别 英文摘要 a b s t r a c t c u r r e n tg e n o t y p ec a l l i n gm e t h o d ss u c ha sr l m ma n dc r l m mp r o v i d ea c c u r a t e c a l l i n gr e s u l t sf o ra f f y m e t r i xs n pc h i p s h o w e v e ri nt h es m a l ls a m p l ec a s et h ea c c u r a c yr a t em a yd r o ps i g n i f i c a n t l ya n dt h ec a l l i n gr e s u l t sa r en o tc o n s i s t e n ta st h es a m p l e s i z ec h a n g e s a n dt h e s em e t h o d sa r ec o m p u t a t i o n a l l ye x p e n s i v ea st h e ye m p l o yp r e - p r o c e s sp r o c e d u r e si n c l u d i n gc h i pd a t an o r m a l i z a t i o na n do t h e rs o p h i s t i c a t e ds t a t i s t i c a l t e c h n i q u e s w ed e v e l o pan e wg e n o t y p ec a l l i n gm e t h o df o ra f f y m e t r i xl o o ka n d5 0 0 ks n pc h i p s a t w o - s t a g ec l a s s i f i c a t i o ns c h e m ei sp r o p o s e dt oo b t a i naf a s tg e n o t y p ec a l l i n ga l g o r i t h m i ti sf o u n dt h a ti nt h ef i r s ts t a g et h eu n s u p e r v i s e dc l a s s i f i c a t i o nc a ne a s i l yd i s c r i m i n a t e g e n o t y p e sw i t hh i g ha c c u r a c yf o rm o r et h a n5 0 s n p s a n di nt h es e c o n ds t a g et h e s u p e r v i s e dc l a s s i f i c a t i o ne m p l o y st h em o d i f i e dm a h a l a n o b i sd i s t a n c ew h i c hi n c o r p o r a t e s t h ea l l e l ef r e q u e n c yi n f o r m a t i o nf r o mt h eh a p m a pt r a i n i n gd a t aa n dr e s u l t si nr e m a r k a b l e i m p r o v e m e n to v e rt h eu s u a lm a h a l a n o b i sd i s t a n c eb a s e dc l a s s i f i e r t h eo v e r a l lp e r f o r m a n c ei nt e r mo fa c c u r a c yr a t ei ss h o w nt ob ec o m p a r a b l et ot h a t o ft h ec r l m ma sv e r i f i e db yt h ek n o w ng o l d e ns t a n d a r dh a p m a pd a t aa n di ss u p e r i o r t ot h ec o m p e t i n go n e si ns m a l ls a m p l ec a s e s c o n f i d e n c es c o r ei sp r o v i d e df o re v e r y g e n o t y p ec a l la sw e l l t h en e wa l g o r i t h mi sc o m p u t a t i o n a l l ys i m p l ea n ds t a n d a l o n ei n s o m es e n s et h a tas e l f - t r a i n i n gs c h e m ec a nb eu s e dw i t h o u te m p l o y i n ga n yo t h e rt r a i n i n g d a t a w h a ti sm o r e ,t h et r a i n i n gs e t sb u i l tf r o mt h eh a p m a pd a t aa r ee a s yt ou p d a t e w h e nn e wv a l i d a t e dg e n o t y p ei n f o r m a t i o nb e c o m ea v a i l a b l e a n dt h es e l f - t r a i n i n gp r o c e s s i se f f e c t i v ew h e nt h es i z eo ft h et e s ts a m p l ei sm o d e r a t eo rl a r g e k e yw o r d s :s n pc h i p ,g e n o t y p e ,c l u s t e r ,m a h a l a n o b i sd i s t a n c e ,d i s c r i m i n a t i n g - x - - 第一章s n p 芯片基因型识别简介 丛立 弟一草 1 1 背景概述 s n p 芯片基因型识别简介 1 1 1s n p 的定义和作用 单核苷酸多态性( 8 i n g l e n u c l e o t i d ep o l y m o r p h i s m ,s n p ) 是一种新型的遗传标 记。人体中承载遗传信息的物质是d n a ,它是一种双螺旋结构,由4 种含不同碱 基的核苷酸组成,两两形成互补碱基对( 如c - g ,a t ) 。在数以亿计的碱基对 中,某个碱基对( 如c g ) 发生了变异( 变成a t ) ,这种碱基对变异称为单核 苷酸多态性( s n p ) 。举一个s n p 变异的简单例子,d n a 片段a a g g t t a 突变成 为a t g g t t a ,在第二个碱基的位置a 突变成为t 。由于s n p 属于单点变异,所以可 能出现的等位基因只有a 或b ( c _ g 或a - t ) 两种可能,同时由于在人体中遗传物质是 成对存在的,所以s n p 的基因型分为a a ,a b ,b b 三种情况。 虽然s n p 的突变并不会造成人体生理的直接变化,但是科学家仍然认为,s n p 的 突变很有可能使个体具有患病的倾向性或者是药物的耐受性。一般来说,很多人类疾 病都不是简单的由于单个基因突变引发的,而是由很多基因的复合反应,生活方式, 环境因素综合决定的。生活方式和环境因素的影响极大地增加了患病的不确定性,现 在去判断s n p 对个体患病有多大影响还是很困难。因此,我们一般统称这种影响为遗 传的疾病倾向性,而不是致病性。尽管如此,s n p 的研究还是成为了热点,这是因为 它具有极大的现实意义。在不久的未来,医生们不仅仅要检查病人的生理指标,还需 要检查其特异的遗传信息,以便设计出个体化的诊疗方案,设计出更加针对个体的药 物【1 】。 1 1 2s n p 基因芯片的定义和作用 寡核苷酸多态性( s n p ) 基因芯片,是将已失h d n a 序列的s n p 寡核苷酸链( 以下 称探针) 有规律地排列在芯片上,将待测样品d n a 标记后与探针按碱基互补配对进行 杂交。通过荧光检测系统对杂交后芯片进行扫描,将得到的光信号数据进行处理与分 析,就可以识别出样本的s n p 基因型。 利用基因芯片,可以同时对1 0 万个甚至更多的s n p 进行基因型的识别和检测,从而 为下游基因工程,如疾病基因的检测,基因治疗等提供强有力的数据支持。随着芯片 技术的发展,对于原核生物等简单的基因组序列,其基因组d n a 可以直接应用芯片技 术进行多态性检测。面对高度复杂的人类基凶组,从约3 0 亿碱基对中鉴别分析单个碱 一1 一 1 1 背景概述 基的变化无疑是一项浩瀚的工程。对于大规模基因组范围内内遗传学s n p 的筛查以及 小规模的个体药物检测与临床应用检测芯片的需求,现有s n p 芯片技术的瓶颈依旧是 基因组的处理与制备。s n p 芯片的开发及在基因多态性研究上不但提高了个体化医疗 检测技术的水平,也为日后个体化药物的使用提供诊断依据,同时促进小规模诊断的 市场开发与完善。s n p 芯片的研究有能力成为个体化医疗的技术保障,随着s n p 芯片检 测技术的发展,针对药物代谢基因所研制的中低密度遗型传学检测芯片,其低成本、 高通量、平行化的检测特点适应了个体化用药检测的需求,将来可在个体药代研究、 个体化医疗以及个体用药指导等各方面的医疗检验中得到广泛应用f 2 ,3 1 。 1 1 3s n p 基因芯片研究发展现状 在整个基因组中找到单点核苷酸无异于大海捞针,但经过2 0 年来的生物医学发 展,科学家们发现了很多方法去实现它。近来基因组范围内的疾病关联性研究使得在 复杂、无序的情况下发现特征基因成为可能,现有的成果横跨学术界和工业界,并多 有跨学科的特征,而其中最大的成果就是人类基因组计划。 人类基因组计划( h u m a ng e n o m ep r o j e c t ,h g p ) 是由美国科学家于1 9 8 5 年率先提 出,于1 9 9 0 年正式启动的。美国、英国、法国、德国、日本和我国科学家共同参与了 这一价值达3 0 亿美元的人类基因组计划。按照这个计划的设想,在2 0 0 5 年,要把人体 内约1 0 万个基凶的密码全部解开,同时绘制出人类基因的谱图。也就是说,要揭开组 成人体4 万个基因的3 0 亿个碱基对的秘密。目前这一工作已经完成。人类基因组计划与 曼哈顿原子弹计划和阿波罗计划并称为三大科学计划。人类疾病相关的基因是人类基 因组中结构和功能完整性至关重要的信息。对于单基因病,采用“定位克隆”和“定 位候选克隆 的研究思路,从而带来了亨廷顿舞蹈病、遗传性结肠癌和乳腺癌等一大 批单基因遗传病致病基因的发现,为这些疾病的基因诊断和基因治疗奠定了基础。对 于心血管疾病、肿瘤、糖尿病、神经精神类疾病( 老年性痴呆、精神分裂症) 、自身 免疫性疾病等多基因疾病是目前疾病基因研究的重点 4 】。 在h g p 计划之后,针对人类基因组中的遗传多态位点,如非功能性基因s n p , 鉴于其广泛的应用前景,又开展了国际人类基因组单体型计划( i n t e r n a t i o n a lh a p m a p p r o j e c t ) 5 ,6 1 。国际人类基因组单体型图计划( 简称h a p m a p 计划) 是一个多国参与的 合作项目,旨在确定和编目人类遗传的相似性和差异性。利用h a p m a p 获得的信息, 研究人员将能够发现与人类健康、疾病以及对药物和环境因子的个体反应差异相关的 基因。项目由来自口本、英国、加拿大、中国、尼日利亚和美国的科学家和资助机构 合作完成,所产生的伞部数据已免费向公众开放。国际h a p m a p 计划通过提供充分资 源,使研究人员用于发现与疾病及个体治疗反应相关的遗传多态位点,从而对人类健 康做出贡献。一旦发现这样的变异位点,研究人员可以更多地了解该疾病的起因以及 一2 一 第一章s n p 芯片基因型识别简介 预防、诊断和治疗的方法。 在这些基因组计划的支持下,越来越多的开放数据可为研究所用,使得研究 者们在进行s n p 分析时更加容易。在s n p 的分析中,s n p 微阵列是一种非常关键 的技术。s n p 微阵列是一种能够有效评估基因组范围内变化的高输出基因型关键 技术7 9 1 。这几年以来,a f f y m e t r i x 不断推出密度更高的s n p 微阵列,其g e n e c h i p h u m a nm a p p i n g1 0 0 k 和5 0 0 k 的阵列已经被广泛地应用到关联性分析中去,而包含超 过9 0 0 0 0 0 个s n p 的阵列也已经推出。在现有基因型密度下,关联性分析可以很好地检测 包含成百上千目标的样本中的表型效应,这在二型糖尿病与臼细胞抗原等疾病相关性 分析中f 1 0 - 1 2 1 中得到了体现。现在s n p 芯片现已作为高通量基因型识别工具,广泛应 用于生命科学研究及实践,医学科研及临床药物设计等领域。a f f y m e t r i xs n p 芯片, 包括g e n ec h i ph u m a nm a p p i n g1 0 0 k 微阵列和5 0 0 k 微阵列,更是因为它们的标准化和 自动化成为最为流行的研究平台之一。随着微阵列密度的不断增大,这也给芯片的数 据处理和统计推断带来了新的挑战。 1 2 问题描述 使用s n p 芯片进行基因型识别是s n p 研究中最基础的步骤之一。在h a p m a p 项目 中,所有样本的s n p 识别都是由生物方法得到的,虽然保证了精确性,但是这类方法 过程非常漫长且需要很大的人力财力支持。所以在一般的s n p 研究中,都采用借助基 因芯片进行数据分析直接得到基因型结果的方式,进行基因型的识别,从而进行关联 性研究。 实际上s n p 微阵列在关联性分析中的应用还没有变得简单易行,即使很小的基因 型识别错误都将使致病基因的预测出现极大地误差。m i t c h e l l 等的工作 1 3 给出了一个 以0 5 作为阈值的单s n p 最大错误率,这个阈值特别针对以家庭为单位的测试。要求 以这种低错误率得到少量数据集并不是微阵列平台的缺陷,而是现有s n p 识别算法从 原始数据中获取大量信息的能力不足导致的。另外为了考量s n p 的质量,在研究中都 要摒弃那些不可靠的s n p 。总而言之,基因:笛片的高通量性使得统计推断的犯错概率 增大,而实验数据的不稳定性使得统计分析难度增大。如何借助现有实验信息结合现 代统计方法,将芯片信息尽可能完整准确的转换成基囚型信息是很多学者们非常关心 的问题。在s n p 基因型识别过程中,如何实现一个精确有效的s n p 基因型判别方法,同 时给出每个s n p 识别结果的考量值,是整个关联性研究中非常重要的一步。 1 3 现有研究 通常来说,基因型识别算法完成对二倍体样本s n p 类型的识别,返回a a ,a b ,b b 中 一3 一 1 3 现有研究 的一种,同时针对每个s n p 都有一个置信分数,用户可以根据所需置信度来选择s n p 。 对于早期的a f f y m e t r i x1 0 ks n p 芯片,可以使用修正数据分割法( m o d i f i e dp a r t i o t i o n i n ga r o u n dm e d o i d s ,m p a m ) f 1 4 ,该方法使用相对等位基因信号( r e l a t i v ea l l e l e s i g n a l ,r a s ) 作为特征变量,即等位基因a 的信号在总的信号强度( 等位基因a 与等位 基因b 的信号和) 中所占的比例,通过欧式距离进行聚类,将聚类形成的三个簇分配给 不同的基因型,从而完成基因型识别过程。但是这种方法在某些等位基因出现频率比 较低的情况下,结果会不够精确,在1 0 0 k 和5 0 0 k 芯片火量使用的情况下这个问题显得 尤为更为严重。 2 0 0 5 年,a 母m e t r i ) ( 公司提出了一种动态模型( d y n a m i cm o d e l ,d m ) 法 1 5 】,简 单来说,整个方法是建立在概率模型上,定义根据已知信息该s n p 的基因型为仇的概率 为三( m ) ,使用的统计量为s ( m ) = l ( m ) 一m a x l ( k ) ,k m ,并通过w i l c o x o n 符号秩检验判 断统计量是否显著大于零,从而得到基因型识别结果和相应的可靠性水平。虽然d m 不 需要训练样本,但易漏判异质性基因型。 随着l o o k 矛1 5 0 0 k 芯片的流行,很多新方法纷纷出现 1 6 - 1 8 1 。0 6 年,r a b b e e 和s p e e d 提出了基于马氏距离分类的稳健线性模型法( r o b u s tl i n e a rm o d e lw i t hm a h a l a n o b i s d i s t a n c ec l a s s i f i e r ,r l m m ) 【1 9 1 。作为单体型图计划( h a p m a pp r o j e c t 的一部分,绝 大多数a f f y m e t r i x 芯片的s n p 已由一家研究中心做了类型识别,得到的数据被用作训练 集合来预定义r l m m 中的簇。对于包含那些由于低等位基因频率造成识别错误的特定 簇的s n p ,提出了一种回归策略来推断簇的特性,虽然这种算法相较于d m 有很高的精 度,但是对于不同实验室的差异没有很好的适应性。 之后,a f f y m e t r i x 公司针对r l m m 进行改进,开发了基于马氏距离聚类的贝叶斯 稳健线性回归法( b a y i a nr o b u s tl i n e a rm o d e lw i t hm a h m a n o b i sd i s t a n c ec l a s s i f i e r , r l m m ) 2 0 1 ,这种模型是a f f y m e t r i x 公司1 0 0 k ,5 0 0 k 密度s n p 芯片阵列的默认程序。 该模型采用d m 算法得到基因型的初始值,然后每个s n p 的基因型按照特定的贝叶斯方 法被重新标定;低等位基因频率的s n p ,因为落在拥有较少数据点的簇中而在重新标 定时产生将产生更大的影响,以纠正d m 法的不足。 c a r v a l h o 等提出了基于极大似然分类的修正稳健线性模型法( c o r r e c t e dr o b u s t l i n e a rm o d e lw i t hm a x i m u ml i k e l i h o o dc l a s s i f i c a t i o n ,c r l m m ) 2 1 ,在估计基因型的 准确度上取得了更加不错的结果2 2 1 。但是由于c r l m m 需要对所用的芯片数据进行预 处理,因此它要求计算机具有很高的运算能力来处理火量的数据操作,而且当有新样 本出现的时候,重新进行预处理可能会得到与上次不一样的基因型的判别结果,更严 重的是,c r l m m 法在小样本的情况下也容易失去精确度。 一4 第一章s n p 芯片基因型识别简介 1 4 我们的工作 本文主要针对a f f y m e t r i x1 0 0 k 和5 0 0 k 两种流行的s n p 芯片进行基因型识别工作, 主要包括: 数据结构的分析和整理。挖掘数据的实际意义和相关性和找到数据变化与实际基 因型变化之间的规律。 高维数据的降维和建模。对数据进行操作和运算,选择合适的统计量进行建模分 析。 采用两阶段识别方法,第一阶段利用数据本身性质进行快速聚类,第二阶段利用 训练样本信息以及修正马氏距离进行剩余s n p 的识别,提高准确率。 给出每个s n p 识别结果的置信分数,以便下游遗传分析的s n p 筛选。 本文分为四个部分,将在第二章解释基因芯片数据结构,描述数据的降维以及模 型的构建,并阐述基因型识别的算法设计。在第三章阐述本文结果与其他流行方法的 比较,已经得出相关的结论,在第四章讲本论题的展望和后续基因一疾病相关性研究 流程。 5 一 第二章通过s n p 芯片识别基因型的方法 2 1s n p 芯片的数据结构 基因芯片的数据通过荧光系统扫描得到,储存的文件为后缀为c e l 格式。除去 一些描述性数据如基因芯片型号,芯片中s n p 名称,样本名称等,信号密度数据以 矩阵的格式存于文件中,每一个信号密度数据都匹配了不同的探针数据。本文主要 分析g e n e c h i p h u m a nm a p p i n g1 0 0 k 和5 0 0 k 的微阵列,其中1 0 0 k 芯片由5 0 kh i n d 型:卷 片和5 0 kx b a 型芯片组成,可同时检测约1 0 万个s n p ,而5 0 0 k 芯片由2 5 0 kn s p 型芯片 和2 5 0 ks t y 型芯片组成,可同时检测约5 0 万个s n p 。表2 1 中显示了两个h i n d 型s n p 基 因芯片样本信息读入系统后的数据结构。 表2 - 1h i n d 型s n p 5 0 k 芯片数据结构 数据名称内容格式解释说明 从表2 - 1 中可以看出,探针的数量几乎是探针组数量的2 0 倍,事实上在同一个探 针组中有4 0 个探针,为消除实验误差,同时设计了等数量的碱基匹配探针( p e r f e c t m a t a c hp r o b e ) 和碱基不匹配探针( m i s m a t c h 在不同类型芯片中,p r o b e ) 以消除实 验误差的影响。在这里仅显示了碱基匹配探针的数据,由于在今后的芯片设计中 倾向于抛弃碱基不匹配探针,本方法只考虑碱基匹配探针。我们知道两种不同等位 基因分别记成a 和b ,d n a 的双链分别记做正链和负链。所以这2 0 个探针数据有四种 不同类型,分别为检测a 型s n p 正链的探针数据,检测b 型s n p 正链的探针数据,检 6 一 第二章通过s n p 芯片识另基田型的方法 测4 型s n p 负链的探针数据和检测b 型s n p 负链的探针数据,这就是表2 ,1 中提到的 探针类型。其中每种类型的探针,根据目标核苷酸序列所在位置的不同设计了多个 探针。5 0 kx b a 型s n p 芯片数据结构于h i n d 几乎一样,只是s n p 数量略有不同:2 5 0 k n s p 芯片与2 5 0 ks t y 芯片结构也大致相同,只是由于s n p 数目增大,出于节省容量考 虑,每组探针数有所减少。不同芯片类型的探针组中探针数量和不同类型探针数量比 例由表2 - 2 所示,我们发现4 种类型的探针并不是平均分配的,检测a 型和b 型的探针数 量相等,但是检测正链与负链的探针数量不等;且在同种芯片中,不同s n p 的探针数 量和不同类型探针比例也可能不等。 表2 2 正链与负链的探针数目 c h i p r a t i o 3 :74 :65 :56 :4 ( 1 :5 )( 2 :4 )( 3 :3 )( 4 :2 ) 比 7 :3 ( 5 :1 ) 7 1 7 2 0 6 ( 9 4 ) 3 1 ( 8 1 ) ( 6 :0 ) 5 0 kh i n d6 52 4 83 6 22 5 4 5 0 kx b a 6 7 2 4 83 5 72 5 6 2 5 0 kn s p0 10 71 21 0 ( 3 7 ) ( 1 6 6 ) ( 3 1 8 ) ( 2 3 2 ) 2 5 0 ks t y0 63 36 14 8 ( 2 7 ) ( 1 2 8 ) ( 2 6 8 ) ( 2 0 0 ) ( 1 1 7 ) ( 1 1 7 ) 从表2 - 2 中我们可以看出,一个s n p 可能用6 个或者1 0 个探针信息来描述,直接根 据他们来判定s n p 的基因型,可能会因为维数太高而使判定过程太复杂,数据的变异 性影响了结果的准确性,而数据降维成为必要。另外,我们将源数据以2 为底取对数, 这是在生物学数据分析中经常使用的数据处理手段,两数相差1 相当于原始数据中相差 一倍。 2 2 数据降维及建模 基于数据结构和探针性质,# 另u i g y a + j 和纵一j 为等位基因a 正链与负链的第j 条探 针的原始信号密度;相应的,对于等位基因b ,分别记做拈+ , j j j 1 y e j 。将y 值取以2 为 底的对数,我们得到如下模型: l 0 9 2 l 0 9 2 l 0 9 2 l 0 9 2 y a + 纵一 可口+ y b 一 = o a + + 丁,+ j + e a + ,j = o a 一+ 卫+ a 一,j = o b + + 耳j + 6 b + , j = 0 b 一+ t 一。jj r b 一。j 其o e o 代表了某一等位基因( a 或b ) 与某一链( 正链或负链) 下的信息强度,t 代 表目标核苷酸序列在同一类型探针中所处位置不同产生的的位置效应,e 表示随机误 一7 一 十 一 件 l 趴 趴 跖 蹭 = = = = jjj了 2 2 数据降维及建模 差。由于对于每种等位基因,探针数量是相等的,e p s a + = s b + ,8 a 一= 8 b - 所以,我 们将简单记成8 + 和s 一。 在某些模型中【2 3 】假设正链与负链的探针数量相等,a p s + = 8 一( e g ,1 0 2 = 5 ) 。但 是实际上,芯片设计和制作过程中,由于某些限制,往往不能实现正链与负链存在同 样多的探针,在1 0 0 k 芯片中的s n p 和5 0 0 k 芯片中的小部分s n p ,其正链与负链探针比例 从3 :7 n 7 :3 不等,5 0 0 k 芯片中的大部分s n p ,其正链与负链探针比例从1 :5 n 6 :0 不 等( 如表2 2 所示) 。而正负链平衡的探针组( 比例5 :5 或3 :3 ) ,其数量不到总探针组 的一半。可以看出这样的假设是不符合实际情况的,因此在本文中不假设正链与负链 探针数量相等,从实际数据出发,解决问题。 对数据进行更深入的研究时,我们将某个s n p 的2 0 个探针信息拿出来取对数后作 散点图发现,同一组探针的目标核苷酸位置不同,而不同组的探针相同目标核苷酸位 置的探针信号具有相对稳定的信号差。比如说,某两组探针,同为负链探针,其目 标核苷酸位置也相同,但是分别为检测a 型和检测b 型的探针,这两组之间对应探针 的信号差往往比较稳定,波动较小。如图2 1 所示,探针组被拆成检测等位基因a 和等 位基因b 的两部分,每个等位基因的1 0 个探针中,6 个探针测量d n a 正链,4 个探针测 量d n a 逆链。不同等位基因的相同位置探针信号呈现平行结构特征。 客 丽 岳 董 = 巴 毋 旦 s n pa _ 1 7 2 1 3 5 0 图2 - 1 样本c n a 0 6 9 8 5 一h i n d 中的s n p _ a 1 7 2 1 3 5 0 的不同等位基因的相同位置探针的光密度信 号对数值折线图 一8 第二章通过s n p 芯片识别基圜型的方法 基于这样的现象,我们定义 产+ ( 2 - 2 ) j = 1 ,s 一 这个模型首先消除了探针信号的位置影响,进而通过对帆= m e d i a n 帆 j 歹= 1 ,s + ) 和肌= m e d i a n m _ d ,j = 1 ,s 一) 分别取中位数得到帆,j 和尥j ,作为真 实的信号差0 a + 一o b + 和以一一一的估计。对于缺少正链或负链的探针组( 如s + :8 一= 6 :0 型) ,我们可以用以来估计肌。我们将同一芯片中的所有m = ( 阻,肌) 来作散 点图,发现图2 2 中的点较为清楚的自动聚成三类,右上角的点由于探针a 的信号强与 探针b 的信号,判别为基因型a f 4 ;左下角反之,判别为基因型b b :而中间的点由于探 针a 的信号和探针b 的信号差别不大,判别为基因型a b 。根据以上数据性质,我们设 计如下方案进行基因型的判别。 2 3 基因型识别算法设计 首先我们来关注一下( 珥,丝) 的分布。图2 3 6 7 6 条曲线分别代表了3 组基因 型a a ,b b ,a b 其肌和肌的概率分布图。 从图2 3 e pa - - 看出基因型a b 的对数信号差m = ( 呜,肌) 大体上服从以0 为均值的 i 至 n a ( ) 6 9 8 5h i n d 图2 2 样本n a 0 6 9 8 5 - h i n d 中所有s n p 的对数信号差中位数散点图 9 一 + 一 拈 妨 勖勖 0 o 一 一 j+ 一 弛 驰 g g o 0 i i = 珥肌 ,、i 2 3 基因型识别算法设计 图2 - 3 样本n a 0 6 9 8 5 - h i n d 中所有s n p i 飘数信号差( 珥,址) 概率密度图 正态分布,而基因型a a ,b b 的对数信号差m = ( 帆,膻) 其均值大约在2 和一2 左右, 也服从正态分布。我们做出一般的假设,( 阻,肌) 服从正态分布。 2 3 1以h a p m a p 数据作为训练样本的识别算法 定义均值向量( 珥,膻) 与真实值肛之间的马氏距离为: d ( m ,p ) = ( m p ) 一1 ( m 一肛) 在正态假设下,d ( m ,p ) 服从自由度为2 的卡方分布,分别记x ;a 和) ( ;( z ) 为自由度为2 的 卡方分布的a 分位点和分布函数。设q 为显著性水平。我们提出两阶段基因型识别法如 下: 方差的估计 利用芯片中所有具有匹配探针的s n p ,即正链与负链探针数目比 为5 :5 或3 :3 的s n p ,来计算的估计。假定对于某个s 只,共有k 个正链探针信 息,k 个负链探针信息,分别记做 咀j ,j = 1 ,k肌j ,j = 1 ,k 一1 0 第二章通过s n p 芯片识别基因型的方法 则对于s 只,其方差 为 产圭( 帆j 一肌j ) 2产( 帆j 一肌j ) 2 j = l n = 夏= i 1 , n = 具有平衡探针的s n p 数目 i = 1 第一阶段,使用无指导的归类法 ( a ) 如果d ( m ,0 ) x ;1 _ n ,且( m ,m _ ) :t a - j 为i e ,则判s n p 为a a 型,且置信分数 为) ( ;( d ( m ,o ) ) ; ( c ) 如果d ( m ,0 ) x ;1 - a ,且( 珥,肌) 均为负,则判s n p 为b b 型,且置信分数 为x ;( d ( m ,o ) ) ; 否则,进入第二阶段,使用指导性归类法,利用i ) l l 练样本信息 ( a ) 使用h a p m a p 数据作为训练样本,得到基因型g 对应的均值向量,定义为 p 。= l l l e a l lo fm 已知基因型样本夕 对应的基因型9 的等位基因频率为记为鳓,假定其先验分布为d i r i c h l e t 分 布【2 4 】d i r ( 1 ,1 ,1 ) ,对于每种等位基因,初始均值都设为;。再根据训练样 本中的信息进行更新,得到其后验分布为d i r ( ,a a + 1 ,f s b + 1 ,a s - 4 - 1 ) ,其 中矗基因型9 在训练样本中出现的次数。则我们通过其后验均值得到等位基 因9
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江省温州市十校2023~2024学年高二历史下学期5月期中试题含答案
- 江西省港口集团有限公司20242025年度社会招聘【30人】笔试参考题库附带答案详解
- 萝卜刀的危害课件
- 小熊不爱刷牙课件
- 高中政治会考知识点总结
- 2025年萍乡市工程咨询管理顾问有限责任公司招聘第一批外聘人员23人笔试参考题库附带答案详解
- 2025年湖南高速养护工程有限公司第二批招聘46人笔试参考题库附带答案详解
- 2025年国投(张掖)金种科技有限公司招聘77人笔试参考题库附带答案详解
- 2025华阳新材料科技集团有限公司招聘(500人)笔试参考题库附带答案详解
- 2025中铝环保节能科技(湖南)有限公司内部招聘8人笔试参考题库附带答案详解
- 2025年新高考政治二轮复习:高分答题模版(含练习题及答案)
- 充电桩行业趋势及市场前景分析报告
- 湖北省孝感市汉川市2023-2024学年三年级下学期语文期中考试试卷
- 奉化市体育特长生初中升高中排球专业考试评分标准
- 2023年甘肃省高等职业教育招生中职升学考试旅游服务类专业基础试题
- 大力弘扬教育家精神加快建设教育强国心得体会6篇
- 考古调查勘探辅助工程方案投标文件(技术方案)
- 2025年法学本科毕业论文评审标准分析
- 电位滴定法课件
- 历年计算机二级MS-Office考试真题题库大全-下(500题)
- 2025年中国防爆型插入式超声波流量计市场调查研究报告
评论
0/150
提交评论