(作物遗传育种专业论文)陆地棉110个bac测序结果的初步分析.pdf_第1页
(作物遗传育种专业论文)陆地棉110个bac测序结果的初步分析.pdf_第2页
(作物遗传育种专业论文)陆地棉110个bac测序结果的初步分析.pdf_第3页
(作物遗传育种专业论文)陆地棉110个bac测序结果的初步分析.pdf_第4页
(作物遗传育种专业论文)陆地棉110个bac测序结果的初步分析.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j 嬲嬲蚴 华中农业大学学位论文独创性声明及使用授权书 学位论文 是否保密 如需保密,解密时间f w j d 年9 月;汐日 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果尽我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得华中农业大学或其他教育机构的学位或证书而使用过的材料,指导教师对此进行 了审定与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明,并表示了 谢意 研究生签名: 缒艟旋 时间:谢年2 月乙日 学位论文使用授权书 本人完全了解“华中农业大学关于保存、使用学位论文的规定”,即学生必须按照学校要 求提交学位论文的印刷本和电子版本:学校有权保存提交论文的印刷版和电子版,并提供目录检 索和阅览服务,可以采用影印、缩印或扫描等复制手段保存汇编学位论文本人同意华中农业 大学可以用不同方式在不同媒体上发表。传播学位论文的全部或部分内容 注:保密学位论文在解密后适用于本授权书 学位论文作者签名: 趣姬旋 签名日期:劫曙年2 月日 导师签名: 签名e l 期:7 力年 侈月日 陆地棉il o 个b a c 测序结果的初步分析 目录 摘要i a b s t r a c t i i 缩略语说明i i i 1 文献综述1 1 1 基因组计划1 1 1 1 基因组和基因组学1 1 1 2 基因组计划的兴起人类基因组计划l 1 1 3 基因组计划的另一壮举一一植物基因组计划2 1 1 4 棉花基因组计划3 1 1 4 1 棉花全基因组测序的必要性4 1 1 4 2 测序陆地棉的必要性4 1 2 基因组测序方法4 1 2 1b a c b yb a c 法5 1 2 2 全基因组鸟枪法:5 1 2 3 基因组d n a 测序新方法一5 1 3 序列拼接和组装7 1 3 1p h r e d 7 1 :;2p h d 2 f a s t a 7 1 3 3p h r a p 7 1 3 4c r o s s m a t c h 7 1 : 5c o n s e d a u t o f i n i s h 8 1 4 基因注释8 1 4 1 基因预测8 1 4 1 1 基因预测方法k 9 1 4 1 2 基因预测软件1 0 陆地棉“o 个b a c 测序结果的初步分析 1 4 2 重复序列分析1 3 1 4 2 1 重复序列的种类1 3 1 4 2 2 重复序列的注释软件1 3 1 4 3 基因功能注释1 4 1 5 比较基因组学1 4 1 5 1 比较基因组学的应用1 4 1 5 1 1 发现非编码的功能序列区域1 5 1 5 1 2 发现新基因1 5 1 5 1 3 发现功能性s n p :15 1 5 1 4 发现基因拷贝数的多态性1 5 1 5 1 5 阐述物种间的进化史。1 6 1 5 2 比较基因组学的具体应用方法和策略1 6 1 5 2 1 鉴定功能原件前先明确基因序列的进化关系1 6 1 5 2 2 针对不同的目的选择不同的比对序列1 6 1 ,5 2 3 预先对比较的d n a 序列进行注释1 7 1 5 2 4 选择合适的比对方法1 7 1 6 本研究立题依据及意义1 7 2 材料方法1 9 2 1b a c 文库的来源。l9 2 2 测序和组装1 9 2 3 基因预测软件的测试1 9 2 4b a c 序列注释和序列比对2 l 2 5 比较基因组学分析2 l 2 5 1 共线性染色体片段的分析方法2 l 2 5 2 同源基因搜索及进化树构建分析方法2 l 2 5 2 1f g f 法2 l 陆地棉l l o 个b a c 测序结果的初步分析 2 5 2 2 多重序列比对法21 3 结果分析2 3 3 1 测序信息统计2 3 3 2 基因预测软件的测试结果2 3 3 3 基因预测结果的统计。2 5 3 4 基因分布的统计2 6 3 5 基因大小及其外显子和内含子统计2 7 3 6 基因岛统计2 8 3 7g c 含量统计2 9 3 8 重复序列统计3 2 3 9 基因产物的功能注释:3 3 3 9 1 棉酚相关3 3 3 9 2 纤维发育相关3 3 3 9 3 棉花开花及颜色相关3 4 3 9 4 抗性相关3 4 3 9 5 转录因子一3 4 3 1o 比较基因组学分析3 4 3 1o 1 共线性分析3 4 3 1 0 2 同源基因搜索及其进化树构建分析3 5 3 1o 2 1f g f 法结果及分析3 5 3 1 0 2 2 多重序列比对法结果及分析3 7 4 讨论二3 9 4 1 棉花基因组测序方法的选择和测序策略的制定j 3 9 4 2 基因预测软件的选择3 9 4 3 基因组结构分析4 0 陆地棉l i o 个b a c 测序结果的初步分析 4 4 基因产物功能注释的分析4 1 4 5 比较基因组学的分析4 2 5 结论4 4 5 1 结构和功能注释- 4 4 5 2 比较基因组学分析4 4 参考文献4 5 致谢5 2 。1 。_ _ _ _ _ _ _ _ _ _ - _ _ _ _ _ _ _ 一 陆地棉l1 0 个b a c 测序结果的初步分析 摘要 本研究挑取了陆地棉t m 一1 第1 2 、2 6 染色体上的1 1 0 个b a c 克隆对其进行测 序和分析,这些b a c 克隆插入片段的平均大小是1 0 0 k b 。测序和拼接后首先对其 结构、基因功能进行了分析、注释,后通过比较基因组学的方法推测棉花与杨树、 拟南芥、葡萄、水稻、玉米进化距离的远近关系。 结构分析包括基因分布的分析、基因大小及其外显子和内含子的分析、基因岛 的分析、g c 含量和重复序列的分析等。分析后发现一个富含1 4 个基因的基因岛, 该基因岛中的基因产物包含二磷酸核苷磷酸酶l 、黄氧素乳酸脱氢酶、p o l ya 结合 蛋白、金属离子结合蛋白、伤诱导蛋白、生物素羧基载体蛋白羧化酶等。g c 含量的 分析显示b a c 序列的平均g c 含量只有3 4 2 ,比水稻、拟南芥等基因组的平均g c 含量低得多,且g c 含量与基因的分布、基因的密度、基因序列占b a c 总长度的比例 呈负相关性,但基因中的g c 含量仍明显高于其他区域的g c 含量。 通过将测序序列预测到的基因与n r 库、s w i s s p o r t 库比对,除发现棉酚相关基因 外,还发现一系列棉花开花和颜色相关基因、抗性相关基因,且发现的基因涉及其 代谢的不同环节;此外,用基因序列与棉纤维e s t 比对,发现3 9 6 个p o s s i b l eg e n e 与棉纤维e s t 匹配上,其中包括多个信号转导途径、细胞壁松弛蛋白、细胞骨架蛋白、 长链脂肪酸蛋白、木质素相关基因等。该结果为棉花重要性状相关基因的克隆及研 究提供了参考。 共线性分析表明,棉花b a c 与杨树、葡萄、拟南芥的共线性染色体片段比与水稻、 玉米的共线性染色体片段多;为进一步分析棉花与杨树、拟南芥、葡萄、水稻、玉 米进化距离的远近关系,用f g f 法和多重序列比对法对上述物种中的同源基因序列构 建进化树,据进化树的聚类结果推测棉花与杨树的进化距离较棉花与葡萄、拟南芥 的进化距离近。 关键词:棉花基因组测序;b a c ;结构分析;比较基因组学分析 陆地棉1 1 0 个b a c 测序结果的初步分析 a b s t r a c t 110b a c sw i t ht h ea v e r a g elo o k bo ft h ei n s e r t e df r a g m e n tw e r es e q u e n c e da n d a n a l y z e ds c r e e n e df r o mc h r o m o s o m e12a n d2 6o fg o s s y p i u mh i r s u t u ms p p t m - 1 t h e s e q u e n c es t r u c t u r e sw e r ea n a l y z e dw i t ht h ef u n c t i o no fg e n e sa n n o t a t e d t h er e l a t i o n s h i p o fe v o l u t i o n a r yd i s t a n c e sb e t w e e ng o s s y p i u mh i r s u t u ma n dp o p u l u st r i c h o c a r p a , c o m p a r a t i v eg e n o m i c sm e t h o d s o r y z as a t i v aa n dz e am a y sw e r ec a l c u l a t e db yt h e a n a l y s i so fg e n ed i s t r i b u t i o n ,g e n es i z e ,i n t r o n sa n de x t r o n s ,g e n ei s l a n d s ,p r o p o r t i o n o fg ca n dt h ed u p l i c a t e ds e q u e n c e sw a sc o n d u c t e d ag e n ei s l a n di n c l u d i n g14g e n e s c o d i n gn u c l e o t i d ep y r o p h o s p h a t a s e p h o s p h o d i e s t e r a s e ( n p p ) 。 ( a b a2 ) 。p o l y ( a ) b i n d i n gp r o t e i n ( p a b p ) m e t a li o nb i n d i n gp r o t e i n ,w o u n d - i n d u c e d p r o t e i na n db i o t i nc a r b o x y lc a r r i e r p r o t e i no fa c e o l c o a w a s i n v e s t i g a t e d t h ea v e r a g ep r o p o r t i o no fg c o fb a cs e q u e n c e sw a s3 4 2 ,m u c hl e s s t h a ni no r y z as at iv aa n da t h a l i a n a ,a n dt h ep r o p o r t i o no fg cw a sn e g a t i v e l yr e l a t e d w i t hg e n ed i s t r i b u t i o n ,g e n ed e n s i t ya n dr a t i oo fg e n el e n g t l q 3 a cl e n g t h n o to n l yg o s s y p o lr e l a t e dg e n e s ,b u ta l s ot h eg e n e sc o n t r o l l i n gf l o w e r i n gt i m e , c o l o ra n dr e s i s t a n c ew e r ef o u n da f t e rc o m p a r i n gw i t ht h es e q u e n c ei nn r o rs w i s s p o r t d a t a b a s e s ,a n dt h o s eg e n e sr e l a t e dw i t hd i f f e r e n tm e t a b o l i s mp a t h w a y s f u r t h e rm o r e ,3 9 6 p o s s i b l eg e n e sw e r ef o u n dt h a tr e l a t ew i t he s t o fc o t t o nf i b e r w h i c hi n c l u d i n gs e v e r a l p a t h w a y s o f s i g n a lt r a n s d u c t i o n ,e x p a n s i n s ,e l o n g a t i o n o f l o n g c h a i n f a t t y a c i d s ( e l o v l ) ,a n dg e n e sr e l a t e dw i t hl i g n i n t h er e s u l t sp r o v i d e si n f o r m a t i o no nt h e c l o n i n go fk e yc h a r a c t e r i s t i c s g e n e si ng o s s y p i u m c o l l i n e a r i t ya n a l y s i ss h o w e dt h a tt h e r ew e r em u c hm o r ec o l l i n e a rc h r o m o s o m e s e g m e n t si ns e q u e n c eo fp o p u l u s 护i c h o c a r p a ,l i t i sv i n i :e r a ,a n da r a b i d o p s i st h a l i a n a t h a ni nw h i c ho fo r y z as a t i v aa n dz e am a y s t h er e s u l to fp h y l i g e n e t i ct r e es u g g e s t e d t h a tt h er e l a t i o n s h i pb e t w e e ng o s s y p i u mh i r s u t u mw a sm u c hc l o s e rt op o p u l u se u p h r a t i c a t h a nt oo t h e rp l a n t ss u c ha sl i t i sv 枷弦r a ,a n da r a b i d o p s i st h a l i a n a k e yw o r d s :s e q u e n c e i n g o fc o r o ng e n o m e ,b a c ,s t r u c t u r ea n n a l y s i s ,c o m p a r a t i v e a n n a l y s i s 陆地棉1 l o 个b a c 测序结果的初步分析 1。1。_-。_-_-。_ 缩写英文全称 缩略语说明 中文说明 b a cb a c t e r i aa r t i f i c i a lc h r o s o m e b g f b e i ji n g g e n ef i n d e r b p b a s ep a i r e s t e x p r e s s e ds e q u e n c et a g s f g f f i s h i n g g e n e f a m i l y h gph u m a ng e n o m e p r o j e c t n j n e i g h b o r - j o i n i n g m e t h o d o r f o p e nr e a d i n gf r a m e 细菌人工染色体 基因预测软件 碱基对 表达序列标签 衔一f ,+ 搜索同源序列的软件 人类基因组计划,一 邻接法 开放阅读框 锵j 孙 s n p s i n g l e n u c l e o t i d e p o l y m o r p h y i s m单核苷酸多态性 t r ft a n d e m r e p e a tf i n d e r t e t r a n s p o s a b l e e l e m e n t 搜索串联重复的软件 转座元件 一h _ _ _ _ _ _ _ _ _ _ _ _ - _ _ _ _ _ _ _ _ 一 陆地棉1 1 0 个b a c 测序结果的初步分析 1 文献综述 1 1 基因组计划 1 1 1 基因组和基因组学 基因组( g e n o m e ) 一词是1 9 2 0 年由w i n k l e r 引入学术界的,它是由基因( g e n e ) 和染色体( c h r o m o s o m e ) 两个词组合而成,代表完整的单套染色体和基因。2 0 世纪 9 0 年代中期以前的前基因组时代,还没有任何物种的完整基因组序列,分子生物学 家们只能研究单个基因或最多- d , 组彼此相关的基因的功能。这些研究导致了许多 激动人心的新发现,扩展了1 9 5 8 年c r i c k 最先提出的“由d n a 到r n a 再到蛋白质 的简单描述,使我们认识到基因表达通路的复杂性和多样性。随着时代的发展,现 在分子生物学面临的主要挑战己从阐明单个基因的功能转向解析整个基因组的表达 和调节,并将成为新世纪前几十年的主要研究对象。实际上,今天的分子生物学主 要就是由基因组测序以及相关的功能分析所推动的。 基因组学( g e n o m i c s ) 是由g e n o m e 这个词而来,它是一门对生命有机体全基因组 序列进行分析和比较的新兴学科。1 9 8 7 年,v i c t o rm c k u s i c k 和f r a n kr u d d l e 一起 创办了g e n o m i c s 杂志,促使“g e n o m i c s 这个词在科学界得到广泛应用。基因 组学的蓬勃发展首先与d n a 自动测序技术的发明密不可分。可以说,没有d n a 自动 测序仪,就没有真正意义上的基因组学。只有当我们了解了组成基因组的全部d n a 序列后,我们才能总览基因组所包含的所有遗传信息,并将它们与其它有机体进行 比较,基因组学因此也会成为- - i i 羽翼丰满的学科。基因组学的发展也与计算生物 学和生物信息学的发展有着密切的联系。基因组的测序和拼接需要复杂的算法和程 序,基因组学所产生的大量生物学数据也需要通过相应的计算机方法,才能将这些 由序列所产生的信息转化成具有生物学意义的注释。此外,人类基因组计划( h u m a n g e n o m ep r o j e c t ,h g p ) 的启动和发展也为基因组学的发展提供了资金,鼓舞和推动 了科学家们去开发新的技术和方法。随着人类基因组计划的顺利完成,基因组学才 成为了生命科学各个研究领域中最为基础和重要的学科之一。 1 1 2 基因组计划的兴起一一人类基因组计划 1 9 8 6 年,诺贝尔奖获得者杜伯克在 s c i e n c e 杂志上发表的一篇短文中率先提出 了人类基因组计划。1 9 9 8 年,该计划获得美国困会拨款2 7 9 0 力美元,并于1 9 9 0 年1 0 月1 陆地棉1 1 0 个b a c 测序结果的初步分析 日正式启动。美国、英国、法兰西共和国、德意志联邦共和国、日本和我国科学家 共同参与了这一价值3 0 亿美元的人类基因组计划。这一计划旨在为3 0 多亿个碱基对 构成的人类基因组精确测序,发现所有人类基因并搞清其在染色体上的位置,破译 人类全部遗传信息。 人类基因组计划对生命科学的研究和生物产业的发展具有非常重要的意义,给 人类社会带来了巨大影响。 首先,获得人类全部基因序列将有助于人类认识许多遗传疾病以及癌症等疾病 的致病机理,为分子诊断、基因治疗等新方法提供理论依据。根据每个人d n a 序列的 差异,可了解不同个体对疾病的抵抗力,依照每个人的“基因特点 对症下药,这 便是2 l 世纪的医学个体化医学( c o l l i n se ta 1 ,1 9 9 8 ) 。更重要的是,通过基因治疗, 不但可预防当事人日后发生疾病,还可预防其后代发生同样的疾病( l a n d e re ta 1 , 2 0 0 1 ) 。 其次,破译生命密码的人类基因组计划有助于人们对基因的表达调控有更深入 的了解。有人将h g p :l , 作生命周期表( t h o m a se ta 1 ,1 9 9 7 ) ,因为它不再是从研究个别 基因着手,而是力求在细胞水平解决基因组问题,同时研究所有基因及其表达产物, 以建立对生命现象的整体认识。目前,研究者已着手通过d n a 芯片等新技术对基因的 表达展开全面研究( b o g u s k ie ta 1 ,2 0 0 1 ) ,同时通过蛋白质芯片的制作,标准化双向 蛋白质凝胶电泳、色谱、质谱等分析手段对人类可能存在的几十万种蛋白质或多肽 的特征和功能进行研究( z n e i m e re ta 1 ,2 0 0 2 ) 。科学家预言,蛋白质组的研究将导致 药物开发方面实质性的突破,以使人类真正攻克癌症等顽疾。 最后,人类基因组图谱对揭示人类的进化、发展历史具有重要意义。对进化的 研究,不再建立在假说的基础上,利用比较基因组学,通过研究古代d n a ,可揭示生 命进化的奥秘以及古今生物的联系,帮助人们更好地认识人类在自然界中的地位 ( c h o ie ta 1 ,1 9 9 5 ) 。 1 1 3 基因组计划的另一壮举一一植物基因组计划 我们对食品和可再生能源不断增长的需求是人类2 l 世纪面临的最大挑战之一。 而以植物为基础的技术对迎接这些挑战至关重要。科学家们已经认识到,要迎接上 述挑战,必须大大地拓展植物生物学知识,加强对以植物为基础的技术及其实际应 2 陆地棉ll o 个b a c 测序结果的初步分析 用的研究,提高其在经济和环境中的作用和贡献。国际上对植物基因组的研究和对 人类基因组的研究一样,也在如火如荼地进行着。 美国、法国等国家植物基因组计划相继启动,研究内容主要包含一下几个方面。 第一,结构基因组研究,即研究基因组的结构和组织。目的是绘出包括玉米、 大豆、小麦、大麦、高粱、水稻、棉花、西红柿和松树等1 0 - 1 2 种具有经济价值的 重要植物的基因组图谱。 第二,功能基因组研究,重点研究对作物产量具有明显作用的基因,包括那些 带有抗病、种子生长、谷粒质量和开花期等密码信息的基因。此外,还包括那些对 其他基因起控制作用的基因。 第三,将基因组的信息和知识用于开发改良植物和以植物为基础的新型产品。 在植物中,拟南芥由于其基因组小、生活周期短、繁殖速度快、易获得较多突 变体等特点,被选为第一个开展基因组计划的双子叶植物。该计划于1 9 9 1 年底由美 国、日本、欧盟合作开展,已有21 1 万 - - 214 万个表达基因通过e s t ( e x p r e s s e ds e q u e n c e t a g s ) 被鉴定出来,约占拟南芥基因总数的7 0 以上( r o u n s l e y e t a l ,1 9 9 8 ) 。 水稻是第二个被选中进行基因组研究的单子叶植物,一方面是由于它为基因组 最小( 4 3 0 m b ) 的重要的粮食作物;另一方面对谷物的比较基因组学研究表明,水稻、 小麦、玉米、高粱等的基因组成、基因顺序等存在高度共线性,因此利用对水稻基 因组研究的结果,可从其他谷物中分离与鉴定出对应的基因。该计划于1 9 9 1 年启动 ( s a s a k ie t a l ,1 9 9 8 ) 。 、 植物基因组计划的长期目标是了解那些对农业、环境、能源和健康具有重要意 义的植物基因的结构和功能,并应用这些知识来改善人类社会。 1 1 4 棉花基因组计划 中国农科院棉花研究所和美国农部南方平原研究所已经签订了双边合作协议, 由中国农科院棉花研究所和美国共同主持,启动棉花基因组测序研究工作。 棉花基因组序列蕴藏着棉花高产、优质和抗病、抗虫等所有性状的遗传信息。 通过测定棉花基因组序列,最后绘制出基因组图谱,可以让科研人员弄清每个基因 的功能,并进而改良品种,培育出抗虫、抗病、抗自然灾害的高产优质棉花。 擀。菇 毫k 鼍。 陆地棉1 1 0 个b a c 测序结果的初步分析 1 1 4 1 棉花全基因组测序的必要性 目前,拟南芥、水稻、杨树、玉米等植物基因组学研究取得了重大进展,而棉 花基因组学研究相对滞后,只是一些方面做了初步研究工作。 棉花既是一种重要的天然纺织纤维作物,又是重要的种子油料作物,同时棉花 种子也是一种重要的食品和饲料资源。目前世界上超过8 0 个国家都在种植棉花。全 球约2 5 的耕地用来种植棉花,每年棉花的消费约11 5 0 0 万包,折合2 7 0 0 万吨。 中国是最大的原棉生产国和消费国,常年植棉面积8 0 0 0 万亩,总产6 0 0 万吨左右, 棉花不仅是我国2 亿农民的重要经济来源,而且关系到】9 0 0 万纺织及相关行业从业 人员的就业问题,关系到国民经济稳定及棉纺工业的发展。我国居民人均纤维消费 已达到1 4 千克,超过世界人均纤维消费总量的2 7 ,预计卜一五”末人均年消费 达到1 7 - - 1 8 千克。同时,纺织品服装出n g , j 汇2 0 0 5 年达到1 1 7 5 亿美元,比2 0 0 4 年增2 0 7 ,占全国出口总值的1 5 1 ,顺差1 2 0 0 多亿美元;2 0 0 6 年达到1 4 3 0 亿 美元,比2 0 0 5 年增长2 4 。2 0 0 7 年达到1 6 7 9 3 7 亿美元,比2 0 0 6 年增长1 8 7 7 ( 伍 慧萍,2 0 0 7 ) 。所有这些都表明,棉花生产及其棉花产业在国民经济建设中的地位举 足轻重。 1 1 4 2 测序陆地棉的必要性 世界上种植的棉花9 5 以上是陆地棉,陆地棉( 岔h i r s u t l i ml ) 是异源四倍体, 包括a 和d 两个亚基因组,基因组大小约2 2 5 0 m b 。目前,美国能源部基因组联合研 究所已开始对6 的二倍体d 基因组进行小规模探索性测序,而二倍体d 基因组不产 生棉纤维,生产上应用价值低,因此,对陆地棉基因组测序具有更大的应用价值。 “棉花基因组测序计划”将着眼于主要的经济作物陆地棉,并以其标准系( t m 1 ) 为材料,它在农业上的意义可与人类基因组计划在人类健康中的意义,以及水稻基 因组计划在人类粮食安全中的意义相媲美。 1 2 基因组测序方法 b a c ( b a c t e r i a u r t i f i c i a lc h r o m o s o m e ) b yb a c 法和全基因组鸟枪法( w h o l e g e n o m es h o tg u n ) 是目前基因组测序采用的主要方法。另外,2 0 0 5 年n a t u r e 报道了 m a r g u l i e s 等人发明的一种平行且简单的基因组d n a i 9 1 j 序法。 4 陆地棉l l o 个b a c 测序结果的初步分析 1 2 。1b a c b yb a c 法 国际合作的粳稻基因组测序、人类基因组测序等采用的是b a cb yb a c 法。这是 一种相对传统的基因组测序方法,先将目的基因组建成b a c 文库,之后将b a c 文库进 行随机断裂制成亚克隆库,再利用f p c ( f i n g e rp r i n t i n gc o n t i g s ) 平台筛选出最优 序歹j j b a c ,即所有这些b a c 排y t j 起来能覆盖整个基因组,而且b a c 之间要有一定的重 叠度,以保证序列搭建无误,最后将这些b a c 分别测序后组装起来。该测序方法的优 点是序列组装容易,缺点是该方法需要预先构建基因组的物理图谱。虽然随着分子 生物学技术的进步,物理图谱的构建技术已有了很大提高,但是对于基因组比较复 杂的生物,物理图谱构建起来仍然需要很长时间,耗费大量的人力财力。 1 2 2 全基因组鸟枪法 我国籼稻基因组测序、美国塞莱拉公司的人类基因组测序等采用的是全基因组 鸟枪法。该方法是随机的将整个基因组破碎成1 0 0 0 3 0 0 0 b p ( b a s ep a i r s ) 左右的基因 组片段进行测序,之后再组装起来。该测序方法的优点是测序的目标范围比较小, 节省时间,缺点是由于没有物理图谱作指导在组装拼接时会比较费时,且拼装时由 于运算量很大,需要应用很多大型计算机,而且对基因组中的重复序列处理不好, 容易导致拼接错误。 一。 咆 1 2 3 基因组d n a 测序新方法 。 m a r g u l i e s 等( m a r g u l i e se la 1 ,2 0 0 5 ) 发明了一种基因组d n a 测序的新方法。新的测 序方法的一个重要的技术优势在于样品的制备上( 图1 ) 。基因组随机打断后得到的较 短的d n a 片断吸附在念珠上,将其乳化( e m u l s i f i e d ) 后,进入反应孔( r e a c t i o nw e l l s ) 中扩增和测序( 图2 ) 。因此该方法不需要进行亚克隆( s u b c l o n e ) 库的构建。 这种测序系统能够在4 小时左右的时间里以9 9 以上的准确率测定2 5 0 0 万碱基 对。因此,测序速度比传统的s a n g e r 测序法提高了大约1 0 0 倍。为了验证这种方法 的测序效率及准确性,研究者用鸟枪法( s h o t g u n ) 测序并重新拼接了生殖器支原体 ( m y c o p i a s m a g e n i t a l i u m ) 的基因组( 0 5 8 m b ) 。结果表明,新方法测序结果覆盖了鸟 枪法测序的9 6 ,准确率达到了9 9 9 6 。在以肺炎链球菌( s t r o p t o c o c c u s p n o u m o n i a e ) 的基因组( 2 1 m b ) 作为测序样本时得到了同样的结果。 陆地棉i l o 个b a c 测序结果的初步分析 图1 新测序方法的样品制备过程 f i g1t h es a m p l e sp r e p a r a t i o no fn e ws e q u e n c i n gm e t h e d 图2 新测序方法测序仪主要组成部分 f i g2t h es e q u e n c e r sp r i m a r ye l e m e n t so fn e ws e q u e n c i n gm e t h e d 注:图中a 、b 、c 代表的原件分别为:a ,af l u i d i ca s s e m b l y ;b ,af l o wc h a m b e rt h a t i n c l u d e st h ew e l l - c o n t a i n i n gf i b r e o p t i cs l i d e ;c ,ac c dc a m e r a b a s e di m a g i n ga s s e m b l y 6 ,l; :吖髫弘;扎i,; 一 a 陆地棉1 1 0 个b a c 测序结果的初步分析 1 3 序列拼接和组装 测序时需要把d n a 长链切割成碎片,对每个碎片进行测序,然后通过比对再连 接起来,这就是常说的基因组序列数据的拼接和组装。拼接和组装是测序的重要环 节,要通过复杂的数学和统计学的算法实现,随着生物信息学的发展,已有成熟的 序列拼接和组装软件供研究者直接适用。 1 3 1p h r e d 用双脱氧法在d n a 自动测序仪上测序后,先用p h r e d 软件将原始扫描文件转换成 d n a 序列文件并根据峰值大小赋予碱基不同的质量值。质量值是指特定碱基错误率的 对数转换值,计算方法为:q = 1 0l o g l 0 ( p e ) ,q 表示某碱基的质量值,p e 表示特 定碱基的错误率。p h r e d 所给出的质量值已经过十分严密的测试,保证能从原始扫描 文件中区分正确碱基和错误碱基。p h r e d 软件经严格测试后表明可对a m e r s h a m b i o s c i e n c e s ,a p p l i e db i o s y s t e m s ,b e c k m a ni n s t r u m e n t s ,a n dl i c o rl i f es c i e n c e s 等 公司的测序仪所产生的原始扫描文件进行很好的转换。p h r e d 及下面将要叙述的关于 序列组装的软件都可在许多品牌的电脑和各种操作系统上运行,! t 1 a p p l em a cb s x _ “ b s d ,l i n u xh p c o m p a qt r u 6 4 ,h e w l e t t - p a c k a r dh p - u x ,i b ma i x ,m i c r o s o f tw i n d o w s 等。目前,进行大规模测序时般使用u n i x 或l i n u ) 【操作系统并在配置较高胁 器上运行。 1 3 2p h d 2 f a s t a ”, p h a d 2 f a s t a 将p h r e d 产生的p h d 文件转换为f a s t a 格式的核算和质量文件,便于 c r o s sm a t c h 和p h r a p 程序应用。 1 3 3p h r a p p h r a p 是用来将序列较短i 拘d n a 片段进行组装并生成较大迭连群( c o n t i g s ) 的软 件,并根据指定的质量值标准,将低于一定值的、测序质量较差的碱基排除在组装 的序列之外,从而保证所测序列的可靠性。 1 3 4c r o s s m a t c h c r o s sm a t c h 用于比对两套d n a 序列,以找出序列中的载体序列,并产生屏蔽了 载体的序列。 7 陆地棉1 1 0 个b a c 测序结果的初步分析 1 3 5c o n s e d a u t o f i n i s h c o n s e d a u t o f m i s h 是用来对由p h r a p 装配的序列进行查看、编辑并最终将序列确 定下来的软件。用该软件打开组装好的序列后我们可以得到很多关于序列的信息, 如序列质量( 每l o k b 的错误碱基数) 、迭连群数目( c o n t i g s ) 、序列中高质量区与低质 量区分布等等。根据检测结果可以将质量较低的、需要进行补充测序的区域设计引 物后进行补测,以提高最终序列的质量。最后可将完成的序列保存成f a s t a 等多种格 式,用于进一步的序列分析。 1 4 基因注释 对于任何一个被测序的基因组,我们都要推测该基因组的结构组成、基因组的 基因、以及基因编码的蛋白的功能,这个过程通常称之为注释。 据g o l d 网站统计,目前已完成对6 0 0 多种生物基因组的测序,正在进行测序 的高达1 6 7 6 种。截至2 0 0 8 年1 月,全球真核生物基因组测序计划共有7 5 6 种,占 全部基因组计划的3 2 1 8 ;植物类基因组计划有1 3 6 种,占全部真核生物基因组计 划的2 0 1 6 。大量生物基因组计划的完成提供了极其丰富的生物序列资源,如何进 行序列注释是测序后所面临的首要问题。从目前的研究来看,基因组序列由三种成 分构成:基因序列、重复序列、基因间区序列。基因序列在高等生物基因组中所占 的比例可能并不大,但它们是控制生物性状遗传的主要因素,正确的鉴定生物基因 组中所含有的基因显得至关重要。 测序后序列注释的流程一般是先用重复元件预测软件将重复序列屏蔽掉:然后 用基因预测软件预测出该序列可能含有的基因,最后将所预测基因的蛋白序列提交 到n c b i 上用b l a s t p 进行同源序列搜索,对预测结果可靠性进行分析,同时还可以 用r t p c r ( r e v e r s et r a n s c r i p t - p o l y m e r a s ec h a i nr e a c t i o n ) 技术进行表达时空鉴定, 用c d n a 克隆进行基因的外显子、内含子结构鉴定。 1 4 1 基因预测 基因预测是在d n a 序列中标示出基因的位置,而只有将所有基因的确切位置都标 示出来,才能准确的研究基因功能、基因表达基因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论