




已阅读5页,还剩111页未读, 继续免费阅读
(计算机应用技术专业论文)生物信息学中的并行处理.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 生物信息学是综合运用生物学、数学、物理学、信息科学以及计算机科学等 诸多学科的理论方法的崭新交叉学科,它是整个生命科学发展的重要组成部分, 已成为生命科学研究的前沿。生物信息学的核心是基因组信息学,包括基因组信 息的获取、处理、存储、分配和解释,即以计算机、网络为工具,用数学、物理等 学科的理论、方法和技术研究生物大分子,主要包括脱氧核糖核酸( d n a ) 和蛋 白质( p r o t e i n ) 的序列、结构和功能。基因组信息学的关键是“读懂”基因组的核苷 酸顺序,即全部基因在染色体上的确切位置以及各d n a 片段的功能;同时在发现 了新基因信息之后进行蛋白质空阀结构模拟和预测。这对于人类疾病基因的发现、 基因与蛋白质的表达与功能研究、合理化药物设计等方面都有着重要的意义 在生物信息学中,生物序列的比对、拼接和基因表达数据的聚类是一些最重 要的操作。通过序列比对可以发现生物序列中的一些功能、结构以及进化信息。 序列拼接是基因组测序阶段研究的最基本、最重要的问题,它处理全基因组随机 测序得到的小片断序列,根据他们问的重叠关系用计算机将它们拼接以期得到目 标序列的一个或多个较长的连续段。对基因表达数据的双向聚类用相似性度量函 数确定基因的相似程度,将基因分组。通过聚类分析,将共调控基因聚集成类, 分析和识别同类基因所共同拥有的转录调控元件。 , 由于以上的生物信息学问题具有数据量多、计算量大的特点,对计算机的处 理速度等性能要求较高。而这些问题大部分本质上是组合优化问题,不象向量运算 那样具有有规则的数据结构和相关关系,因而对其进行并行化有很大的难度。本 文对生物信息学领域中的一些问题的并行计算进行了深入的研究,提出了相应的 并行算法,通过试验取得了很好的效果。 我们提出一种快速的最长公共子序列算法f a s tl c s ,该算法通过对字符串建 立相应的同字符后续表,随后对于相应的初始同字符对,并行地在该表中逐层地 搜索其后继同字符对,得到所有的后继同字符对及相应的层次值。最后由最大层 次值的同字符对进行回溯,依次求得其所有前驱同字符对,最后得到相应的比对 扬州大学硕士论文 结果。这种基于同字符后续表的算法同样可以用到多序列的最长公共子串问题中。 算法使用了剪枝和跳跃技术,提高了处理速度。与其它经典的l c s 算法相比,不但 能够取得准确的结果,而且在速度、效率上有了很大的提高。 我们深入研究了生物序列的拼接问题,提出了一种高效的并行算法。该算法 提出了后缀索引的概念以代替后缀树,首先对所有的序列片段建立后缀索引:然 后对所有的序列片段,在所有其他序列片段的后缀索引中查找匹配度最高且最长 的后缀,再以序列片段为顶点,以它们的前、后缀匹配长度为边上的权来建立带权 有向图;使用并行蚁群算法寻找最长的哈密尔顿回路;最后根据回路得出拼接方 案。该算法以后缀索引代替后缀树,大大减少了计算量,有利于并行计算。算法 利用蚁群算法解决t s p 问题的优势,减少了优化时间,与其它类似的算法相比, 取得的结果准确,在速度、效率上有了很大的提高。 我们还对基因表达数据进行双向聚类的问题进行了深入的研究,提出了一种 进行双向聚类的并行算法。该算法根据数据集合的大小对于双向聚类质量的反单 调性,由最小的数据集合开始逐步添加行或列,最终找到所有满足条件的聚类。 该算法处理速度快,聚类质量高,性能明显优于其他类似算法。 本文的研究工作将并行处理技术应用到生物信息学的研究之之中,对生物信 息学中的一些问题提出的高效的并行算法,并且都在并行计算机深腾1 8 0 0 上用 肝i ( c 绑定) 编程运行,都使用生物信息的标准数据库中的测试数据进行试验。取 得的试验结果表明,这些算法不但处理速度快,而且结果质量高,说明并行计算 机是生物信息学研究中的有力工具,有关问题的高效并行算法的开发,会有力促 进生物信息学的研究。 a b s t r a c t b i o i n f o r m a t i e si san e wc o m p r e h e n s i v ec r o s s d i s c i p l i n ei n v o l v i n gb i o l o g y , m a t h e m a t i s ,p h y s i c s , i n f o r m a t i c sa n dc o m p u t e rs c i e n c e ,i tp l a y s f i ni m p o r t a n tr o l ei nt h e d e v e l o p m e mo ft h ef i f es c i e n c ea n db e c o m et h ef r o n t i e ro fl i f es c i e n c er e s e a r c h t h e c o r ei s s u ei nb i o i n f o r m a t i c si sg e n o m ei n f o r m a t i c sw h i c hi n c l u d e st h e o b t a i n i n g , p r o c e s s i n g ,s t o r i n g ,a s s i g n i n g a n de x p l a i n i n go ft h eg e n o m ei n f o r m a t i o n u s i n g c o m p u t e r sa n dn e t w o r ka st o o l s , b a s e do nt h em a t h e m a t i c a la n dp h y s i c a lt h e o r y , m e t h o d sa n dt e c h n o l o g y , g e n o m ei n f o r m a t i c ss t u d i e st h eb i o p o l y m e r si n c l u d et h e s e q u e n c e s ,s t n l c c t b r e sa n df u n c t i o n so fd n a a n dp r o t e i n t h ek e yi s s u ei n g e n o m e i n f o r m a t i c si st ou n d e r s t a n dt h em e a n i n go f 她o r d e ri nn u c t e o t i d es e q u e n c e s n a m e l y , t ou n d e r s t a n dt h ee x a c tl o c a t i o n so ft h eg e n e si nt h ec h r o m o s o m ea n dt h ef u n c t i o n so f t h ed n as e g m e n t s f u r t h e r m o r e ,i ts i m u l a t e sa n dp r e d i c t st h es e c o n d a r ya n dt e r t i a r y 列n m m 鹏o fp r o t e i nu s i n gt h eg e n o m ei n f o r m a t i o ni td i s c o v e r e d t h e s ea r ev e r y i m p o r t a n ti nt h er e s e a r c ho nd i s e a s eg e n eo f h u m a nb e i l l g ,t h ee x p r e s s i o na n df u n c t i o n o f g e n ea n dp r o t e i na n dt h ed e s i g n i n go f p h a r m a c y a l i g n m e ma n ds p l i c i n go fb i o s e q u e n c e s ,c l u s t e r i n go fg e n ee x p r e s s i n gd a t aa r et h e i m p o r t a n tt a s k si nb i o i n f o r m a t i c s b i o s e q u e n c e sa l i g n m e n tp l a y sa l l e s s e n t i a lr o l ei n s e q u e n c ea n a l y s i s , r e c o n s t r u c t i o no f p h y l o g e n e t i ct r e e s ,d e t e c t i n gr e g i o n so fs i g n i f i c a n t s e q u e n c es i m i l a r i t yi nc o l l e e t i o mo fp r i m a r ys e q u e n c e s ,m a dp r e d i c t i n gt h es e c o n d a r y a n dt e r t i a r ys t r u c t u r e s p l i c i n go fb i o s e q u e n c e si st h em o s ti m p o r t a n ta n de s s e n t i a lt a s k i nt h es t a g eo fg e n o m es e q u e n c i n g i ta s s e m b l e st h es m a l ls e g m e n t so b t a i n e db yt h e g e n o m es e q u e n c i n gi n t oo n e o rm o r el o n g e ra n dc o n t i n u o u so b j e c t i v es e q u e n c e s t h e b i c l u s t e r i n go ft h eg e n ee x p r e s s i n gd a t ai st oi d e n t i f ras u b s e to fg e n e sw h o s e e x p r e s s i n gl e v e l sr i s ea n df a l lc o h e r e n t l yw i t has u b s e to fe x p e r i m e n t a lc o n d i t i o n s b y t h eb i c l u s t e r i n g , t h eg e n e sw i t hi d e n t i c a lr e g u l a t o r yg e n ef i l ec l a s s i f i e di n t oo n ec l u s t e r , 扬州大学硕士论文 i ti sh e l p f u lt oa n a l y s i sa n di d e n t i f yt h ep r e s u m p t i v er e g u l a t o r ys i t e so ft h eg e n e s b e l o n g st ot h es a m ec l u s t e r i ns o l v i n gt h o s eb i o i n f o r m a t i c a lp r o b l e m s ,h i g hp e r f o r m a n c ec o m p u t e ri sr e q u i r e d s i n c et h e yo o u s b m e sl a r g ea m o u n to fc o m p u t a t i o nt i m ea n dm e m o r ys p a c e u n l i k et h e v e c t o rc o m p u t a t i o nw h e r et h ed a t as t r u c t u r ea n dd e p e n d e n c i e sa r er e g u l a rw h i c hm a k ei t e a s yt ob ep a r a l l e l i z e d , t h o s eb i o i n f o r m a t i c a lp r o b l e m sa r ee s s e n t i a l l yc o m b i n a t o r y o p t i m i z a t i o np r o b l e m sw h i c ha r cd i f f i c u l tt ob ep r o c e s s e di np a r a l l e l i nt h i sp a p e r , w e d e e p l yr e s e a r c ho np a r a l l e lp r o c e s s i n go f t h o s eb i o i n f o r m a t i ep r o b l e m s ,s e v e r a lp a r a l l e l a l g o r i t h m sa r ep r e s e n t e da n ds a t i s f i e de x p e r i m e n t a lr e s u l t sa r co b t a i n e d f i r s t , a nf a s ta l g o r i t h mf o rl c sp r o b l e mn a m e df a s t _ l c si sp r e s e n t e d t h e a l g o r i t h mf i r s ts e e k st h es l l e c e s s o l 瞎o f t h ei n i t i a li d e n t i c a lc h a r a c t e rp a i r sa c c o r d i n gt oa s 1 1 c e e s s o rt a b l et oo b t a i na l lt h ei d e n t i c a lp a i r sa n dt h e i rl e v e l s t h e nb yt r a c i n gb a c k f r o mt h ei d e n t i c a lc h a r a c t e rp a i ra tt h el a r g e s tl e v e l ,t h er e s u l to f l c sc a nb eo b t a i n e d t h e a l g o r i t h mc a na l s ob eu s e di ns o l v i n gm u l t i p l es e q u e n c e sa l i g n m e n t i nt h ep r o c e s s o f s e e k i n gi d e n t i c a lp a i r s ,t e c h n i q u e so fp r u n i n ga n ds k i p p i n ga r cu s e dt os p e e d u pt h e p r o c e s s e x p e r i m e n t a lr e s u l ts h o w st h a to u ra l g o r i t h mc a l lg e te x a c t l yc o r r e c tr e s u l t a n di sf a s t e ra n dm o r ee f f i c i e n tt h a no t h e rl c s a l g o r i t h m s s e c o n d , w ea l s od e e p l ys t u d yt h ep r o b l e mo f b i o s e q u e n c e ss p l i c i n ga n dp r e s e n ta n e f f i c i e n t p a r a l l e la l g o r i t h m ht h ea l g o r i t h mt h ec o n c e p to fs l l f i i xi n d e xw a s p r e s e n t e di n s t e a do fs u f f l xt r e e t h ea l g o r i t h mf i r s tc o n s t r u c t sas u f f i xi n d e xf o rt h e s e g m e n t so ft h eg e n es e q u e n c e s ,t h e nf o re a c hg e n es e g m e n tis e a r c h e si nt h es u f f i x i n d e xo f a l lo t h e rs e g m e n t s ,t of m dt h el o n g e s tm a t c h i n gs u f f i xi ns e g m e n t j s u p p o s e t h el e n g t ho fs u c hm a t c hi s 岛,ad i g r a p hi sb u i l tw i t hv e r t e x e sr e p r e s e n t i n gt h e s e g m e n t sa n d 岛r e p r e s e n t i n gt h ew e i g h to ft h ee d g el i n k i n gs e g m e n tia n d j t h e nt h e l o n g e s th a m i l t o nc i r c l ei sc o m p u t e db yp a r a l l e la n tc o l o n yo p t i m i z a t i o n a tl a s t , t h e s c h e m eo fs p l i c i n gi so b t a i n e da c c o r d i n gt ot h eh a m i l t o nc i r c l e s i n c et h ea l g o r i t h m u s e ss u f f i xi n d e xi n s t e a do fs u f f i xt r e e ,c o m p u t a t i o nl o a di sl a r g e l yr e d u c e da n di ti s m o r es u i t a b l ef o rp a r a l l e lp r o c e s s i n g s i n c et h ea l g o r i t h me x p l o i t st h e s t r o n g o p t i m i z a t i o na b i l i t y o fa n tc o l o n yo p t i m i z a t i o ni nt s ps o l v i n gt of i n dt h el o n g e s t h a m i l t o nc i r c l e ,i tr e d u c e sl a r g ea m o u n to fo p t i m i z a t i o nt i m e c o m p a r e dw i t ho t h e r s i m i l a ra l g o r i t h m s ,o u ra l g o r i t h mc a no b t a i nm o r ea c c u r a t er e s u l t sa n dh a sh i g h e r c o m p u t a t i o n a ls p e e da n de f f i c i e n c y f u r t h e r m o r e ,a f t e rs t u d y i n gt h ep r o b l e mo fg e n ee x p r e s s i n gd a t aa n a l y s i s ,a p a r a l l e lb i c l u s t e r i n ga l g o r i t h mi sa l s op r e s e n t e d b a s e do nt h ea n t i - m o n o t o n e sp r o p e r t y o ft h eq 砌i t yo ft h ed a t as e t sw i t ht h e i rs i z e s ,t h ea l g o r i t h ms t a t t sf r o mt h ed a t as e t s c o n t a i n i n go fe v e r yt w or o w sa n de v e r yt w oc o l u m n so ft h ed a t am a t r i x ,a n dg e t st h e f i n a lb i c l i l s t c r sb yg r a d u a l l ya d d i n gc o l u m n sa n dr o w so nt h ed a t as e t s b o t ht h et h e o r y a n a l y s i sa n de x p e r i m e n t a lm s u l t ss h o wo u ra l g o r i t h mh a ss u p e r i o r i t yo u ro t h e rs i m i l a r a l g o r i t h m si nt e r m so f p r o c e s s i n gs p e e da n dq u a l 埘o f c l u s t e r i n ga n de f f i c i e n c y t h er e s e a r c hw o r ki n v o l v i n gt h i s p a p e ra p p l i e s t h e t e c h n i q u eo fp a r a l l e l p r o c e s s i n go nb i o i n f o r m a t i cr e s e a r c l l ,a l lt h ep a r a l l e la l g o r i t h m sa r ec o d e du s i n gm p i ( cb o n d i n g ) a n dt e s t e do np a r a l l e lc o m p u t e rs h e n t e n g - 18 0 0 a l lt h ee x p e r i m e n t su s c b e n c h m a r kd a t as e t sr a n d o m l ys e l e c t e df r o mt h es t a n d a r db i o i n f o r m a t i c sd a t ab a s e e x p e r i m e n t a lr e s u l t ss h o w0 1 1 1 a l g o r i t h m sc a l ln o to n l yg e th i 曲e rp r o c e s s i n gs p e e d , b u ta l s oh i g h e rq u a l i t yo fr e s u l t s i td e m o n s t r a t e st h es t r o n gc o m p u t a t i o n a la b i l i t yo f p a r a l l e lc o m p u t e r si na p p l i c a t i o n sf o rb i o i n f o r m a t i cp r o b l e m s t h ed e v e l o p m e n to f e f f i c i e n tp a r a l l e la l g o r i t h m sf o rt h eb o i n f o r m a t i cp r o b l e m sw i l lg r e a t l yp r o m o t et h e r e s e a r c ho f b i o i n f o r m a t i c s 刘维 生物信息学中的并行处理 1 1 生物信患学 第一章引言 当前人类基因组研究已进入信息提取和数据分析阶段,这是基因组研究的转折 点和关键时刻,即生物信息学【l 】发挥重要作用的阶段。至1 1 9 9 9 年1 2 月1 5 日发布的第 1 1 5 版为止,g e n b a n k 中的d n a 碱基数目已达4 6 亿5 千万,d n a 序列数目达n 5 3 5 万:其中e s t 序列超过3 3 9 万条;u n i g e n e 的数目己达n 7 万个;已有2 5 个模式生物的 完整基因组被测序完成,另外的7 0 个模式生物基因组正在测序当中;n 2 0 0 0 年1 月 2 8 同为止,人类基因组已有1 6 的序列完成测定,另# 1 , 3 7 7 的序列已经初步完成: 同时功能基因组和蛋白质组的大量数据已开始涌现。如何分析这些数据,从中获得 生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。 生物信息学是在此背景下发展起来的综合运用生物学、数学、物理学、信息科 学以及计算机科学等诸多学科的理论方法的崭新交叉学科。生物信息学是内涵非常 丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配 和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体 上的确切位置以及各d n a 片段的功能;同时在发现了新基因信息之后进行蛋白质空 间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的调 控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类 疾病的诊断、治疗内在规律。它的研究目标是揭示基因组信息结构的复杂性及遗传 语言的根本规律,解释生命的遗传语言。生物信息学已成为整个生命科学发展的重 要组成部分,成为生命科学研究的前沿。 在国外,生物信息学的研究起步较早。美国在2 0 世纪6 0 年代就开始建立用 手工搜索的蛋白质数据库。1 9 7 9 年美国洛斯阿拉莫斯国家实验室开始建立核酸序 列数据库g e n b a n k ,现在由1 9 8 8 年成立的美国国家生物信息中心( n c b i ) 管理和维 护。1 9 8 2 年欧洲分子生物学实验室的e m s l 数据库开始提供服务,随后又建立了 欧洲分子生物学网( 喇b n e t ) 。1 9 9 4 年开始e m b l 数据库由建在英国剑桥的欧洲生 物信息研究所( e b i ) 管理。1 9 8 4 年日本着手建立国家级核酸数据库d d b j ,1 9 8 7 年 正式对外服务。目前绝大部分核酸和蛋白质数据由美国,欧洲和日本三家产生,以 2扬州大学硕士论文 上三家共同组成了d d b j e m b l g e n b a n k 国际核酸序列数据库,2 4 小时交换数据, 同步更新1 2 锕。其他国家如德国,法国,意大利,澳大利亚,丹麦,以色列等,在分 享网络资源的同时,还纷纷建立自己的生物信息中心,为本国的科研服务。 我国对生物信息学的研究始于2 0 世纪末,但已显露出蓬勃发展的势头,许多科 研单位已经开始或准备开始从事这方面的研究工作。1 9 9 9 年3 月,清华大学生物 信息研究所,国家人类基因组北方研究中心和北京生物技术和新医药产业促进中心 共同举办了“北方生物信息学学术研讨会”。1 9 9 9 年4 月,北京大学举办了“国 家生物信息学讲习班”。2 0 0 0 年1 1 月,中国科学院和华大基因中心举办了“北 京生物信息学研讨会”。目前北京大学生物信息中心建立了e m b l7 0 多种分子生物 信息镜像系统和数据库,并提供数据检索服务。有些数据库可以每日更新。在复旦 大学遗传学研究所,为克隆新基因而建立的一整套生物信息系统也已初具规模。中 科院上海生化所、生物物理等在结构生物学和基因预钡8 研究方面也有相当的基础。 中科院计算所作为我国计算机科学的顶尖机构,利用自身优势,也开始在生物信息 方面投入大量的人力物力,从事相关的研究。中国科学院上海生命科学研究所建立 了我国核酸序列公共数据库。广州中山大学生物信息中心开通了法国巴斯德亚洲信 息网。总的来说。虽然国内在生物信息学上的研究尚处于起步阶段,但我们有理由 相信,我国的生物信息学在2 l 世纪会有巨大的飞跃。 生物信息学的研究重点是从核酸和蛋白质序列出发,分析序列中表达的结构和 功能的生物信息删。从信息学的角度来看,生物分子是生物信息的载体,如d n a 核 苷酸序列对蛋白质氨基酸序列进行编码,蛋白质序列决定蛋白质结构,而蛋白质结 构又决定蛋白质的功能。归根到底,d n a 序列包含了最基本的生物信息。生物信息 学是生命科学和自然科学研究的重大前沿领域之一,它在人类疾病基因发现、基因 与蛋白质的表达与功能研究、合理化药物设计等方面都有着关键的作用。 1 1 1 d n a d n a 是安全地构建在我们细胞中的只读信息,它只能被读取,不能被写入。 而基因是d n a 分子上具有遗传效应的特定核苷酸序列的总称,基因信息就储存在 d n a 中【1 0 - 1 3 1 。 d n a 是由脱氧核苷酸组成的双链,两条链缠绕在一起形成双螺旋结构,螺旋 中的两条链平行且方向相反,我们称其中一条链的方向为5 , - * 3 ,而另一条链的方 向为3 ,一5 ,。 刘维生物信息学中的并行处理 d n a 的单链是由重复的基本单元一脱氧核苷酸组成的骨架,脱氧核苷酸由一 个称为脱氧核耱的糖分子和磷酸、碱基组成。与骨架中碳原子相连的分子为碱基 ( b a s e ) ,如图1 i 所示。不同的碱基决定了不同的核营酸。在d n a 分子中包含有 4 种碱基,分别是腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶,分别用字母a 、g 、c 、t 表示。 图1 i 核苷酸结构 d n a 分子是双链结构,两条链沿着同一根轴平行盘绕,形成右手双螺旋结构。 双链结合的机制是一条链的碱基与另一条链的碱基配对,碱基a 始终与碱基t 配对, 碱基c 始终与碱基g 配对,因此将它们称为互补碱基对,它是特异的和稳定的,其 结构模型见图1 2 。我们可以将d n a 视为字符序列,每一个字符代表一个碱基,将 一串字符置于另一串字符之上来表示双链d n a 。 图1 2d n a 双螺旋结构模型 组成d n a 分子的碱基虽然只有四种,它们的配对方式也只有a 与t ,c 与 g 两种,但是,由于碱基可以任何顺序排列,构成了d n a 分子的多样性。例如, 4 - 扬州大学硕士论文 某d n a 分子的一条多核苷酸链有1 0 0 个不同的碱基组成,它们的可能排列方式 就是4 啪。 上文提到的碱基配对的特异性是d n a 精确复制的基础。细胞分裂时,通过 d n a 准确地自我复制( s e l f - r e p l i c a t i o n ) ,亲代细胞所含的遗传信息就原原本本地 传送到子代细胞。d n a 在复制过程中碱基问的氢键断裂,双链解开,以每条链分 别作为模板合成新链。因此d n a 双嫘旋结构模型对遗传的分子机理产生了深远的 影响。 、d n a 是遗传信息的载体,d n a 序列上存储有蛋白质氨基酸序列的编码信息、 基因表达调控的信息以及遗传信息,所以,d n a 序列包含着最基本的生命信息。 遗传信息的载体主要是d n a ( 少数情况下核糖核酸r n a 也可以充当遗传信息载 体) ,控制生物体性状的基因实际上是一系列d n a 片段。基因控制着蛋白质的合成, 基因序列和蛋白质序列存在一种明确的对应关系,这种对应关系称为“遗传密码”。 1 1 2 蛋白质 蛋白质是构成生物体的最直接的元素,生物体之问的差异是直接由蛋白质的不 同所造成的。蛋白质几乎参与所有的生命活动,生物体的生长、发育、繁殖、遗传 等生命活动都离不开蛋白质,它是各种生命活动的物质基础。蛋白质包括很多种, 结构蛋白是组织的构成单元,酶是化学反应的催化剂,蛋白质的其他功能还包括氧 气运输和抗体防御等。 n b i h c a c o o h l r 图1 3 氨基酸通式 各种蛋白质水解后都产生氨基酸,所以氨基酸( a m i n oa c i d , a a ) 是组成蛋白质 的基本单位。每个氨基酸有1 个中心碳原子,记为c ,连接1 个氢原子( h ) ,1 个 氨基( n h 2 ) ,1 个羧基( c o o h ) 和1 个侧链( 鼬,正是侧链决定了氨基酸间的差异。 侧链可以是简单的氢原子,也可以是复杂的两个碳环,如图1 3 所示。 自然界存在的绝大多数蛋白质分子中的氨基酸有2 0 种,这些氨基酸之间可以 刘维 生物信息学中的并行处理 。 相互形成化学键,构成一个以牢固的氨基酸链为基础的复杂的三维结构体,即成为 蛋白质分子。表1 1 列出了最常见的2 0 种氨基酸 表1 1 氨基酸代码 符号意义符号意义符号意义 a丙氨酸 i异亮氨酸r精氨酸 一 c 半胱氨酸 7 k 赖氨酸 s 丝氨酸 d 天冬氨酸( l 亮氨酸 t 苏氨酸 e 谷氨酸 m 甲硫氨酸 v 缬氨酸 f 苯丙氨酸 n 天冬酰胺 w 色氨酸 g 甘氨酸 p 脯氨酸 y 酪氨酸 h 组氨酸q谷氨酰胺 x 任意氨酸 因此,我们可以将蛋白质同样看作字符序列,每一个字符代表一个氨基酸。这 种字符序列称为蛋白质的一级结构,可是蛋白质并不仅仅是氨基酸分子的线性序 列,实际上蛋白质在三维空间中折叠,形成如图1 4 所示的二级、三级和四级结构。 图1 4 蛋白质的各级结构 蛋白质分子在生物体内执行着各项重要任务,如生物化学反应的催化、营养的 输运、抗体防御、信号的识别与传递等。要了解蛋白质的功能必须首先分析蛋白质 的结构,因为蛋白质功能取决于蛋白质的空间结构,而蛋白质的空间结构取决于蛋 6 扬州人学硕士论文 白质序列,蛋白质的结构信息隐含在蛋白质序列之中。 1 1 3 r n a r n a ( 核糖核酸) 也是有核苷酸合成的链式分子,在化学结构上与d n a 有所 不同,r n a 的核苷酸由磷酸、戊糖和碱基组成,但r n a 的碱基是腺嘌岭( a ) 、鸟 嘌呤c o ) 、包嘧啶( c ) 和尿嘧啶( u ) 。r a q a 分为信使r n a ,核糖体r n a 和转 运r n a 等。各类r n a 分子中与遗传信息传递关系密切的是m r n a 。m r n a 经过剪切 修饰后,即可作为合成蛋白质的模版。r n a 在细胞外不稳定,一般以m r n a 为模版, 反转录得到互补的e d n a 以及双链d n a ,进行基因克隆和测序工作。进而得到其序 列。 r n a 与d n a 非常类似,但是在r i g a 的4 种碱基中使用u 代替d n a 中的t , r n a 中的核糖代替了d n a 的脱氧核糖。 r n a 同时具有某些d n a 和蛋白质的特性。因为和d n a 一样由核菅酸序列组 成,它与d n a 具有相同的信息存储能力。另一方面,r n a 能形成三维结构的能力 使得它具有和蛋白质一样的特性。由于r n a 的双重功能,人们猜想,生命可能起 源于r n a ,而d n a 和蛋白质都是后来进化而来的。 1 1 4 蛋白质合成 每个有机体的蛋自质都是由一部分基因编码合成的。信息从基因的核苷酸序列 中被提取出,用来指导蛋白质合成的过程对地球上的所有生物是相同的,分子生物 学家称之为“中心法则”如图1 5 所示。 、 嘲l d n a 翳求 := m r n a 逆转叠 翱i 芋 一盘r j 餍 圈1 5 分子生物学的中心法则 d n a 编码合成蛋白质的过程包括了“转录”和“翻译”两个重要步骤。为了 表达d n a 上的基因,m r n a 读取d n a 上的遗传信息,这个过程称作转录,r n a 聚合酶能够催化这个反应。d n a 上的遗传信息有内含子和外显子,所以最初转录 剃维生物信息学中的并行处理 7 形成的r n a 需分裂以除去内含子,除去内含子的成熟的m r n a 再翻译合成蛋白质。 由此可见,一切的物种核酸或蛋白质序列看作由4 个或2 0 个元素组成的字 母表中选出的字母序列,如: a t g t c c a a c g , g s s k y p r e t t 分别表示一条核 酸序列和一条蛋白质序列。生物信息就是成千上万条以字符序列形式存储核酸或蛋 自质序列,并以某些特定格式存放在各类生物数据库中。d n a 上核酸的特定序列 决定了生物体结构和功能( 包括蛋白质的种类、结构和功能) ,并以其半保留复制机 制,保证世世代代准确地传递下去。 蛋白质结构和功能都是由核酸根据三联体密码决定的,并在细胞内合成,它参 与生物的一切生命活动。因此,蛋白质决定了一个生物是什么和做什么,核酸则负 责编码产生蛋白质所必要的信息,并把这种信息传给后代。 作为信息的载体,d n a 序列和蛋白质序列都包含有进化信息。通过对相似蛋白 质序列的比较,可以发现分子进化的过程;通过对不同种属的同源蛋白质序列的比 较,可以分析蛋白质之间的种系发生关系,推测它们共同的祖先。 1 1 5 生物序列比对 有了完整基因组,人类对自身的认识就更为细致、更为精确,但是测序基因组 后,还必须对各种核酸和蛋白质序列进行序列分析,目的是了解这个序列在生物体 中充当了怎样的角色。例如,d n a 序列中的重复片段、编码区、启动子、内含子、 外显子、转录调控因子、结合位点等。 我们可以通过对序列之间相似性比较来推断不同物种之问的进化关系。如果两 个序列具有足够的相似性,则可以认为两者具有同源性,那么它们的生物性状会存 在很大的相似性,如果我们知道其中一个物种的基因序列所决定的生物功能信息, 就可以推断另一个物种的基因序列所决定的生物功能信息。 因此,将未知序列同己知序列进符比较分析,进而了解未知序列的生物信息的 方法己成为一种强有力的研究手段,这使得我们可以从核酸以及氨基酸的层次上去 分析序列的相同点和不同点,从而推测它们的结构、功能以及进化上的关系。最常 用的比较方法是序列比对。 序列比对的目的是求出给定的序列对的之间距离,从而为诸如d n a 分类,聚类, 蛋白质的二级结构预测和生物进化树的创建打下基础,提供了一个相似性度量的基 本工具1 1 4 j 。最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较 两个序列之间的相似区域和保守性位点,可以寻找二者可能的分子进化关系。进一 8 扬州大学硕七论文 步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共 同的保守区域、位点和特征,从而探索导致它们产生共同功能的序列模式。此外, 还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架,把蛋白质序 列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。 实际上序列比对就是运用某种特定的数学模型或算法,找出两个或多个序列之 问的最大匹配碱基或残基数。早期的序列比对是全局的序列比较,但由于蛋白质具 有的模块性质,可能由于外显子的交换而产生新蛋白质,因此局部比对会更加合理。 通常用打分矩阵描述序列两两比对。两条序列分别作为矩阵的两维,矩阵点记录两 个维上对应的两个残基的相似性分数,分数越高则说明两个残基越相似。因此,序 列比对问题变成在矩阵里寻找最佳比对路径,目前最有效的方法是 n e e d l e m a n w u n c h 动态规划算法,在此基础上又改良产生了s m i t h - w a t e r m a n 算法和 s i m 算法。 从一次性参加比对的序列的数目考虑,序列比对可分为双序列比对和多序列比 对。双序列比对是为了找出两个序列之间的最大相似性匹配,用于对两条序列进行 同源性分析,是多序列比对和数据库搜索的基础。动态规划算法是最为经典的双序 列比对算法。 多序列比对可以用来区分一组序列之间的差异,或者描述一组序列之问的相似 性关系,以便了解一个基因家族的共同特征,以及定量估计序列间的关系,由此推 断它们在进化中的亲缘关系。例如。某些在生物学上有重要意义的相似性只能通过 将多个序列对比排列起来才能识别。同样,只有在多序列比对之后,才能发现与结 构域或功能相关的保守序列片段。对于一系列同源蛋白质,人们希望研究隐含在蛋 白质序列中的系统发育的关系,以便更好地理解这些蛋白质的进化。在实际研究中, 生物学家并不是仅仅分析单个蛋白质,而是更着重于研究蛋白质之间的关系,研究 一个家族中的相关蛋白质,研究相关蛋白质序列中的保守区域,进而分析蛋白质的 结构和功能。序列两两比对往往不能满足这样的需要,难以发现多个序列的共性, 必须同时比对多条同源序列。但是,多序列比对的计算量非常大,传统的动态规划 算法在三个以上的序列院对当中很难实现,般采用渐进式算法或迭代算法。 序列比对的基础是找出序列问的最长公共子序列。最长公共子序列( ( l o n g e s t c o n u n o ns u b s e q u e n c e ) l c s ) 是将两个给定字符串分别删去零个或
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 沉箱码头施工方案
- 室内电缆敷设施工方案
- 2025年东师复试化学试题及答案
- 2025年高职数据库试题及答案
- 5年级下册英语第1第2单元单词跟读
- 5年级上册第5单元摘抄
- 灯泡温度与电阻的关系式
- 地下车库 行政复议申请
- 机械合同的施工方案
- 2025年合肥信息技术职业学院单招职业适应性测试题库学生专用
- 少儿财商教育讲座课件
- 医院医用耗材SPD服务项目投标方案
- 2025年保密知识试题库附参考答案(精练)
- 全国普通高等学校2025届高三第二次调研数学试卷含解析
- 南昌起义模板
- “互联网+”大学生创新创业大赛计划书一等奖
- 2024年10月高等教育自学考试13015计算机系统原理试题及答案
- GB/T 3324-2024木家具通用技术条件
- 2024秋期国家开放大学本科《古代小说戏曲专题》一平台在线形考(形考任务4)试题及答案
- 血吸虫病知识宣传讲座
- 诗经的课件教学课件
评论
0/150
提交评论