(有机化学专业论文)基于数据库的取代基选择分子设计.pdf_第1页
(有机化学专业论文)基于数据库的取代基选择分子设计.pdf_第2页
(有机化学专业论文)基于数据库的取代基选择分子设计.pdf_第3页
(有机化学专业论文)基于数据库的取代基选择分子设计.pdf_第4页
(有机化学专业论文)基于数据库的取代基选择分子设计.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(有机化学专业论文)基于数据库的取代基选择分子设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab s t r a c t t h e a v a l p a c k a g e d e v e l o p e d i n o u r l a b i s a v i r t u a l c o m b in a t o r i a l e n u m e r a t o r t h a t g e n e r a t e s l i b r a r i e s a t v a r i o u s s c a l e s b y a l t e r i n g s u b s t i t u e n t s o n g i v e n s k e l e t o n s . h o w e v e r , t h e f o l lo w in g s t e p o f v ir tu a l s c r e e n i n g t u rn s t o b e a v e ry c h a l l e n g i n g t a s k b e c a u s e t h e c o n v e n t io n a l a p p r o a c h e s s u c h a s d o c k i n g c a n n o t b e a p p l i e d e f f i c i e n t l y f o r l a r g e s c a l e a n d d i v e r s e li b r a r ie s o f li g a n d s , a s t h e y b a s e d a r e t i m e - c o n s u m i n g c o m p u t a t i o n a l a l g o r it h m s . i f t h e s u b s t it u e n t s t o t h e s k e l e t o n c o u l d b e p u r p o s iv e l y s e l e c t e d a h e a d o f t h e e n u m e r a t i o n , b o t h t h e s c a l e a n d o f t h e q u a li t y o f t h e e n u m e r a t e d l i b r a r y w o u l d b e m u c h m o r e s u i t a b l e f o r f u rt h e r s t u d ie s . f o r i n s t a n c e , t h e d e r i v e d s t r u c t u r e s fr o m t h e li b r a ry w o u l d p r o b a b l y i n t e r a c t w i t h t h e r e c e p t o r s in b e t t e r w a y s . p r o t e i n s a r e t h e m a i n r e c e p t o r s f o r li g a n d s o f d r u g m o l e c u l e s . i n p d b , t h e r e a r e o v e r 4 0 ,0 0 0 p r o t e i n c r y s t a ll i n e s t r u c t u r e s d e p o s i t e d . a m o n g t h a t , m o r e t h a n 3 0 , 0 0 0 a r e p r o t e i n - l i g a n d c o m p l e x e s . t h e s t r u c t u r e s o f t h e li g a n d s a r e a b o u t 7 , 0 0 0 a s i d e fr o m w a t e r . i n f o r m a t io n b e h i n d t h e i n t e r a c t i o n s b e t w e e n p r o t e i n s a n d l i g a n d s , e s p e c i a l l y fr o m t h e d ir e c t l y i n t e r a c t e d s u b s t it u e n t s fr o m li g a n d s a n d t h e r e s id u e fr o m p r o t e i n s , is v e ry u s e f u l f o r d r u g d i s c o v e ry s t u d i e s . h e r e , a n e w m e t h o d i s p r o m p t e d b a s e d o n s t a t i s t i c a l i n f o r m a t i o n i n s t e a d o f c o n v e n t io n a l c o m p u t a t i o n . s s d i , s h o rt n a m e f o r s u b s t i t u e n t s s e le c t i o n b y d a t a b a s e i n f o r m a t i o n , is t r y i n g t o h e l p s e l e c t b e t t e r s u b s t i t u e n t s f o r g iv e n s k e l e t o n s . t h e r e a r e s e v e r a l d a t a b a s e s s u c h a s ms ds i t e d e r i v e d fr o m p db a r e a c c e s s i b l e a n d a v a i l a b l e f o r s t a t i s t i c s i n o r d e r t o f i n d o u t w h a t k i n d s o f s u b s t i t u e n t s a p p e a r m o r e fr e q u e n t l y t o i n t e r a c t w i t h g i v e n r e s i d u e s . c e rt a i n ly , i t is a ls o a v a i l a b l e t o 由t h is i n r e v e r s e . t h e h i g h e r t h e fr e q u e n c y , t h e h i g h e r t h e p o s s ib il i t y t h e s p e c i f i c s u b s t i t u e n t s i n t e r a c t s w i t h t h e g i v e n r e s i d u e s b e t t e r . t h e r e f o r e , s s d i a n s w e r s t h e q u e s t io n i n t h e m a n n e r o f i n f o r ma t i c s o n h o w t o s e l e c t t h e s u b s t i t u e n t s . mo r e o v e r , s s d i i s fl e x i b l e a s a w o r k i n g d i a g r a m o t h e r t h a n a c h e c k i n g li s t . n o t o n l y c a n it s p l i t s g i v e n l i g a n d s t o d e t e r m i n e p o s s i b l e s u b s t i t u e n t s , b u t a l s o c a n it a c c e p t u s e r - d e f in e d s u b s t i t u e n t s . a n e x a m p l e is d e m o n s t r a t e d b y a p p l y i n g s s d i t o s a q u i n a v 玩a n h i v - 1 p r o t e a s e , a s a s e e d f o r d e t e r m i n i n g s u b s t it u e n t s , a n d t h e n u s i n g t h e i n f o r m a t io n d a t a o n t h e s e s u b s t i t u e n t s t o c o m p a r 吨 t h e i r a p p e a r a n c e i n 6 k n o w n li g a n d s f o r p p a r y . s s d i is d e v e lo p e d u s i n g c / c + + , p e r l a n d m y s q l o n t h e l i n u x p l a t f o r m . k e y w o r d s : v ir t u a l c o m b i n a t o r i a l c h e m i s t r y ; s u b s t it u e n t ; r e s i d u e ; f r e q u e n c y ; i n t e r a c t i o n 第一章前言 第一章 前言 第一节 药物发现发展的历史和展望 药物发现的历史大体上分为天然药物发现,化学药物发展和药物分子设计 三个主要时 期(11 . 前两个 阶段属于 传统的 药 物 研究, 缺乏具 体的 理论 指导, 完 全 是靠实验或者是依靠人们偶然地发现,筛选药物,有很大的盲目 性。药物学家 梦想着能像设计建筑物那样来理性而合理地 “ 设计”药物,使药物设计能向着 有的放矢的方向 进行。随之计算机技术的发展和生物技术的成熟, 近十几年的 药物设计主要是“ 药物分子合理设计” 形成期, 经历了“ 药物定量设计期” 、 “ 药 物分子模拟设计i 期”一一分子结构模拟、 “ 药物分子模拟设计i ( i 期”一一药物 一靶相互作用模拟、 “ 药物分子模拟设计 i i i 期”一一药物吸收、分布、代谢、 消 除 和 毒 性 12 1 ( a b s o r p t io n , d is t ri b u t io n , m e t a b o li s m , e li m in a t io n a n d t o x ic it y , a d m e t ) 模拟四 个阶段。 近5 0 年, 化学信息学、生物信息学、结构生物学、 和结构蛋白学的研究有 了突破性进展,信息技术的革命性发展为生命科学的研究注入了 动力,同时生 命科学的 要求也促使信息技术有了更快的发展。 2 0 0 0 年6 月2 6日 , 人类基因组 “ 工作框架图”绘制完成就是计算机技术和生命科学技术的完美结合。近年来 针对药物体内生物运转与代谢的生物学过程,进行了大量的药物分子计算机模 拟设计的研究,建立了一系列药物吸收、分布、代谢、消除和毒性模拟设计与 预测的方法和软件, 逐步建立起模拟药物分子在生物体整个过程的药物设计体 系,使药物分子设计更具针对性。随着结构蛋白组学的大发展和测试技术的发 展,许多与疾病相关的靶标被确认和分离出来,并得到了其三维结构乃至药物 与靶标复合物的三维结构,使药物学家能够更好的分析药物和靶标分子的实际 作用 情况, 为药 物分子的 模拟 设计奠定了 基 础。 如4 一 肌基n e u 5 a c 2 e n ( g g 1 6 7 , r e l e n z a )是抗a型感冒 病毒药物,该化合物有很强的抗感冒 病毒能力, 克服了 以 往抗感冒 病毒药物的 耐药性缺陷具有很好的市场前景。它是由v o n i t z s t e i n i3 1 等以 神经氨酸酶作为靶标,以 氨为探针分子, 用g r i d 4 程序搜寻神经氨酸酶结 第一章前言 合位点,发现用肌基取代抑制剂n c u 5 a c 2 e n 的4 - 轻基, 有利于活性的提高而发 现的。 2 1世纪是生命科学取得重大突破的时 代,药物设计这门 学科现己成为以生 命科学为主,以化学和信息学为辅的交叉学科。以前的药物多数是凭经验和运 气设计发现的,通常是先发现新药后研究其作用机制和作用靶点,再对其进行 优化设计。而现在的药物很多是基于药物作用的靶点设计出来的,因此必须首 先确认疾病相关的基因和靶点,再进行新药设计研究。 从蛋白 质到先导化合物, 再对先导化合物进行优化和评估是一个循环反复,螺旋上升的过程。目前,已 知的靶标分子有大约 5 0 0个,随着人类基因 组计划的 完成, 保守估计可用药物 靶标大概有5 ,0 0 0 个, 为目 前的1 0 倍 1 。 如果能 够充分 利用 和挖掘 这些靶标, 针对这些靶标进行开发,就可以研制出更多的药物,更好的造福人类。同时, 这些药物靶标也将会促进科研机构和药物公司加大资金投入,药物研究很快将 会出现 “ 第二次革命” , 一个天然药物大发现, 合成药物大提高,药物设计大发 展的鼎盛时代即将到来。 第二节 中国药物设计的发展 在当今发现新药越来越困难的情况下,因为现代制药技术的应用,使世界 每年首次上市的新药仍然能 够保持在4 0 - 5 0 个 左右, 其中日 本约占1 / 3 ,美国约 占1 / 3 ,欧洲约占1 / 3 . 我国虽然在实施了诸如药品专利和行政保护等政策后,重视与加强了创新 药物的 研制, 但力度太小, 投入太少, 短期内 难以见到成效。 上世纪9 0 年代上 市的 药物仅有2 个, 所占 比 重极低 间 。 当 前, 我国 的药 物研究面临 着十 分严峻地 考验,缺乏自己独立的知识产权,绝大部分药物都是仿制产品,产品的附加值 很低。产品附加值低造成医药企业的研发投入也很少,这就反过来导致具有自 主知 识产权的 药 物很少, 形成 恶性循环 7 . 8 1 从新药开发方法上来说,目 前,我国密切注视国际上新药研究开发的新近 展, 积极吸收先进的技术和方法。中科院上海药物所的陈凯先院士,蒋华良 教 授领导的计算机辅助药物设计课题组在药物设计方面居于国内 领先的地位,做 出了很多有影响力的成果。在新药的开发上,这几年也取得了一些进展。如上 第一章前言 海药物所的朱大元教授等人开发的抗早老性痴呆新药 z t 1 ,就有望登陆欧洲市 场19 1 . 第三节 当前药物设计的主要方法 药物设计方法有传统的“ 药物经验设计法”和现代的“ 计算机辅助分子设 计法” 。传统药物设计从总体上来讲,缺乏成熟完善的发现途径,具有很大的盲 目 性和偶 然性, 一 般平均要筛 选 1 0 , 0 0 0 种 化合物以 上 才能 得到一 种新药 h l , 因 此开发效率很低,很难迅速得到合适的 新药。而现代药物的开发主要经过以 下 的几个阶段:( 1 )选择具有潜在药物活性的分子;( 2 )合成该药物分子; 5 0 0 5 0 0 f 2 0 0 2 0 0 f 1 0 0 1 仪卜地 5 0 印 凡 2 0 2 0 f ?1 0 1 0 f 3 , 0 4 6 表2 .3出现次数前7 0的碎片 n o f i n g e r p r i n t 节- 1 26 00 000 1 6 00 0001 6 60 .3 8 1 0 7 9 .决 岌 1 3 9 4( 1 8 . 8%) h o ,了 护 声 /o h ph 9 8 5 ( 1 3 . 3%) 747078059 曰曰曰日0 7 0030 01 0 2 1 00 3200 5 0 . 2 9 4 61 01 0 000 3 00011 004 0 . 1 8 3 8 9 3 ( 1 2%) 第二章 系统的构建 n o f in g e r p r i n t 8 202 000 0 4 1 00 21 00 5 0 . 2 9 6 叭 me s p e r c e n 妞 半 8 8 0 7 7 9 ( 1 0 . 5%) 82000000 00000004 0么) 9 h 3 c -c h 3 7 4 2( 8 . 2 5%) 1 0212000 6 01 003300 60 . 4 5 6 4 7 7( 6 . 2% a ) l361 64 61110000 7 1 0112004 0 . 1 9 2 4 7 4 4 5 0 ( 6 . 0 6%) n h 2 6255 33 1 1 300000 00 000 000 50 . 3 5 3 71100000 00012004 0 . 2 1 3 9 8( 4 . 8 7 %) n h 2 3 7 7( 4 . 7 8%) 1 5403000 1 0 00003215 60 . 9 6 1 3 7 3 3 6 6 ( 4 . 9 3 % a ) 1 5550000 1 1 1 00 0033 2 970 . 7 4 1 3 0 0 2 9 3 ( 3 . 9 4%) 2 0 第二章 系统的构建 n o f i n g e r p r i n t s t r u c t u re t i me shr c e n t a 半 1 4402000 1 2 000 021 1 5 60 . 6 9 4 2 6 8 2 6 8 ( 3 . 6 1 %) 1 36 01 000 1 3 600 011 1 6 70 . 5 0 8 2 6 3 2 4 3 ( 3 . 2 7%) 30010000 1 4 00 01 20 03 0 . 0 8 2 2 /。 ( 2 . 8 3%) 9 21 1 0000 1 5 1011 2005 0 . 3 2 8 2 1 0 2 1 0 1 9 1 1 8 4( 2 . 4 8%) 1 7 6 ( 2 3 7%) ( 2 . 2 5%) 675830 ,二月ij.1 8872 1 9 5 04 000 1 6 0000431 6 71 . 2 8 1 7 肠36 ,1,几 1 8 7 201 00 00 1 001 0004 0 . 1 8 9 71 2 000 00 1 001 3005 0 . 2 3 3 , zn / / 、 、 n , 2 ( 2 . 1 3%) 1 86 0 0000 1 9 00000016 60 . 8 1 2 ( 1 . 7 5%) 2 1 第二章 系统的构建 n o f i n g e r p r i n t t i me s p e r c e n t a g e 1 1 51 0 00 0 2 0 6 00 01 01 6 60 . 3 5 4 1 2 7 1 2 2 ( 1 . 6 4 %) 011111111 600 301 00 2 1 20032004 0 . 2 1 7 h s o h 1 0 8 ( 1 . 4 5%) 1 27 00 000 2 2 60000016 60. 3 6 5 1 1 9 ( 1 . 6%) 2624 1 81 00000 2 3 01 1 00000 21 080 . 7 1 1 2 2 1 1 1 ( 1 . 4 9%) hn 1 5522000 2 4 62002216 70 . 7 4 6 1 1 9 1 1 8 ( 1 . 5 9%) 6002001 0 2 5 1 0021 004 0 . 1 7 1 1 5 1 0 7 ( 1 . 4 4%) 2 2 第二章 系统的构建 n o f i n g e r p r i n t 1 5 me s o 1 65 51 000 2 6 1 01 00 34 2 980 . 8 8 3 hn 1 1 4 1 1 1 ( 1 . 4 9%) h 2 n h nh 9201 0000 2 7 00 01 1 005 0 . 3 2 2 oh 1 1 1 1 0 8 ( 1 .4 5%) 0902 曰.几j.二 1 24 22 000 2 8 62 00 2216 60 . 5 6 2 1 0 9 ( 1 . 4 7%) 1 2600000 2 9 60000016 60 . 4 7 7 1 0 1 ( 1 . 3 6%) 93000000 3 0 10000005 0. 2 4 3 洲 夕 1 0 2 9 5 ( l 2 8% a ) 1 6810000 3 1 1 0000012 970 . 6 5 3 1 0 1 9 7 ( 1 . 3 1 %) 3 2 61 0001 0 0 00001004 0 . 1 1 8 1 0210000 000011 00 50 . 3 4 3 - - sh9 5 9 2 ( 1 . 2 4%) 3 3 h /n 9 2 9 0 ( 1 . 2 1%) 2 3 第二章系统的构建 1 5702000 3 4 61 002116 90 . 6 5 1 8 9 8 7 ( 1 . 1 7%) 1 44 00000 3 5 00000000 50 . 5 2 3 8 5 8 2 ( 1 . 1%) 1 57 20000 3 6 1 000011 2 970 . 6 2 1 8 4 6 6 ( 0 . 8 8 8%) 12洲.2 811 00000 3 7 00003004 0 . 2 7 4 -n h 2 8 4 7 7 ( 1 . 0 4%) 3 8 401 00000 00013003 0 . 0 9 8 2 h e n / h ! 8 3 8 3 ( 1 . 1 2%) 3 9 41010000 10010003 0 . 0 7 9 6 o 。火、 8 2 8 1 ( 1 . 0 9%) 31010000 4 0 1 0010003 0 . 0 4 8 5 8 2 8 2 ( 1 . 1%) h 2 n hn 1 3431000 4 1 61 00231 6 70 . 6 0 9 8 1 8 1 ( 1 . 0 9% a ) 2 4 第二章 系统的构建 n o f i n g e r p r i n t s t r u c t u ret i me s p e r c e n t a g e 1 7 51 0000 4 2 00001116 60 . 7 9 8 7 9 7 8 ( 1 刀 5%) 7 01 201 0 0 4 3 20033004 0.2 5 n h , 7 8 7 8 ( 1 . 0 5%) 。115-”。 40010000 4 4 00013003 0 . 1 3 8 h 3 0 7 8 3 1 ( 0 . 4 1 7%) 1 1 3 02000 4 5 01 0021 00 6 0 . 4 5 4 6 9 6 9 ( 0 . 9 2 9%) h o r n 尹 1 461 2000 4 6 61 002016 70 . 5 4 2 6 8 6 7 ( 0 . 9 0 2%) 30100000 4 7 0001 2003 0 . 0 5 7 5 6 8 6 8 ( 0 . 9 1 5%) 1 5700000 4 8 60000016 70 . 5 4 3 6 6 6 4 ( 0 . 8 6 1 %) 2 5 第二章 系统的构建 n o f i n g e r p r i n t s t r u c t u re 节 n t s p e r c e n 臼g e 62000000 4 9 10000004 0 . 1 2 3 6 5 6 4 ( 。8 6 1%) 711 200 00 5 0 1 01 22005 0. 2 7 8 6 4 6 4 ( 0 . 8 6 1%) 1 431 0000 5 1 000001 00 50 . 5 9 4 n / 6 1 5 9 ( 0 . 7 9 4%) 1 240000 0 5 2 01 0 000 00 50 . 3 8 8 6 1 5 8 ( 0 . 7 8 1%) 1 3540000 5 3 1 000031 2 9 70 . 5 5 7 5 7 5 7 ( 0 . 7 6 7%) 93200005 5 4 000111 55 0 . 3 1 5 7 5 7 ( 0 . 7 6 7%) 1 5611 000 5 5 6 000 211 6 70 . 6 5 3 5 7 5 7 ( 0 . 7 6 7%) 81200000 5 6 10004005 0 . 2 9 6 h n h 2 _/1 t n一 4 9 ( 0 . 6 5 9%) 2 6 第二章 系统的 构建 n o f ing e r p r i n t s t r u c t u r e t i m e s p e rce n t a g e 92 030 000 5 7 1 0 032 006 0 . 4 2 4 9 4 6 ( 0 . 6 1 9%) 。115-“。 50 0201 00 5 8 20 022 003 0 . 1 1 7 4 6 4 6 ( 0 . 6 1 9% x ) 1 28 00000 5 9 60000016 60 . 3 4 8 4 5 4 5 ( 0 . 6 0 6%) 1 4610000 印60000216 70 . 5 4 5 4 4 4 2 ( 0 . 5 6 5%) 1 8503000 6 1 00003216 71 . 0 9 4 3 4 1 ( 0 . 5 5 2%) 1 2600000 6 2 6000001 6 60 . 3 6 6 4 2 4 1 ( 0 . 5 5 2%) 9211 0000 6 3 1 0111 005 0 . 3 2 4 1 4 0 ( 0 . 5 3 8% x ) 2 7 第二章系统的构建 n o f i n g e r p r i n t 940001 05 码000001 55 0 . 2 3 1 s t r u c t ureti me s p e r c e n t 吸 e 4 1 4 0 ( 0 . 5 3 8%) 6002 0000 6 5 00022005 0 . 2 2 1 3 8 3 8 ( 0 . 5 1 1%) h o b /o h 3 6 3 5 ( 0 . 4 7 1%) ph二0 6003001 0 6 6 1 0031004 0 . 2 1 1 o 1 4541000 6 7 1 01 00 322 970 . 6 8 5 nh hn 3 5 3 5 ( 0 . 4 7 1 %) nh 8121 0000 6 8 1 021 4005 0 . 3 3 1 3 4 3 3 ( 0 . 4 4 4%) 1 0420000 6 9 60002016 60 . 3 2 8 3 4 3 4 ( 0 . 4 5 8%) 1 9 611 000 7 0 01 011016 70 . 9 6 2 3 3 3 3 ( 0 . 4 4 4%) 2 8 第二章系统的构建 第三节 g ma子结构匹配 2 . 3 . 1 化学结构在计算机中的存储 为了使计算机能够处理化学结构,众多化学结构计算机编码方法被发展起 来了。 这些化学结结构编码方法大体上分为两类(6 6 1 :一个是指其拓扑结构 ( t o p o lo g ic s t r u c t u r e ) , 另 一 个是 指分 子的 几 何 结 构 g e o m e t r ic s t r u c t u r e ) . 拓扑 结构表示的是分子内 原子之间的通过化学键建立的连接关系以 及它们的空间 位 置。 拓扑结构的研究对于利用计算机进行谱图 解析、 建立构效关系、设计合成 路线和功能分子等是非常重要的。分子的几何结构一般可以通过直角坐标、晶 体坐标和分子内坐标来表示, 往往是采用x射线或者中子衍射的方法得到分子 的三维结构,能够准确地得到原子的种类和位置。 分子结构 ( 拓扑结构)在计算机内部的存储和表达方法最常用的有两类: 线性表示法和联接表表示法: 线性表示法 ( l i n e a r n o t a t io n , l n ) 法是由 字母和数字按章一定的规则组成 一串符号来代表分子的拓扑结构,比较有代表性的有:碎片码 ( wi s w e s s e r l in e a r n o t a t io n , w l n ) 16 71 . s m i l e s( s im p l ifi e d m o l e c u la r i n p u t l in e e n t r y s e p c i fi c a t io n ) 编码法 16 8 . 6 9 1 。 如 表2 .4 : 表2 .4 wl n和s m n . e 表示法举例 联接表 ( c o n n e c t io n t a b l e , c t ) 是m o o r e s 7 0 在1 9 5 1 年首次提出的, 广泛 的 用在许多计 算机辅助 有机合成( c o m p u t e r a s s is t e d o r g a n i c s y n t h e s i s , c a o s ) 系统中, 如l h a s a ( 1 a 2 1 . 联接表的 基本形式是对分子中的每个原子 ( 包括原子 的各种属性,如电 荷) 和每个化学键都设置一 项记录。 分子中除氢外的每一个 原子都有一个原子表项。一个原子表项包括原子类型,邻接原子及连接键的类 型。同样在分子中的每一个键也有一个键表项,包括对此键的标识 ( 键的编号, 类型,以及键所连的原子编号) 。常见的部分联接表文件类型如表2 .5 所示: 第二章 系统的构建 表2 . 5部分常用联接表文件类型 e x t e n s i o n f i l e t y p e s o f t w a re旧a t a b a s e mo i ( mo l e c u l e ) s k c ( s k e t c h ) c i f ( c r y s t a l l o g r a p h ic i n f o r m a t i o n f i le ) p d b ( p r o t e i n d a t a b ank ) mo u( mo i . e c u l e 2 ) ge n e r al i s i s / d r a w c a m b r i d g e s t r u ct u r a l d a t a b a s e b r o o k h a v e n p r o t e i n da t a b a n k t r i p o s / s y b y l text既如翻text 分 子联接表可以 用图 ( g r a p h ) 的 形 式表达, 把原 子看作图的 节点,原子之 间的键看作图的边。图在计算机中的储存方式主要有两种:邻接矩阵和邻接表 方法。 邻接矩阵将图的结构以nx n的矩阵表达, n代表的是分子中原子的数目 , 每个矩阵存储的是图中两个节点之间的连接关系。与邻接矩阵不同,邻接表使 用嵌套的线性链表来存储节点的邻接边。因为有机分子中每个原子的 邻接度一 般小于5 , 如果用邻接矩阵来表示分子结构, 将导致高度稀疏的对称矩阵, 因此, 本系统选用的是存储方式是邻接表。 本系统在数据库和文件中的存储采用的 联接表法, 具体应用到了m o l . p d b 等文件格式, 在 c语言程序中,当 把化学结构读入内 存以对之进行操作时,程 序采用链表的方式表达分子结构。 表2 . 6 分子联接表表示示例 u n t i tl e d. - ch自 口dre v0 511 0 7233 52 1 ) 70 0 0 0 0 0 0 09 9 9 v20 0 0 - 0. 3 5 7 2 0. 6 1 8 8 0. 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -0. 3572 - 0. 2 0 6 2 -0. 61 88 0. 000 0 c 0 0 0 0 0 0 0 0 0 0 0 0 0. 35720. 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -1. 071 7-0. 618 80. 0000 c 0 0 0 0 0 0 0 0 0 00 0 -1. 7862-0. 20 620. 0000 c 0 0 0 0 0 0 0 0 0 0 0 0 1. 071 7-0一 2 0620. 00 0 0 c 0 0 0 0 0 0 0 0 0 0 0 0 1. 7 86 2- 0. 61 8 80. 0 00 0 0 0 0 0 0 00 0 0 0 00 0 1 2 2 00 0 2 3 1 00 0 21 00 0 3 0 第二章系统的构建 4 5 1 0 0 0 3 6 1 0 0 0 6 7 1 0 0 0 翻e nd 4 6 2 0 5 7 2 0 6日1 0 7,1 0 日9 1 0 材e臼d 再如: 联接表 ( yo l 2 ) m o l e c u l e a a ti tl a d. mo 1 2 7 7 0 0 0 5 创几 毛l 口 几名teiger e n e r g y . 0 ligligligligligliglig 立111111 e a t o n 1 c- 1 . 0 7 1 7 2 c -1. 071 7 3 m - 0. 3 5 7 2 4 c 0. 3 5 7 2 5 c0. 3 5 7 2 c- 0. 3 5 7 2 7 c 1. 0 717 0. 41 25 0. 0 00 0 c. 口 r - 0. 412 5 0. 0 000 c. - - 0. 82 50 0. 0 000 m. a r -0. 41 25 0. 0 00 0 c. a r 0. 41 25 0. 0 0 00 c. a r 0. 82 5 0 0. 0 0 00 c. a r 0. 82 5 0 0. 00 00 c. 3 0. 0 2 0 4 0. 0 9 8 9 - 0. 2 4 2 6 0. 0 9 4 6 -0. 0 027 - 0. 00 11 0. 03 2 7 . 邻接度 ( q g ) 第二章系统的 构建 子结构匹 配 算 法大致 可以 分为 三类 17 4 1 : 回 溯法( b a c k - t r a c k i n g ) , 1 9 5 7 年 提 出 的r a y a n d k i r s h 算 法 7 5 1 、 划 分 一 松 弛 法( p a rt it io n in g a n d r e l a x a t io n ) , 如1 9 6 5 提 出 的s u s s e n g u t h 算 法 7 6 1和 筛 分 法( s c r e e n in g ) t l e 本系统采用的g m a算法就是用的回溯法, 回溯法减少了匹配的盲目 性, 从 而也大大降低了最坏情况的发生。其在数学上是完善的,只要算法足够强,总 能给出正确的结果。 基本思想是: 首先任意选择提问图 ( q g , 含m个节点)中 的 一个点q 1 作初始点, 在目 标图( t g , 含n 个节点, n m ) 中寻找 其匹 配点t 1 若 成 功, 则 在t i 的 邻 接点( t 2 , t 3 . ) 中 寻 找q 1 邻 接 点( 够、 够. ) 的 匹 配 点 , 否则另外选取一个点作为初始点。匹配成功后, 算法沿着匹配点的邻接点继续 进行;每当匹配不成功时, 算法都将回 溯到上一个匹配成功的点,尝试另外的 邻接点 对, 若所有的 邻接点都已 尝试, 则 继续回 溯, 如果 最后回 溯到 初始点q 1 而q 1 的 所有邻接点 都已 尝 试, 则选取其他q g节点 作初 始点 启动算法, 如果 此 时所有q g节点都己 作过初始点, 则算法结束标明q g与t g不匹配。 反之, 如 果在这个查找过程中q g的 所有节点都已 经找到匹配点, 则标明q g与t g全结 构匹配 ( 若m =n )或子结构匹配 ( 若m n ) o 2 .3 .2 .2 g m a算法介绍 g m a算法是1 9 8 9 年由 徐峻提出的一种以 提问图结 构信息为指导的基于联 接表的回 溯算法5 7 1 。 在本系统的 实现中 稍 有不同, 采用的 是 递归的 方 法。 该算法包括两个步骤: 第一步:深度优先遍历提问图q g ,得到提问图的偏序集p o s . 第二步:以 提问图的p o s 为指导, 在目 标图t g上行走,若行走成功,则 两图是全匹配或子结构匹配,并输出相互匹配的点对,但是还要继续行走,以 确定剩余分子结构中是否还包括查询子结构。 因为g m a算法仅在一开始访问一次q g获得p o s ,以后便用p o s 为指导 在t g上行走, 不再与q g打交道, 因此特别适合于大型结构数据库的 搜索。 也 因为这个原因,在设计时并没有把三个函数整合为一个,以得到更好的性能。 在具体的实现中, 首先进行深度优先遍历提问图q g , 得到提问图的偏序集 p o s 。文献中p o s的 信息记录是以 点即原子为单元,但是考虑到点 可以 连接不 定数量的 边,而边固定有两个点, 所以 实现中 选择键作为单元,具体有键的编 号、键的类型、键所连原子的编号等信息。然后以提问图的p o s为指导,在目 第二章系统的构建 标图t g上行走, 若行走成功, 则两图是全匹配或子结构匹配, 并输出 相互匹配 的点对。 2 . 3 . 2 . 3 g ma算法设计 g m a算法是 本实验室以 前根据文献15 7 1 开 发的n k m o l s d k 17 3 1 ( s o ft w a r e d e v e lo p m e n t k it ) 的 一 个 模 块, 在 本系统中 对 其 进 行了 部 分 改 进, 增 加了 查 询 分 子和目 标分子的相匹配的原子对信息。并且能对目 标分子进行二次搜索,当目 标分子中含有两个或者多个匹配分子时, 所有匹配部分都可以搜索到,并能提 供与查询分子对应的原子对信息。 如图2 .5 所示: 苯酚作为查询分子, 可以在目 标分子中找到两个吠喃分子,并且得到对应关系: p h e n o lzi w o h , / ,义 尧 、 5 0 3 , , , c / 邻 c 1 3 = c 1 2 11 _ 、 1、 了 c 7 c 8c 2 c 14 - , , _ 1/ c 11 ” ” 飞 石c 1 5 c o - c 1 0 2 , ,洲 尹声 4 p h e n o l zt w 1 c2 c1 2 c13c8c9cl0clloll clc14c5c4c303 图2 . 5苯酚分子和配体z i w的对应关系 第二章 系统的构建 2 . 3 .2 .4数据结构设计 t y p e d e f s t ruc t t a g n k g m a p o s i n f o ( i n t n a t o m i c n u m ; / / t h e a t o m i c n u m . - 9 9 9 m e a n s a n y a t o m i n t n f r o m; / / t h e a t o ms n e w i d f r o m w i n 由t h e p o s v i s i t e d i n t n t o ; / / t h e a t o ms n e w i d t o w h i c h t h e p o s w i l l v i s i t i n t n n e i g h b o r ; / / t h e n u mb e r o f t h e n e ig h b o r a t o m s e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论