（有机化学专业论文）基于数据库的取代基选择分子设计.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-05 格式：PDF 页数：73 大小：1.98MB 积分：0 举报 版权申诉

已阅读5页，还剩68页未读，继续免费阅读

（有机化学专业论文）基于数据库的取代基选择分子设计.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

ab s t r a c t t h e a v a l p a c k a g e d e v e l o p e d i n o u r l a b i s a v i r t u a l c o m b in a t o r i a l e n u m e r a t o r t h a t g e n e r a t e s l i b r a r i e s a t v a r i o u s s c a l e s b y a l t e r i n g s u b s t i t u e n t s o n g i v e n s k e l e t o n s . h o w e v e r , t h e f o l lo w in g s t e p o f v ir tu a l s c r e e n i n g t u rn s t o b e a v e ry c h a l l e n g i n g t a s k b e c a u s e t h e c o n v e n t io n a l a p p r o a c h e s s u c h a s d o c k i n g c a n n o t b e a p p l i e d e f f i c i e n t l y f o r l a r g e s c a l e a n d d i v e r s e li b r a r ie s o f li g a n d s , a s t h e y b a s e d a r e t i m e - c o n s u m i n g c o m p u t a t i o n a l a l g o r it h m s . i f t h e s u b s t it u e n t s t o t h e s k e l e t o n c o u l d b e p u r p o s iv e l y s e l e c t e d a h e a d o f t h e e n u m e r a t i o n , b o t h t h e s c a l e a n d o f t h e q u a li t y o f t h e e n u m e r a t e d l i b r a r y w o u l d b e m u c h m o r e s u i t a b l e f o r f u rt h e r s t u d ie s . f o r i n s t a n c e , t h e d e r i v e d s t r u c t u r e s fr o m t h e li b r a ry w o u l d p r o b a b l y i n t e r a c t w i t h t h e r e c e p t o r s in b e t t e r w a y s . p r o t e i n s a r e t h e m a i n r e c e p t o r s f o r li g a n d s o f d r u g m o l e c u l e s . i n p d b , t h e r e a r e o v e r 4 0 ,0 0 0 p r o t e i n c r y s t a ll i n e s t r u c t u r e s d e p o s i t e d . a m o n g t h a t , m o r e t h a n 3 0 , 0 0 0 a r e p r o t e i n - l i g a n d c o m p l e x e s . t h e s t r u c t u r e s o f t h e li g a n d s a r e a b o u t 7 , 0 0 0 a s i d e fr o m w a t e r . i n f o r m a t io n b e h i n d t h e i n t e r a c t i o n s b e t w e e n p r o t e i n s a n d l i g a n d s , e s p e c i a l l y fr o m t h e d ir e c t l y i n t e r a c t e d s u b s t it u e n t s fr o m li g a n d s a n d t h e r e s id u e fr o m p r o t e i n s , is v e ry u s e f u l f o r d r u g d i s c o v e ry s t u d i e s . h e r e , a n e w m e t h o d i s p r o m p t e d b a s e d o n s t a t i s t i c a l i n f o r m a t i o n i n s t e a d o f c o n v e n t io n a l c o m p u t a t i o n . s s d i , s h o rt n a m e f o r s u b s t i t u e n t s s e le c t i o n b y d a t a b a s e i n f o r m a t i o n , is t r y i n g t o h e l p s e l e c t b e t t e r s u b s t i t u e n t s f o r g iv e n s k e l e t o n s . t h e r e a r e s e v e r a l d a t a b a s e s s u c h a s ms ds i t e d e r i v e d fr o m p db a r e a c c e s s i b l e a n d a v a i l a b l e f o r s t a t i s t i c s i n o r d e r t o f i n d o u t w h a t k i n d s o f s u b s t i t u e n t s a p p e a r m o r e fr e q u e n t l y t o i n t e r a c t w i t h g i v e n r e s i d u e s . c e rt a i n ly , i t is a ls o a v a i l a b l e t o 由t h is i n r e v e r s e . t h e h i g h e r t h e fr e q u e n c y , t h e h i g h e r t h e p o s s ib il i t y t h e s p e c i f i c s u b s t i t u e n t s i n t e r a c t s w i t h t h e g i v e n r e s i d u e s b e t t e r . t h e r e f o r e , s s d i a n s w e r s t h e q u e s t io n i n t h e m a n n e r o f i n f o r ma t i c s o n h o w t o s e l e c t t h e s u b s t i t u e n t s . mo r e o v e r , s s d i i s fl e x i b l e a s a w o r k i n g d i a g r a m o t h e r t h a n a c h e c k i n g li s t . n o t o n l y c a n it s p l i t s g i v e n l i g a n d s t o d e t e r m i n e p o s s i b l e s u b s t i t u e n t s , b u t a l s o c a n it a c c e p t u s e r - d e f in e d s u b s t i t u e n t s . a n e x a m p l e is d e m o n s t r a t e d b y a p p l y i n g s s d i t o s a q u i n a v 玩a n h i v - 1 p r o t e a s e , a s a s e e d f o r d e t e r m i n i n g s u b s t it u e n t s , a n d t h e n u s i n g t h e i n f o r m a t io n d a t a o n t h e s e s u b s t i t u e n t s t o c o m p a r 吨 t h e i r a p p e a r a n c e i n 6 k n o w n li g a n d s f o r p p a r y . s s d i is d e v e lo p e d u s i n g c / c + + , p e r l a n d m y s q l o n t h e l i n u x p l a t f o r m . k e y w o r d s : v ir t u a l c o m b i n a t o r i a l c h e m i s t r y ; s u b s t it u e n t ; r e s i d u e ; f r e q u e n c y ; i n t e r a c t i o n 第一章前言第一章前言第一节药物发现发展的历史和展望药物发现的历史大体上分为天然药物发现，化学药物发展和药物分子设计三个主要时期(11 . 前两个阶段属于传统的药物研究，缺乏具体的理论指导，完全是靠实验或者是依靠人们偶然地发现，筛选药物，有很大的盲目性。药物学家梦想着能像设计建筑物那样来理性而合理地 “ 设计”药物，使药物设计能向着有的放矢的方向进行。随之计算机技术的发展和生物技术的成熟，近十几年的药物设计主要是“ 药物分子合理设计” 形成期，经历了“ 药物定量设计期” 、 “ 药物分子模拟设计i 期”一一分子结构模拟、 “ 药物分子模拟设计i ( i 期”一一药物一靶相互作用模拟、 “ 药物分子模拟设计 i i i 期”一一药物吸收、分布、代谢、消除和毒性 12 1 ( a b s o r p t io n , d is t ri b u t io n , m e t a b o li s m , e li m in a t io n a n d t o x ic it y , a d m e t ) 模拟四个阶段。近5 0 年，化学信息学、生物信息学、结构生物学、和结构蛋白学的研究有了突破性进展，信息技术的革命性发展为生命科学的研究注入了动力，同时生命科学的要求也促使信息技术有了更快的发展。 2 0 0 0 年6 月2 6日，人类基因组 “ 工作框架图”绘制完成就是计算机技术和生命科学技术的完美结合。近年来针对药物体内生物运转与代谢的生物学过程，进行了大量的药物分子计算机模拟设计的研究，建立了一系列药物吸收、分布、代谢、消除和毒性模拟设计与预测的方法和软件，逐步建立起模拟药物分子在生物体整个过程的药物设计体系，使药物分子设计更具针对性。随着结构蛋白组学的大发展和测试技术的发展，许多与疾病相关的靶标被确认和分离出来，并得到了其三维结构乃至药物与靶标复合物的三维结构，使药物学家能够更好的分析药物和靶标分子的实际作用情况，为药物分子的模拟设计奠定了基础。如4 一肌基n e u 5 a c 2 e n ( g g 1 6 7 , r e l e n z a )是抗a型感冒病毒药物，该化合物有很强的抗感冒病毒能力，克服了以往抗感冒病毒药物的耐药性缺陷具有很好的市场前景。它是由v o n i t z s t e i n i3 1 等以神经氨酸酶作为靶标，以氨为探针分子，用g r i d 4 程序搜寻神经氨酸酶结第一章前言合位点，发现用肌基取代抑制剂n c u 5 a c 2 e n 的4 - 轻基，有利于活性的提高而发现的。 2 1世纪是生命科学取得重大突破的时代，药物设计这门学科现己成为以生命科学为主，以化学和信息学为辅的交叉学科。以前的药物多数是凭经验和运气设计发现的，通常是先发现新药后研究其作用机制和作用靶点，再对其进行优化设计。而现在的药物很多是基于药物作用的靶点设计出来的，因此必须首先确认疾病相关的基因和靶点，再进行新药设计研究。从蛋白质到先导化合物，再对先导化合物进行优化和评估是一个循环反复，螺旋上升的过程。目前，已知的靶标分子有大约 5 0 0个，随着人类基因组计划的完成，保守估计可用药物靶标大概有5 ,0 0 0 个，为目前的1 0 倍 1 。如果能够充分利用和挖掘这些靶标，针对这些靶标进行开发，就可以研制出更多的药物，更好的造福人类。同时，这些药物靶标也将会促进科研机构和药物公司加大资金投入，药物研究很快将会出现 “ 第二次革命” ，一个天然药物大发现，合成药物大提高，药物设计大发展的鼎盛时代即将到来。第二节中国药物设计的发展在当今发现新药越来越困难的情况下，因为现代制药技术的应用，使世界每年首次上市的新药仍然能够保持在4 0 - 5 0 个左右，其中日本约占1 / 3 ，美国约占1 / 3 ，欧洲约占1 / 3 . 我国虽然在实施了诸如药品专利和行政保护等政策后，重视与加强了创新药物的研制，但力度太小，投入太少，短期内难以见到成效。上世纪9 0 年代上市的药物仅有2 个，所占比重极低间。当前，我国的药物研究面临着十分严峻地考验，缺乏自己独立的知识产权，绝大部分药物都是仿制产品，产品的附加值很低。产品附加值低造成医药企业的研发投入也很少，这就反过来导致具有自主知识产权的药物很少，形成恶性循环 7 . 8 1 从新药开发方法上来说，目前，我国密切注视国际上新药研究开发的新近展，积极吸收先进的技术和方法。中科院上海药物所的陈凯先院士，蒋华良教授领导的计算机辅助药物设计课题组在药物设计方面居于国内领先的地位，做出了很多有影响力的成果。在新药的开发上，这几年也取得了一些进展。如上第一章前言海药物所的朱大元教授等人开发的抗早老性痴呆新药 z t 1 ，就有望登陆欧洲市场19 1 . 第三节当前药物设计的主要方法药物设计方法有传统的“ 药物经验设计法”和现代的“ 计算机辅助分子设计法” 。传统药物设计从总体上来讲，缺乏成熟完善的发现途径，具有很大的盲目性和偶然性，一般平均要筛选 1 0 , 0 0 0 种化合物以上才能得到一种新药 h l ，因此开发效率很低，很难迅速得到合适的新药。而现代药物的开发主要经过以下的几个阶段:( 1 )选择具有潜在药物活性的分子;( 2 )合成该药物分子; 5 0 0 5 0 0 f 2 0 0 2 0 0 f 1 0 0 1 仪卜地 5 0 印凡 2 0 2 0 f ?1 0 1 0 f 3 , 0 4 6 表2 .3出现次数前7 0的碎片 n o f i n g e r p r i n t 节- 1 26 00 000 1 6 00 0001 6 60 .3 8 1 0 7 9 .决岌 1 3 9 4( 1 8 . 8%) h o ，了护声 /o h ph 9 8 5 ( 1 3 . 3%) 747078059 曰曰曰日0 7 0030 01 0 2 1 00 3200 5 0 . 2 9 4 61 01 0 000 3 00011 004 0 . 1 8 3 8 9 3 ( 1 2%) 第二章系统的构建 n o f in g e r p r i n t 8 202 000 0 4 1 00 21 00 5 0 . 2 9 6 叭 me s p e r c e n 妞半 8 8 0 7 7 9 ( 1 0 . 5%) 82000000 00000004 0么) 9 h 3 c -c h 3 7 4 2( 8 . 2 5%) 1 0212000 6 01 003300 60 . 4 5 6 4 7 7( 6 . 2% a ) l361 64 61110000 7 1 0112004 0 . 1 9 2 4 7 4 4 5 0 ( 6 . 0 6%) n h 2 6255 33 1 1 300000 00 000 000 50 . 3 5 3 71100000 00012004 0 . 2 1 3 9 8( 4 . 8 7 %) n h 2 3 7 7( 4 . 7 8%) 1 5403000 1 0 00003215 60 . 9 6 1 3 7 3 3 6 6 ( 4 . 9 3 % a ) 1 5550000 1 1 1 00 0033 2 970 . 7 4 1 3 0 0 2 9 3 ( 3 . 9 4%) 2 0 第二章系统的构建 n o f i n g e r p r i n t s t r u c t u re t i me shr c e n t a 半 1 4402000 1 2 000 021 1 5 60 . 6 9 4 2 6 8 2 6 8 ( 3 . 6 1 %) 1 36 01 000 1 3 600 011 1 6 70 . 5 0 8 2 6 3 2 4 3 ( 3 . 2 7%) 30010000 1 4 00 01 20 03 0 . 0 8 2 2 /。 ( 2 . 8 3%) 9 21 1 0000 1 5 1011 2005 0 . 3 2 8 2 1 0 2 1 0 1 9 1 1 8 4( 2 . 4 8%) 1 7 6 ( 2 3 7%) ( 2 . 2 5%) 675830 ，二月ij.1 8872 1 9 5 04 000 1 6 0000431 6 71 . 2 8 1 7 肠36 ，1，几 1 8 7 201 00 00 1 001 0004 0 . 1 8 9 71 2 000 00 1 001 3005 0 . 2 3 3 ， zn / / 、、 n ， 2 ( 2 . 1 3%) 1 86 0 0000 1 9 00000016 60 . 8 1 2 ( 1 . 7 5%) 2 1 第二章系统的构建 n o f i n g e r p r i n t t i me s p e r c e n t a g e 1 1 51 0 00 0 2 0 6 00 01 01 6 60 . 3 5 4 1 2 7 1 2 2 ( 1 . 6 4 %) 011111111 600 301 00 2 1 20032004 0 . 2 1 7 h s o h 1 0 8 ( 1 . 4 5%) 1 27 00 000 2 2 60000016 60. 3 6 5 1 1 9 ( 1 . 6%) 2624 1 81 00000 2 3 01 1 00000 21 080 . 7 1 1 2 2 1 1 1 ( 1 . 4 9%) hn 1 5522000 2 4 62002216 70 . 7 4 6 1 1 9 1 1 8 ( 1 . 5 9%) 6002001 0 2 5 1 0021 004 0 . 1 7 1 1 5 1 0 7 ( 1 . 4 4%) 2 2 第二章系统的构建 n o f i n g e r p r i n t 1 5 me s o 1 65 51 000 2 6 1 01 00 34 2 980 . 8 8 3 hn 1 1 4 1 1 1 ( 1 . 4 9%) h 2 n h nh 9201 0000 2 7 00 01 1 005 0 . 3 2 2 oh 1 1 1 1 0 8 ( 1 .4 5%) 0902 曰.几j.二 1 24 22 000 2 8 62 00 2216 60 . 5 6 2 1 0 9 ( 1 . 4 7%) 1 2600000 2 9 60000016 60 . 4 7 7 1 0 1 ( 1 . 3 6%) 93000000 3 0 10000005 0. 2 4 3 洲夕 1 0 2 9 5 ( l 2 8% a ) 1 6810000 3 1 1 0000012 970 . 6 5 3 1 0 1 9 7 ( 1 . 3 1 %) 3 2 61 0001 0 0 00001004 0 . 1 1 8 1 0210000 000011 00 50 . 3 4 3 - - sh9 5 9 2 ( 1 . 2 4%) 3 3 h /n 9 2 9 0 ( 1 . 2 1%) 2 3 第二章系统的构建 1 5702000 3 4 61 002116 90 . 6 5 1 8 9 8 7 ( 1 . 1 7%) 1 44 00000 3 5 00000000 50 . 5 2 3 8 5 8 2 ( 1 . 1%) 1 57 20000 3 6 1 000011 2 970 . 6 2 1 8 4 6 6 ( 0 . 8 8 8%) 12洲.2 811 00000 3 7 00003004 0 . 2 7 4 -n h 2 8 4 7 7 ( 1 . 0 4%) 3 8 401 00000 00013003 0 . 0 9 8 2 h e n / h ! 8 3 8 3 ( 1 . 1 2%) 3 9 41010000 10010003 0 . 0 7 9 6 o 。火、 8 2 8 1 ( 1 . 0 9%) 31010000 4 0 1 0010003 0 . 0 4 8 5 8 2 8 2 ( 1 . 1%) h 2 n hn 1 3431000 4 1 61 00231 6 70 . 6 0 9 8 1 8 1 ( 1 . 0 9% a ) 2 4 第二章系统的构建 n o f i n g e r p r i n t s t r u c t u ret i me s p e r c e n t a g e 1 7 51 0000 4 2 00001116 60 . 7 9 8 7 9 7 8 ( 1 刀 5%) 7 01 201 0 0 4 3 20033004 0.2 5 n h , 7 8 7 8 ( 1 . 0 5%) 。115-”。 40010000 4 4 00013003 0 . 1 3 8 h 3 0 7 8 3 1 ( 0 . 4 1 7%) 1 1 3 02000 4 5 01 0021 00 6 0 . 4 5 4 6 9 6 9 ( 0 . 9 2 9%) h o r n 尹 1 461 2000 4 6 61 002016 70 . 5 4 2 6 8 6 7 ( 0 . 9 0 2%) 30100000 4 7 0001 2003 0 . 0 5 7 5 6 8 6 8 ( 0 . 9 1 5%) 1 5700000 4 8 60000016 70 . 5 4 3 6 6 6 4 ( 0 . 8 6 1 %) 2 5 第二章系统的构建 n o f i n g e r p r i n t s t r u c t u re 节 n t s p e r c e n 臼g e 62000000 4 9 10000004 0 . 1 2 3 6 5 6 4 ( 。8 6 1%) 711 200 00 5 0 1 01 22005 0. 2 7 8 6 4 6 4 ( 0 . 8 6 1%) 1 431 0000 5 1 000001 00 50 . 5 9 4 n / 6 1 5 9 ( 0 . 7 9 4%) 1 240000 0 5 2 01 0 000 00 50 . 3 8 8 6 1 5 8 ( 0 . 7 8 1%) 1 3540000 5 3 1 000031 2 9 70 . 5 5 7 5 7 5 7 ( 0 . 7 6 7%) 93200005 5 4 000111 55 0 . 3 1 5 7 5 7 ( 0 . 7 6 7%) 1 5611 000 5 5 6 000 211 6 70 . 6 5 3 5 7 5 7 ( 0 . 7 6 7%) 81200000 5 6 10004005 0 . 2 9 6 h n h 2 _/1 t n一 4 9 ( 0 . 6 5 9%) 2 6 第二章系统的构建 n o f ing e r p r i n t s t r u c t u r e t i m e s p e rce n t a g e 92 030 000 5 7 1 0 032 006 0 . 4 2 4 9 4 6 ( 0 . 6 1 9%) 。115-“。 50 0201 00 5 8 20 022 003 0 . 1 1 7 4 6 4 6 ( 0 . 6 1 9% x ) 1 28 00000 5 9 60000016 60 . 3 4 8 4 5 4 5 ( 0 . 6 0 6%) 1 4610000 印60000216 70 . 5 4 5 4 4 4 2 ( 0 . 5 6 5%) 1 8503000 6 1 00003216 71 . 0 9 4 3 4 1 ( 0 . 5 5 2%) 1 2600000 6 2 6000001 6 60 . 3 6 6 4 2 4 1 ( 0 . 5 5 2%) 9211 0000 6 3 1 0111 005 0 . 3 2 4 1 4 0 ( 0 . 5 3 8% x ) 2 7 第二章系统的构建 n o f i n g e r p r i n t 940001 05 码000001 55 0 . 2 3 1 s t r u c t ureti me s p e r c e n t 吸 e 4 1 4 0 ( 0 . 5 3 8%) 6002 0000 6 5 00022005 0 . 2 2 1 3 8 3 8 ( 0 . 5 1 1%) h o b /o h 3 6 3 5 ( 0 . 4 7 1%) ph二0 6003001 0 6 6 1 0031004 0 . 2 1 1 o 1 4541000 6 7 1 01 00 322 970 . 6 8 5 nh hn 3 5 3 5 ( 0 . 4 7 1 %) nh 8121 0000 6 8 1 021 4005 0 . 3 3 1 3 4 3 3 ( 0 . 4 4 4%) 1 0420000 6 9 60002016 60 . 3 2 8 3 4 3 4 ( 0 . 4 5 8%) 1 9 611 000 7 0 01 011016 70 . 9 6 2 3 3 3 3 ( 0 . 4 4 4%) 2 8 第二章系统的构建第三节 g ma子结构匹配 2 . 3 . 1 化学结构在计算机中的存储为了使计算机能够处理化学结构，众多化学结构计算机编码方法被发展起来了。这些化学结结构编码方法大体上分为两类(6 6 1 :一个是指其拓扑结构 ( t o p o lo g ic s t r u c t u r e ) ，另一个是指分子的几何结构 g e o m e t r ic s t r u c t u r e ) . 拓扑结构表示的是分子内原子之间的通过化学键建立的连接关系以及它们的空间位置。拓扑结构的研究对于利用计算机进行谱图解析、建立构效关系、设计合成路线和功能分子等是非常重要的。分子的几何结构一般可以通过直角坐标、晶体坐标和分子内坐标来表示，往往是采用x射线或者中子衍射的方法得到分子的三维结构，能够准确地得到原子的种类和位置。分子结构 ( 拓扑结构)在计算机内部的存储和表达方法最常用的有两类: 线性表示法和联接表表示法: 线性表示法 ( l i n e a r n o t a t io n , l n ) 法是由字母和数字按章一定的规则组成一串符号来代表分子的拓扑结构，比较有代表性的有:碎片码 ( wi s w e s s e r l in e a r n o t a t io n , w l n ) 16 71 . s m i l e s( s im p l ifi e d m o l e c u la r i n p u t l in e e n t r y s e p c i fi c a t io n ) 编码法 16 8 . 6 9 1 。如表2 .4 : 表2 .4 wl n和s m n . e 表示法举例联接表 ( c o n n e c t io n t a b l e , c t ) 是m o o r e s 7 0 在1 9 5 1 年首次提出的，广泛的用在许多计算机辅助有机合成( c o m p u t e r a s s is t e d o r g a n i c s y n t h e s i s , c a o s ) 系统中，如l h a s a ( 1 a 2 1 . 联接表的基本形式是对分子中的每个原子 ( 包括原子的各种属性，如电荷) 和每个化学键都设置一项记录。分子中除氢外的每一个原子都有一个原子表项。一个原子表项包括原子类型，邻接原子及连接键的类型。同样在分子中的每一个键也有一个键表项，包括对此键的标识 ( 键的编号，类型，以及键所连的原子编号) 。常见的部分联接表文件类型如表2 .5 所示: 第二章系统的构建表2 . 5部分常用联接表文件类型 e x t e n s i o n f i l e t y p e s o f t w a re旧a t a b a s e mo i ( mo l e c u l e ) s k c ( s k e t c h ) c i f ( c r y s t a l l o g r a p h ic i n f o r m a t i o n f i le ) p d b ( p r o t e i n d a t a b ank ) mo u( mo i . e c u l e 2 ) ge n e r al i s i s / d r a w c a m b r i d g e s t r u ct u r a l d a t a b a s e b r o o k h a v e n p r o t e i n da t a b a n k t r i p o s / s y b y l text既如翻text 分子联接表可以用图 ( g r a p h ) 的形式表达，把原子看作图的节点，原子之间的键看作图的边。图在计算机中的储存方式主要有两种:邻接矩阵和邻接表方法。邻接矩阵将图的结构以nx n的矩阵表达， n代表的是分子中原子的数目，每个矩阵存储的是图中两个节点之间的连接关系。与邻接矩阵不同，邻接表使用嵌套的线性链表来存储节点的邻接边。因为有机分子中每个原子的邻接度一般小于5 ，如果用邻接矩阵来表示分子结构，将导致高度稀疏的对称矩阵，因此，本系统选用的是存储方式是邻接表。本系统在数据库和文件中的存储采用的联接表法，具体应用到了m o l . p d b 等文件格式，在 c语言程序中，当把化学结构读入内存以对之进行操作时，程序采用链表的方式表达分子结构。表2 . 6 分子联接表表示示例 u n t i tl e d. - ch自口dre v0 511 0 7233 52 1 ) 70 0 0 0 0 0 0 09 9 9 v20 0 0 - 0. 3 5 7 2 0. 6 1 8 8 0. 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -0. 3572 - 0. 2 0 6 2 -0. 61 88 0. 000 0 c 0 0 0 0 0 0 0 0 0 0 0 0 0. 35720. 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -1. 071 7-0. 618 80. 0000 c 0 0 0 0 0 0 0 0 0 00 0 -1. 7862-0. 20 620. 0000 c 0 0 0 0 0 0 0 0 0 0 0 0 1. 071 7-0一 2 0620. 00 0 0 c 0 0 0 0 0 0 0 0 0 0 0 0 1. 7 86 2- 0. 61 8 80. 0 00 0 0 0 0 0 0 00 0 0 0 00 0 1 2 2 00 0 2 3 1 00 0 21 00 0 3 0 第二章系统的构建 4 5 1 0 0 0 3 6 1 0 0 0 6 7 1 0 0 0 翻e nd 4 6 2 0 5 7 2 0 6日1 0 7，1 0 日9 1 0 材e臼d 再如: 联接表 ( yo l 2 ) m o l e c u l e a a ti tl a d. mo 1 2 7 7 0 0 0 5 创几毛l 口几名teiger e n e r g y . 0 ligligligligligliglig 立111111 e a t o n 1 c- 1 . 0 7 1 7 2 c -1. 071 7 3 m - 0. 3 5 7 2 4 c 0. 3 5 7 2 5 c0. 3 5 7 2 c- 0. 3 5 7 2 7 c 1. 0 717 0. 41 25 0. 0 00 0 c. 口 r - 0. 412 5 0. 0 000 c. - - 0. 82 50 0. 0 000 m. a r -0. 41 25 0. 0 00 0 c. a r 0. 41 25 0. 0 0 00 c. a r 0. 82 5 0 0. 0 0 00 c. a r 0. 82 5 0 0. 00 00 c. 3 0. 0 2 0 4 0. 0 9 8 9 - 0. 2 4 2 6 0. 0 9 4 6 -0. 0 027 - 0. 00 11 0. 03 2 7 . 邻接度 ( q g ) 第二章系统的构建子结构匹配算法大致可以分为三类 17 4 1 : 回溯法( b a c k - t r a c k i n g ) , 1 9 5 7 年提出的r a y a n d k i r s h 算法 7 5 1 、划分一松弛法( p a rt it io n in g a n d r e l a x a t io n ) ，如1 9 6 5 提出的s u s s e n g u t h 算法 7 6 1和筛分法( s c r e e n in g ) t l e 本系统采用的g m a算法就是用的回溯法，回溯法减少了匹配的盲目性，从而也大大降低了最坏情况的发生。其在数学上是完善的，只要算法足够强，总能给出正确的结果。基本思想是: 首先任意选择提问图 ( q g ，含m个节点)中的一个点q 1 作初始点，在目标图( t g ，含n 个节点， n m ) 中寻找其匹配点t 1 若成功，则在t i 的邻接点( t 2 , t 3 . ) 中寻找q 1 邻接点( 够、够. ) 的匹配点，否则另外选取一个点作为初始点。匹配成功后，算法沿着匹配点的邻接点继续进行;每当匹配不成功时，算法都将回溯到上一个匹配成功的点，尝试另外的邻接点对，若所有的邻接点都已尝试，则继续回溯，如果最后回溯到初始点q 1 而q 1 的所有邻接点都已尝试，则选取其他q g节点作初始点启动算法，如果此时所有q g节点都己作过初始点，则算法结束标明q g与t g不匹配。反之，如果在这个查找过程中q g的所有节点都已经找到匹配点，则标明q g与t g全结构匹配 ( 若m =n )或子结构匹配 ( 若m n ) o 2 .3 .2 .2 g m a算法介绍 g m a算法是1 9 8 9 年由徐峻提出的一种以提问图结构信息为指导的基于联接表的回溯算法5 7 1 。在本系统的实现中稍有不同，采用的是递归的方法。该算法包括两个步骤: 第一步:深度优先遍历提问图q g ，得到提问图的偏序集p o s . 第二步:以提问图的p o s 为指导，在目标图t g上行走，若行走成功，则两图是全匹配或子结构匹配，并输出相互匹配的点对，但是还要继续行走，以确定剩余分子结构中是否还包括查询子结构。因为g m a算法仅在一开始访问一次q g获得p o s ，以后便用p o s 为指导在t g上行走，不再与q g打交道，因此特别适合于大型结构数据库的搜索。也因为这个原因，在设计时并没有把三个函数整合为一个，以得到更好的性能。在具体的实现中，首先进行深度优先遍历提问图q g ，得到提问图的偏序集 p o s 。文献中p o s的信息记录是以点即原子为单元，但是考虑到点可以连接不定数量的边，而边固定有两个点，所以实现中选择键作为单元，具体有键的编号、键的类型、键所连原子的编号等信息。然后以提问图的p o s为指导，在目第二章系统的构建标图t g上行走，若行走成功，则两图是全匹配或子结构匹配，并输出相互匹配的点对。 2 . 3 . 2 . 3 g ma算法设计 g m a算法是本实验室以前根据文献15 7 1 开发的n k m o l s d k 17 3 1 ( s o ft w a r e d e v e lo p m e n t k it ) 的一个模块，在本系统中对其进行了部分改进，增加了查询分子和目标分子的相匹配的原子对信息。并且能对目标分子进行二次搜索，当目标分子中含有两个或者多个匹配分子时，所有匹配部分都可以搜索到，并能提供与查询分子对应的原子对信息。如图2 .5 所示: 苯酚作为查询分子，可以在目标分子中找到两个吠喃分子，并且得到对应关系: p h e n o lzi w o h ， / ，义尧、 5 0 3 , , , c / 邻 c 1 3 = c 1 2 11 _ 、 1、了 c 7 c 8c 2 c 14 - , , _ 1/ c 11 ” ” 飞石c 1 5 c o - c 1 0 2 , ,洲尹声 4 p h e n o l zt w 1 c2 c1 2 c13c8c9cl0clloll clc14c5c4c303 图2 . 5苯酚分子和配体z i w的对应关系第二章系统的构建 2 . 3 .2 .4数据结构设计 t y p e d e f s t ruc t t a g n k g m a p o s i n f o ( i n t n a t o m i c n u m ; / / t h e a t o m i c n u m . - 9 9 9 m e a n s a n y a t o m i n t n f r o m; / / t h e a t o ms n e w i d f r o m w i n 由t h e p o s v i s i t e d i n t n t o ; / / t h e a t o ms n e w i d t o w h i c h t h e p o s w i l l v i s i t i n t n n e i g h b o r ; / / t h e n u mb e r o f t h e n e ig h b o r a t o m s e

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（有机化学专业论文）基于数据库的取代基选择分子设计.pdf

文档简介

温馨提示

最新文档

评论

（有机化学专业论文）基于数据库的取代基选择分子设计.pdf

文档简介

温馨提示

最新文档

评论

相关文档