北京大学化学信息学_第1页
北京大学化学信息学_第2页
北京大学化学信息学_第3页
北京大学化学信息学_第4页
北京大学化学信息学_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、课程内容安排第十一讲:Chemoinformatics分子结构信息的计算机存储和表达分子二维数据库和数据库检索技术第十二讲:Cheminformatics分子多样性和化合物筛选三维结构的实验数据资源基于三维结构的计算方法化合物组合库高通量虚拟筛选1化学信息学第十一讲Chemoinformatics2内 容相关名词辨析及化学信息学由来分子结构信息的计算机存储和表达分子二维数据库和数据库检索技术3名词解释 Computational Chemistry 计算化学: 使用数学方法计算分子性质和模拟分子行为的方法。并且包括合成设计、数据库搜索、组合库操作等 (Hopfinger, 1981; Ugi

2、et al., 1990). IUPAC Computational 4相关名词辨析5名词解释 Molecular Modeling 分子建模方法: 使用计算化学和图形显示技术研究分子结构和性质,从而获得在给定环境下的分子三维结构的近似表达 IUPAC Medicinal Chemistry, IUPAC Computational6名词解释 Chemometrics 化学统计学: 使用数理统计学的方法对化学信息(如有机,分析和药物化学)进行分析,或进行化学实验的设计和模拟IUPAC Computational7名词解释 Bio-informatics 生物信息学: 使用数理统计学的方法对化学

3、信息(如有机,分析和药物化学)进行分析,或进行化学实验的设计和模拟IUPAC Computational8名词解释 Chemoinformatics ?: Chemoinformatics 是知识管理(knowledge management)的有机组成部分Nicholas J. Hrib, Norton P. PeetChemoinformatics: are we exploiting these new science?“Drug Discovery Today 5 (11): 483-485, Nov. 20009名词解释 Cheminformatics 化学信息学: 结合化学合成、生

4、物筛选及数据挖掘技术指导药物发现和开发, 用于合理的设计具有类药性质的化合物,构建用于虚拟高通量筛选的智能化合物库,研究以往的数据知道先导化合物的优化Cheminformatics: Intelligent Drug Discovery May 28- 30, 2003 Philadelphia PA 1011Human Alcohol Dehydrogenase (Adh1A) 分类:Oxidoreductase简介:Molecule: Class I Alcohol Dehydrogenase 1, Subunit; Chain: A, B; Engineered: Yes实验方法:X-r

5、ay Diffraction12Human Alcohol Dehydrogenase (Adh1A) 13分子结构信息的计算机存储和表达如何使用计算机存储化学结构?如何处理存储的结构信息?计算机在Chemoinfomatics中的应用?14分子结构信息表达的内容原子原子间的连接键型立体化学构型电荷同位素 3D-coordinates for atoms15分子结构信息表达的内容原子原子间的连接键型立体化学构型电荷同位素 3D-coordinates for atoms16分子结构信息表达的内容原子原子间的连接键型(芳香环)立体化学构型电荷同位素 3D-coordinates for atom

6、s17分子结构信息表达的内容原子原子间的连接键型(芳香环)立体化学构型电荷同位素 3D-coordinates for atoms18分子结构信息表达的内容原子原子间的连接键型(芳香环)立体化学构型电荷同位素 3D-coordinates for atoms1920分子结构一维表示法(Line Notation)简介:使用字符串表示分子结构现有的几种表示法Wiswesser Line Notation (WLN) (Dialog)Simplified Molecular Input Line System (SMILES/SMARTS) (Daylight)Representation of

7、Structure Diagram Arranged Linearly (ROSDAL) - (Beilstein)Sybyl Line Notation (SLN)- (Tripos)ROSDAL1O-2=3O,2-4-5N,4-6-7=-12-7,10-13OSLNOHC(=O)CH(NH2)CH2C1=CHCH=C(OH)CH=CH1WLN QVYZ1R DQSMILESOC(=O)C(N)CC1=CC=C(O)C=C121分子结构一维表示法(Line Notation)Simplified Molecular Input Line Entry System (SMILES) 基于价键模

8、型的标记法Author: Dave Weininger (Daylight)22CMethaneC1CCCCC1cyclohexaneOwaterc1ccccc1benzeneCCethaneCOmethanolOC methanol NCH(C)C(=O)OCCOethanolCC(=O)CacetoneO=C=Ocarbon dioxideL-alanineSMILE标记示例23atom : symbol sign 双字母原子符号: Br (Upper/lower case)原子的预定义价键:B(3), C(4), N(3,5), O(2), P(3,5), S(2,4,6), F(1),

9、 Cl(1), Br(1), I(1)大写的字母表示非芳香体系示例:ClHydrochloric acidSH2S Fe+Iron(II)cationAtoms 语法24Bond 语法bond : | - | = | # | . ; single | double | triple | disconnectionEthene C=CFormaldehyde C=OHydrogen Cyanide C#NButadiene C=CC=C25分支 将支链放在括号中SMILES: CCCC(C(=O)O)CCCbranch : ( ) | ( ) | ( ) | ( )26环定义 合环键用数字标出2

10、7 非连接关系 (disconnections): 同位素表示:SMILES: Na+.O-c1ccccc1specified inside brackets. SMILES: 13CH4其它定义28F/C=C/FF/C=CF双键构型的表示 / 29从旋光中心沿字符串顺序观察,逆时针为,顺时针为NC(C)(F)C(=O)O手性表示 or 30氢原子表示显式表示氢原子的四种情况:带电荷的氢, 如:质子 H+ 与其它氢相连的氢, 如:氢气 HH 氢桥同位素,如:重水, 2HO2H 31芳香性N1ccccc1 N1=CC=CC=C1C1cc2cccccc2c1 C1=CC2=CC=CC=CC2=C1

11、32O-n+1ccccc1pyridine-N-oxideOCH1CCCCCH1Ocis-resorcinolCC(C)NCC(O)COc1cccc2ccccc12Propranolol a beta-blocker一些例子33SMILES的正规化标记c1ccccc1Oc2ccccc2(N)Nc2ccccc2Oc1ccccc1O(c1ccccc1)(c2ccccc2N)Nc1ccccc1Oc2ccccc2 Nc1ccccc1Oc2ccccc2 Nc1ccccc1Oc2ccccc2 34分子结构一维表示法(Line Notation)优点:易于手工书写结构紧凑局限:信息量小对复杂分子的标记比较繁

12、琐。某些情况下,标记具有二义性。35分子结构一维表示法的应用构造查询语言子结构匹配相似性搜索(结构指纹)化合物组合库的压缩存储反应数据库36SMILES 应用示例ClogP 辛醇/水分配系数实验方法logP计算 pH 7.0时的分配系数数据库规模 = 2,000,000化合物工作站搜索速度= 500,000/s37ClogP的计算使用片断加和法 (片断值校正项)片断值基于实验值,与片断的类型有关,如:极性基团、卤素、离子、不饱和键校正项描述不同片断间的相互作用,如:氢键等383940分子结构信息的计算机存储和表达分子结构二维表示法连接表 (Connection Table)邻接矩阵 (Adja

13、cency Table)41连接表 (Connection Table)简介:计算机系统中主流结构表示方法类型 “内部” CTs (内存) 程序处理“外部” CTs (磁盘文件)文件存储 数据交换42“Redundant” Connection TableO1 2 1C0 1 1 3 2 4 1O0 2 2C 1 2 1 5 1 6 1N2 4 1C2 4 1 7 1C0 6 1 8 212 1C1 7 2 9 1C1 8 110 2C0 9 211 113 1C110 112 2C111 2 7 1O110 143MDL Connection Table数据交换的事实标准衍生文件格式Molf

14、ile (single molecule)SDfile (set of molecules and data)RGfile (Markush structure)Rxnfile (single reaction)RDfile (set of reactions with data)示例44benzene WLViewer 3D 0 12 12 0 0 0 0 0 0 0 0 0 1.1202 0.0003 0.0002 C 0 0 0 0 0 0 1.8030 1.1835 -0.0005 C 0 0 0 0 0 0 3.1691 1.1839 -0.0004 C 0 0 0 0 0 0 3.

15、8522 0.0006 -0.0007 C 0 0 0 0 0 0 3.1691 -1.1823 0.0001 C 0 0 0 0 0 0 1.8034 -1.1829 -0.0003 C 0 0 0 0 0 0 0.1202 0.0002 0.0011 H 0 0 0 0 0 0 1.3028 2.0494 -0.0011 H 0 0 0 0 0 0 3.6690 2.0500 -0.0001 H 0 0 0 0 0 0 4.8522 0.0005 -0.0015 H 0 0 0 0 0 0 3.6692 -2.0482 0.0010 H 0 0 0 0 0 0 1.3036 -2.0490

16、 -0.0010 H 0 0 0 0 0 0 1 2 4 0 0 0 1 6 4 0 0 0 2 3 4 0 0 0 3 4 4 0 0 0 4 5 4 0 0 0 5 6 4 0 0 0 1 7 1 0 0 0 2 8 1 0 0 0 3 9 1 0 0 0 4 10 1 0 0 0 5 11 1 0 0 0 6 12 1 0 0 0M END45其它CTs格式Standard Molecular Data (SMD) formatnever gained wide acceptanceProtein Data Bank (PDB) formatCrystallographic Inform

17、ation File (CIF)Molecular Information File (MIF) developed from SMD and compatible with CIFChemical Exchange Format (CXF) Chemical Abstracts ServiceChemical Markup Language (CML)for data exchange using the InternetIChI (IUPAC Chemical Identifier) 46分子结构信息的计算机存储和表达分子结构三维表示法三维坐标文件 (Mol, XYZ, SD )内部坐标表

18、示法 (Z-Matrix)47benzene WLViewer 3D 0 12 12 0 0 0 0 0 0 0 0 0 1.1202 0.0003 0.0002 C 0 0 0 0 0 0 1.8030 1.1835 -0.0005 C 0 0 0 0 0 0 3.1691 1.1839 -0.0004 C 0 0 0 0 0 0 3.8522 0.0006 -0.0007 C 0 0 0 0 0 0 3.1691 -1.1823 0.0001 C 0 0 0 0 0 0 1.8034 -1.1829 -0.0003 C 0 0 0 0 0 0 0.1202 0.0002 0.0011 H

19、0 0 0 0 0 0 1.3028 2.0494 -0.0011 H 0 0 0 0 0 0 3.6690 2.0500 -0.0001 H 0 0 0 0 0 0 4.8522 0.0005 -0.0015 H 0 0 0 0 0 0 3.6692 -2.0482 0.0010 H 0 0 0 0 0 0 1.3036 -2.0490 -0.0010 H 0 0 0 0 0 0 1 2 4 0 0 0 1 6 4 0 0 0 2 3 4 0 0 0 3 4 4 0 0 0 4 5 4 0 0 0 5 6 4 0 0 0 1 7 1 0 0 0 2 8 1 0 0 0 3 9 1 0 0 0

20、 4 10 1 0 0 0 5 11 1 0 0 0 6 12 1 0 0 0M END48Methanol Z-matrix C O 1 l1 H 1 l2 2 a1 H 1 l3 2 a2 3 da1 H 1 l3 2 a2 3 -da1 H 2 l4 1 a3 3 180.0 l1 1.42 l2 1.09 l3 1.09 l4 1.09 l5 1.09 l6 1.0 a1 109.0 a2 110.0 a3 108.0 a4 110.0 a5 110.0 da1 60.0 da2 120.0 da3 60.0z-matrix49分子芳香性问题使用单双键交替表示法导致同一分子有不同的拓扑

21、表示法,以及其它问题解决方式:使用芳香键类型使用规一化的原子键类型50共振结构是否看作同一分子?答案是你期望如何处理使用规一化的键型使用单双键交替法51共振结构共振式定义的方法HQX=R Q=XRHQ, X or R只能是特定原子keto-enol 共振结构CA不能正确识别单一的不饱和碳链Daylight不能正确识别52结构习惯规则有时称 “business rules”某些化学基团的不同表示法习惯规则确定哪一种更合适需要软件进行转换53Stereochemistrydifferent compounds with identical connectivitysame topology, di

22、fferent topographyS-tyrosineR-tyrosine54立体化学不同的表示法上下键Cahn, Ingold, Prelog (CIP) designators (R, S, E, Z)基于文本的描述符 (光学旋光)55立体化学: 上下键给图的节点着色很多连接表格式包含特殊的上下键表示需要确定连接的原子便于生成图形显示可以转换成其它手性定义56上/下键问题不同的上/下键表示可能是同一手性分子 不同的图,相同的分子某些上下键组合并不足以确定手性57Stereochemistry: CIP designatorsR.S. Cahn, C. Ingold, and V. Pre

23、log, Angewandte Chemie Intl. Ed. in English 1966, 5, 385-551one-letter designator for stereocentersbased on rules assigning priorities to groups around ittetrahedral carbons (R, S)double bonds (E, Z)additional colors for graph nodes or edgesuseful for distinguishing stereoisomers when absolute confi

24、guration is knownless useful for matching parts of structures (substructure search) as priority rules can cause designator to change when remote part of structure is changed58其它复杂情况有机金属和配合物复杂立体化学特殊键型共价或离子键型不确定 “business rules” 无机物没有象有机物类似的明确拓扑关系部分组成为分数晶体结构59其它复杂情况氢桥二茂铁可能的解决方法键连接任意一个碳原子键连所有5个碳原子键连一个环中心的伪原子(dummy atom)60生物大分子使用缩写描述基本单元61生物大分子每个缩写具有预定义的连接点混合表示法定义新的缩写62聚合物聚合物的性质与聚合条件有关重复单元

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论