版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二节 化学信息处理,化学信息学,产生的背景 组合化学和高通量筛选,出现了巨大的信息,需要快速收集、存储、分析和处理,随着信息技术向化学领域的渗透,形成了新的交叉学科化学信息学。 研究内容 化合物信息在计算机中的表示 化合物数据库的建立、使用和管理 化合物相似性、多样性及分子类药性分析 化合物定量构效关系,化学信息学 Chemoinformatics,chemical informatics,Cheminformatics,chemi-informatics,利用计算机信息处理技术对化学分子结构和相关信息进行管理的一种综合性技术和学科 应用化学信息学可促进化学信息的获取、转化与共享,一、化学信
2、息的表示方法,化学 分子,一维结构:化合物名称(俗名);线性符号表示法。,二维结构:原子用元素符号,键用短线,即化合物结构式。为平面结构。,三维结构:原子的空间位置、相互间距离、键角和二面角等。,分子表面:建立在三维结构基础上,能与分子的三维结构一一对应。,苯丙氨酸分子结构表征层次,(一)一维结构表示,SMILES(简化分子线性输入系统)编码的基本原则,原子通常以大写元素符号表示(省略氢原子),芳香结构原子则以小写表示。 相邻原子依次排放在一起,单键通常省略,双键和三键分别以“=”和“#”表示,芳香键以“:”表示,也可省略。 分支部分放在括号内,环则打开,并赋予断开键两端的原子以相同的数值。
3、双键“/”表示顺式,“”表示反式。 原子顺时针排列用表示,逆时针排列用表示。,甲烷 CH4 C 乙醇 C2H5OH CCO 氰化氢 HCN C#N 环已烷 C6H12 C1CCCCC1 吡啶 C5H5N n1ccccc1 异丁酸 (CH3)2CHCO2H CC(C)C(=O)O 反式二溴甲烷 Br/C=C/Br 或BrC=CBr 顺式二溴甲烷 BrC=C/Br 或Br/C=CBr L-丙氨酸 NCH(C)C(=O)O D-丙氨酸 NCH(C)C(=O)O,举例说明,苯丙氨酸,NC(Cc1ccccc1)C(O)=O,C/C=CC=CH(O)C#N,SMILES编码的立体化学信息表示,SLN编码(
4、Sybyl线性标记法)的规则,原子以其元素符号表示,氢原子也要显示; 单键省略,双键、三键和芳香键分别以“=” “#”和“:”表示; 分支也采用括号表示;环也打开,依靠环上一个预先定义好的具有唯一编号的原子及符号来识别,如环己烷表示为C15H2CH2CH2CH2CH2CH215; 原子和键的属性(如电荷、立体化学性质等)可通过方括号 或尖括号在该原子后标记出; 对大分子的原子,可使用缩写,如氨基酸可以用其三个字母缩写形式表示。,(二)二维结构表示,1、图论基础和图的矩阵表示 一个简单的图由顶点(V)和边(E)组成,因此图被定义为一个三元组, 为映射函数。在下面一个简单的无向图中, V=1,2,
5、3,4, E=e1,e2,e3,e4, e5, e6。,图也可用矩阵表示:设G=为无向图,令mij等于顶点vi与边ej的关联次数,则称(mij)n*m为G的关联矩阵,记为M(G)。,用图表示苯丙氨酸的结构,2、化合物结构的矩阵表示 (1)邻接矩阵(以乙醛为例),(2)距离矩阵:表示了相应原子之间的距离:几何距离(用表示), 拓扑距离(两原子之间连接的键的个数) (3)键矩阵:矩阵元素为相连接的两个原子之间的键级。 双键:2,三键:3。 (4)关联矩阵:是一个nm的矩阵。 顶点(原子)作为列(n),边(化学键)作为行(m), 如果边在顶点内,则相应的元素置为1。,3、连接表,20世纪80年代开始
6、,成为化合物在计算机中表示的最主要方法。 首先对每个原子进行编号并列表 然后在另一表格中列出键的信息, 键级用整数表示,1表示单键,2表示双键。,(三)三维结构表示,1、直接坐标法 用迪卡尔坐标直接存储每个原子的三维坐标(x,y,z),2、内坐标法,每个原子位置以与其他原子间的3个相对位置关系表示相对距离、键角、二面角,(四)分子存储格式及其相互转换,基本存储 分子的元素组成、原子坐标、原子连接关系 其他存储 分子子结构信息,适用于生物大分子 原子电荷信息,调用时不必再计算 确定特定原子化学环境的原子类型信息,二、化合物数据库的生产和管理,目前有很多商业化合物数据库可以利用 MDL药物数据报告
7、(MDDR)含有115000个类药性 化合物。 美国国家癌症研究所(NCI)数据库含有250000个 化合物。,MDL ISIS化学数据库管理系统,ISIS系统提供了基于Oracle 数据库系统的各类化学信息系统的管理和开发工具,可以同时管理化学结构、化学反应、生物活性及谱图等多种化学信息。 ISIS已应用于全球超过80%的化学与制药企业,已成为事实上的化学信息管理系统的工业标准。,ISIS (Integrated Scientific Information Management System)MDL的综合性结构和反应管理软件,由三个主要模块组成: (1) 化学信息管理系统:ISIS/HOS
8、T主服务器应用程序,进行通讯连接,集中数据库数据并作处理 (2) 化学信息生成和管理软件:ISIS/BASE用于生成局部数据库及处理信息 (3) 化学画图软件:ISIS/DRAW用于输入结构式和搜寻询问条件,2D结构输入,计算机绘制化学结构式 首先输入原子和键的骨架结构,原子数、电荷会自动变为上下标 软件的模板中收集大量分子片段 可智能分析结构式,处理结构式的编码和变换 还可有附加功能,如自动命名、化学计算、光谱分析等,三维结构的转化,3D结晶结构参数转入3D数据库,软件将2D化学结构迅速地转为3D模型,三、分子相似性和多样性分析,分子相似性和多样性分析方法的原则:结构相似的分子有着相似的性质
9、或活性。 作用:在识别新的具有与已知化合物相同性质或活性的化合物时具有十分重要的作用。 数据库的化学多样性(chemical diversity): 数量巨大的、结构不同的贮藏和检索系统适用于先导化合物发现 数据库的化学相似性(chemical similarity) 适用于先导化合物优化 评价方法:通过计算分子的描述符,并比较化合物描述符的近似程度。,分子描述符,概念:在相似性和多样性分析中,需要建立化合物结构和它们生 物活性或者理化性质的映射,分子描述符就是其中的一种映射。 作用:通常一个或多个描述符可以用来描述分子的结构、性质等, 如lgP在一定程度上反映了分子穿透细胞膜的能力;拓扑指数
10、描述 了结构的复杂性。 描述符的内容是由两方面决定的,一是化合物的分子表示,二是计 算描述符的算法。,分子描述的分类,分子相似性分析方法,基于定性特征的和基于定量特征的。 对于两个化合物A和B, a是A所具有而B不具有的特征数目 b是B所具有而A不具有的特征数目 c是两者共同的特征数目 d为两者都不具有的特征数目 c和d表示了化合物A和B之间的相似性 a和b表示了化合物A和B之间的多样性 所有的特征数目为n=a+b+c+d 这样,可以建立一种直观的相似性评价方法:考察所有匹配的特征数目c+d在所有特征数目(c+d)+(a+b)中所占的比例,即(c+d)/(a+b+c+d)。这也被称作为简单匹配
11、系数。 可以看出,A和B均不具有的特征并没有表达任何信息,所以,d可以从上面的方法中删除,得到了Tanimoto相似度计算公式。,化学多样性的定量表达Tanimoto系数,用化学空间中电荷和电势等描述符比较不同分子的性质 TC = c /(a+b+c) a为A中基础片断的描述符的数 b为B中基础片断的描述符的数目 c为A和B中共有的基础片断的描述符的数目 相同分子TC = 1;分子没有共同描述符时TC = 0,相似性搜寻,根据分子相似性原理,可以在数据库中搜寻与目标分子具有一定相似性的分子,即相似性搜寻。 步骤: 1、目标选择 2、描述符选择和编码 3、相似性评价方法选择 4、搜寻语句的输入 5、相似性打分,四、互联网上的化学信息资源,(一)化学搜索引擎 1、大型通用搜索引擎:Google、百度等。 2、专门用于搜索化学信息的引擎:ChemFinder, MetaXchem. (二)互联网上的化学数据库 1、文献数据库(CA、Medline) 2、化合物数据库(Gmelin, CSD) 3、综合数据库(Beilstein、PDB),常用化合物数据库,FCD (Fine Chemicals Directory) MDL 维护。收载约90 000化合物和20 000化合物数据,包括化学系统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 培训机构抖音营销
- 上肢静脉血栓的护理
- 家电购销合同范文
- 基于二零二四年度市场需求的蜜蜂产品销售代理合同
- 《汽车文化(第二版)》 课件 第1、2章 汽车史话、汽车外形与色彩
- 生气啵啵促销活动策划
- 2024版高空作业安全信息化管理系统开发合同2篇
- 《Onetouch技术手册》课件
- 2024年设备买卖合同标的及详细条款2篇
- 建筑工程设计合同(2篇)
- 护理职业生涯规划书成长赛道
- 2024年重庆市优质企业梯度培育政策解读学习培训课件资料(专精特新 专精特新小巨人中小企业 注意事项)
- 吉林省延边州2023-2024学年高一上学期期末学业质量检测数学试题(解析版)
- 三体二黑暗森林
- 2023年1月福建高中学业水平合格性考试语文试卷真题(含答案)
- 2024-2023-2024年中考语文三年真题分类汇编(全国版)7病句 试卷(含答案解析)
- 设备撞件不良分析报告
- 呼吸科进修总结汇报
- 小学语文新课程标准解读课件
- 作业治疗学:第八章矫形器
- ELISA检测技术教学课件
评论
0/150
提交评论