




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 / 6基于的化学结构搜索方法初探【摘 要】化学标记语言 CML 已得到广泛应用,目前Web 上存在着大量的以 CML 表示的化学结构信息,google、百度等 Web 搜索引擎只能实现对文本的检索,无法实现对化学结构的检索。在分析 CML 特点的基础上,介绍了提取与验证 Web 上 CML 表示的化学结构信息的方法。利用Daylight 公司的 THOR-Merlin 化学信息数据库系统,提出一种化学结构搜索引擎的设计方案。 【关键词】化学标记语言 化学结构检索 化学结构数据库系统 1 引言 化学标记语言 CML (Chemical Markup Language)最初于 1995 年由 Peter Murray-Rust 等人基于开发,尝试解决在 Internet 上进行化学信息交换的问题。1998 年 2 月2 / 6W3C 发布了 XML:可扩展标记语言推荐标准版。化学标记语言 CML 也根据 XML 的规范进行了更改和修订,成为根据 XML的规范重新定义的一种标记语言,是 XML 的一个应用。 CML 目前的应用已相当广泛,如MaterialsGrid、SPECTRA 等项目都采用了 CML,Web 上也存在着大量的以 CML 表示的化学结构信息。由于化学学科的专业性和内容的相对独立性,目前化学信息的检索都是基于特定的数据库,如SciFinder、Chembank、ZINC、Pubchem、ChemDB、ChemMine 等化学数据库。提出一种设计方案,将 CML 转换为SMILES,利用 DayLight 公司的 THOR-MerLin 系统,建立针对 Web 上大量存在的 CML 表示的化学结构的 web 搜索引擎。2 系统设计框架 文档的采集与内容分析 3 / 6文档采集即页面抓取工作,由 crawler 来完成。由一组种子 URL 开始,从种子集 URL 中取出一个 URL,确定相应的主机 IP 地址,发出抓取页面请求。对非重复文档提取出包含于其中的链接,根据制定的过滤策略(相对链接转为绝对链接,并判断链接是否需要下载),把过滤后的 URL 存入 URL 集中。同时对抓取的网页的内容进行简单的分析,保存包含 CML 内容的网页。最终的 THOR 数据库中并不保存整个网页的内容,而只是保存含有 CML 内容的网页 URL。 CML 表示的化学结构信息具有区别于网页其它内容的显明特征,它以标记开始,以标记来结束。与标记没有实质的意义,只是起到容器的作用,作为 CML 内容的根,用来告诉其它 CML 处理程序在文档中存在化学内容。与之间可以是任何内容,而且可以嵌套。但是目前看到的一些 CML文档并未在化学结构信息的最外层加注与标记,而是直接以与表示最外层。在对文档内容分析时要考虑到这两种情况。可以采用模式匹配来分析抓取的网页内容。 文档 CML 内容的抓取与有效性验证 经过 crawler 的简单过滤,文档内容存储器中的文4 / 6档都含有 CML 内容。将文档中 CML 内容复制到单独的文件中。文档 URL 与文档产生的 CML 文件具有一对 n 关系,n为 CML 文件的个数。 CML 内容的有效性验证分三步2, 3 。第一步确定CML 内容是否由与标记或 与标记所包含。这在节中的文档内容分析时已采用,目的是过滤掉确定不含 CML 内容的文档。第二步,由于 CML 严格遵守 XML 规范,可以采用 CML DTD 与 CML Schema 对 CML 内容进行验证(采用 DTD)。第三步采用基于 XSLT 的验证方法,对 CML 的内容进行分析。比如可以通过 XSLT 来判断 CML 中的原子化合价是否合法,化合物中两个原子之间的距离是法合法等。 CML 至 SMILES 的转换与 SMILES 的存储 SMILES 是一种线性的用 ASCII 码来表示原子和化学键的化学语言。和其它化学结构表示方法相比,SMILES 简短易读。同一种化学结构用 SMILES 来表示要比用连接表(Connection Table)节省 50%至%70 的存储空间。典范SMILES 能够保证每个化学结构的 SMILES 具有唯一性,因而常被作为化学数据库中的索引关键字。 CML 到 SMILES 的转换,本设计采用开源软件5 / 6OpenBabel 提供的 API 函数。OBConversion 为转换类,转换伪码如下: OBConversion conv( if(“SMI”, “MOL”) OBMol mol;if(&mol) .manipulate molecule conv-Write( THOR Server 是一后台程序,不允许用户直接对其操作,用户必须通过 THOR Client 对 THOR Server 进行操作。用户通过 THOR Client 将 CML 转换后的 SMILES 及 CML 所在的文档 URL、当前访问时间等存入 THOR 数据库,并以SMILES 作为记录的主关键字。本系统根据 Daylight 提供的THOR-Merlin Toolkit 来编写 Client。Client 通过 server来对 THOR 数据库进行操作。 用户界面设计初探 用户可以直接输入要检索的化学结构的 SMILES 码,6 / 6或者根据提供的 JME(JME 是由 Peter Ertl 开发的 java applet,用于在网页上直接描绘化学结构)画出要检索的 2D化学结构图,并指定结构检索的类型,JME 会自动把用户画出的化学结构转化为 SMILES 码进行检索。 3 总结 提出了一种化学结构搜索引擎的设
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 园艺师考试模拟试题及答案详解
- 潍坊幼教面试题目及答案
- 2024年辅导员岗位需求试题及答案
- 园艺师管理与运营策略考试试题及答案
- 上小学面试题目及答案
- 培训创新面试题及答案解析
- 福建事业单位考试有效沟通能力试题及答案
- 2024年农业经理人考试实践反馈试题及答案
- 通讯社笔试题目及答案
- 2024年农艺师考试的成功与努力的必然联系分析试题及答案
- 纵隔肿瘤护理查房
- 眼镜店销售培训课件
- 2024年4月自考00150金融理论与实务试题及答案
- 2024年海南发展控股有限公司招聘笔试参考题库含答案解析
- FZ/T 63045-2018芳纶纤维绳索
- 陕旅版四年级英语下册Unit-5-Where-Are-You-Going第2课时课件
- 毕业设计(论文)-巴哈赛车悬架系统设计
- 招银国际投资银行业务介绍课件
- 富余水深与船体下沉量的关系
- 压力罐区球罐安装工程无损检测施工方案
- 幼儿园:中班科学:《会跳舞的小球》
评论
0/150
提交评论