




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数字图书馆关键技术及其在生物信息学中的应用 张亮2002 05 30复旦大学计算机与信息技术系上海 国际 数据库研究中心 数字图书馆关键技术及其在生物信息学中的应用 2 内容安排 数字图书馆数字图书馆研究的意义复旦大学数字图书馆关键技术研究在生物信息学中的应用 数字图书馆关键技术及其在生物信息学中的应用 3 研究动机 信息在国民经济中占有重要地位 是不可多得的战略性资源信息的有效利用可产生巨大的社会效益和经济效益 数据量的迅速膨胀分布式的异构信息管理复杂的数据类型信息的快速 精确的查询需求 一种解决方案 数字图书馆 数字图书馆关键技术及其在生物信息学中的应用 4 数字图书馆是国家信息基础设施 数字图书馆是一种基于计算机网络 特别是基于Internet的数字化信息资源管理系统 它维护分布式 大规模且有组织的数据库和知识库 保护信息资源的安全和知识产权 支持本地和远程用户借助计算机网络对系统内的数据库和知识库进行一致性的访问 传送和表现用户所需的信息 实现资源共享 数字化的信息资源超链接的信息组织方式信息的网络化传输以用户为中心的服务模式 数字图书馆关键技术及其在生物信息学中的应用 5 各国政府和机构积极推动数字图书馆的研究与开发 美国数字图书馆研究及建设作为其国家信息基础设施NII的重要组成部分美国政府蓝皮书中对数字图书馆的战略意义给予了高度的重视美国数字图书馆先导研究计划DLI 1 DLI 2世界其它国家欧洲出版工程 法国与英国的国家图书馆以及日本 新加坡等国家政府 机构也都积极推动数字图书馆的研究与开发工作IBM和HP等跨国公司大力开展数字图书馆的系统研发工作 数字图书馆关键技术及其在生物信息学中的应用 6 对国际上数字图书馆研究状况的跟踪调研国内重要的数字图书馆建设项目中国数字图书馆工程中国试验型数字图书馆 CPDLP 电子图书馆相关关键技术研究知识网络 数字图书馆系统工程中国高等教育文献保障体系 CALIS 新一代图书馆信息系统 NLIS 电子文档管理系统 EDMS 上海图书馆数字化工程数字图书馆系统软件平台及其应用等 国内数字图书馆的建设 数字图书馆关键技术及其在生物信息学中的应用 7 涉及数字图书馆的关键计算机技术 数字式资源的采集技术 直接生成 数字化转换 数字化资源的存储与管理技术 数据压缩 信息安全 信息访问和查询技术 分类 索引 异构信息的一致性检索 数字化资源的传送与信息发布技术 多媒体信息的传输 同步和QoS控制技术 数字化资源的权限管理方法面向特定用户的个性化服务 数字图书馆关键技术及其在生物信息学中的应用 8 事例研究 异构性与互操作 大规模复杂信息系统没有集中控制机构遗留系统 需要互操作技术 数字图书馆关键技术及其在生物信息学中的应用 9 事例研究 异构性与互操作 Wrapper Mediator方案 利用XML为异构的信息资源 数据库系统 HTML的网页集合 传统信息服务机构的可检索对象甚至是遗留系统 提供逻辑上的统一信息资源视图将XML查询语言看作是视图定义语言 它驱动Mediator系统该Mediator系统负责选择 调整和集成由多个自治资源站点返回的信息 然后以XML文档一致格式反馈给用户 数字图书馆关键技术及其在生物信息学中的应用 10 事例研究 异构性与互操作 InfoBus 斯坦福大学承担的DLI 1项目针对现存系统的互操作问题 不定义新的标准或试图修改现存的系统 而是承认它们的客观存在基本思想是用图书馆服务代理这样一种CORBA对象表现在线服务 这些代理与现存的系统以它们固有的方式进行通讯 并将信息转换成由CORBA方法定义的标准界面 数字图书馆关键技术及其在生物信息学中的应用 11 事例研究 异构性与互操作 Ontology 本体 Ontology 是领域知识的概念化说明本体的元素 对象 概念及其关系通过形式化的说明被严格规定一组主体 Agent 按照他们形成的本体承诺相互交流领域知识 他们在给定的领域中对知识采取一致的解释和处理知识体系追求论域中的一致性而不是其完整性它可以为实现语义级的互操作提供帮助 数字图书馆关键技术及其在生物信息学中的应用 12 事例研究 OntologyaboutWaterLilies 数字图书馆关键技术及其在生物信息学中的应用 13 事例研究 多媒体信息检索 CBIR 基于色彩直方图的图像检索 图像表达为其色彩直方图特征 基于色彩分布的图像检索 图像表达为色彩的区域分布或变换域系数分布特征 基于区域的图像检索 图像表达为对象级的特征 基于区域分割和语义标注的图像检索 excerptedfromJ Z Wang sSemantics sensitiveRetrievalforDigitalPictureLibraries 数字图书馆关键技术及其在生物信息学中的应用 14 图像索引的基本处理流程 ExcerptedfromJ Z Wang sSemantics sensitiveRetrievalforDigitalPictureLibraries 数字图书馆关键技术及其在生物信息学中的应用 15 图像检索的处理流程 ExcerptedfromJ Z Wang sSemantics sensitiveRetrievalforDigitalPictureLibraries 数字图书馆关键技术及其在生物信息学中的应用 16 事例研究 多媒体信息检索 视频结构的分析 ExcerptedfromDr ZhnagHongjiang s新一代多媒体检索 电视节目 针对多媒体中蕴含的时间特性 空间特性和时空特性开发基于内容的多媒体信息检索技术 数字图书馆关键技术及其在生物信息学中的应用 17 事例研究 多媒体信息检索 Informedia 自动分析视频 音频 隐含的标题 场景变换和其它信息其特色在于 虽然个别模式的分析只能得到不完美的信息 但是组合所有模式提供的信息却能得到非常优异的效果向Informedia数字图书馆馆藏中增加新的素材将视频素材分割到各主题部分中通过音轨语音的识别 视频流隐含标题的识别来标识每个部分相关的文本各种自然语言处理工具产生合适的索引纪录用户可以用多模式中的任何一种形式提出查询要求 多模式信息检索体现优异的效果 数字图书馆关键技术及其在生物信息学中的应用 18 数字图书馆研究在复旦大学 1995年起 复旦大学与IBM中国研究中心联合开展了数字图书馆的关键技术研究中国历史地图数字图书馆原型系统国家自然科学基金重点资助项目 电子图书馆相关关键技术研究 编号 69933010 上海市科技发展基金项目 数字图书馆系统软件平台及其应用 合同号 005115012 达到国际先进水平上海市自然科学基金项目 页面图像的内容检索技术 合同号 00ZD14006 达到国际领先进水平目标 研究和开发Internet上基于数据库技术的数字化信息资源管理技术 数字图书馆关键技术及其在生物信息学中的应用 19 研究成果 提出了一种基于Internet技术 合理组织大规模数字化资源的数字图书馆解决方案 研制了支撑该技术方案的一批关键技术 开发了实用的软件功能模块 适应于今后越来越多的分布式 自治 异构信息源的集成与一致性服务形成了具有自主知识产权 先进实用的数字图书馆系统软件开发平台 该平台可根据应用特点 形成多种系统配置方案 数字图书馆关键技术及其在生物信息学中的应用 20 研究成果 数字图书馆关键技术及其在生物信息学中的应用 21 资源整合层面的研究成果 元数据组织技术及软件模块 采用有向无环图模型和资源描述框架 RDF 集成自治资源的元数据 为用户提供一致的信息服务界面 为数字图书馆系统提供信息组织结构 为个性化服务提供内容参考分布式检索技术及软件模块 从数字图书馆的众多的收藏中发现优选收藏 发布检索请求并集成检索结果互操作技术及软件模块 采用Wrapper Mediator互操作模型 XML和CORBA技术 完成分布式自治信息源的能力描述和访问接口包装 为分布式检索提供对异构信息源的统一访问接口 数字图书馆关键技术及其在生物信息学中的应用 22 资源站点建设层面的研究成果 资源建模 维护技术与软件模块 支持Web应用的多种粒度的抽象 封装 重用及导航 提供自治信息源的优选建模和维护支持基于内容的多媒体检索技术和媒体服务器 支持基于内容的图像检索和高性能的中文全文检索 数字图书馆关键技术及其在生物信息学中的应用 23 数字图书馆综合技术方面的成果 XML数据管理技术与软件模块 基于关系数据库系统 实现对数字图书馆中的XML数据的存储 提供高效稳定的查询处理个性化服务技术与软件模块 发掘在特定用户的使用履历中隐藏的个人信息偏好 动态用户归类和兴趣预测 为用户提供主动的信息推送服务Web信息搜索技术与软件模块 采用结构匹配技术 实现对Internet上特定数据源的基于内容和结构的查询元数据配置与管理工具 辅助维护数字图书馆元数据体系 构造自治数据源的Wrapper资源编目工具 支持对DTD模板的结构性和层次性的灵活编目 实现对数字资源的元数据置标和封装 数字图书馆关键技术及其在生物信息学中的应用 24 一种生物信息源集成方法 数字图书馆关键技术及其在生物信息学中的应用 25 生物信息学产生了大量相关资源 生物信息学数据库共有335个主要的数据库 据NucleicAcidsResearch 2002 是实验数据与最终的结构 功能研究的桥梁各有侧重 关心问题的范围比较狭窄 但又有重叠生物信息学的相关服务BLAST FASTA等序列比对工具基于HMM的Pfam HMMer等数据挖掘工具系统发育分析的Phylogeny工具 数字图书馆关键技术及其在生物信息学中的应用 26 当生物学家想利用利用资源时 数字图书馆关键技术及其在生物信息学中的应用 27 给生物学家的研究带来不便 寻找众多数据库和相关服务网站使用各种风格各异的用户界面要明确知道需要访问哪些数据源使用不同的协议分别发出查询请求不停的作Copy Paste 甚至格式转换手工综合查询结果 集成生物信息资源 提供统一的访问机制 数字图书馆关键技术及其在生物信息学中的应用 28 相关研究 BioKleisli 宾夕法尼亚大学计算机系 DiscoveryLink IBM研究院 TAMBIS 曼彻斯特大学计算机系 TINet GSK公司和IBM研究院 国内尚未发现公开发表的自主研究 存在的一些缺陷 BioKleisli系统查询能力相对较弱 而且并未给出查询优化策略 TAMBIS系统和DiscoveryLink系统集成的数据源数量还很少 后者在查询处理中并未运用领域知识 因而查询分解也未从语义角度考虑 TINet系统中的查询处理能力不强等等 数字图书馆关键技术及其在生物信息学中的应用 29 当前生物信息资源集成技术的特点 目前的生物信息学数据源仅限于海量数据的存储体 除TAMBIS外 其他工作都还没有在概念和联系层次集成信息源现有集成系统的查询处理能力还不是很强 尤其是当多个数据库存在信息重叠时 缺乏从中选择最佳检索成员 动态生成优化检索方案的能力现有的工作主要面向数据集成 而对服务集成考虑不多 支持数据与服务综合性集成的体系仍欠完备 数字图书馆关键技术及其在生物信息学中的应用 30 研究目标 建立一套生物信息学资源集成方法提供综合查询能力具有良好的可扩展性支持Internet网络计算环境同时支持数据集成和服务集成整合一批重要的生物信息学资源数据库 GenBank EMBL DDBJ SWISS PROT PIR PDB KEGG DIP PRINTS PubMed等应用服务 BLAST FASTA HMMER Pfam等 数字图书馆关键技术及其在生物信息学中的应用 31 主要研究内容 基于新一代Internet技术的信息资源 内容和服务 集成与互操作技术适用于重要生物信息学资源综合应用的联邦数据库体系结构服务于终端用户和应用程序的一致性访问接口可供语义互操作的本体 数字图书馆关键技术及其在生物信息学中的应用 32 接口层 Mediator层 Wrapper层 GenBank SWISS PROT BLAST服务 PubMed 整体技术框架 数字图书馆关键技术及其在生物信息学中的应用 33 接口层 Mediator层 Wrapper层 GenBank SWISS PROT BLAST服务 PubMed 数字图书馆关键技术及其在生物信息学中的应用 34 接口层 客户端可能是Web浏览器 也可能是应用程序以WebService方式统一系统向外公开集成信息资源的访问界面 可支持BLAST Pfam等应用服务底层集成的信息资源对用户透明 即用户只需提出查询请求和相关概念 无需知道 去哪里找 怎么找 数字图书馆关键技术及其在生物信息学中的应用 35 接口层 Mediator层 Wrapper层 GenBank SWISS PROT BLAST服务 PubMed 数字图书馆关键技术及其在生物信息学中的应用 36 Mediator层 查询生成 针对用户请求 借助领域知识本体生成整体查询表达式查询处理 优化 基于查询效率 语义等因素 选择底层信息资源并相应地分解查询方案执行查询 参照资源元数据 通过内部互操作机制将执行信息发送给wrapper层结果生成 集成各返回的结果信息 整理后发往用户接口层 数字图书馆关键技术及其在生物信息学中的应用 37 接口层 Mediator层 Wrapper层 GenBank SWISS PROT BLAST服务 PubMed 数字图书馆关键技术及其在生物信息学中的应用 38 Wrapper层 wrapper的作用是降低mediator和底层数据资源交互的复杂度每个信息资源对应一个wrapper完成数据格式 查询格式的转换这部分的研究内容包括针对一类生物信息源的半自动Wrapper生成技术和工具 数字图书馆关键技术及其在生物信息学中的应用 39 接口层 Mediator层 Wrapper层 GenBank SWISS PROT BLAST服务 PubMed 数字图书馆关键技术及其在生物信息学中的应用 40 本体和资源元数据 利用本体 ontology 提供领域知识 给出系统中各实体概念的定义和其间在语义上的联系 是同一领域内进行语义互操作的基础本体已在生物信息学中得到应用 如GO GeneOntology TaO RiboWeb EcoCyc等资源元数据包括了被集成信息源的URL地址 数据模式 功能 查询格式 访问代价等相关信息 包括了各数据源和mediator内部数据模式的映射 包括了各数据源元数据与本体的映射本体相对稳定 资源元数据更改较频繁 映射提高了可扩展性 数字图书馆关键技术及其在生物信息学中的应用 41 关键技术问题 生物信息学领域可伸缩 易扩展的信息集成和互操作体系结构同时支持数据集成和服务集成的信息集成方法生物信息学的互操作协议 包括用于语义互操作的本体以及集成技术 适用于人类用户浏览和应用程序访问的统一访问接口技术 数字图书馆关键技术及其在生物信息学中的应用 4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 鸿合触控一体机培训材料
- 蒙氏基础理论培训
- 2025劳动合同 试用期规定
- 2025建筑工程施工合同协议书样本
- 2025更新劳动合同意向书
- 2025美容院承包合同模板
- 2025年采购销售合同
- 2025建筑项目施工合同(对内)工程建筑施工合同
- 2025融资中介合同 融资中介服务协议(详细版)
- 部编人教版七年级道法下册 三年(2022-2024)中考真题分类汇编-道法:专题01 青春时光
- 青少年无人机课程:第一课-马上起飞
- 政府专项债业务培训
- 3班主任基本功竞赛:主题班会《我本是高山》教学课件
- 《通信原理》期末考试复习题库(含答案)
- 大学助农直播创业计划书
- 2024年北京市自来水集团有限责任公司兴淼水务分公司招聘笔试冲刺题(带答案解析)
- 施工现场交通安全培训
- 2023-2024学年北京四中高一(下)期中物理试卷(含解析)
- 苏教版一年级数学下册第二单元达标测试卷(含答案)
- 2023版管理科学与工程专业攻读硕士学位研究生培养方案
- 做美食自媒体规划
评论
0/150
提交评论