




已阅读5页,还剩65页未读, 继续免费阅读
(计算机应用技术专业论文)基于语义网的文本信息分类技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要硕士论文 ab s t r 8 c t w i t h 此 e x p l o s i ono f the in fo rmat i onon】 n t e rn e t , it i s 助pos s i bl e tom ad ual l y c las s i 厅 t h e e n t ir e 场 /e b 诫th o u t , 0 幻 口 e fo n nofa u t o m a t e d ai d . f or而5 邝 司 泊 残印 吐 。 m a t i c doc ur n e o t cl as si fi c a t i onh asbe c ome an汕portan t re se 峨h area. 了 七 e in fo rma t i on】 a c ksa 山 五 允 n 刀 s e m an石 c dssc ri 如叽 soit ismcre as in g 】 y di ffic ul t 勿 石 川, 。 唱 印 ” z c , acc 创 始助dm aj 山 ta i nth ei n fo rmatio nr e q u i re d妙 讹祀 招 c 叻 t o l o g y 七 as ed 5 . 戊 口 叮 l lc m /e b 抚 c hnol o gyp ro pose d byw3 ci n d i c ates a w aytoso l ve面s pr o b 】 em. v 几 b 即 p li c 丽ons c anr e p r e se n t 田 l d 坦 川 e 比 忽 田 d thc i n fo n n at i onbyo b 面n i d g the sem aj lt l c ofthe w o rd s , evm tb o u ghcl as s i厅d oc 切 m en t b 赴 沈 d 皿so m e ro les 1 l lj s p a 户 二悦g ins 俪t ha加 知 以 加 c t i on ofs e m 胡t l cm /e bandre l at ed 奴h n o l o gi es, foll o 姗 闭勿 d 出 si fic而on w a yofw e bp a g e助dthe 茂 】 at i on 比 twe en c 恤 t o fo gy and s e n 场 口 t i c 叭 /c b.at l ast c 叭 加 1 。 留七 留 目s e m adt i c 认 /e bt e c hnol o gya u t o m atic cl as si fi eris p r e sent e d . t 七 i s cl as 溢 fi erc an cl as si 厅节 触 bp a g eswithre s 侧 沈 t toth e d e w e yd ec 汕al o as s i fi ca t i 加( d d c ) 胡 d li b r 山 y ofc ongr e s s a as s 1 6 。 吐 i on任 cc) 义 h elnes. 协 七 即wc d escn bers血 c 比幻 6 cr, firs t 】 y,we e x p i 幽 b o wth e s e o 匕 t 0 1 0 gl esc an be buillina m odu l ar丘 巧 hi 叭 目 记m 即 侧 纽访 仍d d cal l d lcc . s e c o n d l y,we p ro p o seth e 允 m囚ds五 川 ti 皿ofa d d c 户 l c ca l 日anc 咖o l o gy. c l as s 沂c 如on-sc b e r o e m 叩p m g . t hi r d l y, we e x p 妞 访比 w a y th e c l as 城 石 eru 比 七 s th c 即叨t o l o gi estoas si stc 】 as s i 幻 cation. f i n a l l 乳an e 盆 声 泪 m e 川inw h i 比 此 留 世 鱿 yof此 cl as si fi erwas e v 目 妞 时 目 15衅se ni cd. t 七 。 e x 沐m n ent s h o w s th a t our ap户 ro 邢 hr es 川 tsan l m p 拍 v ed d as si fication inte n 刀 sof 创 刃 世 a c y.1 七 j s l m p r o v e m e 城加w c v er,comesata costinalow o v er ag e n 皿 i o d u e tothe 加 叨m p l et ene ssofthe o n t o l o gi esl 巧 七 d . k e ”ord s: ont o l o g y ,s e . a n t i c贾 e b , d o c 伽e n tc l a s s i f i c a t i o n t 1 声明 本学位论文是我在导师的指导下取得的 研究成果,尽我所知,在本 学 位论文中,除了加以 标注和致谢的部分外,不包含其他人已经发表或 公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使 用过的材料。与我一同工作的同事对本学位论文做出的贡献均己在论文 中作了明确的说明。 研 究 生 签 名 : 韭驻 二么 印石 年j 么 月弓 阳 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或 上网 公布本学位论文的全部或部分内 容,可以向有关部门或机构送交并 授权其保存、借阅或上网公布本学位论文的全部或部分内容。 对于保密 论文, 按保密的有关规定和程序处理。 研 究 生 签 名 : 鸽驭,少 办年1 明妇日 南京理工大学硕士学位论文基于语 义网的文本 信息分类技 术研究 绪论 研究背景和研究意义 我们正处在一个信息爆炸的时代! 根据统计, 互联网上在 线发布的网页达忆数量 级, 并以 每 天百万页的速度增长, 其中 包含的内 容极为 丰富, 几乎囊括了人类社会从 政治、经济、军事到生活、娱乐、体育的各个方面,信息量极为丰富且完全开放。从 发展趋势来看,互联网将成为人们获取信息的主要来源. 面对如此庞大而 且急剧膨胀的信息海洋, 如何有效 地组织 和管理这些信息, 并快 速、 准确、 全面地从中 找到 用户所需 要的 信息是当前信息科学和 技术领域面临的一大 挑战。 文本分类作为处理和组织大量文本数据的关键技术, 可以在较大程度上解决信 息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。 因此,自动文本分 类 己作为一项具有较大实用价值的关键技术, 得到了广泛的关注, 取得了很大的进展。 文本分类作为信息过滤、信息检索、搜索引擎、 文本数据库、数字化图书馆等领 域的 技术基础, 有着广泛的 应用前 景。 本文着重论 述文 本分类技术 在数 字化图书馆领 域的应用。 1 . 2 文本分类在数字 化图 书馆领域的 应用现状 随着因 特网的 快速普及, 各类网 站纷纷建立, 尤其是以 搜索引 擎为主要代表的各 种网络检索 工具, 利用超文 本或 超媒体的 非线性文本组 织模式, 立体交叉、 快捷高效 地提供全方位信息的联想检索方式, 从根本上打破了传统图书馆作为收藏和提供文献 信息专门机构的格局, 使网络时代的图书馆面临巨大的挑战, 在这种情况下数字图书 馆诞生了。 1 . 2 . 1数字图书馆的概念 “ 数字图书馆”一词,源于 1993 年由美国国家科学基金会 ( n s f ) 、美国国防部 尖端研究项 目 机构 ( d a r 卫 a ) 、国家航空与太空总署 ( n a s a )联合发起的数字图书 馆创始工程 ( digi ta l li b ia 口l 血 i ative) 。目 前, 数字图 书馆正处于发 展之中,国内 外 对数字图书馆还没有一个明确、 完整的定义。 但一般认为,数字图书馆是采用现代高 新技术支持的数字信息资 源系统, 是下一代因特网网上信 息资 源的 管理模式, 它将从 根本上改 变目 前因 特网 上信息分散不 便使 用的 现状。 数字图书馆来源于图书 馆馆藏的数字化,从而充分地高 效地利用图书馆信息资 源。 现 有的图 书馆资料主要 是书籍、 杂志、 报刊、 技 术报告等。 人们希望利用因特网 把所有的数字化的资源站点连接起来,这样要管理的 信息除了图书 馆中的文本信息 绪论硕 士 论 文 外, 还希望 管理博物馆、 展览馆、档案 馆、学 术组织以 及其它 web站点 上千差万别 的信息。 但如何以 最有效和经济的 方式推动对有价值的网络 信息资 源的 整合, 是整个信息 界包括图书馆和情报界的 重要使命. 在数字化、 网 络化环境下, 为方便用户充分利用 大量网络信息资源,文献 分类法广泛用作建立网 上资 源的 检索工具或组织手段。 随着数 字化图 书馆建 设的兴起,大多数图书 馆必 将面临数字化改造的艰巨 任务, 包括: ( 1)在实现业务流程 自 动化管理基础上,不断将传统纸介质的文献转化为数 字化、电 子化的 光盘文献和网络信息; (2) 通过人工控制, 随时浏览采集网上各 类有价值的信息, 并及时 纳入馆藏 资源; (3) 通过建立图 书馆窗口 站点 进入互联网信息 环境, 真正实现信息资 源共享。 概括之,图书馆数字化即实 有馆藏的 数字化管理和 虚拟馆藏的网 络化共享。 随着图书馆信息资源的 逐步网 络化, 传 统的 文本分类、 信息检索方式已 不能满足 用户需求,新型的基于语义的文本分类、 信息检索方式己成为当前研究的重点领域之 1 , 2 . 2目 前数字图 书馆中 存在的问题 第一, 异构系统之间的互操作问 题。 随着 越来 越多的 组织机构加入到数字图 书馆 系统的建设中来, 逐渐产生了 两 个方面的 趋势: 一方 面是不同组织机构建设的数字图 书馆系 统侧重于不同的、 各具 特色的信息内容; 另一 方面, 由于不同组织机构进行数 字图书 馆系统建设的目 的、 方式、 运行手段各不相同, 从而 在技术上采用的平台、协 议、 体系结构也各不相同。 因 此, 未来的数 字图 书馆不可避免的具 有分布式、异 构性 的特点,它迫切需要解决异构系统之间的互操作问题。 第二,目 前的 数字图 书馆在信息 表达和 检索方面存在缺陷, 主要在于其设计目 的 是面向用户的直接阅读和处 理, 而没 有提 供计算机可读的 语义信 息, 因此限制了计算 机在信息检索中的自动分析处理以及进一步的智能化处理的能力, 人们必须力求使计 算机之间能够从语义层次上互 相理解和沟通. 第三, 目 前的 数字图 书馆多以 传统的关 键词检索为主。 这种检索方式曾 经在一定 程度上满足过用户的需求, 由 于字义本身与 其概念的延伸不在同一级上, 这使得寻找 的结果可能仅仅是与字面意义或某 层意义相匹配, 但人 们想要的 往往是这个信息的概 2 南京理工大学硕士学位论文基于语义网的文本信息分类技术研究 念及其相关的成分,而不仅仅是字面所表达的 意思。 为了 解决上述问 题, 我们将本体技术引 入到数字图书馆。 这里所谈到的本体, 本 来是哲学上的一个概念, 被哲学家用来描述物质的基础。 后来知识工程学者借用了这 一概念, 在开发知识系统时用于领域知识的获取. 近年来, 信息系统研究者们又用本 体的概念模拟信息系统建模, 开始了诸多新的研究。 本体对于促进信息系统的发展具 有非常重要的作用。u 义 h ol d等人认为本体在通讯 ( c o n ” n 切 山 c ation) 、互操作 ( i n t e r- q 阵 ra b il ity) 和系 统工 程 ( s y st e m s e n gi d ee ring ) 三 个 方 面 具 有非 常 重要的 作 用1 1 : ( 1 )通讯,主要为人与人之间或组织与组织之间的通讯提供共同的词汇 (2) 互操作, 在不同的建模方法、 范式、 语言和软件工具之间进行翻译和映射, 以实现不同系统之间的互操作和集成; (3)系统工程,本体分析能够为系统工程提供以下优势: 重用 ( r e . u sa b i l ity) :本体是领域内 重要实体、 属性、 过程及其相互关系形式化 描述的 基础. 这种形式化描述可成为软件系统中可重用和共享的 组件 ( 伪m pon e n t ) ; 知识获取 ( k 力 o w l e d gea cq u l sition) : 构造基于知识的系统时, 用己 有的 本体作为 起点和基础来指导知识的获取,可以提高其速度和可靠性; 可靠性 ( reli abil ity) :形式化的 表达使得自 动的 一致性检查成为可能, 从而提高 了软件的可靠性: 规范描述 ( 5 伴 c i fi c a t i o n): 本体 分析有助 于确定rr系 统 ( 如知 识 库) 的需求和 规范。 在上述背景下, 各国计算机相关领域研究者开始把本体技术应用到数字图书馆的 相关信息系统开发中。 1 . 2 . 3文献分类法在网络信息资源组织中的作用 分类法是一种技照事先规定好的学科或体系范畴, 依照一定的属性将信息分门别 类组织成系统以便于查检的方法。按照学科范畴组织信息具有很好的层次性与系统 性,便于学人“ 即类求书、因书就学” 。由 于“ 分类” 这种组织文献资源的方法符合 人类认识事物的逻辑思维方式, 长期以来在揭示文献内 容、 聚集相同文献、 区分不同 文献方面有着十分广泛的应用基础。在信息网 络环境下,从现有的各种联机数据库、 光盘检索系统与网络查询工具的结构与功能看, 分类法采用划分范畴的树状结构组织 与揭示信息、 提供按学科专业或范畴领域检索信息资 源的 途径, 具有很好的稳定性与 3 1绪论 硕士论文 系统性。 为充分开发网 络信息资源, 网络信息的生产者与 提供者必须采用符合人们思维方 式的、 科学合理的 方法来存贮信息、 组织信息、 揭示信息。 因 此分类法作为网络资源 组织和检索工具已成为研究的热点。 目 前国际上几部著名的分类法都非常重视其在组织网络信息资源方面的应用: ( 1) 杜威十进分类法121 。 m 触 b上分类目 录利用d d c作为分类体系始于1 995年。 现已 有一些站点以d d c 为分类体系, 这些站点以图书馆和大学为主. 资源类型既有综合全球资源, 也有专题 性资源、 国别资源。 有些目 录在各层次的类目 前均标记了标准的十进制分类号, 只是 利用d d c体系建立了浏览结构。 利用 d d c 比较成功的综合性网络目录有加拿大国家图书馆的 c ,州1 ” 1 双 比 n 娜 时 ion 勿 s ubj以;较好的专题性网络目 录有加拿大多伦多参考图书馆的 e x p 的d 吨 一, 而英国m 白 ,esa 悦 叮5 伙灿 大学t 、 。 功 留p arty图书馆的p l c k则 针对图书情报学资 源。 另有一些特色站点是: c n o sl s 、 c y b 比 d e w e y 、 w认 飞 ib 、 si z e d 等。 ( 2 ) 国际十进分 类法142 la u d c由6万多个类目 构成, 并提供多种复分表, 在满足文献资料细分方面有独 到优势, 通过符号组配可以获得概念的组合,因此, 这种分类法较适合于机检。一些 网络目录利用了u d c的这些优点,建立起自己的分类系统。 (3) 美国国 会图 书馆分类法13 。 使用 l c c的网络目 录如:c y 刀 e r-s i 人c k s,由 依阿华大学开发,主要提供 6 大部类的资 源, 用l c c分 类号 表示就是q( 科学) 、 r( 医学) 、 5( 农业) 、 t( 工业 技术) 、u( 军事科学) 、v( 海洋科学) 。 文献分类法在网络信息组织上的应用大体有两种类型,一是以某个分类法为依 据,经过必要的改 造后作为组织网 络信息的主体, 应用的范围主要是大学、图书馆、 学术性网站; 二是在设计分类导航系统时, 在整体上或局部上参考一个或几个文献分 类法的类目 体系。 文献分类法直接用于网 络信息的组织 ( 网站、 搜索引 擎) ,就整个 因特网来看,目 前还处于起步阶段。 1 . 2 . 4数字图书馆中的文本分类 南京理工大学硕士学位论文荃于语义网的文本信息分类技术研究 传统图书馆的人工收集、 手动检索的单一封闭 式服务模式已 经无法充分体现图书 馆在新时 代中的生命力。 图书馆必须重新定位, 充分利用其自 身的知识载体, 发挥各 种信息传递优势, 提供周期循环的信息增值服务, 使图书馆不但具有传播中介的性能, 而且更具备生产性能。所谓 “ 增值, ,就是不局限 于信息的简单罗列和堆砌,而是结 合服务反馈信息, 利用先进的信息处理工具, 对信息进行优化组合和加工处理, 与因 特网相结合产生新的知识, 为读者提供全方位的知识和信息。 因此, 如何将浩若烟海 而又纷繁复杂的大量文本自 动分门 别类, 在知识库中选择最佳匹配的类作为该文本的 存储类别是一 个重要发展方向, 通过该项业务的开 展, 图 书馆能为 专门的研究课题和 研究领域提供专业的信息查询和知识服务。 文本分类简单地说, 就是在给定的分类体系下, 根据文本的内容自 动确定文本关 联的类别。 从数学角度来看, 文本分类是一个映射过程, 它将未标明类别的文本映射 到已有的类别中。 由于传统的基于关键词的分类方法和基于统计的分类方法没有考虑文本语义和 上下文方面的信息, 因此有较大的局限性。 主要原因是存在一词多义和同义词的现象, 例如在一个网页中包含“ d 0 ct o r ” 一词, “ d oct o r ” 既可以 表示“ 医生” , 又可以表示“ 博 士气 显然 “ 医生”和 “ 博士”不是同一个意思,如果仅仅依据 “ d oc td r ” 一词我们 很难为网页分类; 又如, 一类目 用“ c o m p 吐 er ” 表示, 但在网 页中出现“ pc,一词, 显 然“ c o m p u t e r ” 与“ p c ” 在字形 上 完 全不匹 配, 因 此, 网 页 就不 能 分类到“ c o m p u 枉 汀 ” 类目下。为了解决这些问题,下 刀 i b e r d 曰 rs 户 兀 月 e 提出了语义网 (se m anti c v /e b )技术。 1 . 3语义网 与文本分类 随着信息技术的发展, 特别是因特网的发展, 使得大量的文本资料需要进行搜集 和管理, 从而使文本自 动分类技术应运而生。 文本自 动分类技术在网上信息定位、 档 案管理、资料搜集等方面有着广泛的用途。研究自 动文本分类算法具有重要的价值。 目 前计算机硬件技术 ( 如处理速度、 数据存储、 网 络通讯设备的能力等)已 经有 了 长足的发展, 但是大量数字化信息的表达还停留 在“ 机读” 水平, 缺乏应有的“ 智 能” 去“ 读懂” 数字化信息; 互联网 仍然处在 “ 混沌网” 和缺乏互操作性的阶段, 其 根本问题在于缺乏语义。 语义网的出现将改变这种状况, 简单地说, 语义网就是机器 可以理解的信息,是数据网或全球性的数据库。 作为当前因特网的延伸, 语义网赋予 信息以清晰的定义和含义, 为数字化的信息加上“ 智能” , 促进人与计算机的合作,能 够最大限度地发挥因特网的潜力, 使该技术能够让机器支持全球化的知识交流。 基于语义网的文本分类系统的主要成分是一整套对某一领域里的知识进行表述 的词和术语, 编制者根据该知识领域的结构将这些词和术语组成等级类目, 并且按需 , 1 绪 论硕 士 论 文 要给一些类目 加以 更细的 定义 ( 如 特性、限 制、 推纳规则 等) 。 基于语义网的文本分 类系统与 传统知 识分类工具的 一个根本区别就是系统中的概念、 特性、 限 制条 件等内 容都是计算 机可读 ( 懂) 的, 因而分 类表中的 知识定义 可以 被再利用。 而实现语义网 的关 键技 术则 是本体论 ( o m o 1 o gy) 。 将c 恤 拍 10 g y 融 入 数 字图 书 馆 知 识 组 织 中 , 可以 起 到 如 下 作 用: ( 1) 交流。 指人与人、组织与组织及人与组织间的 沟通。 o m o lo gy 可以 为这 些活动提供对领域知 识的 规范描 述和共同 理解, 使得知识可以共 享, 并可以对这些知 识进行重用或复利用。 例如, 把某一学科领域知识抽象成一套概念体系并使其“ 明确气 “ 形式化” 和 “ 共享” , 就构 成了 这一学科的领域c 七 t ol o g y 。 通过领域。 . t 0 1 o gy 就 可以 将该领域的知 识组织起来。 如生 物本体、 数学 本体、 经济 本体等. 其他组织 就可 以共享和复利用, 从而达到 共识。 (2) 互 用性。 指系统间 协同 工作的能力。不同的用户往往 需要 进行数据交换, 而 他们正使用 着不同 的软 件工具, 相互之间 难以 进行交流, 此时的 关键问 题就是为 这 些不同软 件工具 创建一 个大家 可以 使用的c 叭 t o l o gy 集成环境。 c 匕 仍 , 。 g y可以 在完全 不同的建模方法、 范例、 语言及软件工具之间进行翻译和转换, 从而实现不同系统间 的 相互 操作和 集成; 使不同 领域的知识体系 化、 结构化、 形式化; 为实现数字图 书馆 数字资源的整体化、一体化的组织奠定基础。 1 . 4 本课 题的 研究内 容 本 课题的 主要研究内容 是: 基于语义网 实现对文本的分类。 实现语义网的关键技 术则是本体论,由于目前网上使用d d c、l c c分类法来组织信息的网站比较多,因 此我们把研究的 范围限制 在构建关于杜威十 进制分类法 ( d d c ) 和国会图书馆分类 法 ( l c c ) 的领域 本体, 基于本 体构建语义网实现对文本的分类。 ( 1) 我们分析了 传统 分类法在文本分类上的局限性:指出 采用 基于本 体的语义 网 进行 文本分 类所带来的 优越性即: 机器理 解、 知识共享并 且提高了分类的精确性. (2) 领域内 的知识 本体的 构建. 由于分类法的创建者不同,因 此类特征的名称 和分类的组织 方式也不尽相同, 导 致相似类目 之间就存在不完全匹配的 情况, 我们通 过在d d c与lcc类目 之间基于 共享类的映射来构建领域本体。 (3) 我们提出了 一个基于本 体论的 分类模型。 我们首先对场 呢 b 文本进行分析, 通过加 权策略 得出 反映文本主 题的重 要概念, 将获得的 重要概念与自 动分类数据库中 的概念实例进 行匹 配, 在匹配时充分 利用本体论中概念之间的语义层次关系, 由 低层 概念向高层概 念汇聚, 将匹 配成功的 重要概念实例的权重作为 前馈网络的输入, 而前 南京理工大学硕士学位论文墓于语义网的文本信息分类技术研究 馈网络的输出即文本在本体中的分类,再通过本体与d d c 、l c c类目 之间的映射为 分类的网页赋予d d c 、 l c c 类特征,最终实现基于语义的文本分类。 (4) 最后通过一个实验来验证分类的效果,实践证明我们取得了较好的分类效 果。 1 . 5 木论文的组织 我们在绪论当中介绍了课题的研究背景、 文本分类在数字化图 书馆领域的应用现 状、基于语义网的文本分类及本体在文本分类中的作用。 在第二章当中将介绍语义网及其相关技术, 主要是本体和语义网的定义及本体在 语义网中的作用。 在第三章中介绍文本分类的定义及现有的节 触 b文档分类技术的一般概述,这些 研究有助于深入的理解文本分类技术的理论基础和实现细节; 最后介绍了基于语义网 的文本分类系统的总体设计思想, 其中包括领域本体的构建方法、 d d c 一 lcc映射的 可行性及基于语义网的文本分类系统的流程。 在第四章中介绍基于语义网的文本分类的实现。 包括领域本体的构建、 权重策略、 神经网络分类,最后通过一个实验来验证分类的效果。 在第五章中我们对基于语义网的文本分类进行总结并提出今后的改进方向。 2本体与语义网硕士论文 2本体与语义网 随着社会的发展和计算机应用需求的不断增强, 计算机的发展日 新月异, 然而在 快速发展的同时也面临着知识表示、 信息的组织、 软件复用等一些困 难。 特别是由于 互联网的快速发展, 面对信息的海洋, 如何组织、 管理和维护海量的信息, 并为用户 提供有效的服务成为一个难题。 随着跨学科研究的增多, 学科之间知识的共享和复用 越来越频繁. 大规模的知识模型共享、系统集成以及知识重用也就显得越来越重要。 因此, 上个世纪八十年代, 科研人员把本体引入人工智能领域。 后来, 本体这个概念 在其它计算机领域也得到应用。 2 . 1 本 体 论( 伪to l o 盯) 相 关 知 识 2 . 1 . 1 本体的概念 o ntofo gy 在哲学上泛指 对客观世界的 本体 描述, 在人工智能 领 域一般 指智能系 统中涉及的概念术语及其性质静态知识的描述, 现在广泛应用在知识工程、 知识表示、 信息检索、 信息 摘要、 知识管理 等领域。 c 的 t o l o gy 汇集了 相关领 域的 所有概念与术 语及其之间的关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定 义,按对象分类构成层次结构。 c 七 t o l o g y是对概念化的 精确描述,最终目 标是精确 地表 示 那 些 隐 含 或 不明 确的) 信 息, 使 得 他 们 可 被软 件系 统 重 用 和 共 享. onto le gy 可以 借助语义相关和扩展标记语言 ( x m l )等信息技术,在增加术语相关性的基础 上形成知识集成系统。 随着人工智 能的 发展, 0 叻 l o l o g y的定 义也 在不 断的 发展变化中,比 较有代表性 的定义如下: ( 1) 本体是对于 “ 概念化” 的某一部分的明 确的总结或表达141。 (2) 本 体 在不同 的场 合分别 指“ 概 念化” 或“ 本 体理 论” 川 气 (3) 本体是 对于“ 概念化” 的明确表达sl 。 “)本体是用于描述或表达某一领域知识的一组概念或术语。它可以用来组织 知 识库 较高 层次的 知识, 也可以 用来描述特定 领 域的 知 识问 。 ( 5) 本体属于人工智能领域中的内容理论 (c o n t e n t t h e o 石 e s),它研究特定领域 知识的 对象分类、 对象属性和对象间的关系, 它为 领域知识的描述提供术语门。 从以上定义可以 看出: 本体通过对于概念、 术语及其相互关系的规范化描述, 刻 画出某一领域的基本知识体系和描述语言。最著名并被引用得最为广泛的定义是在 1 99 3 年由c 川 b 盯 提出 的 , 即“ 本 体是 对 概 念 化 的 明 确的 规 范 说明 ” 151 。 19 97年b o n 兹 8 南京理工大学硕士学位论文基于语义网的文本信息分类技术研究 对g ru be r 的定义作了 改进: “ 本体是 对共享的 概念化的形式化的明 确的规范说明” 网 。 后来 s to d er等人 对这两 个定 义进 行了 解 释 11 门: “ 概念 化” 是指 在识别出 与世界上 某 些现象相关的概念后,得出关于这些现象的抽象说明; “ 明确的”意味着概念类型及 概念的使用约束都有明确的定义; “ 形式化”是指本体应当是机器可读的; “ 共享的” 指本体捕获的是己 达成共同认可的知识, 即本体不是个人私有的, 而是一个组织所公 认的。 尽管定义有很多不同的方式,但是从内涵上来看,不同 研究者对于本体的认 识是统一的, 都把本体当作是领域 ( 可以是特定领域的, 也可以是更广的范围)内 部不同主体 ( 人、机器、软件系统等) 之间进行交流 ( 对话、互操作、共享等)的一 种语义基础,即由本体提供一种明确定义的共识。 目 前, 本体提供的这种共识更主要的是为机器服务, 而机器并不能像人类一样理 解自 然语言中表达的语义。目 前的计算机也只能把文本看成字符串 进行处理,因此, 在计算机领域讨论本体, 就要讨论本体究竟是如何表达共识的, 也就是概念的形式化 问题。 这涉及到本体的描述语言、 本体的建设方法等具体研究内容, 与此同时, 可以 认为构造本体的目 标是捕获相关的领域的知识, 提供对该领域知识的共同理解, 确定 该领域内 共同认可的词汇, 并从不同层次的形式化模式上给出 这些词汇和词汇之间相 互关系的明确定义。 本体在计算机科学中也指某一个领域知识中相关的术语的集合, 这些专业术语都 有明确的定义与描述, 可以 用来陈述领域知识中的某一概念, 也可以陈述概念与概念 之间的关联。 在真实世界的 每一 个 领域 ( d o m 司 匕 )都 会有一 个被定 义的o n t o l o g y 。同一 个术 语, 在不同的领域、 不同的时代背景、 不同的用法其意义就不一样。 所以,当进行网 络搜寻时经常会获得一大堆没有用的数据。例如输入 “ 病毒” ,也许指的是计算机中 的病毒, 这是属于计算机科学领域: 但是也会找到医学领域的数据, 因为它们是使用 相同的关键词。 计算机系统并不知道每个术语属于哪个领域, 所以搜寻者必须要定义 这个词汇代表什么意义, 属于哪个领域, 而且还要定义术语之间的关系。 发展知识本 体应包含下列四个步骤:定义知识本体中的类别 ( clas s ) ,定义类别与类别之间的 阶层关系, 定义类别中的属性, 说明属性值的限制. 完成以上四 个步骤才算是构建符 合某个领域知识本体的特定个体。 2 . 1 . 2 本体的分类 。 珑 n o 提出 以 详 细 程 度 和 领域 依 赖 度作 为 本体的 划 分 基 础 111 . 详细 程度是 指 描 述或刻画建模对象的 程度。 它是一个相 对的 较模糊的 概念。 详细程度高的本体称为参 考本体。 详细程度低的本体称为共享本体。 依照领域依赖程度可以 分为顶级本体、 领 9 2本体与语义网硕 士 论 文 域本体、任务本体和应用本体四类,其中: ( 1)顶级本体描述的是最普通的概念 及概念之间的关系, 如空间、 时间、 事件、 行为等等,与具体的应用无关。其它种类的本体都是该类本体的特例。 (2) 领域本体描 述的 是特定领 域 ( 医 药、图 书分类等) 中的概念 及概念之间的 关系。 ( 3 )任务本 体描述的是特定任务和行为中的 概念及概念之间的关系。 ( 4 ) 应用 本体描述的是利用领域和任务概念集来进 一步定 义针对某个具 体应用 的概念。 2 . 1 . 3 本体的描 述语言 最近出 现了 许多基于m 尼 b 的本体语言, 例如: r d f(s) 121 , o i l 等。 ,r d f即资源描述框架。 语义 机b的首要目的就是要让计算机能够对信息的语义进行处理, w3 c制定的 资源描述框架 ( resourcede邻 ri 西加 f ” n ewo rk, r l f ) 为基于元数据的语义表示提 供了基础。 r d f为在胡 念 b上应用系统间进行机器 可理 解信息的交换提供了互操作能 力。 众所周知, 对资源的描 述是与 领域和应用相关的, 比 如对一本书的描述和对一个 从 七 b 站点的描述是不一样的, 即对不同资源的描述需要采取不同的词汇表。 因此r d f 规范并没有定义描 述资 源所用的 词汇表, 而是定义了 一些规则, 这些规则是各领域和 应用定义用于描述资源的词汇表时必须遵循的。当然,r d f也提供了描述资源时具 有基础性的词汇表。 为了 描述机器可处理的数 据的 语义, r d f定义了一个基本的 数据模型,其包含 三 种 对 象 类 型 11 刀 : ( 1) 资 源 ( resources) :一个资源可以是一 个完整或部分的网页、网页集合、 不需通过 从 七 b访问的任意对象。通常资源用 u ri 来命名. (2)属 性 ( prope rt ies ) : 属 性 是 用 来 描 述资 源 的 一 个 特 定 方 面 、 特 征 、 品 质 及 关系等。 ( 3 )属性值 ( 、 恤 】 ue) :属性的取值形成的集合。 简单而言,一个 r d f文件包含多个资源描述,而一个资源描述是由多个语句构 南京理工大学硕士学位论文墓 于语义网的文本信息分类技术研究 成, 一个语句是由 资源、 属性类型、 属性值构成的 三元体, 表示资 源具有的 一个属性。 资源描述中的语句可以对应于自 然语言的语句: 资源对应于自 然语言中的主语, 属性 类型对应于谓语,属性值对应于宾语。表2 . 1 . 3. 1是包含三个三元结构的范例说明, 资 源h tt p : 刀 加 w 议w3c , org 是由 一 个姓名是“ m 溉” 电 话号 码是“ 2222一 1 234 ” 的资 源所创造。三元结构也可以使用有向图表示,图2 . 1 3 . 1 是这个范例的有向图。 表2. 1 .3.1 包含三个三元结构的范例 b tt p : 刀 , 八 犷 摊w3c . 。 堪俄成 e d _ 衍# 阳 加加 m 。 仪 七re sourcel # 皿的y m o us_ 茂 , 。 u 陀 e 1n 田 刀 c“ m 正e ” 弃 助。 n 醉 m o u s -re , o ij 比 c e lp h o n e“ 2 2 2 2 一 1 2 3 4 ” 图2. 1 .3. 1三个三元结构的有向图数据来源 2 ,rdf s r d f无法描述一个资源所应拥有的属性有哪些,以 及这些属性与其它资源之间 的关系。 r d f s ( 资源描述框架纲要, r d f s c h e m a) 是r d f的元数据 ( m c 协一 d a ta ) , 其内容定义基础的词汇,r d f可以依据这些词汇来描述资源。 r d fs che m a在r d f基础上增加了许多语义原语.用来更进一步增加对资源语 义上的描述能力, 如类、 属性、 类和属性之间的隶属关系等, 具体包括: r d fs : reso切 rc e 、 记 几 : c l as s 、 r d f 二 p r o pe” y 、 rd fs : 佃l g e 、 r d fs : d o m ain、 r d f:勺 , e 、 ni fs : s u b c l as s o f 与 川 伪 : subp r o p e n y o f 等。 一般来说,一个领域中的概念称为 d as s,描述每一个概念的属性与性质称为 l l 2本体与语义网 硕士论文 sl ot, 描述属性的限 制称为几 比 t , 类别 所产生的实例称为i ns tance 。 上下层类别之 间可以 有继承关系,和 忱l as s 可以 继承su pe r c l as s 所定义的sl ot , 也可以 使用s l ot描 述类别与类别之间的关系, 包含类别与类别的实例, 这是一组完整的知识概念, 即知 识库。 r d f s 主要包括两个描述体系:其一是对类 ( cl as s) 的描述,包括对类的定义及 其 之间 关 系的 描 述: 其 二是 对 属 性( p r o pe rty) 的 描 述, 包 括 对属 性的 定 义 及其 之间 关系的描述以及使用属性对类进行限定. ( 1) 对类 (c l as s )的描述。归 类是研究事物的基本方法之一,r d f s使用 cl as s 来表示事物的类, 它可以描述几乎所有种类的事物, 包括网页、 人、数据类型以及抽 象类等。在描述的过程中涉及的rdf 和rd fs关键词主要有描述 “ 资源”的rd fs :c l as s 和r d fs : 二 source以 及描 述 “ 属性” 的rd f:l y pe和r d fs : su b cl as s or。 (2) 对 属 性 ( 环 。 伴 八 y ) 的 描述。 在r d f 三元组模型中, 联结主语 ( s ubje ct ) 资源和宾语 ( 0 句 ect) 资 源的谓语 ( p r e d l c ate) 实际上就是类的属性, r d f s中 使用 rd f:p r o 声 成 y ,rd fs : s u b p o 伴 rtyo f 等 关键词 来定义 属性并 描 述他们之间的 关系, 使 用rd fs :d o m a i n ,rd fs : range等关键词来对类的属性范围 进行限 制. 3 , o i l ll 3 1( t b e c 叻 t o l o 盯加 介 r e n cel a y e r 幻 n to l o g y l n t e 代 坛 m g e l an g u a g e ) oil 是一种针对本体的基于互联网的 表现和推理层。 它广泛使用基于框架语言的 建模原语, 并通过描述逻辑进行推理服务. o i l 提供一种通用的语义互联网标记语言。 0 几标记语言的语法源自w3 c的这些标准。 它把基于框架语言的建模原语、描述逻 辑所提供的正式语义以及推理服务结合起来。 o i l是在r d f s基 础上建立起来的, 其 对r d f s的 语义 表示能力又作了进一步 的扩展,这样使得o il 能够对r l f s所不能表达的语义进行表达。另外,o il 被设 计为完全兼容r d f( 5) 标准,o il 文档本身也是一个合法的r d f( 5) 文档。能很 好的表示c 叭 仍 1 o gy, 并且能最大限 度的 与r d fs 兼容,即可以 相互转换。 oll的设计目 标如下: ( 1) 提供描述基于框架和面向描述逻辑的知识本体所使用的大多数通用的建模 原语。 ( 2 )具有简单、清晰和定义良 好的一阶逻辑语义 (3) 提 供自 动的 推 理 支持, 由 曼 彻 斯 特 大 学开 发的fac t系 统 及d l(d e sc ri ntion l ogic ) 推理器来完成。 1 2 南京理工大学硕士学位论文墓于语 义网的文本信息分类技术研 究 0 几的使用比较广泛,支持 aas s l fi c at i onof terr 苗 n o l ogies) o il 的工具也很多,如 c 勿 t o edi t 、 the f act( f ast s y st e m都支持o il。 4 ,o wl 13 习 o w l 的 全称是认 七 b c 匕 t o lo gyl 切 9 坦 g e , 是w3c 组织最新的 推 荐标准,发 布于 2 004 年2 月. 0 认 飞是创建和表示m 触 b o n1 0 1 0 g y 的 语言, 它包括o w l l ite,o wl d l ( de幻如皿logi cs ) 和o w l f ul l 三种 复 杂 程度 和 语 义 表 达能 力 逐 步 增 强 的 子语言, 可以满足不同研究和应用的需要。 ( l)o wl l i t e 仅限于支持对概念( 类) 的层次分类和简单的约束等特性的描述。 与o wl的其它表示能力强的语言相比,o wll it e 更易于获得工具的支持,并且对 于词典和术语分类系统等数据资源可做快速便捷地移植。 (2)o wld l 在保留计算的完全性 ( 保证所有的结论都是可计算的)和可判定 性( 所有的计算都在有限的时间内完成) 的同时, 它保证了最大的表现能力。 o wl d l 包括了所有的语言结构, 但是它只能在一定的约束条件 ( 例如, 如果一个类是多个类 的子类,那么这个类就不能是另一类的实例)使用。 ( 3 ) 例如,在 单独个体 进行添加 o wl f ull具有最大的表现能力和r d f 语法自由, 并没有计算保证的限制。 o w l f 心 中,一个类可以被同时认为是多 个个体的集合和具有独特特性的 。 0 认 飞f u l l 允许o nt o l o g y 对先前己 定义 ( 用r d f 或o w l ) 的词汇的 意义 0 从 飞是在r d f s c h e n 比的 基础上, 以d a n 几和0 几为主体发 展而来的, 它具有 更强的语义描述能力, 就是用具有更丰富的词汇来对类和属性进行描述, 包括更多的 类之间关系的描述、 更多的属性之间关系的描述、 更多的对属性性质的描述、对属性 的值和势 ( 属性值的个数)的约束以及其他对类和属性及其值的约束和描述等。 o wl的语法和描述结构与r d f s 相同,不同就在于o wl 拥有更丰富的描述词汇。 在o wl中, clas s 定义了一组共享了某些相同属性的访 d i vi d u al . 这些i n d l v l d ual 又称为这个类的实例 ( 访 s t ance) 。一个 i n d ivid ual 不能同时又是一个c l as s 。clas s 能 够通 过s u b c l as s o f 定 义出 一 个特定 的 类层次
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025企业办公装修合同协议
- 《2025年劳动合同模板》
- 2025合同审查的关键要点
- 电商直播平台活动质量保障预案
- 乡村旅游规划方案指南
- 化工生产安全与环保试题集
- 2025年茶艺师高级技能考核试卷:茶艺师茶艺师茶叶加工与设备试题
- 2025年消防应急通信保障消防执业资格考试题库实战试题汇编及解析
- 2025年统计学期末考试题库:统计软件应用与SAS试题集
- 2025年专升本艺术概论考试模拟卷:艺术理论前沿热点案例研究
- 成人脑室外引流护理-中华护理学会团体 标准
- 2022-2023学年上海市徐汇中学七年级(下)期中语文试卷
- 《促进儿童个性发展之策略研究》17000字(论文)
- 地方导游基础知识电子教案 专题七 学习情境一 陕西省课时教案
- 创伤失血性休克中国急诊专家共识(2023)解读课件
- 项目管理工程师招聘笔试题与参考答案(某大型集团公司)2024年
- 高中文言文实词虚词总集(打印版)
- 咨询实施顾问能力素质模型
- 婚礼主要工作人员及分工职责
- 2024年铁路线路工(高级技师)技能鉴定理论考试题库(含答案)
- 工程造价预算书
评论
0/150
提交评论