软件工程毕业设计(论文)-基于WORDNET的XML文档语义相似性计算方法 (2).doc_第1页
软件工程毕业设计(论文)-基于WORDNET的XML文档语义相似性计算方法 (2).doc_第2页
软件工程毕业设计(论文)-基于WORDNET的XML文档语义相似性计算方法 (2).doc_第3页
软件工程毕业设计(论文)-基于WORDNET的XML文档语义相似性计算方法 (2).doc_第4页
软件工程毕业设计(论文)-基于WORDNET的XML文档语义相似性计算方法 (2).doc_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

毕业设计(论文)说明书学 院 软件学院 专 业 软件工程 年 级 2007 级 姓 名 指导教师2011年 6 月 15 日毕业设计(论文)任务书题目:基于wordnet的xml文档语义相似性计算方法学生姓名 学院名称 软件学院 专 业 软件工程 学 号 指导教师 职 称 教授 讲师 一、原始依据1、工作基础:近年来,随着互联网技术的飞速发展,网络上的信息资源呈不断的扩张趋势,无论在数量还是领域范围上,都爆炸式增长。这在丰富网络资源的同时,使得有效信息、知识的获取变得更加困难,因此,关于结构及语义相似性测量的研究成为数据挖掘、机器学习等领域中的研究热点之一。事实上,相似性及其度量方法一直是数据挖掘、机器学习等领域中的研究主题之一,也是web数据挖掘系统所要解决的关键问题之一。从1996年w3c提出xml工作草案,1997年召开第一次xml会议开始,到近年来xml、语义网(semantic web)及owl等相关技术的研究与发展,使得面向内容的数据挖掘等成为可能。在面向内容的智能信息处理中,基于结构(如树、图)表示模式,计算结构化数据的结构相似性并从中挖掘知识,在数据挖掘及相关领域得到了广泛的研究。但数据的结构相似性研究并不能解决语义冲突问题,不能从根本上消除网络环境下的信息孤岛和实现信息资源的互联互通和资源共享。随着语义网和本体(ontology)的发展,这个问题得到了较好的解决,国内外学者从不同的角度(概念相似度、文档相似度、半结构文档相似度)都进行了深入研究,而xml作为一种应用越来越广泛的文档记录方式,对xml语义相似度的研究也受到了普遍的关注和研究。但目前对基于xml半结构语言计算语义相似性的研究没有一套成熟、高效的计算方法,自然语言与计算机语言之间仍然存在一道鸿沟,严重影响了对互联网信息的应用效率。2、研究条件:在目前研究成果的基础上,依托于南开大学信息学院数据库与信息系统实验室。近7年来,该室对xml结构相似性计算方法、基于结构相似性计算的web挖掘方法等进行了深入研究,在此基础上,展开了xml的语义相似性研究。研究平台和应用环境为windows 7,软件开发工具为visual studio 2008。3、应用环境:通过本方法,结合适当的领域词典,可对用户需求的信息、知识进行有效匹配,结合南开大学的已有项目,研究成果将应用于web数据挖掘方法与系统;同时,还可以应用于知识工程、数字图书馆、各专业领域的信息检索、信息过滤、自然语言处理、数据集成及语义web等许多方面。4、工作目的:本课题基于由普林斯顿大学设计的认知语言学词典wordnet,设计并实现一套用于计算xml基本语义相似性的计算方法。并以本课题为基础,为将来在更广阔范围的应用做准备。二、参考文献1lin d. an information-theoretic definition of similarityc.in: proceedings of the fifteenth international conference on machine learning. san francisco, ca, usa: morgan kaufmann publishers inc. 1998.296-304.2tversky, a. 1997. features of similarity. j. psychological rev. 84: 327-352.3boanerges, a. m., christian, h. w., satya, s. s., amit, s. i. and budak a. 2005. template based semantic similarity for security applications. technical report, lsdis lab, computer science department, university of gerogia, january.4jiang, j. j., david, w. c. 1997. semantic similarity based on corpus statistics and lexical taxonomy. proc. int. conf. research on computational linguistics. taiwan, pp. 1-15.5peter, f., martin, k, erich j. n. 1991. semantic vs. structural resemblance of classes to appear in special sigmod record issue on semantic issues in multidatabase systems, 20: 4.6goldstone r l, son j y. similarity j. psychological review. 2004, 100: 254-278.7li m, chen x, xin m l, et al. the similarity metricc. in: ieee transactions on information theory. 2003. 863-872.8邱明. 语义相似性度量及其在设计管理系统中的应用d. 博士,浙江大学,2006.9bulskov h, knappe r, andreasen t. on measuring similarity for conceptual queryingc. in: proceedings of the 5th international conference on flexible query answering systems. springer-verlag, 2002. 100-111.10宋玲. 语义相似度计算及其应用研究. 博士, 山东大学,2009.11黄世国,耿国华. 语义相似性测度方法研究综述计算机应用与软件 2008(25).12yang, d. and powers, d. m. w. measuring semantic similarity in the taxonomy of wordnet. in proc. twenty-eighth australasian computer science conference( acsc2005), newcastle, australia. crpit, 38. estivill-castro, v., ed. acs. 315-322. 2005.13budanitsky, alexander. lexical semantic relatedness and its application in natural language processing. technical report csrg-390, computer systems research group, university of toronto, august. 1999.14周子力. 基于wordnet的本体构建及其在安全领域应用关键技术研究. 博士,华东师范大学,2009.15 盛立东. 模式识别导论m北京:北京邮电大学出版社,2010.三、设计(研究)内容和要求研究内容:1. 了解xml语义相似性方法;2. 熟悉wordnet的使用方法;3. 基于wordnet实现基本语义相似性计算算法;4. 编写程序实现上述算法。主要指标与技术参数:本课题用于计算xml文档的语义相似性,最终实现的算法有两个技术指标,即算法的合理性和算法的效率。(1)算法的合理性指标:相似性算法通过计算给出两段xml文档之间的相似度(结果介于01,其中,值越大说明两者越相似,取值为1是,两者完全一样,取值为零时,两者没有相似性),通过实验者的主观判断和wordnet词典的词类划分判断结果是否准确。(2)算法的效率:算法要求时间尽可能快,由于算法越精确需要考虑的参数越多,计算量越大,因此最终的算法需要在准确性和效率之间取得平衡。具体要求:基于wordnet实现基于语义相似性计算算法。指导教师(签字)年 月 日审题小组组长(签字)年 月 日天津大学本科生毕业设计(论文)开题报告课题名称基于wordnet的xml文档语义相似性计算方法学院名称软件学院专业名称软件工程学生姓名指导教师一、课题的来源及意义近年来,关于结构及语义相似性测量的研究成为数据挖掘、机器学习等领域中的研究热点之一。这不仅是由于xml(extensible markup language)等互联网新技术的不断发展对已有技术带来的挑战,更是因为随着互联网技术的飞速发展,网络上的信息资源呈不断的扩张趋势,无论在数量还是领域范围上,都爆炸式增长,人们已经不仅仅满足于以往对信息的简单获取,对知识的需求在不断扩大,以往偏重结构性相似的匹配方法已经不能满足需求,语义相似性测量逐渐成为关注的热点。语义相似性测量方法已经被广泛的应用在了数据挖掘和知识获取方面以及国防安全、企业应用等领域。从1996年w3c提出xml工作草案,1997年召开第一次xml会议开始,到近年来xml、语义网(semantic web)及owl等相关技术的研究与发展,使得面向内容的数据挖掘等成为可能。和文本文档相比,xml文档具有“自描述”、“树形结构”、“结构嵌套”等特点。随着xml在数据挖掘、分类聚类、数据交换、内容管理、web服务等方面的广泛应用,如何高效的解决xml语义相似度的测量方法,成为人们普遍关注的一个焦点。wordnet是普林斯顿大学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的词典。名词、动词、形容词和副词各被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连结。因此我们使用wordnet作为参考,判断自然语言之间语义的相似性。这也成为大家普遍接受的一种做法。综上所述,我们使用基于wordnet的语义相似性测量方法,最终能够基本辨别不同文档之间的语义相似性,为数据挖掘、知识获取、web应用等领域提供一种语义相似性测量的解决方案。二、国内外发展状况目前xml文档相似度的研究已经取得了许多进展。由于xml文档具有“自描述”、“树形结构”、“结构嵌套”等结构特点,许多研究通过树的编辑距离来计算xml文档之间的相似度,距离和相似度之间成反比例关系,距离越大,相似度越小;另有一些研究直接比较树中节点之间的相似度,先计算文档之间相同节点的个数,通过共同节点和两个文档所有节点个数的比值来衡量文档之间的相似度。这种方法忽略了xml文档的结构特点;还有研究基于拥有相似的路径集合则xml文档相似的假设,通过路径集合的比较计算xml文档之间的相似度。这些研究取得了一些成果,但仍有不足,语义和结构相似度不能兼顾。这些年,也有一些研究将节点本身的相似度纳入了考量范围,文献10综合考虑了文档节点的语义相似性和结构特点,但研究尚不成熟,均在计算精度和效率之间难以取舍。三、本课题的研究目标和研究内容研究目标:基于wordnet,实现xml文档基本语义相似度计算算法,为后期语义相似度计算算法与已有结构相似度计算算法的结合做准备。研究内容:1 了解现有xml语义相似性方法;2 掌握wordnet的使用方法;3 基于wordnet实现基本语义相似性计算算法;4 编写程序实现上述算法。四、研究方法和研究手段本课题以wordnet为依托,在抽取出xml文档的节点之后,通过wordnet的同义词集合建立各自的同义词集合,通过计算两个集合中词对的语义相似度,即利用wordnet中节点的位置深度表示节点语义值,从而构建节点语义相似度矩阵,并将这些相似度值加权求值后,计算节点之间的语义相似度。进而通过进一步的计算,考虑文档之中所有节点的相似度情况,给出两个文档之间的语义相似度结果。本课题的开发语言为c#,应用框架为.net,开发工具为visual studio 2008,研究平台为windows 7,在代码实现过程将遵循软件工程的开发方法,给出合理的实验数据,进行充分的实验验证,保证算法的准确有效。五、进度安排2010-12-202011-1-10 查阅国内外研究背景及现状。2011-1-112011-2-17 对本课题进行调研学习。2011-2-182011-3-10 熟悉编程环境和相关语言的开发技术。2011-3-112011-4-10 对课题相关领域的深入调研学习,算法初步设计。2011-4-112011-4-20 算法设计和论证。2011-4-212011-5-18 代码实现。 2011-5-192011-6-5 测试、性能评估及毕业论文定稿。六、参考文献1lin d. an information-theoretic definition of similarityc.in: proceedings of the fifteenth international conference on machine learning. san francisco, ca, usa: morgan kaufmann publishers inc. 1998.296-304.2tversky, a. 1997. features of similarity. j. psychological rev. 84: 327-352.3boanerges, a. m., christian, h. w., satya, s. s., amit, s. i. and budak a. 2005. template based semantic similarity for security applications. technical report, lsdis lab, computer science department, university of gerogia, january.4jiang, j. j., david, w. c. 1997. semantic similarity based on corpus statistics and lexical taxonomy. proc. int. conf. research on computational linguistics. taiwan, pp. 1-15.5peter, f., martin, k, erich j. n. 1991. semantic vs. structural resemblance of classes to appear in special sigmod record issue on semantic issues in multidatabase systems, 20: 4.6goldstone r l, son j y. similarity j. psychological review. 2004, 100: 254-278.7li m, chen x, xin m l, et al. the similarity metricc. in: ieee transactions on information theory. 2003. 863-872.8邱明. 语义相似性度量及其在设计管理系统中的应用d. 博士,浙江大学,2006.9bulskov h, knappe r, andreasen t. on measuring similarity for conceptual queryingc. in: proceedings of the 5th international conference on flexible query answering systems. springer-verlag, 2002. 100-111.10宋玲. 语义相似度计算及其应用研究. 博士, 山东大学,2009.11黄世国,耿国华. 语义相似性测度方法研究综述计算机应用与软件 2008(25).12yang, d. and powers, d. m. w. measuring semantic similarity in the taxonomy of wordnet. in proc. twenty-eighth australasian computer science conference( acsc2005), newcastle, australia. crpit, 38. estivill-castro, v., ed. acs. 315-322. 2005.13周子力. 基于wordnet的本体构建及其在安全领域应用关键技术研究. 博士,华东师范大学,2009.选题是否合适: 是 否课题能否实现: 能 不能指导教师(签字)年 月 日选题是否合适: 是 否课题能否实现: 能 不能审题小组组长(签字)年 月 日摘 要随着xml在数据挖掘、分类聚类、数据交换、内容管理、web服务等方面的广泛应用,xml文档的相似性比较成为人们普遍关注的一个焦点。而如何有效的解决xml语义相似度的测量方法,仍然是一个悬而未决的问题。针对于这一问题,本文在论述了当前主流概念语义相似度比较算法的基础上,以wordnet为本体给出了一个更为精确的概念语义相似性比较算法,为该领域,以及其他应用领域,包括xml文档、普通文档、其它文档以及信息检索数据挖掘等方面都会有一定贡献。在概念语义相似度比较基础之上本文参照xml文档的结构特性设计了一种xml文档语义相似性比较算法,该算法以xml文档的节点语义相似性为基础,在经过加权求值,给出文档整体的语义相似度,经试验论证,该算法是可行的。在当前xml文档语义相似性比较研究还没有大规模展开的情况下,该算法具有一定的探索意义和使用价值。关键词:语义相似度;概念;wordnet;xml;xml文档语义相似度abstractwith the use of xml in data mining, classification and clustering, data exchange, content management, web services and so on, how to decide the similarity between xml documents is becoming a common problem. and theres still no answer for where is the effective method to measure the semantic similarity between xml documents. this paper gives a more accurate way for this problem based on wordnet , the ontology , with the discussing of current mainstream ways of semantic similarity between concepts.based on the semantic similarity between concepts and the structure characteristics of xml, this paper gives a new algorithm for semantic similarity between xml documents. it count the semantic similarity of xml-elements as units, and weights them, and gives the overall semantic similarity of xml documents. the algorithm has been proved to be feasible. and its a little step forward that the study of semantic similarity between xml documents has not been focused yet.key words:semantic similarity;concept;wordnet;xml;semantic similarity between xml documents目 录第一章 绪论11.1 研究背景11.2 研究现状21.3 研究意义21.4 主要内容和组织结构31.5 本章小结3第二章 语义相似度研究42.1 本体概述42.2 wordnet简介52.3 语义相似性、语义相关性和语义距离62.4 本章小结6第三章 基于wordnet的概念语义相似度算法73.1 基于wordnet的语义相似性算法综述73.1.1 网络距离模型73.1.2 信息理论模型93.2 当前算法存在的问题93.3 一种新的概念语义相似度计算方法93.4 算法分析113.5 本章小结12第四章 基于wordnet的xml语义相似性算法134.1 xml文档简介134.2 基于语义相似性计算xml文档的语义相似性134.3 两种概念相似性测量方法的选择154.4 xml文档语义相似性测量的其他问题164.5 本章小结17第五章 基于wordnet的xml语义相似性算法设计185.1 需求分析185.2 概要设计205.2.1 模块设计205.2.2 界面设计215.3 详细设计225.4 本章小节25第六章 xml语义相似性比较算法实现与测试266.1 编码实现与运行结果266.2 测试306.2.1 测试计划326.2.2 测试结果336.3 本章小结34第七章 总结与展望357.1 总结357.2 展望35参考文献36外文资料中文译文致谢3天津大学2011届本科生毕业设计(论文)第一章 绪论1.1 研究背景近年来,关于结构及语义相似性测量的研究成为数据挖掘、机器学习等领域中的研究热点之一。这不仅是由于xml(extensible markup language)等互联网新技术的不断发展对已有技术带来的挑战,更是因为随着互联网技术的飞速发展,网络上的信息资源呈不断的扩张趋势,无论在数量还是领域范围上,都爆炸式增长,人们已经不仅仅满足于以往对信息的简单获取,对知识的需求在不断扩大,以往偏重结构性相似的匹配方法已经不能满足需求,语义相似性测量逐渐成为关注的热点。语义相似性测量方法被广泛的应用在了数据挖掘和知识获取方面以及国防安全、企业应用等领域。而随着使用本体表示相关应用的领域知识被越来越多的人的认同(所谓本体,是一种形式化的,对共享概念明确而又详细的说明1,相关知识领域用到的所有词汇都可以在本体中找到相应解释,这些词汇也被成为概念。),数据挖掘和知识获取的必要步骤之一,如何实现不同本体之间的信息交换成为一个不可忽视的问题;换言之,要实现不同本体间的信息交换,或者想要挖掘出所需知识,就必须找到与所需概念相似的概念。因此,问题也就被简化为如何决定不同系统或者不同领域间或者同一系统同一领域内的两个概念的语义相似度。研究与应用并重,我们将重点放在了如何基于本体测量xml的语义相似度。从1996年w3c提出xml工作草案,1997年召开第一次xml会议开始,到近年来xml、语义网(semantic web)及owl等相关技术的研究与发展,使得面向内容的数据挖掘等成为可能。和文本文档相比,xml文档具有“自描述”、“树形结构”、“结构嵌套”等特点。随着xml在数据挖掘、分类聚类、数据交换、内容管理、web服务等方面的广泛应用,如何有效的解决xml语义相似度的测量方法,成为人们普遍关注的一个焦点。有了概念语义相似度的基础,解决xml语义相似度的测量问题首先需要选择一个适合的通用本体,我们采用wordnet,一种大家普遍接受的通用本体,作为判断自然语言之间语义的相似性的依据。wordnet是普林斯顿大学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的词典。名词、动词、形容词和副词各被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连结。综上所述,我们以wordnet作为本体,以一种概念语义相似度测量作为基础,最终能够基本辨别不同xml文档之间的语义相似性,为数据挖掘、知识获取、信息交换、web应用等领域提供一种xml语义相似性测量的解决方案。1.2 研究现状目前xml文档相似度的研究已经取得了许多进展。由于xml文档具有“自描述”、“树形结构”、“结构嵌套”等结构特点,许多研究通过树的编辑距离来计算xml文档之间的相似度,距离和相似度之间成反比例关系,距离越大,相似度越小;另有一些研究直接比较树种节点之间的相似度,先计算文档之间相同节点的个数,通过共同节点和两个文档所有节点个数的比值来衡量文档之间的相似度。这种方法忽略了xml文档的结构特点;还有研究基于拥有相似的路径集合则xml文档相似的假设,通过路径集合的比较计算xml文档之间的相似度。这些研究取得了一些成果,但仍有不足,均忽略了节点本身语义的相似性。而在语义相似性测量方面,当前研究的主要焦点仍然是概念相似度测量,还很少有研究将概念相似度测量应用到xml文档中来实现xml文档的语义相似性比较。这主要是因为如何实现概念相似度测量还不成熟,仍然没有一个统一的被大家认同的方法来实现概念相似度测量,因此,概念相似度测量仍然是当前的研究热点。而少量的文献中虽然提到了xml语义相似度测量,但由于将过多的精力放在了其节点的语义相似度上,而忽略了文档本身的结构性。在概念相似度测量方面,主流的研究方向分为两种,一种根据概念之间的距离来决定概念的相似程度,另一种根据信息学理论,以两个概念共有信息量的多少来决定概念的相似程度。以距离测量的方法有太多的经验判断,缺少说服力,同时计算复杂度高;信息学理论有一个很好的评价相似性的方法,即以共有信息量的多少为标准,但却忽视了概念之间的方向性等信息,比如“猫”和“哺乳动物”作比较,反过来“哺乳动物”和“猫”作比较,两者有什么不同呢?显然,两者的共有信息量是一样的。但到底是“猫”和“哺乳动物”像,还是“哺乳动物”和“猫”像呢?显然是前者更像一些,这就是方向问题。在xml语义相似性测量方面,当前的主要方法是遍历每一个节点,比较每一个节点的语义相似度,计算出相似节点的个数和总结点个数的比作为xml文档相似度的依据,一方面它忽略了文档本身的结构性,另一方面为每一个节点执行一遍概念相似度算法复杂度太高。1.3 研究意义通过本课题的研究,给出了一个更为精确的概念语义相似性比较算法,为该领域,以及其他应用领域包括xml文档、普通文档、其它文档以及信息检索数据挖掘等方面都会有一定贡献;同时在该算法的基础之上给出了一种xml文档语义相似性比较算法,在当前xml文档语义相似性比较研究还没有大规模展开的情况下,具有一定的探索意义和使用价值。1.4 主要内容和组织结构本文的第一部分绪论主要阐述了课题的必要性和意义;第二部分简要叙述了语义相似性研究的基本知识,并对后文将要用到的工具wordnet进行了介绍;第三部分在已有算法的基础上给出了一种更加精确的概念语义相似性比较算法;第四部分结合概念语义相似性比较算法给出了一种xml文档语义相似性比较算法;第五部分论述了xml文档语义相似性比较算法的实现过程;第六部分对本文进行了总结并对将来的发展方向进行了论述。1.5 本章小结本章主要对课题开展的背景、必要性和意义进行了论述;并叙述了本文的结构安排。第二章 语义相似度研究2.1 本体概述“本体(ontology)”一词源于哲学领域,在古希腊罗马哲学中,本体论主要研究的是对世界本源或基本构成的探究,根据webster词典的定义,本体是关于存在的物体的本质或者各种存在的物体的本质的规范定义。然而,计算机领域对“本体”赋予了新的定义,进而被引进信息科学领域。在信息科学领域,本体的定义是一直发展着的,目前对于本体的统一定义是“本体是一种形式化的,对共享概念明确而又规范的说明”。在信息科学领域,本体被作为所研究领域的一种语义基础,即在本体中可以找到领域中每一个词汇的语义(这里的领域值特定的范围,比如化学领域、餐饮领域或者语言学领域、人工智能、信息提取等等)。本体的基本元素是概念,概念的表现形式为词汇,即一个词汇可以有多个语义,可以表达多个概念,而同一个概念也可以被多个词汇表达。因此,表达同一概念的词汇构成类。类和概念之间加入适当的关系,使各个独立的概念和类相连,也就构成了一个本体。这些关系可以被简单分为父子关系、部分整体关系、同义词关系等。有很多方法被用来表示一个本体,方法的选择取决于研究领域对本体的不同需求,也就是对概念密度和概念间关系的组织强度的需求。同一领域,本体a通过100个概念来描述,而本体b通过10000个概念描述,显然本体b的概念密度更大,描述更精确,同时,概念间的关系是多种多样的,本体a可能只考虑了父子关系,而本体b考虑了所有关系。在具体应用中,一个领域的知识库,一个词典,一个语义网都可以被用来当作一个本体。目前最流行的一种本体组织方式是将本体组织成树状结构的,每一个概念均被表示为树形结构中的一个节点,每一个节点都有它的父亲节点、兄弟节点和子节点。父亲节点是当前节点所表示概念的上一级概念,比如“狗”的上一级概念可能为“哺乳动物”;兄弟节点是父亲节点相同的节点,比如“哺乳动物”的子节点可能有“狗”、“猫”、“猩猩”等等,那么“狗”的兄弟节点即为“猫”和“猩猩”;子节点为当前概念的下一级概念,比如“狗”的下一级概念可以为“猎犬”、“牧羊犬”等等。wordnet就是这样一种组织方式。本体有许多分类方式,一种常用的方式是根据内容分为三类:领域本体:本体内容适用于特定学科领域;通用本体:本体内容包含具有普遍意义的客观世界的常识;任务本体:本体本身为用于解决特定任务的术语集合。wordnet属于目前常用的一种通用本体。综上所述,我们对于本体的选择,一方面取决于对概念密度和概念间关系的组织强度的需求,另一方面需要参考我们使用本体的目的,所研究问题的特点。2.2 wordnet简介wordnet是由普林斯顿大学的george a. miller组织开发的大型英语词典。其描述的对象包括compound(复合词)、phrasal verb(短语动词)、collocation(搭配词)、idiomatic phrase(成语)、word(单词),其中单词是最基本的单位。这些描述对象被分为名词、动词、形容词和副词,它们各自被组织成一个同义词的网络,即上文中提到的树形结构,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也有各种关系连结。wordnet的名词部分是目前被开发的最完整的部分,名词的连接关系就占了所有连接关系的80%。我们以名词为例,说明wordnet的组织方式。wordnet中最基础的语义关系是synonymy(同义关系)。synset(同义词集合)构成了树形结构中的每个节点,也即一个概念。在名词树形结构的最顶层是11个基本类,比如“entity”、“event”等等。这11个基本类的下一层为25个基本类别:act,activity动作行为,food食物,possession所有物,animal,faunal动物;group,grouping团体,process过程,artifact人工产物,location位置;quantity,amout数量,attribute属性,motivation,motive动机,relation关系;body身体,natural_object自然物体,shape形状,cognition,knowledge认知,知识;natural_phenomenon自然现象,state状态,communication交流,person,human_being人类,substance物质,event,happening事件,plant,flora植物,time时间,feeling,emotion情感。简而言之,同义词构成同义词集合,同义词集合构成类,不同类又构成更上层的类。除了上文中提到的同义词关系,wordnet中还有许多其他关系来表示不同概念间的关系。上下位关系:如果同义词集合a的所有特征被包含在同义词集合b的特征集中,而不是相反,那么b是a的下位概念(hyponym),反过来,a是b的上位概念(hypernym)。以“动物”和“狗”为例,“狗”包含了“动物”的所有特征,但“动物”并不具备“狗”的独有特征“狗拿耗子多管闲事儿”,因此“狗”是“动物”的子类,即下位关系,而“动物”是“狗”的父类,上位关系。整体部分关系(meronymy):在wordnet中,包含了三种整体部分关系,a是b的组成部分;a是b的成员;a是b的构成材料。反义关系(antonymy):两个词构成反义关系的最强烈的心理学暗示是,当给出一个词时,它的反义词通常就是最容易联想到的词,比如给出“美丽”这个词时,最容易联想到的是“丑陋”。wordnet作为一个主要的通用本体,每一个词的定义都经过专家论证,可以为我们常见的英文词汇提供可靠的基本解释;其完善的树形组织结构利于语义的相似度比较,在现阶段的语义相似度研究中被广泛使用,本文也将使用wordnet作为本体。2.3 语义相似性、语义相关性和语义距离有了确定的本体,尤其是有了树形结构的本体,在本体内测量两个概念的相似度也就有了一种非常直观的方法测量两者的距离,距离越近越相似,反之相似度越低。但在这之前,我们还要讨论一下什么是语义相似性、语义相关性和语义距离,这三个词总是同时出现,甚至被经常混用,然而,它们的意义并非完全一样,这里我们举例来说明。通过“柳条”这个词,我们很容易联想到“柳叶”,但“柳条”和“柳叶”相似吗?不相似,但“柳叶”是“柳条”的一部分,它们是相关的;那么什么和“柳条”相似呢?“绳子”、“电线”甚至“蛇”都可以。因此相似和相关是不同的。进一步的讲,我们可以将相似归类为相关,但反之却不能,因此,相关性是相较于相似性更广泛的定义。语义距离,简而言之就是两个概念的语义相距的距离。这是一个抽象的概念,但许多文献支持这样一种观点:语义距离可以用来表示概念相似性的反面,即距离越大,则相似性越小;同时,语义距离也可以用来表示相关性的反面,距离越大,则相关性越小。 通过语义距离测量相似性一种直观方法是网络距离模型,即以本体所在树形结构中两个概念的距离为基本指标来衡量概念的相似程度;另一种测量方法是信息理论模型,即通过两个概念的共有信息量来衡量概念的相似程度。后者显得更有说服性,因为前者让人联想到相关性,而不是相似性。上文我们已经举例说明,两者相关并不一定说明两者相似。2.4 本章小结作为目前语义测量的一种公认方法,本体成为了一个不可或缺的基础,因此在本章的第一部分我们简单介绍了什么是本体,本体的组成以及表示方法,本体的分类。旨在说明为什么用本体可以测量语义的相似性,如何构建本体,如何选择本体等。在第二部分,本文介绍了一种通用本体wordnet,简单描述了它的内容、结构特点,说明了它作为通用本体的普适性,可操作性。当然,它也有局限性,即本身是一本英文词典,并不适用于中文或者其他语言。第三部分本文着重区分了语义相似性、语义相关性和语义距离三个概念之间的区别,旨在为后文语义相似性方法的测量做铺垫,以免读者对这三个概念混淆,影响对下文内容的理解。第三章 基于wordnet的概念语义相似度算法3.1 基于wordnet的语义相似性算法综述如上文所述,目前基于wordnet的语义相似性算法总体上分为两类,一种直观方法是网络距离模型,即以本体所在树形结构中两个概念的距离为基本指标来衡量概念的相似程度;另一种测量方法是信息理论模型,即通过两个概念的共有信息量来衡量概念的相似程度。我们将分别阐述两种方法的优缺点。3.1.1 网络距离模型由于wordnet本身的树形结构以及语义距离和语义相似度之间的关系,使得计算两个概念之间的相似度有一种非常直观的方法,即测量表示两个概念的节点在树种的距离节点a到b的最短路径。路径越短,a和b越相似。然而,这种测量方法存在一个问题,在计算最短路径的过程中每一条边得权重都是相同,都为1,这与实际情况是不相符的。一个简单的例子是,在wordnet中“dog”(狗)和“canine”(犬类)之间的距离是1,“canine”(犬类)和“tooth”(牙齿)之间的距离是1,很明显,前者的相似度高一些。这是因为“dog”处于树形结构的更底层,而tooth处于树形结构的更高层,在距离相同的情况下,树形结构的越高层,概念越抽象,之间的差异越大,反之,树形结构的越底层,概念越具体,之间的差异越小。因此,我们应该对不同的边赋予不同的权值。为了解决这个问题,有人尝试给不同的边赋予权值,然而,手工赋值的办法显然是不可取的,应为大型本体中的概念实在太多,完成这一工程,无异于再建一座万里长城。那么能够自动赋值吗?有许多关于这方面的工作,大家主要考虑了一下因素:深度、边密度,节点之间的连接强度。所谓深度,就是节点在树中的深度;从图3-1我们可以看到,节点b所在区域边的个数大于节点c所在区图3-1 树形节点图域边的个数,即区域密度b大于区域密度c,则对应的bd边的权值应当小于cf边的权值。父子节点之间的连接强度是基于这样一种认识,与一个节点相连的节点可能有许多个,它们根据不同的连接关系被连接在一起,这种连接关系越多,两个节点之间的连接越不稳定,因此对应边的权值变大,连接强度变小。简而言之,随着深度的加深,权值随之变小,概念间的距离变小;随着边的区域密度的增大,权值变小,概念间距离变小;随着父子节点连接强度的增大,权值变小,概念间距离变小。下面介绍了几种改进了的边距离测量方法。其中一种最简单的改进是找到概念c1和c2最短路径,并计算出c1,c2所在层级结构的最大深度,并且只考虑上位关系即is-a关系,得到相似度计算公式: (3-1)下面的方法给出了一种计算语义距离的方法,我们知道,语义距离越大,相似度越小,因此,只需要适当变形就可以得到一种新的相似度计算方法: (3-2) (3-3)其中为到之间边的权重,r表示语义关系(is-a关系),r是r的反关系,maxr和minr分别表示语义关系r的可能的最大和最小权重,表示的语义关系类型为r的出度。(由于wordnet中的语义关系有许多种,这在上文中有所描述,这里只计算某种特定的语义关系,比如is-a关系)。另外一种计算概念相似度的公式考虑了c1和c2最近公共祖先c3在层级结构中的深度: (3-4)这里的n1是c1到c3的距离,n2是c2到c3的距离,n3是c3到根节点的距离。由公式4计算出的结果是无法预知其取值范围的,因此,有人提出了一种将取之范围规约到0,1的方法,这种方法也同时考虑了最短路径和公共祖先: (3-5)3.1.2 信息理论模型信息理论模型是一种本体和语料库结合的方法。它的依据是,当两个概念之间的共享信息越多,两个概念越相似。那么,如何判定两个概念的共享信息量呢?首先,我们可以根据本体找到概念c1和c2的公共祖先c3,即它们的共有信息为c3,c3占它们所有信息量的比重是多少呢,如何量化它?这里就用到了语料库,我们通过计算c3在语料库中出现的概率p(c3)来衡量共有信息c3的数量,这样给出一种计算相似度的方法: (3-6)这里我们只考虑了共有信息量,有人提出忽略差异信息量是不可取的,因为即使c1和c2的共有信息量很多,但也许它们的差异信息量更多,下面给出了一种考虑了差异信息量的计算方法,共享信息量越多,越相似,差异信息量越多,越不相似: (3-7)3.2 当前算法存在的问题在网络距离模型中,更多的考虑了is-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论