基于用户行为与本体的查询词扩展研究(陈少明硕士毕业论文)_第1页
基于用户行为与本体的查询词扩展研究(陈少明硕士毕业论文)_第2页
基于用户行为与本体的查询词扩展研究(陈少明硕士毕业论文)_第3页
基于用户行为与本体的查询词扩展研究(陈少明硕士毕业论文)_第4页
基于用户行为与本体的查询词扩展研究(陈少明硕士毕业论文)_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于用户行为与本体的查询词扩展研究 密级: 硕士学位论文基于用户行为与本体的查询词扩展研究西华大学硕士学位论文作 者 姓 名: 陈少明 学科、专业:计算机软件与理论学 号: 212007081202006 指 导 教 师: 杜亚军 教授 完 成 日 期: 2010年4月 classified index: udc: 密级: xihua universitymaster degree dissertation research of query expansion based on userbehavior and ontologycandidate : chen shaomingmajor :

2、 computer software theorystudent id: 212007081202006supervisor: prof. du yajunapril, 2010西华大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文作者签名: 指导教师签名:日期: 日期西华大学学位论文

3、版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,在校攻读学位期间论文工作的知识产权属于西华大学,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,西华大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。(保密的论文在解密后遵守此规定)学位论文作者签名: 指导教师签名:日期: 日期西华大学硕士学位论文摘 要在信息检索技术中,查询词扩展是一种能够有效提高查询效率的技术。因此,通过充分发挥查询词扩展技术的优越性可以大大提高搜索引擎在搜索精确度方面的效率。查询词扩展技术通过将与用户查询词相

4、近、相关的词扩展到用户查询词中的方法,更准确地描述用户的信息需求,去除用户查询词的多义性,从而更精确地查询用户所需信息。为了更好地实现查询词扩展,解决传统查询词扩展技术缺少智能性以及主题性差的问题,结合形式概念分析与用户行为(搜索日志)、本体(ontology)进行查询词扩展,可以综合三者的优点,形成一套基于形式概念分析、用户行为、本体的查询词扩展方法,从而提高搜索引擎的查询准确率。本文的主要研究内容归纳如下:1. 提出了一种基于用户搜索行为的查询词扩展源的抽取方法。分析用户的搜索历史和点击网页历史以及他们之间的潜在相关性,同时考虑搜索返回网页顺序和用户点击网页顺序,从网页中抽取出能表达用户搜

5、索意图、用户兴趣的相关词作为查询扩展词,将网页和抽取出的查询扩展词分别作为概念的对象和属性并构造概念格,将其作为查询词扩展源。实验表明使用本文方法抽取的查询词扩展源优于使用传统方法抽取的扩展源。2. 提出一种构建用户本体的方法。从wordnet中抽取出查询词与查询扩展源的相等、相似、isa、partof等语义关系,利用本体的构建方法,把查询词、查询词扩展源以及它们之间的语义构建成用户本体。3.提出了一种基于本体的查询词扩展方法。利用本体的相似、相等、上义、下义和partof语义关系,提出一个基于本体的查询词与概念相似度计算的新方法。通过这种查询词与概念相似度的量化,可以很好的找到与查询词最相关

6、概念进行查询词扩展,从而提高用户搜索准确率。实验通过把本文方法的查询词扩展结果与目前其它方法的查询词扩展结果对比,表明了本文提出的方法是具有可行性的。关键词:搜索引擎;查询词扩展;用户搜索行为;本体;形式概念分析 i abstractquery expansion technology can effectively improve the query efficiency in information retrieval. so through taking the advantages of query expansion technology can greatly improve th

7、e search engines efficiency of search accuracy. query expansion technology can describe the users information needs by adding the words related to the user to the users original query. it can remove the query ambiguity and precisely search the users required information.in order to improve the query

8、 expansion and overcome shortcomings of the traditional query expansion technology, such as bad semantic and bad topicality, this dissertation advance a new query expansion method based on the user behavior, combined with ontology and formal concept analysis. three advantages can be integrated to fo

9、rm a set of query expansion technology based on formal concept analysis、user behavior and ontology. it can greatly improve se search accuracy.the main research works of the dissertation are summarized as following:1. advance a novel method of extracting the query expansion terms based on users searc

10、h behavior. a query expansion mechanism based on users search behavior is proposed. the method analyzes their potential relevance of the users search history and click history. the search return sequence and the user clicks sequence are considered as well. so we can extract terms which can depict th

11、e users requirements. a concept lattice is built by using the web extracted terms. we consider the lattice the query expansion source. an experiment illustrates that our method can effectively extract the relevant terms and improves the quality. 2. propose a method of building user ontology. extract

12、ing semantic relations (equal, similar, isa and part of) of query and query source. building user ontology with query, query source and relations using the method of ontology building.3. propose a novel query expansion method based on the domain ontology. by using the semantic of ontology, such as s

13、ynonymous, equal, isa and part of, we present a new method to calculate the similarity between the new query and concepts in formal concept lattice based on ontology. a new concept, which is most related to the user, can be found to expand the query by the quantitative method. so it can improve the

14、search accuracy. comparing the query expansion results of my method and the other ordinal methods, the experiment indicates my method is feasible.key words:search engine; query expansion; user behavior; ontology; formal concept analysis v 目 录摘 要iabstractii1 绪论11.1 查询词扩展技术研究现状21.1.1 全局分析21.1.2 局部分析31

15、.1.3 局部上下文分析41.1.4 基于用户日志41.1.5 基于词表41.2 本体研究现状51.3 查询词扩展技术存在的问题71.4 本文的主要内容与结构82 基于用户搜索行为的查询扩展源生成方法102.1 用户搜索日志102.2 停用词102.3 共现词分析112.4 提取方法132.5 提取算法163 基于wordnet的用户本体构建方法183.1 本体的介绍183.1.1 本体的定义183.1.2 领域本体与用户本体193.2 wordnet193.3 基于wordnet的用户本体构建方法224 基于用户本体的查询词扩展方法264.1 形式概念分析264.2 提出的查询词与概念相似度

16、计算方法284.3 扩展方法324.4 算法335 实验与结果分析355.1 系统实现355.1.1 开发环境和接口355.1.2 核心数据结构及算法365.2 实验过程435.2.1 基于用户搜索行为的扩展源提取435.2.2 基于用户本体的查询词扩展465.3 结果分析505.3.1 参数值的设置评价505.3.2 效果对比53结 论57参 考 文 献58攻读硕士学位期间学术论文及科研情况63致 谢64西华大学硕士学位论文1 绪论近年来互联网技术的快速发展不仅改变了人类的生产和生活方式,而且极大地变革了人类获取、存储、传播和利用信息的方式,对传统的信息服务模式提出了挑战,成为推动全球经济一

17、体化的主要动力。人们摆脱了信息贫乏的桎梏,进入了一个信息极度丰富的社会。随着互联网不断发展并日益普及,网上的信息量正在以爆炸式的速度增长,当前internet已经成为人们日常生活的主要信息来源。第25次中国互联网络发展状况统计报告显示,截2009年12月30日止,中国网民规模达到3.84亿人,普及率达到28.9%,超过全球平均水平;网民规模较2008年底增长8600万人,年增长率为28.9%,中国网民规模依然保持快速增长之势。搜索引擎是网民在互联网中获取所需信息的基础应用,目前搜索引擎的使用率为73.3%,在各互联网应用中位列第三。目前搜索引擎用户规模达到2.8亿人,年增长率为38.6% 1。

18、但是,面对着如此巨大的网络信息和搜索引擎应用的普及,网民却碰到了棘手的难题。迅速增长的网页虽然可以给人们提供更多的信息,但是广大网民面对如此浩渺的信息海洋,如何有效地找到自己所需要的信息已经成为一个越来越受关注的问题。目前的搜索引擎在用户查询条件与网页的匹配方法上存在着许多问题。它们往往是基于关键词的直接匹配,而没有涉及关键词的语义、关键词间的相关性等一些智能化的因素、以及用户查询词在自然语言中的歧义性和模糊性,因此搜索引擎的返回结果中会包含大量用户不感兴趣的网页。如何解决这样的问题成为信息检索领域中一个十分重要的研究课题。查询词扩展是提高信息检索性能的有效技术手段之一,近几年来对查询扩展的研

19、究是一个热门研究问题。本文分析用户的搜索历史和点击网页历史以及他们之间的潜在相关性,抽取出能表达用户兴趣爱好的关键词作为查询扩展源,将关键词作为属性,网页作为对象构建概念格。此外,根据用户的搜索行为,从通用本体wordnet抽取出概念及语义关系构建用户本体,利用生成的用户本体的语义关系计算新的查询词与概念格中的概念的相似度,找出相似度最大的概念进行查询词扩展。最后本文采用vc+6.0将所探讨的查询词扩展方法进行了系统实现。在该系统上通过实验可以得出本文提出的基于用户行为与本体的查询词扩展方法可以有效地克服传统查询词扩展方法实用性差、语义性差、主题性差的缺点。1.1 查询词扩展技术研究现状查询词

20、扩展指的是利用计算机语言学、信息学等多种技术,把与原查询相关的语词或者与原查询语义相关联的概念以逻辑或方式添加到原查询中,得到比原查询更长的新查询,然后检索文件,以改善信息检索的查全率和查准率,解决信息检索领域长期困扰的词不匹配问题,弥补用户查询信息不足的缺陷。查询扩展技术即指实现查询扩展的方法和手段,其核心问题是如何设计和利用扩展词的来源2。目前扩展词的来源有:一是来自初检中用户认为相关的文件;二是采用聚类技术、文本挖掘技术等从数据集或查询日志中找出与原查询相关的语词作为扩展词;三是利用现有通用本体中的语义关系,将本体中与用户相关的资源作为扩展词,如wordnet和how-net。目前查询词

21、扩展技术主要有全局分析、局部分析、局部上下文分析、基于用户日志、基于词表、基于语义的查询词扩展方法。1.1.1 全局分析全局分析是较早出现的具有实用价值的查询扩展方法,其基本思想是对全部文档中词或词间的关联程度进行分析,计算每对词或词组间的关联程度,将与用户查询词关联程度较高的词加入到原查询词中生成新查询词。目前常见的全局分析方法包括聚类算法3、潜在语义标引4,5、相似性词典6和统计词典7等。sparck jones比较早提出的词的聚类算法,它根据词的共现来对词进行聚类,并采用聚类技术用与查询词共现的词进行扩展。其前提是假设如果文档集中的两个词越相关,那么它们在集合中共现的概率就越大。缺点是它

22、不能处理词的歧义性,即如果一个查询有多个意义,词的聚类算法会把词分配到不同的聚类中,从而使查询的结果更含糊,导致查询的性能下降。文献4,5lsi(latent semantic indexing)方法是在词语全局聚类问题的基础上的一种改进方法,取得了一定的成果。lsi 方法通过使用关键词的共现信息进行奇异值分解(svd: singular value decomposition)来发现特征词之间的重要关联,以减少向量空间的维数。它的缺点是系统计算开销很大,虽然lsi 提高了系统的查全率,但这是以损失查准率为代价的。另外,lsi 虽然对同义词解决较好,但对一词多义问题只能部分解决。相似性词典将查

23、询作为一个概念来处理,在查询词扩展中,通过考虑多个查询词同时共现的歧义消除效果比考虑单个查询词共现更好,因此扩展词的选择是通过考虑与所有的查询词的共现来计算获得的。文献6把一个概念c(c通常是一个名词短语)用一个元组集,-表示,其中ti表示与概念c共现的单词,ai表示ti与c共同出现的频率,元组集称为概念c的伪文档。给定一个查询q,计算伪文档与查询q之间的相关度,并对结果进行排序,取得到最高分数的概念来进行查询词扩展。该方法的缺点是要计算出每一对词的共现率来产生概念,生成伪文档,计算的要求比较高,导致查询效率也会有所下降。文献7提出的统计词典是通过对整个文档集中的文档上下文进行分析,采用统计的

24、方法,将相关词语分成不同的类别,然后利用这些相关词语扩展初始查询。1.1.2 局部分析基于局部分析的查询词扩展主要是利用首次查询结果文档中与原查询词最相关的n篇文档作为扩展词的来源,这些相关的词语出现在局部文件集合中。而并非利用先前计算得到的全局词关系词典。局部分析主要技术有局部聚类、相关回馈和局部回馈等,相对于全局分析,局部分析的计算量比较小。atter和fraenkel8于1977年最早提出局部聚类方法,其技术是依据全局的聚类算法,首先向搜索引擎输入初始化查询词q,得到检索结果集d;对结果集d中的词进行聚类分析,使用聚类中跟初始查询词最相关的词进行查询扩展,再进行第二次检索,明显提高查询准

25、确率。由于其分析的文档数相对较少,从而有效提高了检索速度。相关回馈是最常见的查询词扩展技术,该方法的主要思想是从用户认为相关的文件中选择重要的词语,然后在新的查询表达式中不断提高这些词语的重要性,希望新的查询能够将相关文档与不相关文档区分开来。相关回馈方法的缺点是过分依赖于用户的干涉,如果用户的回馈有误则会大大降低系统的性能。为了减少用户的直接参与, shen等92005年在隐含相关回馈方法的基础上,提出了一种基于统计语言模型的上下文检索算法,并将所有用户查询和用户点击文件的摘要用于文档的重新排序,获得了很好的检索效果。s. jung等10在2007年提出将点击的网页作为隐含的相关回馈,基于人

26、工标注的相关网页数据集的实验表明,把所有点击网页看作是用户的相关回馈,获得很好的准确率和召回率。局部回馈法是在相关回馈的基础上发展起来的,局部回馈解决了相关回馈必须与用户交互的问题,自动将初始查询结果中的前n篇文档作为查询扩展源,不需要用户的干预。它假设初次查询的前n篇文章认为是相关文章,并以此为依据对查询进行扩展。bucklev和salton11提出的局部回馈方法结合了相关回馈和局部分析两种方法,它将初次查询检索出的前n篇文档认为是相关的,并以此为依据对查询进行扩展,解决了相关回馈必须与用户交互的问题。局部回馈方法的缺点是当初次查询后排在前面的文档与原查询相关度不大时,局部回馈会把大量无关的

27、词加入到查询,从而严重降低查询精度,甚至有低于不做扩展优化的情形。1.1.3 局部上下文分析xu和croft12提出了局部上下文分析方法。该方法成功地解决了全局分析方法中计算量大和上述基于局部回馈的查询扩展中对n敏感的问题。局部上下文分析法在整体上是一种局部分析方法,但利用全局分析的词语共同出现的思想避免了向原查询加入不相关的词。该方法基于名词词组而不是简单的关键词,并把它作为文档的概念,为了查询扩展,从位于排序前面的文档中选择一些与查询词语同时出现的概念作为扩展词,不用文档,而是用段落如固定长度的文本来确定同时出现的信息。局部上下文分析的假设是与所有的查询关键词同时共现的词汇作为查询扩展词。

28、令初始化查询为q(q=wl,w2, :wf)被检索的文档集为c,其中排在最前面的与查询q有关的n篇文档s=(p1,p2,pn),选择与初始查询关键词最相关的词作为扩展词。1.1.4 基于用户日志用户的查询日志是众多用户使用搜索引擎时多次“回馈”结果的积累,对它的分析相当于使用大量用户的相关回馈,可以收集到查询词、返回顺序、点击顺序、网页url等用户行为信息,对查询词扩展更具普遍性和统计意义。hang cui 等13提出了基于用户查询日志的查询扩展统计模型,它的基本思想是:在用户查询记录的基础上建立用户查询空间,在文档集上建立文件空间,根据用户日志将两个空间中的词,按照用户提交某个查询所点击的文

29、章以条件概率方式连接起来。当新查询到来时,系统选取当该查询出现时被选择成为扩展用词的条件概率最大的文档用词加入查询。显然,该方法从大量查询中得到的“先验知识,远比个别用户的临时判断或系统在毫无人为参与的情况下得到的结果更为准确,并且将关于用户回馈的学习放在检索之前,省去了初始检索和用户参与的代价。1.1.5 基于词表词表是指一套词组或者词语的集合,有时也包括集合中词间的各种关系。有两种方式人工词表:一种是普适性的、基于词语的词表,如国外通用本体wordnet,国内知网hownet等,词表中含有语义联系,如同义词或者反义词,整体与部分等语义关系。另一种如美国国会图书馆主题词表(library o

30、f congresssubject headings)和mesh 医学主题词表等,它是面向信息检索的、基于词组的词表。这些词表包含检索词之间的关系有:上位检索词、下位检索词、替代词和关联词,构造这些词表的代价非常昂贵,需要投入很大物力财力及很长时间才能初步成形,之后不断完善。以wordnet 为例,是在george miller 领导的普林斯顿大学研究小组基础上发展起来的一个手工词表,可以以机读的方式获得。在wordnet 中,词语进行了分类,类中每个节点都代表了单一意思的一个同义集。基于不同的词性有四种不同的类别,同时在这些类别之间定义了许多相关联系。使用wordnet 来进行查询扩展时,查

31、询中的所有关键词都使用同义词或者上下位词等的结合来扩展。很多的研究学者尝试使用wordnet 中定义的联系来进行查询扩展。知网(hownet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为内容的常识知识库,是最为出名的采用汉语描述的本体。它通过义原(即基本的不可再分的语言单位,语义中的原)的组合来表示各种各样的单纯或复杂的概念,以及各个概念之间,概念的属性和属性之间的关系14。随着研究的深入,研究者们提出了许多种不同的查询词扩展方法。f.a.grootjen, th.p.van der weide于2005年提出了一种混合的方法,设计了一个

32、基于全局信息的初始查询结果,同时产生一个局部的概念上的总结,使用形式概念分析理论,利用概念格描述由文件、关键词及其之间的关系组成的概念之间的关系。这种方式有效地刻画了词与词之间的搭配,减少了单个词所具有的多义性,从语境的角度研究了查询词扩展技术15。ahmed abdelali, jim cowie, hamdy s. soliman等于2007年提出了一种使用潜在语义分析机制 (latent semantic analusis, lsa) 的自动查询词扩展方法16。张敏,宋睿华,马少平提出了根据词之间的语义关系进行扩展和替换的文档重构方法,实现了同一概念信息的聚集,并进一步研究给出一种有效的

33、实时文档重构检索策略,解决了文档重构方法在实际应用中的问题17。dongfeng chen, rada chirkova, fereidoon sadri等人中提出使用被规则化或者被重构的物化观点(views)重构优化相关查询18。m.c. daz-galiano, m.t martn-valdivia, l.a. urea-lpez通过使用医学术语扩展用户查询词的方法,运用医学本体mesh改善医学信息检索19。lixin han等于2009年提出了hqe的扩展方法,该方法结合本体与神经网络来提高查询词扩展的性能。本体是用来分析语义关系以便发现相同用户,而神经网络则是用来获得最多相关文档20。

34、ming-yen chen等于2010年提出一种基于语义的检索机制,分析网页内容的语义特性,开发一个能代表网页内容语义特性的语义模式,然后通过语义延伸分析用户查询词和拓展查询词潜在的语义,可以识别更多匹配的语义特性,最后,通过扩展查询词向用户提供更准确的信息21。lourdes araujo等于2010年分析传统查询词扩展算法中词与词之间关系的不足,提出一个新颖且简单的方法来表示扩展查询词,改善这种不足,然后通过遗传算数来优化查询词,达到提高查询准确率的目的22。1.2 本体研究现状所谓本体,最著名并被广泛引用的定义是由gruber 提出的“本体是概念模型的明确的规范说明”23。本体是捕获相关

35、领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇。并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。简言之就是一种能够相互理解的约定,像词义消歧一样。而本体论也是一个重要的语义技术,它是作为一种概念化的说明,是对客观存在的概念和关系的描述。近十多年来,本体论的研究日益成熟,也已经远远超过了哲学的范畴,和信息技术(例如:面向对象系统)、知识工程及人工智能都有着密切的关系。尤其本体论最近在web上的应用直接导致了语义web的诞生,企图解决web信息共享中的语义问题,给web带来了勃勃生机和无限遐想24。在知识工程领域中本体分为领域本体、通用本体、应用本体

36、、和表示本体四类。国内外对本体的研究具体体现在四个方面: (1)基于结构化数据的本体学习; (2)基于非结构化数据的本体学习; (3)基于半结构化数据的本体学习;(4) 本体构建工具25。基于结构化数据的本体学习。结构化数据是把数据按一定规则组织起来,主要包括关系数据库或面向对象数据库中的数据。随着数据库在信息管理领域的广泛应用,大量的数据通常存储在数据库中。lawrence 和giles 在1998 年时估计互联网上有80%的内容存储在hidden web中26。所谓的hidden web 中的数据就是存储在数据库中,而且这些数据一般都是面向主题(领域)的。因此,如何利用数据库中丰富的数据构

37、建本体是一个很有意义的研究课题。在关系模型中,实体以及实体间的联系都是用表来表示的。所以,无论是概念的获取还是概念间关系的获取,首先必须区分出哪些表是用来描述实体的,哪些表是用来描述实体间联系的,然后才能将实体信息映像为本体中的概念,将联系信息映像为本体中的关系。johannesson27提出本体的构建方法,把将关系模型转换为一个概念模型,该概念模型实际上是一个扩展的实体-关系模型的形式化表示,然后根据与用户的交互,对该概念模型进行修订生成最终的本体。stojanovic 等人28通过分析数据库中的表、属性、主外键和包含依赖关系,给出了一组从关系模型到本体的映像规则。基于这些规则能够直接得到一

38、个候选本体,然后可以进一步对该候选本体进行评价和精炼,生成最终的本体。基于非结构化数据的本体学习。非结构化数据是指没有固定结构的数据。其中,纯文本是web中大量存在的一类非结构化数据,也是最重要的一类,可以用来获取本体的数据源。目前,基于非结构化数据的本体学习技术的研究主要集中在从纯文本或从用户查询词中获取本体。纯文本依据一定的造句法表达特殊的语义,使得读者可以基于一些背景知识来理解其中的含义。然而,由于缺乏一定的结构,要使机器能够自动地理解纯文本并从中抽取出所需要的知识,则必须利用自然语言处理(nlp)技术对其预处理,然后利用统计、机器学习等手段从中获取知识。陈文亮等人29提出利用boots

39、trapping 的机器学习技术,从大规模无标注真实语料中自动获取领域词汇。郑家恒等人30提出采用非线性函数与“成对比较法”相结合的方法,综合考虑位置和词频两个因素,给出候选词的权重,实现了关键词的自动抽取。sangno lee等人31基于wordnet本体去除数据意义的模糊性,通过对上下义关系的分析,提出了概念层次的自动生成方法。基于半结构化数据的本体学习。半结构化数据是指具有隐含结构,但缺乏固定或严格结构的数据32。web中的半结构化数据很多。例如大量的xml 格式和html 格式的网页,以及它们遵循的文档类型定义(xml schema 或dtd),还有越来越多的用rdf 标注的网页,都可

40、以作为本体学习的数据源。papatheodorou 等人33提出了从xml或rdf 格式的文档中获取概念间分类关系的方法,抽取出表示每篇文件内容的关键词,然后使用聚类技术,将文档集分成同组内的文档内容相似的不同组;接着,使用统计的方法选出最能表达每组文件内容的关键词;将这些关键词作为本体中的概念,并根据先前聚类的结果给出概念间的分类关系。volz 等人34提出将这些半结构化数据映像成一棵语法树,该语法树是一个四元组:非终结符集,终结符集,开始符集和规则集;然后使用一些规则将这些非终结符集和终结符集中的元素映像为本体中的概念和关系。本体构建工具。目前,本体构建工具不少于50种35,其中较成熟的主

41、要有damlimp(api)、kaon、oiled、ontoedit、ontosaurus、opencyc knowledge server、rdfauthor和webonto36。此外现有的本体建模方法都不是经权威标准化机构认证的方法,几乎每个系统的开发都会导致一些不同的本体建模方法出现。按成熟度由低到高的顺序有7 种常见的建模方法37:sensus法38、kactu法39、骨架法40、tove法41、idef5法42、mathontology43、7步法44。以上这些方法都是具体领域本体开发过程中总结出来的,因此应用领域很有限,方法细节比较粗,多数理解困难,而且相关技术比较少,存在一定的局

42、限性。此外,由于问题研究的领域和具体工程需求的不同,使得构造本体论的方式也不尽相同。因此,目前还没有标准一致的领域本体构造原则。1.3 查询词扩展技术存在的问题查询词扩展技术是信息检索技术中的一种能够有效地提高查询效率的技术。因此,通过充分发挥查询词扩展技术的优越性可以大大提高搜索引擎搜索的精确率。查询词扩展技术通过将与用户查询词相近、相关的词扩展到用户查询词中的方法,更准确地描述用户的信息需求,去除用户查询词的多义性,从而更精确地查询用户所需信息。传统的查询扩展技术存在难以克服的缺陷。全局分析因为要对整个文献集进行相关处理,系统计算量很大,只能适合限定领域小范围内的文献检索,不适用于inte

43、rnet海量资料检索。局部分析要依赖于初检文档,当这些初检文档与原查询相关度不高时,会把大量无关的词加入到查询中,严重降低查准率。基于关联规则的查询扩展虽然克服了全局分析和局部分析的不足,但是扩展的效果依然取决于词间关联规则的质量,也就是要依赖数据挖掘技术。已有的查询词扩展技术仍存在着以下一些缺点:实用性差。相关回馈需要人工干涉,既费时费力,结果也严重依赖于用户的主观性。如果用户选择出现了偏差,返回结果的准确率就很低。全局分析因为要对整个文献集进行相关处理,系统计算量很大,只能适合限定领域小范围内的文献检索,不适用于internet海量资料检索。局部分析要依赖于初检文档,当这些初检文档与原查询

44、相关度不高时,会把大量无关的词加入到查询中,严重降低查准率。语义性差。传统的查询扩展技术是以查询词为中心,机械式地严格按照字符串符号扩展,是在符号匹配层次上进行的查询扩展,忽略了查询语义及查询概念语义之间关联扩展,因而没有充分表达和扩展用户查询意图,不能从根本上消除用户查询意图与检索结果之间的语义偏差。主题性差。目前搜索引擎在处理用户的查询时,往往采用用户查询词与网页中的关键词直接匹配的方式,将数据库中得到的网页都返回给用户,因而返回网页种类繁杂,数量庞大,不能根据用户的兴趣爱好有选择性地返回令用户满意的结果。本文鉴于传统查询词扩展技术的各种局限,结合用户搜索行为及本体的语义知识进行查询词扩展

45、,解决了实用性差、语义性差、主题性差的缺点,在一定程度上完善传统查询词扩展的不足。1.4 本文的主要内容与结构本文首先从搜索日志中提取出用户的日志,进而获取用户点击的网页,将网页内容进行去掉停用词处理,根据共现词的原理计算每个词项的共现频率,结合点击网页的返回顺序、用户点击顺序、包含词项的文档个数,提出词项权重的新算法,提取权重最大的前个词项作为属性,构建概念格,作为查询扩展源。然后,从wordnet提取出新查询词与扩展源的语义关系,增量式地将新查询词与扩展源及它们之间的语义关系构建成用户本体。最后,利用构建好的用户本体中的语义关系,计算新查询词与扩展源中的概念的相似度,选择相似度最大的概念进

46、行查询词扩展。本文的主要结构如下:第一章介绍本课题的研究背景和意义、查询词扩展技术研究现状、本体研究现状。第二章讨论本文提出的基于用户搜索行为的查询扩展源生成方法。第三章介绍基于wordnet的用户本体构建方法。第四章讨论本文提出的基于用户本体的查询词扩展方法。第五章实验,将本文提出的算法进行系统实现,并通过和其它查询词扩展方法进行对比,分析实验结果。第六章总结与展望。2 基于用户搜索行为的查询扩展源生成方法本章主要研究用户搜索日志,提出结合共现词、返回结果排名和点击url序号的查询扩展源提取算法。2.1 用户搜索日志用户搜索日志(user search log)记录了用户与系统交互的相关信息

47、,是用户使用检索系统时多次“回馈”结果的积累。不同搜索引擎的日志记录格式不同,但一般都包括用户的ip地址、输入的查询词、该url在返回结果中的排名、点击url的序号、用户所点击的url。搜索引擎日志挖掘研究可以看作web 挖掘中的一种使用记录挖掘, 即从用户查询行为中抽取有意义的模式,发现用户搜索的特征与规律、兴趣和爱好。基于商业机密的考虑,很多商业搜索引擎都不会公开自己的用户访问记录。目前的研究以英文搜索引擎的研究为主,亚洲等区域的研究相对较少。按一个搜索引擎的所在地进行划分,已公开搜索引擎日志有如下:美国: excite; altavista;alltheweb欧洲: fireball(德

48、国);bwie(西班牙);alltheweb(挪威)南美洲:todocl(智利)亚洲: tianwang(北大天网);sogou(搜狗);naver(韩国);gais(台湾)成功的搜索引擎系统一般都很重视对系统日志挖掘的研究,如百度于2005 年11 月与北大合作成立了“中国人搜索行为研究室”。搜狐与清华大学于2007年成立了搜狐-清华大学联合实验室,目标是让搜索更加智能化,同时以搜索技术带动人工智能的发展。对用户搜索日志的挖掘是目前研究热点之一,主要技术和方法包括:统计分析方法、建模分析预测、序列模式发现、关联规则挖掘、聚类分析等。其应用也非常广泛,主要应用在相关性排序、用户兴趣挖掘、查询扩

49、展、新词发现等方面。近几年一直进行搜索引擎日志挖掘研究的人员主要有bernard j jansen,amanda spink, seda ozmutlu, ricardo baeza-yates, 北大天网组等45。2.2 停用词为节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为stop words(停用词)。停用词一定程度上相当于过滤词(filter words),不过过滤词的范围更大一些,包含黄色、政治等敏感信息的关键词都会被视做过滤词加以处理,停用词本身则没有这个限制。通常意义上,停用词(stop words)大致可分为如下两类:1、

50、使用十分广泛,甚至是过于频繁的一些单词。比如英文的“i”、“is”、“what”,中文的“我”、“就”之类词几乎在每个文档上均会出现,查询这样的词搜索引擎就无法保证能够给出真正相关的搜索结果,难于缩小搜索范围提高搜索结果的准确性,同时还会降低搜索的效率。因此,在真正的工作中,所有搜索引擎会忽略掉特定的常用词,在搜索的时候,如果我们使用了太多的停用词,也同样有可能无法得到非常精确的结果,甚至可能是大量毫不相关的搜索结果。2、文本中出现频率很高,但实际意义又不大的词。这一类主要包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语。如常见的“的”、

51、“在”、“和”、“接着”之类,比如“停用词是出现频率很高,但实际意义又不大的词”这句话中的“是”、“但”、“的”就是停用词。停用词对搜索结果影响非常大,文档中如果大量使用stop words容易对页面中的有效信息造成噪音干扰,所以搜索引擎在运算之前都要对所索引的信息进行消除噪音的处理。了解了stop words,在网页内容中适当地减少停用词出现的频率,可以有效地帮助我们提高关键词密度,在网页标题卷标中避免出现停用词能够让网页关键词更集中、更突出。停用词的识别常常需要停用词表,目前广泛使用的有英语停用词表和中文停用词表。中文停用词表的自动选取现有的方法是基于统计的停用词选取方法,不过目前的科学研

52、究已提出了一种新的停用词选取方法,用该方法分别计算词条在语料库中各个句子内发生的概率和包含该词条的句子在语料库中的概率,在此基础上计算它们的联合熵,依据联合熵选取停用词,该方法比传统方法更适用于文本分类的预处理46。2.3 共现词分析共现表示的是同时发生的事件或情形,或有相互关联的事件或情形。可见,事物的相互联系是共现发生的内在原因,而共现现像是事物相互联系的外在表现。所以,通过分析共现现象可以了解事物之间的联系强弱和关联类型。所谓共现词,是指在文档中经常同时出现的词项,以一个词为中心, 伴随着一组经常与之搭配出现的词, 把这组词称为它的共现词汇集, 该集合描述了该词的语义上下文或语境。共现词

53、的共现类型从同时发生的事件角度可以划分为三种类型47:集聚类型,第一顺序类型,第二顺序类型。如图2.1所示:图2.1 共现词的共现类型fig. 2.1 co-occurrence words type从词汇的语义角度出发,可以将常见的词汇共现关系归纳为以下几种关系48:上下义关系体现了包含与被包含的关系。与上下位关系相当,例如“动物”和“狗”,“熊猫”的关系。重合关系体现了相似或者相等的关系。例如“北京”和“中国首都”的关系。对立关系体现了差异的、相反性的关系。例如“丈夫”和“妻子”,在性别上有差异,所以其间有对立关系;“快”和“慢”之间有相反性,具有对立关系。组合关系组合后,能体现一定意境的

54、关系。例如“打”和“排球”具有组合关系,组合成“打排球”具有一定的意境。相对无关关系休现了无关联的关系。例如“钢笔”和“饼干”。以上的几种关系可以是习惯搭配的词对,也可以是属于同一词类的词对,或者是在同一话题中经常出现的词对。通过共现分析,人们可以发现研究对象之间的关联关系,挖掘隐含的或潜在的有用的知识。经过几十年的发展和完善,共现分析以其方法的简明性和分析结果的可靠性,在信息检索、自然语言处理、语言学、文献计量学等领域的应用日益广泛。如今共现分析在改进知识组织中文本分类聚类的效果、构建概念空间和实现语义检索、分析文献中知识内容关联、挖掘知识价值等方面显示出独特的功能,正在成为支撑知识挖掘和知

55、识服务的重要手段和工具。2.4 提取方法针对传统查询扩展源提取的不足,本文结合共现词和用户搜索行为(用户搜索日志)的优点提出一种新的查询扩展源提取方法。实验证明,该方法能有效地提取表示用户兴趣爱好的词作为扩展源。定义2.1 在日志中,针对用户的一个查询词,记录用户所点击的网页集合称为点击网页集;点击网页集中网页包含的词项的集合称为词项集;抽取出来作为查询扩展候选词的词项集合称为查询扩展词qe。定义2.2 词项出现在点击网页集的频率,称为词项重要度fw;在日志中,针对用户的一个查询词,返回网页的顺序称为搜索引擎对网页的推荐度rw;用户点击网页的顺序称为用户对网页的认同度iw;出现相同词项的点击文

56、档的个数称为词项的支持度sw。由于返回网页中都包含查询词,点击网页的词项集就是查询词的共现词集。计算每一个词项在点击网页中的权重,我们以词项出现的频率来衡量,称为词项重要度,如公式2.1: (2.1)其中为词项在点击网页中出现的次数,为点击网页中词项的个数。返回网页的顺序越靠前,搜索引擎对网页的推荐度就越大,那么网页中包含的词项跟用户的初始查询词越相关,应该赋予更大的权重。我们在该网页词项重要度的基础上,加上相应的推荐度,如公式2.2: (2.2)其中为返回网页的个数,j为返回网页的顺序。用户点击网页的顺序越靠前,表示用户对网页的认同度越大,可以认为网页中包含的词项跟用户的初始查询词越相关,同样的,应该赋予更大的权重。我们在该网页的词项重要度的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论