已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
I本 科 毕 业 论 文中国武汉二一 年 三 月题 目 个性化搜索引擎的设计与实现姓 名 学 号专 业 计算机科学与技术指导教师 职 称 讲师华中农业大学毕业论文(设计)II华 中 农 业 大 学 本 科 毕 业 论 文个性化搜索引擎的设计与实现Design and Implementation of Personal Search Engine学生姓名: 学生学号:学生专业:指导教师: 华 中 农 业 大 学 理 学 院二一 年 三 月华中农业大学毕业论文(设计)III目 录摘 要 IV关键词 IVABSTRACTVKEY WORDSV1 前言 11.1 研究背景 11.2 个性化搜索引擎的意义 11.3 个性化搜索引擎主要的研究问题 12 搜索引擎概述 22.1 个性化搜索引擎 22.2 搜索引擎工作原理 22.3 个性化搜索引擎系统模型 32.4 未来搜索引擎的发展趋势 43 个性化搜索引擎相关技术 53.1 信息抽取技术 53.2 LUCENE 检索工具包 53.3 中文分词技术 63.4 自动聚类技术 63.5 用户行为分析 74 个性化搜索引擎的总体设计 74.1 系统需求分析及总体设计 74.2 系统功能及架构设计 84.3 系统流程设计 84.4 系统数据库设计 125 个性化搜索引擎的具体实现 135.1 模块设计 135.2 用户界面模块 145.3 搜索模块 165.4 搜索结果优化模块 195.5 系统运行结果及示例 216 总结 22参考文献: 22致 谢 23华中农业大学毕业论文(设计)IV个性化搜索引擎的设计与实现摘 要随着Internet技术的迅速发展,网络提供给人们的信息量越来越大。搜索引擎作为人们在WWW上查找、获取信息的重要手段之一,在各个领域都已得到了广泛的应用。为了给用户提供个性化的查询服务,个性化搜索引擎孕育而生。经过众多研究者的不懈努力,个性化搜索引擎技术已取得了一些进展。本文针对目前搜索引擎存在的不足以及当前用户个性化查询的要求,在深入研究搜索引擎及相关技术的基础上,设计了一个基于用户兴趣挖掘的个性化搜索引擎模型。本文的主要工作是:(1)个性化模型的研究与实现本文深入分析了个性化搜索的特点,研究了搜索引擎及相关技术,设计了一个基于用户兴趣挖掘的个性化模型。该模型从用户的历史访问页面中提取用户的兴趣特征,将兴趣相同的页面进行归类,并将用户兴趣按类管理;本文构建了用户兴趣树来动态地存储用户兴趣,并通过短期兴趣和长期兴趣相结合的方式来描述用户兴趣特征;为了及时地反映用户的兴趣变化,本文采用了基于遗忘机制的兴趣更新算法。(2)个性化搜索引擎(除个性化模型外)其他模块的研究与实现本文还研究了与个性化搜索引擎相关的其他模块,包括:中文分词、查询扩展、网络蜘蛛、索引建立与更新以及结果排序。在综合考虑了技术的实现难度和用户个性化查询要求的基础上,本文给出了以上各模块的实现算法。(3)通过实验证明了本文设计的个性化搜索引擎的有效性。实验内容包括两方面:个性化模型的建立和个性化的搜索。关键词个性化模型,用户兴趣挖掘,用户兴趣树华中农业大学毕业论文(设计)VDesign and Implementation of Personal Search EngineAbstractWith the rapid development of Internet technology,the network can providepeople more and more information.Search engine has been widely used in manyfields,which is treated as a tool that people can get information on World Wide Web.In order to provide personalized search service for users,personalized search enginecomes forth.Because of many researchers contribution,people have made greatprogress in personalized search engine.This paper points out the shortage of currentsearch engine and users requirements of personalized search,does some research onsearch engine and its technology,and designs a personalized search engine model thatis based on users interests mining.The main tasks of the paper are as follows:Firstly,this paper researches and implements the personal model.This paper analyzes the characters of personalized search,researches the searchengine and its technology,and designs a model that is based on users interests mining.The model gets users interests from the pages that he has visited before,classifies thepages according to the same interest,and manages the users interests according to theinterest types.As to the storage of users interests,this paper consults the ODP catalogstructure,establishes user interest tree to store the users interests,and uses the shortinterest and long interest to describe the users interest characters.In order to reflectusers interests changing in time,this paper updates users interests using thealgorithm based on forgetting mechanism.Secondly,this paper researches and implements other modules of personalizedsearch engine besides the personal model.The modules include Chinese segmenting,search extending,network spider,index establishment and update and result ranking.This paper takes the implementing difficulty of related technology and usersrequirements of personalized search into account,and brings forward the algorithmsof the modules above.At last,experiments are conducted to verity the efficacy of the personalizedsearch engine designed above.The contents of the experiment include two parts:the establishment of personal model and the personalized search.Key words personal model;users interests mining;userinterest tree。华中农业大学毕业论文(设计)1 前言1.1 研究背景 随着 internet 的迅速发展,如何在浩瀚的网络信息资源中查询自己想要的信息变得越来越重要。为此,出现了专门提供网络搜索服务的网站,比如Google、Baidu、Yahoo、搜狐、北大天网等。然而随着网络信息的更新与扩充,传统的单一搜索引擎存在着覆盖率有限,查准率低,用户相关性差的缺点,使得为解决上述不足的元搜索引擎开始成为研究的热点。元搜索引擎是指在统一的用户接口与信息反馈下,通过调用多个独立的搜索引擎享有多个资源库为用户提供信息服务的系统。早期的元搜索引擎,虽然大大增加了传统搜索引擎的覆盖率,但在某些方面仍旧和传统的搜索引擎一样,对每个用户的检索要求都给出相同的检索结果,并没有考虑用户个性化的需求对检索予以重组、过滤。如何能够更有效、更准确地找到自己感兴趣的信息,滤除与自己的需求无关的信息,真正做到“各取所需” ,成为基于Internet的网络信息检索的热点问题。随着用户行为分析、自动聚类、事例推理、互动学习等技术的引入,搜索引擎开始走向个性化、智能化、专业化。1.2 个性化搜索引擎的意义根据第24次中国互联网发展状况统计报告,截至2009年6月底,中国网民规模达到3.38亿人,搜索引擎的应用是用户获取信息的主要渠道之一,使用率达到73.2%(美国达到92%)1,并有上升的趋势。搜索引擎的发展经历了目录海量搜索、海量搜索、剔出垃圾网页、专业、定向、高准确性和匹配性等几个阶段,但搜索引擎的框架结构和基本技术并没有实质性的突破。而搜索引擎缺乏个性化的局限性却日益突出,具体表现在2:(l)网络信息覆盖面广,形式各异,而传统搜索引擎对所有用户提供相同的界面和服务,并且检索的结果成千上万、良芳不齐,用户为找到真正感兴趣的信息,往往要耗费大量的时间和精力。(2)人们由于年龄、性别、职业、爱好等不同,各自感兴趣的领域也随之不同,各自对词义的理解也不尽相同,不同的用户对同一检索请求得到的检索结果常常有不同的评价。(3)用户在不同时期或阶段对同一检索请求,所得到的仍是完全相同的检索结果,对用户不具有自适应能力。(4)用户使用搜索引擎时带有一定的目的性,但由于领域知识的不足和搜索引擎的查询接口的局限性而无法明确表达自己的搜索意图1.3 个性化搜索引擎主要的研究问题本课题通过学习用户满意度反馈信息,挖掘用户隐藏兴趣,开发并实现了一个基于用户反馈的个性化搜索引擎系统,并提出在此搜索引擎中引入自动聚类技术的改进方案,提高搜索效率。本文的主要研究内容:(l)搜索引擎源数据的获取即如何获取独立搜索引擎返回的搜索结果。(2)设计一套合理的学习用户反馈信息的方法即通过学习用户反馈信息,把隐藏在用户操作之下的信息,如:用户的兴趣爱好,用户的搜索倾向等进行归纳总结,借助学习算法,生成用户兴趣模式。(3)基于用户反馈的个性化搜索引擎系统的实现即设计并实现一个基于用户反馈的个性化搜索引擎系统。此系统的最大特点是:引入评分制度获取用户反馈信息,学习用户反馈,挖掘用户兴趣,依据用户兴趣优化搜索结果,优先返回特定用户感兴趣的网页内容并向用户推荐其他用户的兴趣模式,使搜索结果“面向用户” ,具有特定性和华中农业大学毕业论文(设计)针对性,提高检索效率。(4)个性化搜索引擎系统中引入自动聚类即如何将学习用户反馈信息、信息检索与数据挖掘中的自动聚类技术相结合,通过对用户和搜索结果的聚类处理,使用户能更加快捷的找到所需网页。2 搜索引擎概述2.1 个性化搜索引擎个性化搜索引擎指的是搜索引擎根据用户搜索的历史记录,来返回更适合这个用户的搜索结果。这些搜索历史记录包括用户所搜索的关键词,在搜索结果中的点击情况,在各个网站的访问情况,书签情况等。搜索引擎掌握了这些用户资料后进行分析,在用户搜索新的关键词时,能返回更有针对性的搜索结果,从而提高用户体验。而搜索引擎3,它就是以一定的技术和策略在互联网中搜集、发现信息,并对信息进行理解、提取和处理,为用户提供Web 搜索的服务.搜索引擎有各种不同的分类方法。按照信息内容划分,搜索引擎可分为综合型搜索引擎、专业型搜索引擎和特殊型搜索引擎; 按照搜索工具的数量划分,搜索引擎可分为独立搜索引擎、元搜索引擎和集成搜索引擎;按照信息的组织方式划分,搜索引擎可分为目录式搜索引擎、全文搜索引擎和混合型搜索引擎。以下是按信息的组织方式划分的三类搜索引擎:(l)目录式搜索引擎5,或称按主题查询型搜索引擎,是将信息分门别类,按照传统的分类方式分为各级目录。它的特点是质量和匹配精度较高,不足之处是搜索范围较小,查全率较低。(2)全文搜索引擎5 ,或称按关键字查询型搜索引擎,对各网站的每个页面中的每个词进行搜索。它的特点是信息量很大,查全率较高。不足的是它提供的信息太多,反而降低了查准率。(3)混合型搜索引擎5 是针对全文和目录搜索引擎的缺点而设计的。使用户在分类目录中浏览,保证了一定的查准率,又可以使用户进行全文检索,查找特定资源。2.2 搜索引擎工作原理如图2.1所示,一个完整的搜索引擎系统一般由网络爬虫、索引器、检索器和用户接口四个部分组成,不同搜索引擎具体的模块可能会有不同,但都是建立在这四个基本模块的基础之上。索引器网络爬虫网页网页检索Html 特征库Full-text网页查询查询器 用户接口图 2.1(l)网络爬虫4(WebCrawler)网络爬虫,又称网络机器人,它不停的从网络上下载文档并抽取出新的链接,循环的实现对万维网的遍历。它在一个完整的运行周期内(比如半个月可以下载超过千万的网页,并将这些文档保存在本地文本数据库,最后由索引器负责完成页面内容的全文索引。(2)索引器(Indexer)索引器对收集回来的网页进行分析,提取相关网页信息(包括网页所在uRL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页(针对页面内容)及超链中每一个关键词的相关度(或重要性),华中农业大学毕业论文(设计)然后用这些相关信息建立网页索引数据库。(3)查询器4(Seareher)从使用者角度来看,查询算法是决定一个搜索引擎检索质量最重要的因素。搜索引擎的查询器就是利用索引数据库提供的各类基本数据库,如页面全文索引库、HTML标签库、超链接分析库、查询历史库等多个数据源,实现对用户输入关键字的准确、快速的匹配。(4)用户接口4(User)用户接口提供一系列的查询选项以满足不同的查询要求。一般的搜索引擎系统都支持布尔表达式操作、搜索域名范围限制、查询网页的语种,甚至可以选择文档的类别。合理的设置查询选项可以大大的减少搜索结果中的无效内容,提高查询效率。元搜索引擎6将现有的多个搜索引擎看成一个整体,为用户提供一个统一的查询界面,用户的查询请求由元搜索引擎根据知识库中的信息,转换为多个搜索引擎所能识别的格式,然后分别发送给调用的各独立搜索引擎,由这些搜索引擎完成实际的信息检索,最后元搜索引擎再把各搜索引擎返回的结果收集起来,进行比较分析,剔除冗余信息,以一定的格式返回给用户元搜索引擎是指在统一的用户查询接口与信息反馈形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统。图2.2为元搜索引擎体系结构图7:反馈信息图 2.2 元搜索引擎体系结构图用用户接口模块单一搜索引擎 1 单一搜索引擎 2 单一搜索引擎 n调度模块WWW知识库查询请求结果处理模块元搜索引擎系统各模块分别介绍如下:(1)用户接口模块7 该模块负责接收用户的查询请求并显示查询结果。(2)调度模块7 其决定主要的搜索策略,根据用户的输入必须决定查询哪一个成员搜索引擎,以及按照不同成员搜索引擎的要求修改用户输入的查询请求。调度模块为元搜索引擎系统(3)结果处理模块7 元搜索引擎的结果处理模块从成员搜索引擎中获取网页结果,并根据返回网页的不同格式提取元搜索引擎需要的内容,并对结果进行去重、合并、输出处理等。2.3 个性化搜索引擎系统模型随着网络信息爆炸似的增长,人们通过搜索引擎检索到的信息不是太少,而是太多了,且大多数都是与查询请求无关的信息。传统搜索引擎及一般的元搜索引擎系统已经越来越不能满足人们的需求,因而个性化技术日益成为检索领域研究的热点问题。个性化搜索引擎将个性化信息服务的概念引入到搜索引擎中,使其能够更好的适应于网络信息的发展。个性化搜索引擎的目的在于能够根据用户的背景、兴趣爱好、研究方向、检索目的等,向用户提供相应的需求信息。个性化Web元搜索引擎系统模型如图 2.33所示:华中农业大学毕业论文(设计)用户用户用户接口查询分析器查询过滤器用户描述文件库Web处理接口结果预处理搜索引擎 1搜索引擎 2搜索引擎 N图 2.3 个性化 Web 元搜索引擎系统模型其中个性化搜索引擎中各模块功能如下:(1)用户接口3该模块为用户提供可视化的查询输入和结果输出界面。在查询输入界面中用户可输入一系列关键词、一系列布尔操作符;在输出界面中,搜索引擎将检索结果展现为一个线性的文档列表。(2)用户描述文件库3该库根据一定的用户兴趣模型,存放用户兴趣知识。好的用户兴趣模型不仅要求客观、全面表达用户兴趣知识,而且还要具备良好的后期兴趣评估可操作性。(3)查询分析器3根据用户兴趣库知识对用户查询请求进行概念、语义分析,并在此基础上对查询输入进行扩展形成新的更长、更准确的查询,这样可以帮助搜索引擎弄清用户确切所指。(4)Web处理接口 3Web处理接口通过并行的方式调用多个搜索引擎,把所有的结果集中到一起。(5)结果预处理3对来自不同搜索引擎的结果进行整合,如剔除重复、统一格式、检验链接有效性和分类等。(6)查询过滤器3对返回的结果进行个性化处理,比如根据用户兴趣权值等重要性尺度重新进行相关度排序,并将结果提交给用户。此模块是信息过滤系统的核心部分。2.4 未来搜索引擎的发展趋势当前的万维网检索结果几乎都是以列表形式表现,查询质量良荞不齐、组织结构也不合理,但是由于该项技术高效、成熟的特点,在未来的一段时间内,这项技术还将在搜索领域占据绝对重要的位置。为了进一步改善检索质量,未来的搜索引擎应该在以下几方面有所突破10:.个性化在输入方面,使用自然语言输入,更加方便用户的使用,更易于用户与搜索引擎的交互,更能贴近地表达用户的查询需求,从而有利于提高查询的精度。在返回结果方面,应该充分发挥预处理和搜索结果集成方面的能力,考虑人的性别、年龄、地域等方面的差别给出个性的搜索结果。.智能化一方面,元搜索引擎通过不断学习来掌握用户的喜好,通过对用户搜索习惯和兴趣的挖掘,达到自动选择合适的成员搜索引擎的目的,从而进行搜索。另一方面,可对用户其它方式的输入查询如声音、图像、视频等,实现智能的查询转换功能,从而得到预想的结果。.专业化专业化元搜索引擎是个很好的概念,不但网络资源可以比普通元搜索引擎挖得更深更多,搜索华中农业大学毕业论文(设计)负担还小得多,应该是很符合网络发展方向的。3 个性化搜索引擎相关技术3.1 信息抽取技术信息抽取技术11,简称IE技术,是通过抽取、过滤无关信息,使文本信息以用户关心的形式得以再组织,实现高效重组。信息抽取原来的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特别的一个子领域。信息抽取利用语言学的知识,主要是词语知识和篇章结构的知识,从文中抽取出特定的内容,从而避免对全文进行深入的理解。信息抽取主要有两大方法:一是知识工程方法,二是自动训练方法。知识工程方法主要靠手工编制规则使系统能处理特定知识领域的信息抽取问题。这种方法要求编制规则的知识工程师对该知识领域有深入的了解。自动训练方法11不一定需要如此专业的知识工程师。系统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2030年中国高压聚乙烯注塑料行业深度调查及投资风险分析报告
- 2024-2030年中国香薰蜡烛行业销售模式及未来发展前景展望报告
- 2024-2030年中国防霉保鲜剂项目可行性研究报告
- 2024年度环保设施安装与调试合同
- 2024-2030年中国铅锌冶炼行业产能预测及投资规模分析报告
- 2024年收益权流转合同
- 2024年新修订:建筑项目安全文明施工合同
- 2024年微商一件代发协议
- 2024年学校食堂承包经营协议
- 2024年新修订:个人信用贷款合同
- 电动客车驱动桥总成设计
- 四川省阿坝藏族羌族自治州《综合知识》事业单位国考真题
- 2023年人民法院电子音像出版社招聘笔试题库及答案解析
- 大学生心理健康优秀说课-比赛课件
- 收款账户变更的声明
- 九年级道德与法治中考复习资料
- 《化学发展简史》学习心得
- 班组建设与班组长管理技巧课件
- 签派员执照考试题库汇总-8签派和实践应用
- 30屈原《楚辞·橘颂》课件
- 销售人员十大军规课件
评论
0/150
提交评论