已阅读5页,还剩50页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
密级: 论文编号: 中国农业科学院 学位论文 农业专业 搜索引擎 个性化服务 研究与实现 I 摘 要 本文 的研究目的 是在农业专业搜索引擎 “农搜” ( 的 基础 上 , 构建一个 提供个性化信息推荐与个性化检索服务的 个性化搜索引擎 。 本文 以个性化服务理 论 为依据,按照“用户数据搜集 用户建模 提供服务”的三段式流程展开研究 ,综合应用新兴的 互式网站开发技术,个性化服务技术,搜索引擎与信息检索技术 解决 搜索引擎个性化应用 的关键问题 ,取得了如下成果: ( 1) 将 互式网站开发技术 应用到 用户数据搜集 上 , 设计了基于 户行为数据 搜集方案, 成功地解 决 了搜索引擎网站用户数据搜集的问题。 ( 2) 设计了基于 用户行为 构建用户兴趣文档的自动建模方法 , 解决了用户建模的问题 。 ( 3) 在( 2)用户模型的基础上 , 设计 了 基于 向量空间检索模型 的个性化 推荐算法 和基于全文检索模型的推荐算法 。 ( 4) 将协作推荐技术应用到信息检索中 , 在( 1)用户行为信息和( 2)用户模型的基础上 设计 了 一种基于 协作推荐的个性化检索 算法。 ( 5) 将 技术研究 成果 与“农搜”的 索技术结合起来,设计实现 了一个 集 隐式 用户行为数据搜 集 、 个性化推荐 与 个 性化检索 等 功能 于一体 的 自动化 个性化 搜索引擎 。 本文 的 创新主要在如下两 方面 : ( 1) 式用户行为搜集技术避免了 传统客户端 数据搜集方式 所存在的不足 ,完备而准确的数据为 之后的研究奠定了 良好 基础。 ( 2) 基于协作推荐的个性化检索技术 克服了传统个性化检索在技术思路上的局限 ,通过初步测试证明: 个性化检索确实具有较好的效果和性能 。 关键词 : 个 性 化 , 搜 索引擎 , 协作推荐 , 信息 检索 to a on of In of to of a as ( 1) a to of on on of ( 2) a to of is as in ). ( 3) on of in ) ( 4) a to of on in ) in ). ( 5) At DD as ( 1) of as a ( 2) on is an as by 录 第一章 引言 . 1 究背景 . 1 究目的与意义 . 2 要研究内容 . 2 文的技术路线 . 4 文的写作框架 . 5 第二章 个性化服务与搜索引擎基础理论 . 6 性化服务基础理论 . 6 性化服务的含义 . 6 性化服务的发展历史 . 6 性化服务的工作原理 . 6 性化服务的关键问题 . 7 息检索基础理论 . 10 息检索的概念 . 10 息检索模型与分类 . 11 索引擎基础理论 . 12 索引擎的概念 . 12 索引擎的发展历史 . 13 索引擎的工作原理与结构 . 13 第三章 搜索引擎用户行为搜集技术 . 15 索引擎用户行为的形式化定义 . 15 于 用户行为搜集技术 . 16 术简介 . 16 户行为搜集原理 . 18 验网站的设计与实现 . 19 统设计 . 19 统实现 . 21 统运行效果与结论 . 22 第四章 搜索引擎用户建模与个性化推荐技术 . 24 于用户行为的用户建模技术 . 24 于检索模型的个性化推荐技术 . 24 检索模型到推荐模型的过渡 . 24 于 型的推荐算法 . 25 于全文检索模型的推荐算法 . 26 术特点与应用前景 . 26 第五章 一种基于协作推荐的个性化检索技术 . 27 作推荐技术概述 . 27 作推荐的原理与案例 . 27 作推荐的分类 . 28 种基于协作推荐的个性化检索算法 . 28 术特点与应用前景 . 30 第六章 搜索引擎个性化服务系统设计与实现 . 31 统设计 . 31 统实现 . 33 台与技术 . 33 据库维护 . 35 统运行效果与结论 . 35 统运行实例 . 35 性化检索与 索性能比对 . 38 第七章 结论与展望 . 40 文的总结 . 40 文未来工作展望 . 40 参考文献 . 42 致谢 . 45 作者简历 . 46 V 图 目录 图 1 论文技术路线图 . 4 图 2 论文的逻辑结构图 . 5 图 3 个性化服务三段式流程 . 7 图 4 个性化主页截图 . 9 图 5 信息检索系统概念结构图 . 11 图 6 倒排索引检索流程图 . 12 图 7 搜索引擎的三段式流程 . 13 图 8 搜索引擎体系结构图 . 14 图 9 传统 用模型(左)与 型 (右) . 17 图 10 传统 用的同步交互(上) 和 用的异步交 互 (下) . 17 图 11 户行为搜集流程图 . 18 图 12 实验网站结构图 . 19 图 13 实验网站界面截图 . 20 图 14 关键数据模型类图 . 20 图 15 用户行为信息 库结构图 . 21 图 16 注册用户二次会话时页面截图 . 22 图 17 发环境控制台截图 . 23 图 18 检索模型与 推 荐模型 . 24 图 19 一个协作推荐的例子 . 27 图 20 搜索引擎个性化服务系统结构 . 31 图 21 个性化搜索引擎主页截图 . 32 图 22 用户行为信息库(左) 用户兴趣文档库(中)与用户相似度库(右) . 33 图 23 件、 象与 口关系图 . 34 图 24 作 据库的间接连接方式 . 35 图 25“小刘 ”初次访问网站截图 . 36 图 26 搜索 “小麦 ”结果页面截图 . 36 图 27 用户行为信息库新增记录截图 . 36 图 28 用户兴趣文档库中新增记录截图 . 37 图 29 用户相似度库中新增记录 . 37 图 30 个性化推荐页面截图 . 37 图 31 个性化检索结果页面截图 . 38 图 32 用户行为记录减半后搜索 “甘薯 ”结果页面截图 . 38 目录 表 1 常见信息检 索模型对照表 . 11 表 2 传统数据搜集类型、实现及问题对照表 . 15 表 3 用户行为信息记录 . 29 表 4 用户相似度记录 . 29 文缩略表 英文缩写 英文全称 中文名称 据 对象 步 应用程序接口 软 活动服务器网页 件对象模型 层叠样式表 档频率 态链接库 档对象模型 件传输协议 互联网信息发布服 务 地接口 务器端动态网页 放式数据库互连 简易内容聚合 of 离散矩阵分解 频 统一资源定位器 量空间模型 可扩展超文本置标语言 可扩展标记语言 中国农业科学院 硕 士学位论文 第一章 引言 1 第一章 引言 究背景 ( 1) 搜索引擎 成为人们获取信息 的主要渠道,但目前检索效果还 不如 人意 成为人们获取信息的一个重要途径, 胆识由于 息的日益增长,人们不得不花费 大量的时间去搜索自 己需要的信息, 搜索引擎的出现从一定程度上缓解了信息过载的矛盾 , 它已经成为网民 最经常使用的网络服务之一 。 据 2007 年 1 月 23 日 中国互联网络信息中心 ( 布 的 第十七次中国互联网络发展状况统计报告 ,截至 2006 年 12 月 31 日, 国 内 网民人数达到 , 在“网民获取信息的最主要途径”中,网络( 超过电视( 、报纸( 等传统媒体,成为网民最主要的信息获取途径,而在“用户经常使用的网络服务 /功能”中,“搜索引擎”以 选择率排在第三位,仅次于“收发 邮件”( 和“浏览新闻”( 。 但目前 搜索引擎的 检索效果还 不如 人意 ,其通用的性质 不能满足不同背景、不同目的和不同时期的查询请求,对于所有用户,只要输入的关键词相 同,返回的检索结果就完全相同, 事实上即使输入同一关键词,不同用户的需求也是不同的,用户 往往 需要 对搜索结果 进行 手工 筛选 才能得到 满意的 信息 。 此外 , 搜索引擎“检索 服务方式也过于被动, 理想的信息服务 应该 是个性化的 主动推荐的 ,它 可以代理每个用户,自动从网络上搜索到最符合用户个性化需求 的结果推荐 给用户 ,显然 搜索引擎 现状 与 理想 目标 还存 在巨大差距 。 ( 2) 个性化服务与技术兴起 , 搜索引擎个性化智能化是一种必然趋势 目前, 以 新资源 “ 推荐 ” 和“发现” 为核心的网站正开始在 国内 崭露头角,比如 侧重于 音乐推荐的 “ 八宝盒 ” , 侧重 图书推荐的 “ 豆瓣 ” 等 , 随着 这些 推荐型网站的兴起,越来越多人开始关注个性化服务 技术 , 特别是推荐技术, 2007 年 4 月 19 日,国内最大的开发者网站 表了以“ 互联网 : 正从搜索走向推荐时代 ”为题的专题报道,文中写到“ 如果说过去的十年是搜索技术大行其道的十年,那么个性化推荐技术将成为未来十年中最重要的革新之一 ” 。 在这 种 背景下 , 搜索引 擎 转变为推荐引擎, 或者说 搜索引擎与个性化技术的结合 是 一种必然趋势 , 所以 个性化智能 搜索引擎 成为国际上的研究热点 。 搜索引擎公司一直致力于个性化研究,而且已经 推出了许多 产品 和服务 , 如 个性化主页 “ 和 用户定制搜索引擎 “ , 个性化主页“ 和 搜索结果个性化排序服务 等 。 ( 3)农业专业搜索引擎发展迅速, 但个性化研究还处于起步阶段 近年来,我国农业信息网站的发展非常迅速,据不完全统计目前各类农业网站近万个,静态网页数百万以上,如何 迅速地在这些网页中找到用户所需要的网页,即农业专业搜索引擎的开发正日益受到大家的关注。中国农业科学院农业信息研究所多媒体技术研究室开发出的农业专业搜索引擎“农搜” (收集了农业领域近 70 万网页信息,具备 文检索与 提供农业信息的精确搜索和分类导航服务,系统经过两次改版,内容和技术已经基本成型。 但农业专业搜索引擎 在 服务水平 和 检索 效率 上与 商业搜索引擎还存在差距 ,个性化研究 还处于起步阶段。 中国农业科学院 硕 士学位论文 第一章 引言 2 ( 4)智能检索与个性化数据 服务是“国家农业数据中心”未来发展的主要任务之一 “国家农业数据中心” 是由科技部 “国家科技基础条件平台建设 ”支持建设的数据中心试点之一 ,由中国农业科学院农业信息研究所主持,建成了拥有 12 大类 60 多个主体数据库 600 个数据集的农业科学数据资源中心,通过网络向全社会提供数据共享服务,目前用户主要通过二级分类导航和关键词检索结合定位、查询资源,该中心未来发展的主要任务之一是增加智能检索与个性化数据服务功能 。 究 目的与意义 本文研究 目标 是 通过对搜索引擎与个性化服务技术的研究, 在 农业专业搜索引擎的基础上构建一个 个性 化搜索引擎 ,为农业专业搜索引擎增添个性化特色 ,如个性化推荐与个性化检索服务。作者希望在个性化服务技术 研究 上 取得切实 的 成果,为推动农业专业搜索引擎 与 息服务个性化智能化 尽一份微薄之力。 研究 的理论 意义在于促进农业专业搜索引擎 与 息服务的 个性化智能化 。 研究的实用价值在于 进一步提高农业专业搜索引擎的可用性: 通过信息推荐 可以 提高农业专业搜索引擎的服务水平,改善用户体验和访问效率, 通过个性化检索 可以 改善检索效果和效率,以便 更好地 为农业用户服务 。此 外, 搜索引擎个性化服务 的 研究成果和经验将有助于“国家农业数据 中心”智能检索与个性化服务的实现。 要研究内容 本文研究个性化搜索引擎,但不局限于个性化检索方面, 本文试图实现搜索引擎个性化检索与推荐两项个性化服务 ,研究的 思路是以个性化服务理论为依据,按照“用户数据搜集 用户建模 个性化服务”的流程顺序, 依次解决搜索引擎用户行为搜集 , 自动建模、 个性化服务 的难点 问题 , 研究内容 主要 包括 如下四方面: ( 1) 研究搜索引擎用户数据搜集技术 为不同的用户提供有针对性的服务, 先 要获取用户的兴趣、习惯 (如浏览行为 )、职业特征 等用户信息, 鉴于用户行为,如查询关键词,能够较好反映用户兴 趣,所以 本文 将 数据搜集的 目标锁定在 用户行为 信息上 ,着重研究 针对 一般 搜索引擎网站 的 用户行为 搜集技术。 通过 对 传统客户端数据搜集技术和新兴的 户端技术 的综合考察发现, 传统的客户端数据搜集 方式 , 主要包括 开发专门程序或者修改浏览器 , 存在 安装升级繁琐、对用户隐私侵犯大 ,难 以 得 到 用户合作 等问题 , 不具备可操作性,而新兴的 户端 技术 实现富客户端功能, 又无须安装,私密习性好,所以 本文 作者决定 采用 术 , 并 设计 出 户行为跟踪引擎 。为了验证 户行为搜集的可行性, 搭建了实验网站,以 模拟用户访问的方式测试系统效果。 ( 2) 研究搜索引擎用户建模技术与个性化推荐技术 个性化服务的形式多种多样,但无论何种形式都需要首先 建立对用户的描述 (或称模型) ,然 后才能 提供针对不同用户的个性化服务, 用户模型是个性化服务的基础和核心, 用户建模 方法按照自动化程度 分为自动建模、示例建模与手工建模 三类 , 而本文 重在 研究利用用户行为信息自中国农业科学院 硕 士学位论文 第一章 引言 3 动建模方法 , 个性化服务常用的自动建模技术为 日志挖掘、文档词频法 及 本体论 方法 ,鉴于文档词频法与搜索引擎检索系统的契合性,本文采用了文档词频法 构建用户文档。 个性化推荐是一种 主要 个性化服 务 形式, 它可以 通过计算用户与资源的相似度 向用户 推荐可能感兴趣的书、商品、网页信息等 , 而检索模型是通过计算用户查询与文档资源的相似性将符合需求的文档返回给用户, 鉴于 推荐模型与检索模型 的相似性 , 本文 着重研究在 搜索引擎 现有 检索系统下如何迅速的实现个性化推荐 ,也就是基于检索模型的推荐 算法,鉴于 索模型和全文检索模型的普遍性,本文将着重研究 基于这 两类模型 的 推荐算法实现。 ( 3) 研究搜索引擎个性化检索技术 个性化检索是 另一种 个性化服务 形式, 也 是个性化搜索引擎的主要特征 ,它考虑用户背景特征 进一步过滤无关信息 , 给出更 加贴近用户需求的结果,所以可以 提高检索精度和效率 ,改善用户体验 ,传统个性化检索技术路 线 是利用用户模型对查询需求进行个性化分析,或者对结果二次过滤 给出个性化结果,例如: 计算机专业用户和 农业专业用户同样搜索“苹果”关键词,检索系统将计算机用户的查询 扩展为“苹果 计算机 脑)”,为农业专业用户扩展为“苹果 业”,这样前者得到信息限定在“苹果电脑”或者“苹果公司”范围内,而后者 得到“苹果 植物 ”方面的 信息。 这种思路的问题在于: 事实上用户 很 可能跳出他的职业、生活背景产生完全不同的新的需求 ,计算机用户需要“苹果植物”的信息 ,如“苹果的营养” ,也不无可能 (在本文的第五章还会继续分析这个问题), 这种将用户长期稳定兴趣凌驾于当前突出兴趣之上的做法是武断的 ,很可能过滤 掉 了相关信息,所以本文 没有继承这样的思路 , 而采用了基于协作推荐的个性化检索路线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024国际货物买卖合同CIF术语
- 2024天津市劳动合同范本
- 2024装饰工程劳务分包标准合同
- 2024年度企业管理系统升级合同
- 2024年企业咨询服务提供合同
- 2024年度安置房买卖合同中的交易过程监督
- 2024企业间贷款合同范文
- 2024建材订货合同范文
- 2024年度安徽省某地行政中心建筑施工合同
- 2024年度广告制作合同:某广告公司对客户的广告制作及标的广告创意要求
- 商户洽谈记录表
- 镇卫生院绩效考核方案
- 9.2+积极投身创新实践(高效教案)-【中职专用】中职思想政治《哲学与人生》(高教版2023基础模块)
- 【高中语文】《逻辑的力量》课件+统编版++选择性必修上册
- 生态文明-撑起美丽中国梦学习通章节答案期末考试题库2023年
- 传染病报告卡
- 项目物资管理员培训交底总结
- 习近平总书记关于教育的重要论述研究(安庆师范大学版)学习通超星课后章节答案期末考试题库2023年
- 法院诉讼指定监护人申请书
- 类风湿性关节炎综述4572
- 机关事业单位公文写作培训-课件
评论
0/150
提交评论