基于Web日志挖掘的个性化服务研究与应用开题报告_第1页
基于Web日志挖掘的个性化服务研究与应用开题报告_第2页
基于Web日志挖掘的个性化服务研究与应用开题报告_第3页
基于Web日志挖掘的个性化服务研究与应用开题报告_第4页
基于Web日志挖掘的个性化服务研究与应用开题报告_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、哈尔滨师范大学学士学位论文开题报告论文题目基于Web日志挖掘的个性化服务研究与应用 学生姓名 尹显赫指导教师 廖祎玮年级 2011级 专业 计算机科学与技术2013年3月1日课题来源:计算机技术和网络技术的发展与普及,为人们自由获取全球范围内的信息提供了条件,但同时也导致网上信息的爆炸式增长。伴随着信息媒体层出不穷以及当前用户需求的日益复杂,单单依靠传统浏览模式己经无法满足人们的需求,传统网页浏览缺乏个性化的局限性日益突出,个性化服务的研究及其实现成为必然。作为个性化信息服务的基础和核心,用户模型的质量直接关系到个性化信息服务的质量。个性化信息服务系统中的用户模型不是对用户个体的一般性描述,而

2、是一种面向算法的,具有特定数据结构的形式化的用户描述。课题研究的目的和意义:研究的目的:Intemet为人们提供丰富信息资源的同时,也向人们提出了如何快速准确地从中获取所需信息的挑战。然而,研角b用户的需求是千差万别的,针对用户个人特征为用户提供准确恰当信息的个性化服务是目前研究的一个热点课题。在个性化服务中,用户模型是机器可理解的用户需求表示形式,它能否准确地反映用户的真实需求将直接显示存取系统的性能。本文将通过对用户信息需求的个性化分析,系统探讨如何获取、表达、构建基于web日志挖掘的用户模型,并实现用户模型,使未来的网络信息个性化服务变得更易用、更亲切,更加个性化,更能广泛地融进人们的社

3、会生活。个性化服务实质上就是根据不同用户的兴趣提供相应的内容;如:有的用户关心的是整个证券市场的大盘走势,则应提供给他每日收盘行情、大盘走势等内容。而对那些关心具体股票行情的用户来说,提供给他们的就是相关的具体股票的情况。实现“个性化”信息服务的前提条件,就是必须要了解用户的兴趣,能自动判断哪些信息是哪些用户感兴趣的,哪些是用户不感兴趣的。通过对用户信息需求、兴趣爱好和访问历史的收集、统计、分析,建立一个反映用户基本兴趣和信息需求的用户模型,是实现个性化信息服务的基础。因此,在个性化服务中,首先必须挖掘用户的兴趣信息,建立合理的模型来描述、管理用户的兴趣,并通过不断更新与维护,逐渐优化模型,以

4、精确反映用户的兴趣需求,为后续的个性化服务提供基础。这对于我国个性化服务的开发与实践也具有十分重要的理论价值和应用前景。研究的意义:目前,国外关于该问题的研究相对于我国比较超前,且较广泛和深入,用户建模技术相对比较成熟。国内研究虽然起步晚一些,但最近几年发展也较快。由于用户建模技术的研究还处于起步状态,没有形成完整的技术体系,还有许多关键技术尚待解决,因此本文选题及其研究具有领先意义。通过分析研究个性化服务的历史、现状及发展趋势,决定在前人已取得工作成果的基础上,在基于研触b挖掘的个性化技术方面,对有关用户W七b使用数据的采集和预处理,个性化的用户兴趣模型的挖掘发现进行相应研究。个性化服务正在

5、成为今后网络服务发展的重要方向,而用户模型是建立一个好的个性化服务的必要条件,好的用户模型可以为用户提供好的个性化服务使得用户不再面对大量的无用资源而无所适从,此外,有极高的商业价值。将个性化技术与基于叭触b使用挖掘技术相结合,研究基于认几b日志挖掘的个性化技术正成为当前个性化服务研究领域里一个新的研究课题。国内外同类课题研究现状: 国内外同类课题研究现状:还有一些个性化服务系统如:Anatagonomy、Dyn耐cProfiler、FAB和研陌bsIFT等,它们同时采用了基于内容的过滤和协同过滤这两种技术,又称为基于内容和协同过滤的混合系统(Hybridsystem)。由于基于过滤技术的个性

6、化推荐系统仍然存在一些问题,主要是大多数个性化推荐系统针对的是注册用户,较少考虑非注册用户的推荐。此外,大多数个性化推荐系统对新用户和访问站点较少的用户的信息推荐考虑不够,因为新用户和浏览站点较少的用户被系统收集的用户信息较少,采用某些推荐算法并不合适。针对这些存在问题基于数据挖掘的个性化推荐服务成为当前的一个研究热点,己经出现了许多基于W七b挖掘的原型系统和实际应用系统。例如美国MIImesota大学和DePaul大学开发的研陌bSIFT系统致力于使用挖掘算法定义及工具的研制,该系统通过对各种日志文件的数据预处理,应用序列模式分析、网页及用户聚类分析以及关联规则挖掘等方法实现用户模式发现,并

7、应用信息过滤、OLA卫及可视化等技术实现了一个集M陌b内容挖掘和叭陌b使用挖掘结果于一体的个性化推荐系统。德国Hulnboldi大学研制的WUM则是一个集日志数据准备、查询和可视化技术于一体的集成环境,特别是它的挖掘查询语言LVBNT支持模式描述的标准规范,能够进行用户访问行为的序列模式发现,并用可视化方式显示路径具有独特的特点。在我国,虽然个性化技术的研究起步较晚,但也已经取得了一些初步成果,如四力l大学和香港城市大学联合开发的个性化远程教学原型系统E一Teacher,中国人民大学研究的个性化图书管理系统,国防科技大学和复旦大学对电子商务的个性化推荐系统的研究,东北大学对网络个性化数据挖掘技

8、术的研究等。在个性化信息服务研究的早期,建模技术并没有得到应有的重视。大量的研究集中在实现个性化服务的具体技术上,如推荐技术、信息检索技术、用户聚类技术等,用户建模技术往往只是这些研究中几笔带过的陪衬。然而随着个性化信息服务的发展和研究的深入,研究者逐渐意识到,个性化信息服务的质量不仅取决于具体的推荐技术、检索技术等,还取决于用户兴趣和偏好等特点的可计算描述,而后者尤其重要。所以,近年来夕有关用户建模技术的研究开始从具体的个性化服务形式中脱离出来,作为个性化信息服务中的基础技术来研究。国外学者对于个性化的用户模型研究的主要成果有:LiebermanH,Letizia在文献133中提出了信息代理

9、Letizia,Letizia可准确地监控用户浏览行为自动形成一个用户模型。系统不要求用户进行显示的评价,主要是通过分析用户的浏览行为确定用户的兴趣爱好。chan在文献34中提出研触bMate,研阳bMate是cMU开发的、辅助用户浏览和搜索节几b的个人代理。研几bMate由一个独立代理部件和一个Applet控制器组成。独立目前,国内外围绕个性化服务技术进行了大量的研究工作,开发了许多个性化服务原型系统,它们提出了各种思路来实现个性化服务。大致上分为基于规则的系统、基于内容过滤和协同过滤的系统,以及基于多种技术的混合推荐系统。基于规则的系统允许系统管理员根据用户的静态特征和动态属性来制定规则,

10、一个规则本质上是一个If-Then语句,它规定了在不同情况下如何为用户提供服务。基于规则的技术的优点是简单直接,缺点是规则质量很难保证,而且不能动态更新,此外,随着规则的数量增多,系统将变得越来越难以管理。如BroadVisinn、扭M的W七bs如ere、ILOG等为这类系统。基于内容的过滤系统根据资源和用户兴趣的相似性来推荐信息。基于内容的过滤技术的优点是简单有效,缺点是只能推荐和用户已有兴趣相似的资源,不能为用户发现更多新的兴趣。这类系统如:Citeseer、ELFI、i伪晚b、Leti五a、Personal研/eb研/atcher、P认、s正住R、s”kill&研触bert、研触bAcE

11、、研几bMate和研触bpersonalizer等。协同过滤系统根据用户之间的相似性来互相推荐信息。协同过滤技术的优点是能应用于那些不能直接获取特征的资源,还能为用户发现更多新的兴趣。这类系统如:Firefly、Gro即Lens、Let,sBrowse、LikeMinds()、SELECT、Siteseer和w七b研/atcher等。北京邮电大学工程硕士学位论文代理的功能是学习用户兴趣并对网页进行过滤,APplet控制器的功能是和用户交互。独立代理是一个位于用户浏览器和研尾b之间的HTIP代理,它监控所有的H竹P请求并从用户请求的网页中学习用户的兴趣。APplet控制器是用户和独立代理进行交互

12、的界面,用户能够通过控制器表示自己的兴趣并对推荐结果进行反馈。在研陌bMate中,用户兴趣通过多个加权关键词向量表示,每个加权关键词向量表示用户的一个兴趣。资源通过TFIDF表示,利用余弦相似度计算资源和每个兴趣向量的相似度;通过把资源向量和最相似的用户兴趣向量合并来更新用户兴趣。近几年来,国内对个性化用户模型也进行了研究,具体集中在用户模型的表示方法、用户建模方法、用户建模技术、用户模型优化等问题的研究。如:田营等在文献中,简述了个性化模型的定义,论述了用户个性化模式表示形式,即向量表示法与概念层次表示法,并且提出以Huffillan树的形式组织用户兴趣词条来描述用户的性化需求模式。应晓敏在

13、文献138中提出了一种面向个性化服务的客户端细粒度用户建模方法,并且将用户兴趣不再简单地区分为用户感兴趣的类(InterestingCategory,简称IC)和用户不感兴趣的类伽on一InttingCategory,简称NIC),而是按照人们通常对兴趣的理解划分为不同的兴趣类。徐科等在文献39l中进行了基于搜索历史的用户兴趣模型的研究,全面描述了用户兴趣模型的建立及通过自动隐式学习算法不断更新、优化模型的处理过程,并给出了对模型的评价标准。李宝林等在文献中,为高效确立用户的信息需求模型,提出采用动态遗传算法进行启发式特征术语的选择方法,它可以有效地与其它用户分享信息选择经验,借以优化用户模型。课题研究的主要内容和工具主要内容:(l)对WE

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论