用户建模概述-个性化系统应用_第1页
用户建模概述-个性化系统应用_第2页
用户建模概述-个性化系统应用_第3页
用户建模概述-个性化系统应用_第4页
用户建模概述-个性化系统应用_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

用户兴趣建模概述

报告人:王影

导师:王浩

时间:2023年9月973DMGroupResearchAdvance(1)

1合肥工业大学人工智能与数据挖掘实验室用户兴趣建模用户兴趣建模的概念用户建模技术的分类用户模型的更新及模型的评价方法实例介绍下一步工作2合肥工业大学人工智能与数据挖掘实验室用户兴趣建模的概念用户建模是指从有关用户兴趣和行为的信息(如浏览内容、浏览行为、背景知识等)中归纳出可计算的用户兴趣模型的过程。3合肥工业大学人工智能与数据挖掘实验室基于机器学习的用户建模根本思想让系统学习的用户兴趣,如用户指定的某类文档或主题词集合,使系统学会相应的规那么,建立相应的用户模型,然后,根据用户模型向用户推荐相应的新信息。李广健,周浩.用户建模算法的适应性及多算法用户建模研究.北京:中科院文献情报中心,2023.4合肥工业大学人工智能与数据挖掘实验室用户建模的信息来源用户输入的查询关键词用户维护的Bookmark用户浏览的页面用户浏览的行为效劳器日志用户下载、保存的页面和资料用户手工输入的其它信息5合肥工业大学人工智能与数据挖掘实验室用户兴趣偏好的获取方法用户主动填写关键字学习反响学习样本学习跟踪用户浏览行为学习赵银春。用户浏览内容分析与用户兴趣挖掘。2004年重庆大学硕士毕业论文6合肥工业大学人工智能与数据挖掘实验室常见的用户兴趣捕获方法统计分析:通过分析用户浏览页面的时间、用户的浏览路径和路径长度等信息,可以获得用户访问站点的根本信息。关联规那么:可以发现用户会话中经常被用户一起访问的页面集合聚类分析用户聚类:将具有相似浏览行为的用户归类页面聚类:将内容相关的页面归类分类:按照用户特征数据将用户归属到既定的用户类序列模式:寻找用户会话中在时间上有先后关系的页面请求7合肥工业大学人工智能与数据挖掘实验室用户建模技术的分类按照建模过程中用户的参与程度分为:用户手工定制建模例如用户建模自动用户建模林鸿飞,杨元生.用户兴趣模型的表示和更新机制.计算机研究与开展2002年07期8合肥工业大学人工智能与数据挖掘实验室用户手工定制建模用户手工定制建模是指用户自己手工输入或选择用户感兴趣信息的用户建模方法,比方用户手工输入感兴趣的关键词列表,或者在系统提交给用户的一张表格上选择感兴趣的栏目等。MyYahoo,WebWatcher是用户手工定制建模的典型代表。9合肥工业大学人工智能与数据挖掘实验室手工定制建模存在的问题完全依赖于用户,容易降低用户使用系统的积极性用户难以全面、准确地罗列自己感兴趣的栏目或关键词,导致用户模型不够准确当用户兴趣发生变化时,用户必须重新输入兴趣信息,即该建模方法是静态的。时间越长手工定制的用户模型与用户真实兴趣的差异就越大10合肥工业大学人工智能与数据挖掘实验室完全依赖于用户,容易降低用户使用系统的积极性用户难以全面、准确地罗列自己感兴趣的栏目或关键词,导致用户模型不够准确当用户兴趣发生变化时,用户必须重新输入兴趣信息,即该建模方法是静态的。时间越长手工定制的用户模型与用户真实兴趣的差异就越大11合肥工业大学人工智能与数据挖掘实验室例如用户建模例如用户建模是指由用户提供与自己兴趣相关的例如及其类别属性来建立用户模型的建模方法。例如一般通过要求用户在浏览的过程中对浏览过的页面标注感兴趣、不感兴趣或者感兴趣的程度来得到。浏览过的页面及相应的标注成为用户建模的例如。加州大学于1996年推出的个性化推荐智能体Syskill&Webert是这种模型的代表。12合肥工业大学人工智能与数据挖掘实验室例如用户建模存在的问题频繁的交互会降低用户使用系统的积极性频繁的交互会干扰用户的正常浏览用户很难用数字表达对页面的兴趣度获得的例如包含较多的噪声样本和无效样本现有的用户例如建模方法中,训练样本被划分为感兴趣和不感兴趣两类。用户感兴趣的信息在主题上可能差异很大,将各种类别的兴趣信息混杂在一起使得用户模型的使用和维护很困难。13合肥工业大学人工智能与数据挖掘实验室自动用户建模自动用户建模是指根据用户的隐式反响信息自动构建用户模型,建模过程无需用户干预的建模的方法。在现有的个性化效劳系统中,采用自动用户建模方法构建用户模型的系统主要有卡内基·梅隆大学的PersonalWebWatcher、德国国家研究中心的ELFI、麻省理工学院的Letizia等。RuckerJ.andPolaneoMJ.Siteseer:PersonalizedNavigationfortheWeb[C],CommunicationsoftheACM.Mareh1997,40(3):73一7514合肥工业大学人工智能与数据挖掘实验室自动用户建模存在的问题容易引入噪声,不利于构建高质量的用户模型。15合肥工业大学人工智能与数据挖掘实验室用户兴趣模型的表示形式主题表示法用户Bookmark表示法关键词列表表示法基于本体论的表示法基于向量空间模型表示法16合肥工业大学人工智能与数据挖掘实验室用户模型的更新显式更新:根据用户的反响信息进行更新,要求用户在每次浏览结束时,对页面进行反响和评价隐式更新:即根据用户访问的信息进行更新,不需要用户的参与,具体的说,隐式更新当前主要是利用用户的浏览行为信息进行用户模型的更新。应晓敏.面向Internet个性化效劳的用户建模技术研究,国防科学技术大学研究生院,200517合肥工业大学人工智能与数据挖掘实验室更新用户模型时需考虑的问题即时更新:即每次浏览后就对用户模型进行更新长期兴趣类更新:即用户使用一段时间后进行更新一次兴趣类的调整:经过长时间的用户浏览以后,每次都用即时更新,用户兴趣类就有可能不能准确描述用户兴趣,这时就需要对用户兴趣类进行重新调整。18合肥工业大学人工智能与数据挖掘实验室用户模型的评价方法对用户模型性能的评价目前还没有一个统一而合理的标准,下面是两种代表性的标准:查准率(preeision)=过滤结果中符合用户兴趣的信息条数/过滤结果得到的信息条数查全率(reeall)=过滤结果中符合用户兴趣的信息条数/信息源中符合用户兴趣的全部信息条数徐小琳,网喜戎,程时端.信息过滤技术和个性化信息效劳[J1],计算机工程与应用2003,40(9):182一18419合肥工业大学人工智能与数据挖掘实验室个性化系统中用户模型的应用框架20合肥工业大学人工智能与数据挖掘实验室实例:基于Web文档内容的用户兴趣建模介绍建模主要思路:针对用户所浏览的Web页面,分析这些页面与用户兴趣的相关度:假设是已有兴趣那么对其权重进行加权,否那么根据其权重与阀值的大小关系决定是否进入用户兴趣词条集何晓林.基于用户兴趣学习的个性化信息效劳模型研究.北京交通大学硕士.2023.21合肥工业大学人工智能与数据挖掘实验室用户兴趣模型构建流程图22合肥工业大学人工智能与数据挖掘实验室常用中文分词方法通常使用的方法主要有机械分词和知识分词。机械分词方法的思路是先查字典进行匹配,然后再适当地利用局部词法规那么进行歧义校正。知识分词不仅通过词典匹配,而且还要利用词法、句法甚至语义等方面的知识进行匹配。23合肥工业大学人工智能与数据挖掘实验室正向最大匹配算法〔MM〕根本思想为:设D为专业词典,Max表示D中的最大词,String为待切分字串,其长度为nLen。Step1:从待切分字串string中取字长为Max的字串Str令nLen=Max;Step2:将Str与D中的词进行匹配;Step3:假设匹配成功,那么认为该字串Str为词,指向待切分字串的指针向后移Max单位的汉字,返回Step1;step4:假设匹配不成功:如果nLen>1那么令nLen=nLen-1,再从待切分字串中取字长为nLen的字串str,返回到step2;否那么,得到长度为1的单字词,指向待切分字串的指针向后移动1个汉字,返回到step1。24合肥工业大学人工智能与数据挖掘实验室特征项相关概念特征项:指文档中含有且能够代表该文档性质的根本语言单位Web文档的特征提取原那么:一是应中选择包含语义信息较多,对文档的表示能力较强的语言单位作为特征项;二是文档在这些特征项上的分布应当有比较明显统计规律性;三是比较容易实现,时间和空间的开销都不是很大特征项的选择:字特征项词汇特征项概念特征项李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究.清华大学学报(自然科学版),2001,41(7):98一10125合肥工业大学人工智能与数据挖掘实验室特征项的权重计算方法权重wi表示特征项i在该文档中的重要程度词频法词频法就是以单字pi在文档dj中出现的次数作为该单字的权重,即:TF-IDF公式法频数TF:词条在文档中出现的次数倒排文档频数IDF:词语在文档集合中分布情况的一种量化,常用的计算方法是Log2(N/ni),其中N为文档集合中的文档数目,ni为出现词条pi的文档数。TF-IDF的计算公式:其中,TF(pi,dj)表示词条pi在文档dj中的出现频数,N表示文档集的文档数目,ni表示有词条pi出现的文档数目。26合肥工业大学人工智能与数据挖掘实验室向量空间模型介绍向量空间模型给定一个自然语言文档D=D{(t1,w1),(t2,w2),…,(tn,wn)},可以暂时不考虑ti(提取的词条)在文档中的先后次序,并要求ti互异(即没有重复)。这时可以把(t1,t2,…,tn)看成一个n维的坐标系,而(w1,w2,…,wn)为相应的坐标值。因此一个文档就可以表示为n维空间中的一个向量,称D=D{(t1,w1),(t2,w2),…,(tn,wn)}为文档D的向量表示或者向量空间模型。相似度在向量空间模型下,相似度常用向量的夹角来度量,夹角越小说明相似度越高27合肥工业大学人工智能与数据挖掘实验室用户兴趣模型的表示形式向量空间模型用关键词向量空间中的向量来表示用户模型定义1:兴趣结点用二元组(pi,wi)表示,简记为Node(pi)。其中p为词条集,p=(p1,p2,..,pm),pl,p2,..,pm分别表示兴趣(词条),m为词典的大小,wi为兴趣词条pi的权重;定义2:所有兴趣的集合构成兴趣全集(词典),兴趣全集表示为:U=U{(p1,w1),(p2,w2),..,(pn,wn)};28合肥工业大学人工智能与数据挖掘实验室用户兴趣权重计算方法影响特征项的权重:词出现的频数词在Web文档中出现的位置最终的权重计算公式可以表示为:TF(pi,dj,s)表示单词在网页中的某个位置出现的频数,wª(set)表示对在相应的Html标记位置上信息所赋予的权重系数,其大小需要通过试验来确定;何晓林.基于用户兴趣学习的个性化信息效劳模型研究.北京交通大学硕士.2023.29合肥工业大学人工智能与数据挖掘实验室基于隐式行为的用户模型生成算法(1)将假设干文档并成一个大文档S(为了后面计算权重方便),对整个大文档s进行分词,提取词条(p1,p2,..pn),同时分别记录各个词条在网页中的相关位置s=标题\关键字\正文;(2)确定的值。在试验中我们取(3)提取Pi,利用,计算加权后的词频;(4)利用权重公式对所有的词频进行归处理,得到权重wi;(5)将所有词条存入用户兴趣词条集。30合肥工业大学人工智能与数据挖掘实验室算法流程图31合肥工业大学人工智能与数据挖掘实验室用户兴趣模型的更新算法在使用个性化信息效劳系统的过程中,用户的个人兴趣会不断地发生变化。这些变化明显表达在用户输入的检索词的不断变化以及用户浏览过程中对不同Web文档的不同行为方式。32合肥工业大学人工智能与数据挖掘实验室基于Web文档内容学习的个人兴趣增量更新算法假设Web文档经过词条提取后为{tl,t2,…tn},用户的兴趣词条集为{q1,q2,qn},重要度阀值为m。(1)对一天内文档作分词取词处理,得到一组兴趣词条:(2)从{t1,t2,…tn}中取出词条ti;(3)假设ti€{q1,q2,…qn}转(5),否那么转(4);(4)将词条(ti,∆wi)参加用户的兴趣词条集;(5)假设ti=qk,那么新的兴趣词条权重wk=wk+∆wi,假设还有词条未检查转(2)。在一周的时间内重复上述的过程,在周日的时候对整个用户兴趣词条集进行整理。(6))根据阀值m判断是否保存词条(即wi>=m保存词条,否那么将该词条删除,具体见流程图)。33合肥工业大学人工智能与数据挖掘实验室增量更新算法流程图—词条处理34合肥工业大学人工智能与数据挖掘实验室增量更新算法流程图—是否保存词条35合肥工业大学人工

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论