版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于情境偏好挖掘的用户构1从1991年TimBerners-Lee发明了网(WorldWideWeb)开始,到20年后的2011年,互联网真正了一个新的里程碑,进入了“大数据2008ITME(IEEEInternationalSymposiumonITinMedicineandEducation)至今,用数据挖掘技术构建用户为企业与用户提供了更为精准的用户信息全貌,更便于更清楚了解用户本身。这一技术科度地揭示信息资源的属性,同立更精确的用户。2现阶段国内外有两种构建用户的大致方法直接直接通过查询端口让用户进行偏好选择从而构建用户利用现有列出的各种详细分类供用户进行选择,大体分类形式有:类型、语种、艺术家、年代,各形式内包含数种小。间接捕捉用户的隐藏偏好项并应用偏好挖掘的算法从而构建用户。1)排序学习名,,居住城市等等。则代表这一个个实体,来进行排序排序学习问题在于发现将用户个人信息和他们排列(对象现阶段方法有:用于训练一组二进制分类器的排序方2)对象排序学习法且对偏好对象的预测是与这个独特的用户所关的。3事务数据库情境偏好规则事务数据库情境偏好规则个人用户偏好样本集偏好数据库用用 1.以豆瓣中的用户为例。如图1所示,从豆瓣用户个人主页上爬取该用户看过的信息作为事务数据库D,在事务数据库中分析得出偏好数据库P;从这套数据库P中抽取一组作为情境偏好规则π,通过这一规则将所有的个人用户偏好抽取出来作为样本;通过情景偏好挖掘算法从这批样本S中建立用户Π。4用网络爬虫技术爬取用户相关信从事务数据库D中抓取出偏好数据库偏好规则挖掘的算用户构建算5网络爬虫技术工作流爬块超则作为图中的边,通过某网页的超得到其他网页的地址,从而可以收集过程也是如此。综上,Spider收集网页的过程如下:从初始URL集合获爬块2.网页数据抓网页收集器通过一个URL来获取该URL对应的网页数据,其实现主要JavaURLConnectionURL对应页面的网络连接,然后通过I/O流其中的数据,BufferedReader提供数据的缓冲区提高数据的效率以及其下定义的readLine()行函数。网页处后续处理的原始数据;另一种是被分析之后,抽取其中的URL连接,放入URL池等待对应网页的收集。种数据格式,该格式从天网的格式简化而来:一条记录由数据头、数据、空行组成,顺序为:头部+空行++URL的提取分为两步,第一步是URL识别,第二步再进行URL的整理,分两步走主要是因为有些的是采用相对路径,如果不整理会产生错误。URL的识别主要是通过正则表达式来匹配,过程首先设定一个字符串作为匹配的字符串模式,然后在Pattern中编译后即可使用Matcher类来进行相URL的整理,即对之前获得的整个页面中URL很容易的获得当前网页的URL,所以,相对只需要在当前网页的URL上添加相对的字段即可组成完整的URL,从而完成整合。另一方面,在页面中包含的全面URL中,有一些网页比如网页是不想爬取的,或者不重要的,这里主要针对于页面中的进行一个简单处理。一般的连接都 从而抓取出用户看过的单中的关键字作为(这里只取5个。如“英语”、“·”“动作”、“范·迪塞尔、“”偏好数据库的获事务数据库事务数据库ACDABDABCECDAB偏好数据库表1中的关系表D表示豆瓣上一个用户主页上发布的信息记录。,,,,E分别代表了上节爬取出的英语、·“动作、范·迪塞尔、“。每一个𝑖(𝑖=12345代表了每次用户发布一个新看过的中的集合I,这些被称为事务。假设用户主页上发布的中,符合标签集1的有十个,符合集3的有5个。由此暗中表明了,对于与集3相关的,该用户对与集1有关的更感,正如关系表p中展示的第一对数据<t1,3。我们注意到,1和3集都包含着(英语)和(动作。而在同时包含A和C的1与3之间,用户偏爱于包含(范·迪塞尔)的1,而不是包含(·)的3。由此,可以得到以下的情境自觉偏好规律:在两部语种为英语的动作片中,该用户更加喜欢由范·迪塞尔演出的,而不是·演出的。A和C则构成了这个规律的情境与设定。我们可以发现,一些事务对(比如12>)p偏好规则的挖设定IX是项目I的集合(X⊆。项目集的语言对应关系为L=2𝐼。一个事务数据库DL中的多重项目集。每一个项目集,经常被称为事务,是一个数据库的。上文中的表格一阐述了一个由t1,t2,t3,t4,t5A,B,C,D,E项目来描述事务的事务数据库D一个偏好数据库P⊆DD是一对事务的集合,其代表了来自数据库D中一个用户偏好样本。直观的来说,一个用户偏好〈t,𝑢〉∈𝑃中的t(根据用户的反馈),u5p1p5的用户偏好集。用户偏好数据库和事务数据库的关系遵循下图[3.偏3.其中p不具有传递性,因为偏好数据库经常是由不确定的用户反馈所建立的。本文主要目标是从一个用户提供的偏好数据库中抽取其用户。一个用户是由一些含有特殊性质的偏好规律所规定的。本质上来说,一个情境好规律𝑖+>𝑖−ΙX表明在情境X的情况下,项目𝑖+比项目𝑖−用户构建算NN是否选择了一个最佳情境偏好规则N是否移除了不必要的情境偏好规YYY用 图4.用户构如图4所示,建立用户时,会反迭代由情境偏好挖掘算法得到的情境偏好规则集合S中的主要原理,这个动作会一直持续直到数据库中所有的用户6对豆瓣网中的一个用户数据的预处理,这直接影响后续分析效果偏好规则。用户构建问题:用户是从用户之前已提供的偏好样本中指7序各阶段名起止日1确定,制定基本方案,写出开2014.12.1--22015.3.1--32015.3.12--42015.5.1--52015.5.15--RamanathanK,GiraudiJ,GuptaA.CreatingHierarchicalUserProfilesUsingWikipedia[EB/OL].(2008-10-06).[2010-11-22]. AuYeungCM,GibbinsN,ShadboltN.AStudyofUserProfileGenerationfromFolksonomies[EB/OL].(2008-04-25).[2010-10-15].GodoyD,AmandiA.HybridContentandTag-basedProfilesformendationinCollaborativeTaggingSystems[EB/OL].[2010-10-13].ZhangY,FengB.Tag-basedUserModelingUsingFormalConceptysis[C].In:Proceedingsofthe8thIEEEInternationalC
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年更新版消防工程劳务派遣协议版B版
- 2024年新版股东权益合同范本版B版
- 2024年写字楼食堂餐饮承包服务协议3篇
- 2024奶粉行业婴幼儿奶粉品牌分销与销售合作合同3篇
- 2024年度旅游公司租车合同(含导游、翻译、住宿、餐饮)3篇
- 2024年智能手表采购与分销协议2篇
- 2024年度志愿服务资料保密协议3篇
- 2024年度新能源开发服务合同18篇
- 2024年房产交易协议模板指南版B版
- 2024年城市供排水合同5篇
- 吊篮拆除安全技术交底
- 水池清洗及消毒记录表
- 病理取材规范
- 韩国历届总统结局
- 医院内静脉血栓栓塞症防治质量评价与管理指南课件
- 2023年全国中小学思政课教师网络培训研修总结心得体会
- 优抚工作培训讲稿教学课件
- 危险化学品安全经营单位主要负责人和安全管理人员课件
- 公务用车服务应急预案
- 分包队伍物资管理办法
- LED电子显示屏投标书(技术标)
评论
0/150
提交评论