毕业答辩-基于主题模型的用户手机日志数据分析.pptx_第1页
毕业答辩-基于主题模型的用户手机日志数据分析.pptx_第2页
毕业答辩-基于主题模型的用户手机日志数据分析.pptx_第3页
毕业答辩-基于主题模型的用户手机日志数据分析.pptx_第4页
毕业答辩-基于主题模型的用户手机日志数据分析.pptx_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

姓名:导师:,基于主题模型的用户手机日志数据分析,内容简介主要工作及结果总结展望,内容简介,主要工作,数据预处理,语料库(Corpus)中共有两篇文档(Documents)Johnlikestowatchmovies.Marylikesmoviestoo.Johnalsolikestowatchfootballgames.构建单词库(Vocabulary)得到bag-of-words表示1,2,1,1,2,0,0,0,1,11,1,1,1,0,1,1,1,0,0,Bag-of-words,手机用户安装的应用列表手机应用对应的标签列表,原始数据,获取Bag-of-labels,用户特征分析,主题模型,什么是主题?,主题模型,LatentSematicAnalysisSVD分解,主题模型,ProbabilisticLatentSematicAnalysis参数估计方法:EM算法PLSA优点:有统计基础,能比LSA更好地提取文章特征。PLSA缺点:对于训练集以外的文章,难以给出一个主题分布。,主题模型,LatentDirichletAllocation,LDA,在PLSA的基础上增加了先验,可以对训练集以外的文本进行推断LDA参数估计方法分两类:变分推导(VariationalInference)采样(SamplingMethods)我的实现:基于GibbsSampling,LDA结果,聚类及可视化,K-means聚类,气泡图可视化,简单的推荐系统,简单的推荐系统,思路:基于用户相似度的协同过滤。方法:对于某一个待推荐的用户,找到训练集中与他相似度最高的前K个用户,然后进行推荐。两个推荐系统的不同之处仅在于用户相似度计算方法推荐系统1:利用用户安装列表直接计算相似度推荐系统2:利用用户的主题分布计算相似度,推荐系统准确率对比,结论:使用了LDA以后,用户相似度的计算更加准确,因此LDA可以更好地提取用户的特征。,完成了用主题模型对手机日志数据进行分析的一种方法:1)用主题模型对用户数据进行分析2)利用分析结果进行聚类和人群可视化3)利用分析结果进行应用推荐未来方向:1)完善手机应用标签库(可能需人工干预)2)结合用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论