




已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
姓名:导师:,基于主题模型的用户手机日志数据分析,内容简介主要工作及结果总结展望,内容简介,主要工作,数据预处理,语料库(Corpus)中共有两篇文档(Documents)Johnlikestowatchmovies.Marylikesmoviestoo.Johnalsolikestowatchfootballgames.构建单词库(Vocabulary)得到bag-of-words表示1,2,1,1,2,0,0,0,1,11,1,1,1,0,1,1,1,0,0,Bag-of-words,手机用户安装的应用列表手机应用对应的标签列表,原始数据,获取Bag-of-labels,用户特征分析,主题模型,什么是主题?,主题模型,LatentSematicAnalysisSVD分解,主题模型,ProbabilisticLatentSematicAnalysis参数估计方法:EM算法PLSA优点:有统计基础,能比LSA更好地提取文章特征。PLSA缺点:对于训练集以外的文章,难以给出一个主题分布。,主题模型,LatentDirichletAllocation,LDA,在PLSA的基础上增加了先验,可以对训练集以外的文本进行推断LDA参数估计方法分两类:变分推导(VariationalInference)采样(SamplingMethods)我的实现:基于GibbsSampling,LDA结果,聚类及可视化,K-means聚类,气泡图可视化,简单的推荐系统,简单的推荐系统,思路:基于用户相似度的协同过滤。方法:对于某一个待推荐的用户,找到训练集中与他相似度最高的前K个用户,然后进行推荐。两个推荐系统的不同之处仅在于用户相似度计算方法推荐系统1:利用用户安装列表直接计算相似度推荐系统2:利用用户的主题分布计算相似度,推荐系统准确率对比,结论:使用了LDA以后,用户相似度的计算更加准确,因此LDA可以更好地提取用户的特征。,完成了用主题模型对手机日志数据进行分析的一种方法:1)用主题模型对用户数据进行分析2)利用分析结果进行聚类和人群可视化3)利用分析结果进行应用推荐未来方向:1)完善手机应用标签库(可能需人工干预)2)结合用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 七年级生物上册 第三单元 第五章 第一节 光合作用吸收二氧化碳释放氧气教学设计 (新版)新人教版
- 三年级数学上册 九 我当小厨师-分数的初步认识 信息窗2 简单分数的大小比较第2课时教学设计 青岛版六三制
- 九年级语文下册 第一单元 4海燕教学设计 新人教版
- 初中政治 (道德与法治)人教部编版九年级上册延续文化血脉教案配套
- 2024哈电集团汽轮机公司春季校园招聘笔试参考题库附带答案详解
- 七年级地理下册 7.2《“鱼米之乡”长江三角洲地区》教学设计3 鲁教版五四制
- 辅警入职培训总结
- 对培训机构的认识
- 信息技术泰山版七年级上册 2.3《搜索信息》教学设计
- 初中政治思品人教部编版七年级下册(道德与法治)青春萌动教学设计及反思
- 麻醉过程中的意外与并发症处理流程图
- 升降平台车安全操作规程
- 广东醒狮(文化创意)
- 预拌商品混凝土生产企业质量管理体系质量手册及程序文
- 宗教事务条例
- 福建土楼介绍
- 文艺复兴时期服装风格
- 中华茶文化智慧树知到答案章节测试2023年青岛职业技术学院
- VBOXTools软件操作手册
- GB/T 498-2014石油产品及润滑剂分类方法和类别的确定
- 学生宿舍带班领导及值班教师巡查登记表
评论
0/150
提交评论