全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PLDA模型的理解1. PLDA模型的产生PLSA模型中总共定义了K个Topic,V个word。任何一篇文章是由K个Topic中多个主题混合而成,换句话说每篇文章都是topic上的一个概率分布doc(topic)。每个Topic都是word上的一个概率分布topick(word),下标k表示为第k个topic,换句话说,文章中的每个词都是由某一个的Topic随机生成的。因此一篇文章的生成过程如下:1) 依据doc(topic)概率分布,生成一个topic;2) 依据该topic的概率分布topic(word),生成了一个word;3) 回到第1步,重复N次,则生成了这篇文章的N个word。因此,doc(topic)是总和为N的K多项分布,topick(word)是总和为N的V多项分布。如果选择多项分布的先验分布为Dirichlet分布,该模型则成了PLDA模型。2. PLDA模型后验分布概率假设topic的先验概率分布为Dir(|),则基于第m篇文档的topic的观察数据nmm(对文章中逐个单词对应的topic进行计数),则第m篇文章topic的后验分布概率为:Dir(|nmm+),同时topic的生成概率为(nmm+)()。假设word的先验概率分布为Dir(|),则基于第k个topic的word观察数据nkk(对文章中逐个单词进行计数),则第k个topic的后验分布概率为Dir(|nkk+),同时单词的生成概率为(nkk+)()。由于每篇文章生成的topic的过程相互独立,每个topic生成word的过程相互独立,而且生成topic和生成word的过程相互独立,因此M篇文章的topic和word的联合生成概率为:pw,z,=k=1K(nkk+)()m=1M(nmm+)() (1)3. 随机变量和观测数据的确定根据文档生成的过程我们可以知道:每个word对应一个topic,因此可选(word,topic)作为Markov链的随机变量。公式(1)就是该随机变量的概率分布。因此可以采用Gibbs Sampling来获得该随机变量的稳态概率分布。根据前面的推导公式(1)为后验概率,其nmm和nkk是观测数据。nmm是对第m篇文章各个单词的topic按1-K编号进行统计计数而得到的观测数据,可以展开为nm(1)m,nm(2)m,nm(K)m,因此该计数的概率为(N,K)的多项分布,N为第m篇文章的单词总数,K为topic总数。nkk是对第k个topic各个单词按单词的编号1-V进行统计计数而得到的观测数据,可以展开为nk(1)k,nk(2)k,nk(V)k,因此该计数的概率为(N,V)的多项分布,N为第k个topic包括的单词总数,V为单词词汇总数。4. 状态转移概率的确定由于文章的topic和word的先验分布为Dirichlet分布,观测数据nmm和nkk为Multinomial分布,二者为Dirichlet-Multinomial共轭,这样某个word的topic转移概率就可以利用其它word的topic观测数据来得到后验概率了。具体计算过程如下:计算单词t的topic转移概率,nmm,t表示第m篇文章中去掉单词t对应的topic观测数据。nkk,t表示去掉单词t后第k个topic的观测数据。因此基于去掉单词t的其它单词观测数据,每篇文章topic的后验分布概率为Dir(|nmm,t+),其估计值为nmkm,t+kk=1K(nmkm,t+k)。每个topic对word的后验分布概率为Dir(|nkk,t+),其估计值为nktk,t+tt=1V(nktk,t+t)。从而对于单词t转移到下一个topic k的概率为:pk,t=nmkm,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 标识导向系统安装合同
- 《有的人-纪念鲁迅有感》(教学设计)2024-2025学年部编版语文六年级上册
- 2022年黑龙江哈尔滨中考满分作文《美好的选择》2
- 《11 我们都是热心人》教学设计-2024-2025学年道德与法治三年级上册统编版
- 《10以内的数:6~9的认识》(教案)-2024-2025学年一年级上册数学沪教版
- 2024-2025学年小学心理教育与课程整合的设计
- 小学生互助行动共同抵制欺凌
- 3实践是检验真理的唯一标准 教案部编版选择性必修中册
- 小学信息技术第一册 在“写字板”上写汉字教案 清华版
- Unit 6 课时1 词汇2023-2024学年七年级下册英语课后作业教学设计(牛津深圳版)
- 文明如厕课件
- 药师经(横排繁体注音)
- 推进我国农村融合发展-助推乡村振兴-单项选择题答案
- 专业的箱包皮具知识大全
- 统一战线知识测试题-统战业务知识考试
- 急性胸痛快速转诊机制与联络方式
- 云南富滇银行红河分行2023年招聘上岸提分题库3套【500题带答案含详解】
- GB/T 41906-2022超氧化物歧化酶活性检测方法
- Unit 3 Getting along with others Reading 课件 【知识梳理+点播拓展】牛津译林版(2020)高中英语必修第一册
- 地铁施工梯笼专项施工方案设计
- 11大家排好队习题(含答案解析)
评论
0/150
提交评论