文本分析模型_第1页
文本分析模型_第2页
文本分析模型_第3页
文本分析模型_第4页
文本分析模型_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析·原理与实践7、文本分析模型目录统计语言模型中文分词TF-IDF权重PLDAWord2Vec12345目录统计语言模型中文分词TF-IDF权重PLDAWord2Vec12345统计语言模型基于规则的方法判断这个句子是否合乎文法、含义是否正确。但文法规则是十分复杂的,覆盖哪怕是20%的真实语句的文法也至少是几万条。而且,不断会有新的文法规则产生。就算找到了所有的文法规则,用计算机解析也是非常困难的。如何衡量一个句子是否合理美联储主席本·伯南克昨天告诉媒体7000亿美元的救助资金将借给上百家银行、保险公司和汽车公司。主语:美联储主席本·伯南克动词短语:昨天告诉媒体7000亿美元的救助资金将借给上百家银行、保险公司和汽车公司句号:。统计语言模型基于统计的方法一个句子是否合理,就看看它的可能性大小如何。至于可能性就用概率来衡量。假设S是一个有意义的句子。那么想要得到S出现的概率P(S),我们可以把人类有史以来出现的句子统计一下。当然,这行不通。因此需要有个模型来估算它。如何衡量一个句子是否合理

统计语言模型基于统计的方法句子是由词组成的。设S由一串特定顺序排列的词w1,w2,…,wn组成。那么有如何衡量一个句子是否合理利用条件概率的公式,我们可以展开得到其中P(w1)表示第一个词w1出现的概率;P(w2|w1)是在已知第一个词的前提下,第二个词出现的概率;以此类推。S1:我/想/踢/篮球。S2:我/想/踢/足球。显然S1更合理,因为“踢篮球”出现的概率小于“踢足球”的概率。统计语言模型计算上的困局从计算上来看,第一个词的条件概率P(w1)很容易算,第二个词的条件概率P(w1|w2)还不太麻烦,第三个词的条件概率P(w3|w1w2)已经非常难算了,而P(wn|w1w2…wn-1)根本无法估算。马尔科夫假设

统计语言模型马尔科夫假设马尔科夫给了一个偷懒但颇为有效的方法:假设任意一个词wi出现的概率只与它前面的词wi-1有关,于是,问题就变得简单了。马尔科夫假设

目录统计语言模型中文分词TF-IDF权重PLDAWord2Vec12345中文分词词是语义的最小单位我们可以利用统计语言模型进行自然语言处理,而这些模型是建立在词的基础上的,因为词是表达语义的最小单位。中文词之间无分界符对于西方拼音语言,词之间有明确的分界符。而对于中、日、韩、泰等语言,词之间没有明确的分界符。因此,首先需要对句子进行分词,才能做到进一步的自然语言处理。为什么要进行分词ChinesespaceofficialswereinvitedtomeetwithNASAofficials.中国航天官员应邀与太空总署官员开会。中国/航天/官员/应邀与/太空/总署/官员/开会。中文分词查字典的方法从左向右扫描句子,遇到字典中有的词就标识出来,遇到复合词(比如“上海大学”)就找最长的词匹配,遇到不认识的字串就分割成单字词,于是简单的分词就完成了。最小词数的分词理论在这基础上发展了最小词数的分词理论,即一句话应该分成数量最少的词串。查字典的方法上海大学有三个校区。上海大学/有/三个/校区。中文分词二义性短语“发展中国家”,正确的分割应该是“发展/中/国家”,而从左向右查字典的办法会将它分割成“发展/中国/家”,这显然错了。并非最长匹配一定是正确的如“北京大学生”的正确分词是“北京/大学生”,而不是“北京大学/生”。查字典方法的不足正确分词:发展/中/国家错误分词:发展/中国/家正确分词:北京/大学生错误分词:北京大学/生中文分词1990年前后,郭进博士用统计语言模型成功解决了分词二义性问题,将汉语分词的错误率降低了一个数量级。假设对于句子S,有三种分词方法。那么最好的一种分词方法应该保证分完词后,这个句子出现的概率最大。一个实现的技巧然而,穷举所有可能的分词方法并计算每种可能下句子的概率,那么计算量是相当大的。使用了维特比算法,可以快速地找到最佳分词方案。使用统计语言模型

目录统计语言模型中文分词TF-IDF权重PLDAWord2Vec12345TF-IDF问题想要提取一篇文档的关键词。那么如何衡量一个词对一篇文档的重要程度?词频(TermFrequency,TF)词频指的是某个给定的词在一个文档中出现的次数。使用词频可以一定程度上的描述词对文档的重要程度,但有些常见的词在所有文档中的出现频率都很高。如何描述词的常见程度?词对文档的重要程度

TF-IDF

词对文档的重要程度句子:搜索引擎是人们在线获取信息和知识的重要工具。IDF:IDF(搜索引擎)>IDF(信息)TF-IDF

TF-IDF的计算

目录统计语言模型中文分词TF-IDF权重PLDAWord2Vec12345PLDA什么是PLDAPLDA是LDA的并行化版本。而LDA是一个主题模型,是LSA的贝叶斯版本。LSA则是LatentSemanticAnalysis的缩写,意为潜在语义分析。那什么是语义,什么又是主题呢?PLDAPLDA=并行化+LDALDA=LSA+贝叶斯LSA:潜在语义分析PLDA如何判断文档的相似程度上一节的TFIDF系数表明了一个词汇对一个文档的重要程度。但仅通过词汇判断两个文档的相似程度,这是远远不够的,因为词存在“同义与多义”的问题。词的“同义和多义”现象同义指的是不同词汇在一定背景下有着相同的意思;多义指的是一个词汇在不同的背景下有这不同的意思。文档—词汇同义:我今天面试就是去打酱油。今天面试就是随便参与一下。多义:我今天面试就是去打酱油。中午要吃饺子,下班先去打酱油。PLDA语义维度潜在语义分析(LSA)创新地引入了语义维度。语义维度是文档集上相同、相关信息的浓缩表示。假设词典为{A1,A2,B1,B2,C1,C2},第一个文档的词序为”A1A2A1A2”,第二个文档的词序为”C1C2B1B2”。这里假设A1和A2表示话题一,

B1和B2表示话题二,

C1和C2表示话题三。我们可以看出文档1与话题一有紧密联系,文档2与话题二和话题三有紧密联系。如何自动学习到这一知识呢?这便是LSA能做的。文档—语义—词汇词典:{A1,A2,B1,B2,C1,C2}

文档1:A1A2A1A2文档2:C1C2B1B2PLDA

LSAA

PLDA语义维度T是一个m×r的词汇向量矩阵,D是一个n×r的文档向量矩阵,而S是一个r×r的对角阵。LSA做了降维的近似处理。通过这一处理,实际上只保留了S中最大的K个对角值(也就是奇异值),进而文档矢量矩阵D和词汇矢量矩阵T都被缩成了K列。其中词汇矢量矩阵D的每一列就是一个主题,而文档向量矩阵T的每一行就是一个文档对应在这K个主题上的系数表示。LSATK

PLDA主题—词汇通过这样的表示,可以清晰地看到每个主题向量可以近似表示成词汇向量的一个线性加权。主题向量中的元素表示该主题内对应该词汇的权重,一个词汇权重越大,表示在该主题内部越具有代表性。LSATK

词汇主题老师学生同学学习运动教育0.70.60.20.40.05PLDA文档—主题对于多个文档,这K个主题是共享的,但是线性结合系数是文档特定的。一个文档对应着多个主题的线性加权。LSADK

哈哈,终于赢了这场球赛,今晚好好休息一下。口头语(0.1)

足球(0.7) 健康(0.15)PLDALSALSA在映射表示中,引入一个语义维度,即“文档—语义—词”,然后通过线性代数的方法来挖掘词汇之间的共现关系,然后提取出语义维度。pLSApLSA是LSA在概率上的一种呈现。在LSA中,我们假设主题向量是正交的,那么在pLSA中,我们假设是不同主题变量是独立的。pLSA

PLDApLSA的问题尽管pLSA采用了概率模型作为刻画方法,但是它并没有“将概率表示进行到底”。形式化地说,它并不是一个完整的贝叶斯模型:其中的P(词汇|主题)和P(主题|文档)都是根据数据估计出来的,都是模型参数,而且没有进一步对这些参数引入先验。2004年,DavidBlei首次提出全贝叶斯版本的pLSA,即LDA。LDA(线性代数)(概率论)pLSA LDAPLDALDA生成一篇文档选择一个主题分布。从主题分布中选择一个主题。根据这个主题,选择一个单词。这样进行多次,就生成了一篇文档。狄利克雷分布Dirichlet(狄利克雷)分布是关于分布的分布。一个主题,是关于词汇的分布。那么主题分布,就是关于主题的分布,即分布的分布。LDA主题分布:口头语0.3足球0.1教育0.5健康0.1主题:教育老师0.3学生0.2同学0.1学习0.1学校0.3

词汇:老师PLDALDA的求解对LDA模型有两种模型求解方法基于Gibbs采样的方法。基于变分法EM求解。具体的求解过程以及PLDA的实现,请查看书中内容。LDA目录统计语言模型中文分词TF-IDF权重PLDAWord2Vec12345Word2Vec如何表示一个词在很多算法中,我们需要将词转化为数值。当然,单个数字肯定不足以表示一个词,我们常使用一个向量表示一个词。OneHot方法假设字典中一共有4个词。那么向量的长度为4。每个向量在仅在词的对应位置为1,其余为0。如象棋的向量为[1000],棋的向量为[0100]。Word2Vec字典:象棋棋大象水杯

向量象棋 1000棋 0100大象 0010水杯 0001Word2VecOneHot方法的缺点在实际应用中,这种方法有诸多不足。最显著的就是,维度灾

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论