版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据分析方法与应用上海理工大学主讲人:耿秀丽
教授第6章文本挖掘6.1文本挖掘的应用价值目录CONTENTS6.2文本挖掘的流程6.3LDA主题模型6.4模型评估第6章文本挖掘6.5基于LDA主题模型的客户需求挖掘案例分析6.1文本挖掘的应用价值数据挖掘(DataMining)这一词最早由UsamaFayaadg,于1995年在加拿大蒙特利尔召开的第一届“知识发现和数据挖掘”国际学术会议上提出,它是一门很广泛的交叉学科,汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。结合人工智能研究领域中的自然语言理解和计算机语言学,从数据挖掘中派生了两类新兴的数据挖掘研究领域:网络挖掘和文本挖掘。6.1文本挖掘的应用价值
网络挖掘侧重于分析和挖掘网页相关的数据,包括文本、链接结构和访问统计(最终形成用户网络导航)。一个网页中包含了多种不同的数据类型,因此网络挖掘就包含了文本挖掘、数据库中数据挖掘、图像挖掘等。网络挖掘6.1文本挖掘的应用价值
文本挖掘,是指以数理统计学和计算机语言学为理论基础,利用信息检索技术从大量文本数据中提取未知的、隐含的、可能有用的信息的过程,也被称为自然语言处理。文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。目的:在于把文本信息转化为人可利用的知识。它需要多学科的融合才能达到最好的效果,一般涵盖了统计学、数据可视化、文本分析、模式识别、数据库、机器学习以及数据挖掘等技术。用途:作为信息挖掘的一个研究分支,文本挖掘用于基于文本信息的知识发现。它利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源,抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。文本挖掘6.1文本挖掘的应用价值
随着人工智能研究的发展,文本挖掘技术被广泛地应用到很多场景,比如智能语音,机器翻译,文本分析,语音助手,问答系统等等。下面将分别详细介绍文本挖掘技术在机器翻译、文本分析以及问答系统场景中的应用价值。6.1文本挖掘的应用价值机器翻译的应用价值如何克服语言障碍,实现不同语言的人之间可以自由地交流,已成为国际社会共同面对的问题。互联网的高速发展扩大了对于机器翻译的需求。机器翻译可以为人工翻译减轻负担,提高翻译效率,在部分场景和任务下可替代人工,有极其广阔的应用前景。6.1文本挖掘的应用价值文本分析的应用价值随着大数据的发展,文本分析被广泛地应用到问卷调研的处理、新媒体热点采集追踪及预测、企业品牌和产品的口碑管理等各个方面。此外,文本分析在舆情监测方面也受到越来越多的重视。利用基于大数据的文本分析,可以清晰地知晓事件从始发到发酵期、发展期、高涨期、回落期和反馈期等阶段的演变过程,分析舆情的传播路径、传播节点、发展态势和受众反馈等情报。6.1文本挖掘的应用价值问答系统的应用价值问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。相对于传统搜索引擎来说,问答系统更加智能,效率也更高,被看作是未来信息服务的颠覆性技术之一。随着人工智能第三次热潮的到来,问答系统的应用领域更加广泛。6.1文本挖掘的应用价值除了在现实生活中应用以外,许多学者对文本挖掘也进行了广泛的研究。①廖玉清在量化分析后从政策制定侧重点及政策内容上对文本进行总结。②孙宝生等构建游客满意度评价指标体系和评价模型,定量评价游客的生态旅游满意度,为相关生态旅游政策的制定提供参考。③张敏等采用共词分析和聚类分析这两种定量方法剖析了文本挖掘研究现状,表明文本挖掘在信息检索、生物医学和经济管理领域应用广泛;④史航等通过聚类分析得出结论,未来文本挖掘在生物医学领域应用的主要研究热点为文本挖掘的基本技术研究、文本挖掘在生物信息学领域的应用、文本挖掘在药物相关事实抽取中的应用三个方面。⑤李建兰等也表明,未来将其应用于网络新媒体及舆情分析、商业流程优化、医疗健康分析等领域会越来越成熟。6.2文本挖掘的流程文本挖掘的流程通常我们得到的原始文本数据冗余、复杂,因此文本挖掘处理是分析文本信息非常重要的一部分。将重复、多余、无意义的文本信息剔除,可以提高文本分析的精确度,保证文本信息的质量,使之后得出的分析结果更准确。文本挖掘流程如图所示。6.2文本挖掘的流程1)文档集获取该过程包括网络数据抓取、文件读入及图片OCR的转化等。可以通过编写爬虫代码或利用爬虫软件方式获取数据。2)数据清洗对文档集通过丢弃、替换、去重等操作,达到去除异常、纠正错误、补足缺失的目的。6.2文本挖掘的流程3)分词与去除停用词分词:把文档集中的每句话分成无数个孤立的词,作为最小的信息单位,即分词。停用词:在分词处理后解析的文本中常常会有很多无效的词,比如“着”、“和”以及一些标点符号,由于在文本分析时这些词一般是我们不想引入的,因此我们需要去除这些冗余的词及无意义的停用词。对于这些停用词的处理可以从网上下载常用的一些停用词表对其进行处理。词性:指以词的特点作为划分词类的根据。词性标注:就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程,这也是自然语言处理中一项非常重要的基础性工作。词性标注主要有以下两种常见的方法:6.2文本挖掘的流程①基于规则的词性标注方法
基于规则的词性标注方法是人们提出较早的一种词性标注方法,基本思想:按兼类词搭配关系和上下文语境建造词类消歧规则。早期的词类标注规则一般由人工构建。随着标注语料库规模的增大,可利用的资源也变得越来越多,这时候以人工提取规则的方法变得不现实。②基于统计模型的词性标注方法
统计模型的词性标注方法将词性标注看作是一个序列标注问题。基本思想是:给定带有各自标注的词的序列,我们可以确定下一个词最可能的词性。现在已经有隐马尔可夫模型、条件随机场等统计模型,这些模型可以使用有标记数据的大型语料库进行训练,而有标记的数据则是指其中每一个词都分配了正确的词性标注的文本。6.2文本挖掘的流程5)内在信息挖掘与展示数据化后,我们即可对信息进行挖掘与展示,包括关键词提取、自动摘要、文本聚类等。4)相关字典编制与信息的转换将处理后的文档集编制成“文档-词条”矩阵;必要的情况下还需进行相应的信息转换,如信息的浓缩。6.2文本挖掘的流程6.2.1文本挖掘的关键技术文本聚类文本分类自动文摘情感分析1)文本聚类
文本聚类是指在没有预先定义主题类别的前提下,将文本集合分为若干个类或簇,要求同一簇内文本内容的相似度尽可能地大,而不同簇间的相似度尽可能地小。2)文本分类
文本分类是指对给定的文本片段给出合适的类别标记,属于一个非常典型的机器学习分类问题。从输入文本的长度来说,可以分成文档级、句子级、短语搭配级的文本分类。从应用的领域区分来说,文本分类可以分成话题分类、情感分类、意图分类、关系分类。文本分类的研究意义是不言而喻的,它常常作为自然语言处理系统的前置模块出现,同时在许多任务中,文本分类往往可以达到工业级产品应用的要求,因而也成为使用系统中最重要的算法模块之一。因此,其重要意义不仅体现在学术研究中,还体现在工业应用中。6.2文本挖掘的流程3)自动文摘自动文摘是指通过自动分析给定的单篇或多篇文档,提炼总结其中的要点信息,最终输出一段长度较短、可读性良好的摘要,该摘要中的句子可直接出自原文,也可重新撰写。通过不同的划分标准,自动文摘任务可以包括以下几种类型:①根据处理的文档数量,自动文摘可以分为单文档自动摘要和多文档自动摘要。单文档自动摘要只针对单篇文档生成摘要,而多文档自动摘要则为一个文档集生成摘要。②根据是否提供上下文环境,自动文摘可以分为与主题或查询相关的自动摘要以及普通自动摘要。前者要求在给定的某个主题或查询下,所产生的摘要能够诠释该主题或回答该查询;而后者则指在不给定主题或查询的情况下对文档或文档集进行自动摘要。6.2文本挖掘的流程③根据摘要的不同应用场景,自动文摘可以分为传记摘要、观点摘要、对话摘要等。这些摘要通常为满足特定的应用需求,例如传记摘要的目的是为某个人生成一个概述性的描述,通常包含该人的各种基本属性,用户通过浏览某个人的传记摘要就能对这个人有一个总体的了解;观点摘要则是总结用户提出的评论文本中的主要观点信息,以供管理层人士更加高效地了解舆情概貌、制订决策;对话摘要则是通过对两人或多人参与的多轮对话进行总结,方便其他人员了解对话中所讨论的主要内容。4)情感分析情感分析,也称为观点挖掘,旨在分析人们研究所表达的对于实体及其属性的观点、情感、评价、态度和情感,其中实体可以是产品、个人、事件或主题。在这一研究领域中包含许多相关但又略不相同的任务,例如情感分析、观点挖掘、观点抽取、主观性分析、情绪分析及评论挖掘等,这些研究问题或任务都属于情感分析的研究范畴。在情感分析领域中主客观句子都是研究者的研究对象,挖掘文本中表达或暗示的正面或负面的观点及情绪是情感分析的最终目标。6.2文本挖掘的流程6.2.2文档收集方法文本挖掘的第一步是获取原始文本,原始文本的获取可以通过编写爬虫代码或者利用爬虫软件方式获取。其中,常用的爬虫软件是八爪鱼采集器。八爪鱼采集器分为简易采集和自定义采集两种模式,简易采集方式是对如淘宝、微博等主流网站利用固定模板对网页中的数据进行采集;自定义采集是用户对任一网址中的数据,定义其采集流程与内容来进行采集的方法。下面举例说明两种模式的使用。6.2文本挖掘的流程1、简易采集假设采集京东平台某鼠标的商品评论数据,利用简易采集方式步骤如下:1)选择简易采集下的“立即使用”6.2文本挖掘的流程2)选择“京东”6.2文本挖掘的流程3)单击“京东商品评论”模板6.2文本挖掘的流程4)单击“立即使用”,就可以利用该模板获取有关左侧相关内容的数据了6.2文本挖掘的流程5)初始数据设置①将京东平台中某鼠标的商品评论页面网址复制到商品详情链接的空白框内;②设置最大翻页次数;③最后单击“保存并启用”,便开始采集数据。6.2文本挖掘的流程6)单击“启用本地采集”6.2文本挖掘的流程7)采集运行页面如下图所示6.2文本挖掘的流程8)采集完成6.2文本挖掘的流程9)最终,便得到了评价内容、用户名等一系列数据存储在excel中6.2文本挖掘的流程2、自定义采集假设采集豆瓣网中某电影的评论,利用自定义采集方式步骤如下:1)选择自定义采集下的“立即使用”6.2文本挖掘的流程2)输入豆瓣网某电影评论的网址,并保存6.2文本挖掘的流程3)单击“流程”6.2文本挖掘的流程4)单击下面的某个评论,就会弹出本页面的所有评论内容6.2文本挖掘的流程5)单击鼠标,便可以选中全部内容6.2文本挖掘的流程6)单击“保存并开始采集”,便可以把所有评论都采集下来了6.2文本挖掘的流程7)单击“启用本地采集”6.2文本挖掘的流程8)采集完成,导出excel表格即可6.2文本挖掘的流程6.2.3分词技术分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。英文文本:对英文文本而言,由于英文单词存在丰富的变形变换,因此需要对其进行词还原和词干提取。中文文本:中文需要不同的场景和要求选择不同的粒度。中文分词的难点主要表现在没有统一的标准、歧义词如何切分、新词的识别。歧义切分指的是通过词典匹配给出的切词结果和原来语句所要表达的意思不相符或差别较大,在机械切分中比较常见,比如“这梨不大好吃”,通过机械切分的方式会有两种切分结果:①“这梨/不大/好吃”;②“这梨/不大好吃”。将两种切分方式对比可以发现,两者表达的意思不相符,单纯的机械切分很难避免这种问题。6.2文本挖掘的流程未登录词识别也称作新词发现,指的是在词典中没有出现过的一些词,比如一些新的网络词汇“尾款人”“杠精”;命名实体,包括人名、地名、组织结构名等;专有名词,如新出现的电影名、书籍名等。解决该问题最简单的方法是可以在词典中加词,但是随着字典的增大,可能会出现一些其他的问题,并且系统的运算复杂度也会增加。目前,典型的分词方法大致分为三类:6.2文本挖掘的流程1、基于字符串匹配的方法基于字符串匹配的方法又称为机械分词方法或字典匹配方法,其基本思想是基于词典匹配,将待分词的中文文本根据一定规则切分和调整,然后跟词典中的词语进行匹配,匹配成功则按照词典的词分词,匹配失败通过调整或者重新选择,如此反复循环即可。
但是基于词典的机械切分会遇到多种问题,最为常见的包括歧义切分问题和未登录词识别问题。
在中文分词上解决歧义切分方法:常见的包括基于正向最大匹配、基于逆向最大匹配、双向最大匹配法、最少切分分词法等。6.2文本挖掘的流程(1)正向及逆向匹配方法正向和逆向最大匹配依据词典以及设定的最大长度划分词语。例:我们经常有意见分歧词典:“我们”、“经常”、“有”、“意见”、“分歧”假定max-len=5,在正向最大匹配中首先划分的词语为“我们经常有”,对照词典发现不存在这个词语,接着划分的词语为“我们经常”,对照词典发现仍然没有该词语,以此类推,对照词典直至划分出来的词语在词典中出现;
逆向最大匹配是从句子的结尾开始选择“有意见分析”,与正向最大匹配的处理方法一样,对照词典划分词语。这种方法得到的结果属于局部最优,效率低且不能考虑语义。6.2文本挖掘的流程(2)双向最大匹配法这种方法侧重于分词过程中检错和纠错的应用基本原理:对待切分字符串采用正向最大匹配和逆向最大匹配分别进行正向和逆向扫描和初步切分;并将正向最大匹配初步切分结果和逆向最大匹配初步切分结果进行比较;如果两组结果一致,则判定分词结果正确,如果存在不一致,则判定存在着切分歧义,需要进一步采取技术手段来消解歧义。6.2文本挖掘的流程(3)最少切分分词法该分词算法依据最少切分原则,从几种分词算法切分结果中取切分词数最少一种的。比如,从正向最大匹配和逆向最大匹配两者中选择词数较少的方案,当词数相同时,采取某种策略,选择其中一个。6.2文本挖掘的流程2、基于统计模型的分词方法基于统计的中文分词算法通常使用序列标注模型建模,在一段文字中,可以将每个字按照他们在词中的位置进行标注。
常用的标记有以下四个标记:B,Begin,表示这个字是一个词的首字;M,Middle,表示这是一个词中间的字;E,End,表示这是一个词的尾字;S,Single,表示这是单字成词。分词的过程就是将一段字符输入模型,然后得到相应的标记序列,再根据标记序列进行分词。优点:不受待处理文本领域的限制,不需要专门的词典。统计分词以概率论为理论基础,将上下文中字组合串的出现抽象成随机过程,随机过程的参数可以通过大规模语料库训练得到。基于统计的分词可以采用统计模型如:隐马尔可夫模型、条件随机场模型、神经网络模型及最大熵模型等。以条件随机场(CRF)模型为例,基本思路就是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力。因此针对基于词典的机械切分所面对的问题,尤其是未登录词识别,使用基于统计模型的分词方法能够取得更好的效果。6.2文本挖掘的流程3、基于深度学习方式的分词方法
随着深度学习技术的发展,许多中文分词算法会采用神经网络模型。
分词的基础思想还是使用序列标注问题,将一个句子中的每个字标记成BEMS四种标记。
例如,将双向循环神经网络(Bi-LSTM)和条件随机场模型(CRF)结合使用进行分词处理。基于Bi-LSTM+CRF的神经网络分词模型是融合了LSTM和CRF的一种常用于序列标注任务的框架,可以有效地结合结构化学习和神经网络的特点,在分词应用上可以取得很好的效果,提高分词的准确率。6.2文本挖掘的流程6.2.4词的表示形式
文本是一种非结构化的数据信息,是不可以直接被计算的。
文本表示:将这些非结构化的信息转化为结构化的信息,这样就可以针对文本信息做计算,来完成我们日常所能见到的文本分类、情感判断等任务。
文本表示的方法主要有三类,如图所示6.2文本挖掘的流程1、one-hotrepresentation与整数编码词向量最初是用one-hotrepresentation表征的,也就是向量中每一个元素都关联着词库中的一个单词,指定词的向量表示为:其在向量中对应的元素设置为1,其他元素设置为0。独热编码和整数编码正是基于词典将词语用向量来表示,这两种方法都无法表达词语之间的关系,且过于稀疏的向量容易导致计算和存储的效率不高,后来就出现了分布式表征。6.2文本挖掘的流程2、词嵌入模型(wordsembedding)历史上先后提出了词袋模型(bagofwords)和词嵌入模型(wordsembedding)。
词袋模型的基本思想是假定一篇文档中的词之间是相互独立的,只需要将其视为是一组词的组合,就像一个袋子一样,无须考虑次序、句法、语法。词袋只是记录了词的出现次数,并没有先后关系;
而词嵌入模型的基本思想是词袋模型的改进版,其基本实现会根据中心词预测上下文词或者根据上下文词预测中心词,所以词嵌入模型训练出来的特征表示有一个特点就是语义相近的词其分布式向量距离也相似。6.2文本挖掘的流程3、Word2vec在Word2vec中采用分布式表征,在向量维数比较大的情况下,每一个词都可以用元素的分布式权重来表示,因此,向量的每一维都表示一个特征向量,作用于所有的单词,而不是简单的元素和值之间的一一映射。这种方式抽象地表示了一个词的“意义”。Word2vec中最重要的两个模型是CBOW(ContinuousBagOfWords)模型和Skip-gram(ContinuousSkip-gram)模型。CBOW模型的作用是已知当前词Wt的上下文环境(Wt-2,Wt-1,Wt+1,Wt+2)来预测当前词。Skip-gram模型的作用是根据当前词Wt来预测上下文(Wt-2,Wt-1,Wt+1,Wt+2)。这两个模型都包含三层:输入层、投影层、输出层。6.2文本挖掘的流程Word2vec模型如图所示使用Word2vec进行关键特征提取原理:将每一个词映射到一个特定维度的实数空间中,越相似的词在向量空间中越相近,将每个词看作一个随机k维向量通过训练后输出对应每个词的最优向量。优点:不仅能避免使用向量空间模型带来的特征向量“维度灾难”,同时考虑了文本中的同义词问题。6.2文本挖掘的流程6.2.5文本特征属性处理文本被分词之后存在这样的问题:并不是所有的词都是有用的,语料库的词量非常大而传统的文本挖掘方法又是基于向量空间模型表示的,会造成数据过于稀疏。比如对词语或者句子向量化可以用独热编码(one-hot)来表示,但这种方法不能具体表达出一个词语的含义且会造成维度灾难。因此在用向量表示的时候需要把单词的权重考虑进来,常用的方法是TF-IDF。其中,TF表示词频,IDF反映了一个词在所有文本中出现的频率。这里给出一个词w的TF-IDF的公式:6.2文本挖掘的流程但此处存在一个问题:如果一个词语在所有文档中都没有出现,则式(6-2)的分母为0,此时就需要对IDF作平滑处理。平滑的方法有很多种,最常见的IDF平滑后的计算公式之一如下:
有了每段文本的TF-IDF的特征向量,我们就可以利用这些数据建立分类模型或者聚类模型了,或者进行主题模型的分析。除了上述介绍的特征选择方法外,常见的方法还有以下几种:1、词频方法(WordFrequency),2、DF(DocumentFrequency),3、互信息法(MutualInformation,MI),4、信息增益法(InformationGain,IG),5、CHI(Chi-square)。6.2文本挖掘的流程(1)词频方法(WordFrequency)词频是一个词在文档中出现的次数。通过词频进行特征选择就是将词频小于某一阈值的词删除,从而降低特征空间的维数。这个方法是基于这样一种假设,即出现频率小的词对过滤的影响也较小。但是在信息检索的研究中认为,有时频率小的词含有更多的信息。因此,在特征选择的过程中不宜简单地根据词频大幅度删词。6.2文本挖掘的流程(2)DF(DocumentFrequency)DF指的是统计特征词出现的文档数量,用来衡量某个特征词的重要性。如果某些特征词在文档中经常出现,那么这个词就可能很重要。而对于在文档中很少出现的特征词携带了很少的信息量,甚至是“噪声”,这些特征词对分类器学习影响也是很小。DF特征选择方法属于无监督的学习算法,仅考虑了频率因素而没有考虑类别因素。因此,DF算法将会引入一些没有意义的词。如中文的“的”“是”“个”等,常常具有很高的DF分,但是对分类并没有多大的意义。6.2文本挖掘的流程(3)互信息法(MutualInformation,MI)互信息法用于衡量特征词与文档类别直接的信息量。特征项和类别的互信息体现了特征项与类别的相关程度,是一种广泛用于建立词关联统计模型的标准。(4)信息增益法(InformationGain,IG)
信息增益法是机器学习的常用方法,它是衡量某个特征划分数据集所能获得的收益大小。通过计算信息增益可以得到那些在正例样本(属于某一类别的样本)中出现频率高而在反例样本(不属于某一类别的样本)中出现频率低的特征,以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征。6.2文本挖掘的流程(5)CHI(Chi-square)CHI特征选择算法利用了统计学中的“假设检验”的基本思想。首先假设特征词与类别直接是不相关的,如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信息否定原假设,接受原假设的备择假设,即特征词与类别有着很高的关联度。CHI特征选择方法综合考虑了文档频率与类别比例两个因素。6.3LDA主题模型主题模型是对文本中隐含主题的一种建模方法,每个主题其实是词表上单词的概率分布。主题模型其实是一种生成模型,一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语这样一个过程”得到的。主题建模还是一种统计方法,它通过分析原文本中的词以发现蕴藏于其中的主题、主题间的联系以及主题随时间的演变,而且不需要事前对文档进行标记。6.3LDA主题模型主题模型的基本假设是:文章和主题是多对多的关系,每一个主题又由一组词进行表示。经常使用的主题模型包括:潜在语义分析(LatentSemanticAnalysis,LSA)、概率潜在语义分析(ProbabilisticLatentSemanticAnalysis,PLSA)、隐含狄利克雷分布(LatentDirichletAllocation,LDA)、层次狄利克雷过程(HierarchicalDirichletProcess,HDP)、主题模型向量化(LatentDirichletAllocationVector,LDA2vec)。6.3LDA主题模型6.3.1LDA主题模型介绍6.3LDA主题模型LDA主题模型全称为隐含狄利克雷分配模型(LatentDirichletallocation,LDA),它是由文档与主题、主题与特征词、前两者的联合分布三种元素所构成的三层贝叶斯概率模型。构建该模型的基本思路是根据文档集分析出主题分布,然后根据各主题归类出该主题下特征词的分布,最终得到文本集的主题分布及各主题的特征词分布。6.3.1LDA主题模型介绍6.3LDA主题模型6.3.2吉布斯采样
计算LDA模型中未知的隐含变量的主要算法分为精确推断和近似推断两类。LDA用精确推断解起来很困难,所以常常采用近似推断方法。近似推断方法的其中一类便是采样(Sampling),它是通过使用随机化方法完成近似推断。吉布斯采样(GibbsSampling)是近似推断方法中最常使用的一种方法。它使用马尔科夫链读取样本,通过条件分布采样模拟联合分布,再通过模拟的联合分布直接推导出条件分布,以此循环。通俗的说,就是以一定的概率分布预测要发生什么事件。下面举一个关于吉布斯采样的例子,以便于更好的理解吉布斯采样。6.3LDA主题模型吉布斯采样示例现已知了三件事的条件分布,即p(E|T,W),p(T|E,W),p(W|E,T),利用Gibbssampling求三件事的联合分布矩阵。首先随机初始化一个组合,如“学习+晚上+刮风”,然后依条件概率改变其中的一个变量。具体说,假设知道“晚上+刮风”发生的概率后,给E生成一个变量,如将“学习”变为“吃饭”,求“吃饭+晚上+刮风”的概率。再依条件概率改变下一个变量,类似地,由“学习+晚上+刮风”求得“吃饭+上午+刮风”的概率。以此类推,求得三件事发生的联合分布矩阵。6.3LDA主题模型吉布斯采样过程初始时,随机给文本中的每个单词w分配主题Z(0);然后统计每个主题z下出现w的数量分布以及每个文档m下主题z的数量分布;根据其他所有词的主题分配,来估计当前词的主题;用同样的方法不断更新下一个词的主题,直至每个文档下主题的分布以及每个主题下词的分布收敛,算法停止;Gibbs采样就是利用计算公式,来根据其他所有词的主题分配估计当前词的主题。6.3LDA主题模型6.3.3LDA主题模型训练过程LDA主题模型中文档的生成过程假设语料库D为由M篇文档构成的文档集合,该文档被挖掘出K个主题。第m篇文档中包含词汇Wm,n,其中m=1,2,...,M,n=1,2,...,Nm,Nm为第m篇文档的词汇总数,且。在LDA模型中,文档中词项的生成过程如图所示。6.3LDA主题模型LDA主题模型训练过程对于图中LDA主题模型的文档生成过程,具体步骤解释如下。该模型中所有取样均依据Gibbs取样原理。1)从文档Dirichlet分布中取样生成文档的主题分布,即“文档-主题”矩阵;2)从“文档-主题”矩阵取样生成文档m第n个词的主题Zm,n;3)取样生成主题k的词分布,即“主题-词语”矩阵;4)将词语归类到对应的主题中,遍历文档集合中所有的词。6.4模型评估
模型评估是对训练好的模型性能进行评估,模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型的工作性能如何。
机器学习模型需要有量化的评估指标来评估哪种模型的效果更好常用的评估指标有:准确率、精确率、召回率、F1、ROC曲线、AUC曲线。混淆矩阵是监督学习中的一种可视化工具,主要用于模型的分类结果和实例的真实信息的比较。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。6.4模型评估1)准确率(Accuracy)准确率是指预测正确的结果占总样本的百分比,公式如下,虽然准确率可以判断总的正确率,但是在样本不平衡的情况下,并不能作为很好的指标来衡量结果。6.4模型评估2)精确率(Precision)精确率是指所有被预测为正的样本中实际为正的样本的概率,公式如下,需要注意的是精准率和准确率看上去有些类似,但是完全不同的两个概念。6.4模型评估3)召回率(Recall)召回率(查全率)是指实际为正的样本中被预测为正样本的概率,公式如下。召回率越高,代表实际用户被预测出来的概率越高。6.4模型评估4)F1分数F1分数主要用于评估模型的稳健性,F值是精确率和召回率的调和值,更接近这两个数较小的那个,所以精确率和召回率接近时,F值最大。公式如下6.4模型评估5)ROC(接受者操作特征曲线)ROC曲线又称接受者操作特征曲线,主要用于评价模型的预测能力。ROC曲线中的主要两个指标就是真正率和假正率。6.4模型评估6)AUC(曲线下的面积)AUC(AreaUnderCurve)被定义为ROC曲线下的面积,通常大于0.5小于1。随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是AUC值。AUC的一般判断标准:0.5–0.7:效果较低;0.7–0.85:效果一般;0.85–0.95:效果很好;0.95–1:效果非常好,但一般不太可能。6.5基于LDA主题模型的客户需求挖掘案例分析随着互联网、大数据、人工智能的飞速发展,互联网应用正在不断创新中演化。同时,随着各种各样的网络社交平台的建立,人们越来越倾向于在各大社交平台及网购平台上发布评论信息,每天都将会生成大量的用户评论数据,而这些数据有着十分重要的用户需求信息,有着十分重要的价值。这些文本数据,一方面给用户提供了发表意见的途径,另一方面用户也可以在社交平台上了解到相关的信息,同时企业可以通过用户的在线评论以及用户的特征对产品进行改进,从而生产出更加符合用户需求的产品。然而,这些在线评论数据数量庞大、结构混乱、更新快捷,传统的文本处理方法不能从中快速地获取有价值的信息。因此,通过文本挖掘与处理数据,从在线评论中获取用户需求,可以帮助企业准确地把握用户的需求,为企业后续发展提供一定的依据。6.5基于LDA主题模型的客户需求挖掘案例分析D公司是一家智能网联汽车(IntelligentConnectedVehicle,ICV)制造厂商,主要从事ICV整车制造及其车联网系统的自主研发。
为了提升公司的行业竞争力与服务保障能力,D公司考虑将市场定位从ICV制造厂商升级为集ICV整车制造、车联网系统研发及其配套服务系统为一体的制造服务型厂商。不仅为客户提供ICV,还搭建从ICV产品支持、车联网系统技术培训到ICV汽车服务系统的全产业链营销策略。其中,该公司研发的智能服务系统采用车联网技术,通过车身的传感器、摄像头等零件对客户的ICV进行监控,获取大量汽车运行、车辆周围环境、驾驶员行为等数据,并上传至云端进行运算分析,来监控汽车安全驾驶状态,进而制定智慧出行、安全驾驶、维修保养等全方位服务方案。1、客户需求挖掘6.5基于LDA主题模型的客户需求挖掘案例分析1)客户在线评论数据收集
D公司自主开发的社群化交互平台符合本章基于LDA模型获取客户需求的研究需要。因此,本章选取D公司社群化交互平台中车主的评价作为数据源。本章利用“八爪鱼采集器”从D公司社群化交互平台中爬取
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026河北雄安中晟泰合科技有限公司具身智能实验室实习生招聘笔试模拟试题及答案解析
- 2026年福建三明市建宁县县属国有企业招聘正式职工7人笔试参考题库及答案解析
- 2025年中职至大学阶段(物流类)专业技能综合测试试题及答案
- 2025年中职第一学年(铁道运输管理)铁路行李运输试题及答案
- 2025年中职第一学年(化妆品经营与管理)化妆品营销基础试题及答案
- 2025年中职第四学年(会展总结与评估)评估报告阶段测试题及答案
- 2025年中职第三学年(劳动教育)日常劳动实践测试题及答案
- 2025 小学五年级数学下册因数倍数实际问题解决案例练习课件
- 2025 小学五年级数学下册异分母加减的拓展训练课件
- 2026年宁德市蓝海旅游发展有限公司招聘笔试备考题库及答案解析
- 上海市二级甲等综合医院评审标准(2024版)
- 药物发错药不良事件分析
- 油漆班组安全晨会(班前会)
- 消费类半固态电池项目可行性研究报告
- DBJ04∕T 398-2019 电动汽车充电基础设施技术标准
- 山东省济南市2024年1月高二上学期学情期末检测英语试题含解析
- 口腔门诊医疗质控培训
- (正式版)JBT 9229-2024 剪叉式升降工作平台
- HGT4134-2022 工业聚乙二醇PEG
- 小学教职工代表大会提案表
- ESC2023年心脏起搏器和心脏再同步治疗指南解读
评论
0/150
提交评论