![Python数据分析与可视化(微课版) 课件 谢志明 第7、8章 整本书文本处理与分析-以《红楼梦》为例、电商订单数据处理与客户价值分析_第1页](http://file4.renrendoc.com/view10/M03/10/1B/wKhkGWXcnfiAYc04AAFxpBrOFoU057.jpg)
![Python数据分析与可视化(微课版) 课件 谢志明 第7、8章 整本书文本处理与分析-以《红楼梦》为例、电商订单数据处理与客户价值分析_第2页](http://file4.renrendoc.com/view10/M03/10/1B/wKhkGWXcnfiAYc04AAFxpBrOFoU0572.jpg)
![Python数据分析与可视化(微课版) 课件 谢志明 第7、8章 整本书文本处理与分析-以《红楼梦》为例、电商订单数据处理与客户价值分析_第3页](http://file4.renrendoc.com/view10/M03/10/1B/wKhkGWXcnfiAYc04AAFxpBrOFoU0573.jpg)
![Python数据分析与可视化(微课版) 课件 谢志明 第7、8章 整本书文本处理与分析-以《红楼梦》为例、电商订单数据处理与客户价值分析_第4页](http://file4.renrendoc.com/view10/M03/10/1B/wKhkGWXcnfiAYc04AAFxpBrOFoU0574.jpg)
![Python数据分析与可视化(微课版) 课件 谢志明 第7、8章 整本书文本处理与分析-以《红楼梦》为例、电商订单数据处理与客户价值分析_第5页](http://file4.renrendoc.com/view10/M03/10/1B/wKhkGWXcnfiAYc04AAFxpBrOFoU0575.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章整本书文本处理与分析——以《红楼梦》为例Python数据分析与可视化学习目标学会读取和处理大型文本数据的方法;掌握将jieba分词结果与停用词相结合来绘制词云以及定制化词云;熟练使用自定义函数批量绘制各章节词云和柱状图;学会构建分词TF-IDF矩阵;掌握常用的几种文本聚类分析方法;了解什么是LDA主题模型及其分析方法。任务七:整本书文本处理与分析——以《红楼梦》为例7.1绘制《红楼梦》整本书的词云7.2《红楼梦》各章节词云图及柱状图的展示7.3文本聚类分析目录CONTENTS
《红楼梦》为中国古代章回体长篇小说,中国古典四大名著之一,一般认为是清代作家曹雪芹所著,又名《石头记》、《情僧录》、《风月宝鉴》、《金陵十二钗》、《金玉缘》。小说以贾、史、王、薛四大家族的兴衰为背景,以富贵公子贾宝玉为视角,以贾宝玉与林黛玉、薛宝钗的爱情婚姻悲剧为主线,描绘了一批举止见识出于须眉之上的闺阁佳人的人生百态,展现了真正的人性美和悲剧美,可以说是一部从各个角度展现女性美以及中国古代社会世态百相的史诗性著作。此书分为120回“程本”和80回“脂本”两大版本系统。程本为程伟元排印的印刷本,脂本为脂砚斋在不同时期抄评的早期手抄本。脂本是程本的底本。新版通行本前80回据脂本汇校,后40回据程本汇校,署名“曹雪芹著,无名氏续,程伟元、高鹗(有争议)整理”。《红楼梦》简述
《红楼梦》是一部颇具世界影响力的人情小说,是举世公认的中国古典小说巅峰之作,是中国封建社会的百科全书,是传统文化的集大成者。小说以“大旨谈情,实录其事”自勉,只按自己的事体情理,按迹循踪,摆脱旧套,新鲜别致,取得了非凡的艺术成就。二十世纪以来,学术界因《红楼梦》异常出色的艺术成就和丰富深刻的思想底蕴而产生了以《红楼梦》为研究对象的专门学问——红学。
《红楼梦》是一本鸿篇巨制,里面出现了几百个各具特色的人物且社会关系复杂。本章的分析只是基于统计分析、文本挖掘等知识,利用Pandas、Matplotlib、jieba和wordcloud库处理与展现数据。《红楼梦》简述(1)文本的准备、数据预处理、分词、词频和绘制整本书词云等。(2)《红楼梦》整本书各章节的字数、段落数和作者写作风格方面的关系。(3)《红楼梦》整本书各章节词云图及柱状图的展示。(4)对全书各章节使用TF-IDF矩阵进行聚类分析并可视化,包括使用K-Means聚类、MDS聚类、PCA聚类方法等。(5)使用LDA主题模型对小说中各主题最主要的关键词进行可视化。本章要完成的任务7.1绘制《红楼梦》整本书的词云整本书词云的绘制方法比较简单,本节将介绍两种常用的方法。方法一为使用jieba库快速绘制词云;方法二将jieba库与Pandas库结合共同绘制词云。7.1绘制《红楼梦》整本书的词云7.2《红楼梦》各章节词云图及柱状图的展示
《红楼梦》是典型的章回小说,从7.1节知道,我们是以整本书的分词为基础来绘制词云的。如果我们想要了解各章节人物出场次数及关键事件,则需要以各章节的分词为基础进行词频统计和绘制词云。7.3文本聚类分析
聚类分析(Clusteranalysis,又称为群集分析)是一组将研究对象分为相对同质的群组的统计分析技术,广泛应用于数据挖掘、机器学习、模式识别、图像分析等领域。聚类分析主要应用于探索性的研究,不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解,增加或删除一些变量对最终解都可能产生实质性的影响。聚类分析有别于分类分析(Classificationanalysis),前者为非监督式学习,后者为监督式学习。
文本聚类分析是聚类分析中的一个具体应用。本小节将对《红楼梦》各章节的分词结果进行聚类分析,我们需要事先构建该文本的TF-IDF(TermFrequency-InverseDocumentFrequency)矩阵(其中,TF是词频,IDF是逆文本频率指数)。7.3.1构建分词TF-IDF矩阵
TF-IDF是一种统计方法,也是一种用于信息检索与数据挖掘的常用加权技术。它可用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。7.3.1构建分词TF-IDF矩阵例如:有一篇“伟大的长征精神”的文章,准备用计算机提取它的关键词。当我们对其分词并过滤掉停用词“的”后,得到了“伟大”“长征”“精神”三个词。我们可能发现“伟大”“长征”“精神”这三个词的出现次数一样多。这是不是意味着,作为关键词,它们的重要性是一样的?显然不是这样。因为“伟大”和“精神”这两个词是很常见的,相对而言,“长征”不那么常见。如果这三个词在一篇文章出现次数一样多,通常认为,“长征”的重要程度要大于“伟大”和“精神”,也就是说,在关键词排序上面,“长征”应该排在“伟大”和“精神”的前面。所以,还需要一个重要性调整系数,衡量一个词是不是常见词。如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性。7.3.1构建分词TF-IDF矩阵TF-IDF值获取的方法主要用到了CountVectorizer()和TfidfTransformer()两个函数。CountVectorizer()函数通过fit_transform()函数将文本中的词语转换为词频矩阵;TfidfTransformer()函数也有个fit_transform()函数,它的作用是计算TF-IDF值,得到相应矩阵后,进行聚类分析。TfidfVectorizer()函数相当于具有上面两个函数合并起来的功能,可直接生成TF-IDF值。7.3.2K-Means聚类分析
K-Means算法是一种典型的基于划分的聚类算法,也是一种无监督学习算法。K-Means算法的思想很简单,对给定的样本集,用欧氏距离作为衡量数据对象间相似度的指标,相似度与数据对象间的距离成反比,相似度越大,距离越小。其步骤是,预先将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。7.3.2K-Means聚类分析
余弦相似性指的是通过测量两个向量的夹角的余弦值来度量它们之间的相似性,常用于计算文本相似度。
余弦值的范围在[-1,1]之间,以本节为例。当值越趋近于-1时,表示两个向量的方向越相反,即文本的相异性越大;当值越趋近于1时,表示两个向量的方向越相同,即文本越相似;接近于0时,表示两个向量近乎于正交,夹角的余弦越小,文本之间相关性则越差。7.3.3MDS降维为什么要对数据进行降维?进行数据降维主要包括以下5个原因:数据本身存在一些问题,比如特征多而样本少、不同的特征具有相关性、噪声或者特征冗余,必须在将这些数据输入模型之前就进行一定的处理。有些算法不适合高维度的数据,却不得不用它。减少数据量,从而减小计算量。将数据维度降到二维或者三维后,可以进行可视化,便于观察和挖掘信息。特征太多或者太复杂会使得模型过拟合。7.3.3MDS降维什么样的数据适合降维?数据降维一般针对高维数据进行操作,但不是所有的高维数据都需要进行数据降维。因为绝大部分降维都会带来数据信息的损失,如果维度不高,在输出结果后需要分析原始维度对模型的影响;或者模型对精度要求很高,那么就要谨慎降维。反之,如果维度数据实在太大,明显影响计算效率,降维后对模型精度影响也不太大,那就可以进行降维。7.3.3MDS降维MDS(MultidimensionalScaling,多维标度)是一种低维嵌入算法,是一组通过直观的空间图,表示研究对象的感知和偏好的分析方法,属于多重变量分析的方法之一,是市场营销学、社会学、数量心理学等统计实证分析的常用方法。其核心思想是降维后,点与点之间的欧式距离不变,即在保障原始空间与低维空间样本之间距离一致的前提下,将高维数据进行降维。
本小节内容将介绍如何使用MDS方法对TF-IDF矩阵进行降维处理。7.3.4PCA降维PCA(PrincipalComponentAnalysis,主成分分析)是一种常见的降维算法,通过把数据从高维映射到低维来降低特征维度,同时保留尽可能多的信息。降维的目的在于使得数据更直观、更易读、降低算法的计算开销和去除噪声等。PCA降维过程其实就是一个实对称矩阵对角化的过程,其主要性质是,保留了最大的方差方向,使从变换特征回到原始特征的误差最小,方差值越大表示成分越重要。实现过程类似于MDS降维。7.3.5HC聚类HC聚类(HierarchicalClustering,层次聚类)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。层次聚类算法分为自上而下和自下而上两种方法。自下而上是指一开始就将每个数据点视为一个单一的类,然后依次合并类,直到所有类合并成一个包含所有数据点的单一聚类。自上而下则相反。7.3.6t-SNE降维t-SNE(t-distributedStochasticNeighborEmbedding)是一种非线性降维算法,可将高维数据降维到二维或者三维数据。在大数据时代,数据不仅越来越大,且越来越复杂,大量数据集嵌入在高维空间中,但这些数据又具有很低的内在维度。换句话说,高维数据经过降维后,在低维状态下更能显示出其本质特性。t-SNE降维主要包括以下两个步骤:t-SNE构建一个高维对象之间的概率分布,使得相似的对象被选择的概率更高,
而不相似的对象被选择的概率较低;t-SNE在低维空间里构建这些点的概率分布,使得这两个概率分布之间尽可能地相似。这里使用KL(Kullback-LeiblerDivergence)散度来度量两个分布之间的相似性。7.3.7LDA主题模型LDA(LatentDirichletAllocation)主题模型既是一种文档生成模型,又是一种典型的词袋模型。它认为一篇文档可以包含多个主题,而每个主题又对应着不同的词,词与词之间没有顺序以及先后的关系。一篇文章的构造过程,首先是以一定的概率选择某个主题,然后再在这个主题上以一定的概率选出某一个词,这样就生成了这篇文章的第一个词。不断重复这个过程,就生成了整篇文章。同时,它还是一种无监督式学习的聚类算法,在训练时不需要手工标注训练集,仅需提供文档集以及指定主题的数量k即可。LDA主题模型的使用是上述文档生成的逆过程,它将根据一篇得到的文章,去寻找出这篇文章的主题,以及这些主题对应的词。7.3.7LDA主题模型
LDA主题模型在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型,在社会网络和社会媒体研究领域最为常见,现已成为主题建模的一个标准。简而言之,如果一篇文章有一个中心思想,那么一些特定词语会频繁出现。例如,一个语料库中有三个主题:体育、科技和电影,要求写成一个剧本。一篇描述电影制作过程的文档,可能同时包含主题科技和主题电影,而主题科技中有一系列的词,这些词和科技有关,并且他们有一个概率,代表的是以科技为主题的文章中该词出现的概率。同理在主题电影中也有一系列和电影有关的词,对应其出现概率。当生成一篇关于电影制作的文档时,首先随机选择某一主题,选择到科技和电影两主题的概率更高;然后选择单词,选择到那些和主题相关的词的概率更高。这样就完成了一个单词的选择。不断选择N个词就组成了一篇文档。本章小结
作为一名优秀的数据分析师不仅要求能驾驭结构化数据,还应同时具有分析大型文本数据及可视化的职业能力。本章以超百万字、一百二十回的《红楼梦》经典小说为案例进行文本数据处理分析及可视化。介绍了如何读取和处理大型文本数据的方法,如何将分词结果与停用词相结合来绘制词云以及定制化词云图,重点讲解了使用自定义函数批量绘制各章节词云和柱状图。此外,还介绍了以分词TF-IDF矩阵为基础,常用的几种文本聚类分析方法,包括K-Means聚类、MDS聚类、PCA聚类和HC聚类方法。最后,简要介绍了什么是LDA主题模型,和使用LDA对小说中各主题最主要的关键词进行可视化展示及结果分析。单项选择题判断题多项选择题操作题本章习题第8章电商订单数据处理与
客户价值分析Python数据分析与可视化学习目标熟悉电商平台数据处理与分析的步骤和流程掌握电商平台数据可视化常用的方法了解客户价值概念和RFM模型的基本原理掌握用户复购率的计算方法学会针对不同价值客户制定相应的营销策略任务八:电商订单数据处理与客户价值分析8.1电商订单数据处理与分析8.2电商订单客户价值分析目录CONTENTS
信息时代的来临使得企业营销焦点从产品转向了客户,客户是企业经营体系中经济创造的重要一环,企业的经济收入大部分都来自客户,科学的客户价值理念是企业立足于时代发展的重要保障。客户关系管理(CustomerRelationshipManagement,CRM)是一个系统,包括市场、销售和服务三大领域,是一种“以客户为中心”的商业理念,通过在企业和客户之间建立、维系并提升良好的关系,培养企业的忠实客户,从而达到客户价值和企业利润的最大化,实现双方的合作共赢。概述
在数据经济的不断发展和数据科学日渐成熟的背景下,数据作为重要的生产要素已经融入各行各业中,数据与数据分析变成了企业发展的核心内容,特别是电子商务数据分析与利用已是电商企业运营决策的重要依据。当前,数据分析已贯穿企业产品开发、市场规划、产品销售、运营管理、客户服务等企业经营管理全过程,能否高效准确地对海量数据进行处理和分析,及时获取企业内部运营状况和外部市场情况,进行有效决策,成为决定企业能否长远发展的重要因素。当前,数据分析越来越受到企业的重视,在数字经济发展中发挥出重要作用。概述
那如何从客户的购买行为数据中了解和掌握客户真实需求成为竞争的关键因素。鉴于此,我们以2021年电商平台线上实际交易数据为依据,根据客户全生命周期各阶段的特点,从顾客、商家以及商品3个方面综合应用数据挖掘分析方法进行系统全面的客户行为分析研究,以达到为网店经营者提供决策支持的目的。帮助商家寻找保持现有客户,发掘潜在客户,提升客户价值具体的、有针对性的途径,使网店经营者在客户全生命周期的各个阶段都能制定符合自身经营特点的经营策略。概述(1)数据预处理,处理与业务流程不符的数据、空数据和数据类型不一致的数据等。(2)计算出2021年交易总金额(GMV)、总销售额、实际销售额、退货率和客单价。(3)计算出2021年每月的GMV、销售额、实际销售额及绘制出月交易额趋势图。(4)绘制出各渠道GMV占比圆环图。(5)分别绘制出周一至周日下单量和每日各时段下单量的柱状图。(6)以月为周期对用户进行复购率分析。(7)结合RFM模型筛选特征。(8)绘制出八种不同价值客户的占比饼图。任务分解8.1电商订单数据处理与分析
随着信息技术的飞速发展,依托于电子商务的线上购买模式已逐渐成为消费者获得商品的主要方式。以淘宝、微信、抖音、APP和网站为代表的交易模式线上购物平台,搭建了一个个灵活多样的交易方式,随着日趋活跃交易的同时,所产生的海量交易数据日渐引起了商家、厂家和平台的重视。
其常见的线上交易方式主要有如下几种。常见的线上交易方式主要有如下几种:B2B:商家对商家(企业卖家对企业买家),交易双方都是企业,最典型的案例就是阿里巴巴,汇聚了各行业的供应商,特点是订单量一般较大。B2C:商家对个人(企业卖家对个人买家),例如:唯品会,聚美优品。B2B2C:商家对商家对个人,例如:天猫、京东。C2C:个人(卖家)对个人(买家),例如:淘宝、人人车。O2O:线上(售卖)到线下(提货),将线下的商务机会与互联网结合,让互联网成为线下交易的平台,让消费者在享受线上优惠价格的同时,又可享受线下贴心的服务,例如:美团、苏宁易购、大众点评。C2B:个人对商家(个人买家对企业卖家),先有消费者提出需求,后有商家按需求组织生产,例如:尚品宅配。其他:ABC(代理-商家-消费者)、F2C(工厂-个人)、B2G(政府采购)、BoB(供应商-运营者-采购商)、SoLoMo(社交-本地化-移动端)等等。数据集介绍8.2电商订单客户价值分析
客户价值即客户为企业的利润贡献度,不同的客户对公司的贡献度是不同的,一般来说,公司80%的收入是由20%的客户带来。在稳定期进行客户价值分析的目的是根据客户的价值,挖掘其需求,并根据不同的价值对客户进行分类和差异化管理。通过分类,识别出可以为企业带来更大利润的顾客;并通过一系列的营销手段,提升客户满意度及忠诚度,使得企业获得更多的利润。
本例使用8.1小节预处理过的电商订单数据对客户价值进行分析,和应用被广泛使用的RFM模型来识别不同价值的客户。8.2.1RFM模型简介RFM模型是使用较为广泛的客户关系管理分析模式,是一种客户价值细分的统计方法。该模型包括R(Recency,近度)、F(Frequency,频度)以及M(Monetary,金额)三个变量。R指的是最近一次消费时间与截止时间的间隔,通常情况下,最近一次消费时间与截止时间的间隔越短,客户对即时提供的商品或是服务也最有可能感兴趣。R值越大,表示客户越久未发生交易;R值越小,表示客户越近有交易发生。F指的是顾客在某段时间内所消费的次数。F值越大,表示客户交易越频繁;F值越小,表示客户不够活跃。消费频率越高的顾客,也是满意度越高的顾客,其忠诚度越高,顾客价值也就越大。增加顾客购买的次数意味着从竞争对手处抢得市场占有率,赚取营业额。商家需要做的,是通过各种营销方式去不断地刺激顾客消费,提高他们的消费频率,提升店铺的复购率。M指的是顾客在某段时间内所消费的金额。M值越大,表示客户价值越高,M值越小,表示客户价值越低。
通常来说消费金额越大的顾客,消费能力自然也就越大,这就是所谓“20%的顾客贡献了80%的销售额”的二八法则。而这批顾客也必然是商家在进行营销活动时需要特别照顾的群体,尤其是在商家前期资源不足的时候。8.2.1RFM模型简介通过对RFM模型的分析,要提高营业额,电商平台及店铺需做好以下几件事:建立会员金字塔,区分各个级别的会员,如顶级会员、高级会员、中级会员、普通会员。针对不同级别的会员施行不同的营销策略,制定不同的营销活动。发现流失及休眠会员,通过对流失及休眠会员的及时发现,采取营销活动,再次激活这些会员。在短信、邮件
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度办事处知识产权专利实施许可与授权合同
- 家装项目监管合同
- 二零二五年度办公室清洁与员工健康关怀合同
- 农产品销售居间合同委托书
- 有保证人借款合同
- 全新借钱的合同
- 制造业自动化技术指南
- 医院技术合作协议
- 工程建设项目招标代理协议书
- 商标权转让合同
- 必修3《政治与法治》 选择题专练50题 含解析-备战2025年高考政治考试易错题(新高考专用)
- 二零二五版电商企业兼职财务顾问雇用协议3篇
- 课题申报参考:流视角下社区生活圈的适老化评价与空间优化研究-以沈阳市为例
- 深圳2024-2025学年度四年级第一学期期末数学试题
- 《openEuler操作系统》考试复习题库(含答案)
- 2024-2025学年成都市高新区七年级上英语期末考试题(含答案)
- 17J008挡土墙(重力式、衡重式、悬臂式)图示图集
- 《中南大学模板》课件
- 广东省深圳市南山区2024-2025学年第一学期期末考试九年级英语试卷(含答案)
- T-CISA 402-2024 涂镀产品 切口腐蚀试验方法
- 后勤安全生产
评论
0/150
提交评论