版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据分析与数据可视化实战1第1章TPC-DS数据分析案例简介目录企业级数据分析环境的搭建结构化查询语言SQL数据可视化基础用户数据分析与数据挖掘实战第2章第3章第4章第5章第6章第7章数据分析与数据库初步认识2供应链数据分析与数据挖掘实战引言本章作为实战篇的第2个章节,介绍了供应链数据分析与挖掘对于企业的重要价值、基本思路以及典型案例。本章首先介绍了用户满意度提高的供应链成本的降低对于企业的重要价值,并介绍了在供应链数据分析与挖掘部分所涉及的几个重要任务,分别是用户偏好的全方位洞察、用户满足情况的多维度总结以及产品需求量的精准预测;接下来介绍了如何应用Tableau制作用户偏好以及用户满足情况的供应链监控仪表板;最后介绍了如何应用Python建立产品需求量预测模型,强调了建模过程中需要重点考虑的问题,并展现了数据预分析、产品行为模式聚类以及时间序列建模和效果评价的整个建模流程。本章学习目标包括以下几点:1.了解供应链数据分析与挖掘的主要目标以及基本内容;2.应用Tableau设计多维度供应链数据分析与监控仪表板;3.掌握产品需求量预测的关键点并应用Python实现产品需求量预测模型的建模过程。本章要点/学习目标用户偏好维度供应链监控仪表板设计用户满足维度供应链监控仪表板设计本章内容12334产品需求量预测模型引言
在电商平台购买产品时,用户既希望能够找到心仪的、高质量的产品,又希望这些产品能够尽快地送达他们手中。同时做到这些对于企业供应链的运营效率与质量是一个很大的挑战。成本的降低则来自产品存货的高效率购入、运输和存储,如果仓库中的备货能够恰好满足所有用户的需求,接近“零库存”的理想状态,那么企业的供应链成本将会大大降低,从而提高企业的竞争优势。提高供应链运营效率与质量,需要企业完成以下几个任务:(1)通过用户整体的历史消费行为反映用户偏好在产品维度的体现;(2)通过用户整体的历史售后行为反映用户满意度在产品维度的体现;(3)预估用户对于各产品的需求,预先备货以降低产品缺货概率、提高用户满意度、降低存货堆积带来的额外成本。4第十一章供应链管理【知识目标】
理解供应链管理的概念,以及供应链管理与物流管理的区别,掌握供应链管理的基本内容与原则。【能力目标】
能够站在单个企业的角度模拟供应链,通过供应链管理提出优化方案,加深对合作伙伴关系的认识和理解。【素质目标】
要认识到现代物流企业的开放性,企业你中有我,我中有你,任何企业都不能独立运作,只有合作才能实现共赢。【引入案例】沃尔玛的供应链物流战略
在1979年,凯玛特是零售业的巨头之一,拥有1891家商店,平均每家商店的收入为725万美元。当时的沃尔玛只是美国南方的一个小零售商,只有229家商店,每家商店的收入也只是凯玛特的一半。在十余年时间里,沃尔玛改变了自己。1992年,沃尔玛的每平方英尺的销售额最高,并且在所有零售商中,其库存周转次数和运营利润都是最高的。如今,沃尔玛是世界上最大、利润最高的零售商。沃尔玛是如何成功的呢?其起点在于坚持不懈地致力于满足顾客的需要。它的目标是保证顾客无论何时何地都能买到所需的商品,以及优化成本结构,提供具有竞争力的定价。实现这个目标的关键在于使库存的连续补充成为其核心战略。通过直接转运技术,商品被源源不断地送达沃尔玛的仓库,在那里商品不作停留就被分送到各商店。这个战略大大降低了沃尔玛的销售成本,并使其向顾客提供天天低价成为可能。沃尔玛的物流战略是什么?以后如何转向或改变经营战略?第一节供应链概述任何一个企业都不能孤立地生存,它需要市场、企业以及人的支持。这些市场、企业和人联系在一起,上下环节之间表现为供给与需求的关系,从而形成了一条长长的供应链。事实上,供应链是早已客观存在的的事物。一、供应链的概念供应链是指产品生产和流通过程中所涉及的原材料供应商、制造商、批发商、零售商以及最终消费者组成的供需网络,即由原材料获取、物料加工和制造直至将成品送到用户手中,这一完整过程所涉及的企业和企业部门组成的网络。这个概念强调了供应链的战略伙伴关系,从形式上看,客户是在购买商品,但实质上客户是在购买能带来效益的价值。各种物料在供应链上移动,是一个不断采用新技术投入劳动,增加其技术含量或附加价值的过程,因此,供应链不仅是一条联接供应商到用户的物料链、信息链、资金链,而且是一条价值增值链。物料在供应链上因加工、包装、运输等关系而增加其价值,给相关企业都带来收益。例如,一件产品,其原材料由供应商提供,运输到生产部门,在产品制成后,又被运送到配送中心,最终被卖给消费者。实际生活中的供应链往往涉及多种产品、多级生产和配送,并且不断处于变化中。供应链具有如下的特征:复杂性、动态性、面向用户需求和交叉性。二、供应链结构模型根据供应链的定义,供应链的结构可以用下图来表示,如图11-1所示:图11-1供应链的网链结构模型从图5-1可以看出,供应链由所有加盟的节点企业组成,其中一般有一个核心企业(可以是产品制造企业,也可以是大型零售企业,如美国的沃尔玛)。节点企业在需求信息的驱动下和信息共享的基础上,通过供应链的职能分工与合作(生产、分销、零售等),以资金流、物流或/和服务流为媒介实现整个供应链的不断增值。三、供应链的类型根据不同的划分标准,我们可以将供应链分为以下几种类型。1.稳定的供应链和动态的供应链根据供应链存在的稳定性划分,可以将供应链分为稳定的和动态的供应链。基于相对稳定、单一的市场需求而组成的供应链稳定性较强,而基于相对频繁变化、复杂的需求而组成的供应链动态性较高。在实际管理运作中,需要根据不断变化的需求,相应地改变供应链的组成。2.平衡的供应链和倾斜的供应链根据供应链容量与用户需求的关系可以划分为平衡的供应链和倾斜的供应链。一个供应链具有一定的、相对稳定的设备容量和生产能力(所有节点企业能力的综合,包括供应商、制造商、运输商、分销商、零售商等),但用户需求处于不断变化的过程中,当供应链的容量能满足用户需求时,供应链处于平衡状态,而当市场变化加剧,造成供应链成本增加、库存增加、浪费增加等现象时,企业不是在最优状态下运作,供应链则处于倾斜状态。用户需求供应链的容量用户需求供应链的容量图11-2平衡的供应链和倾斜的供应链
平衡的供应链可以实现各主要职能(采购/低采购成本、生产/规模效益、分销/低运输成本、市场/产品多样化和财务/资金运转快)之间的均衡。3.盟主型供应链和非盟主型供应链根据供应链的主导主体控制能力可以将供应链分为盟主型供应链和非盟主型供应链。所谓盟主型供应链,即某一成员在供应链中占有主导地位,对其他成员具有很强的辐射能力和吸引能力,通常称该企业为核心企业或主导企业。盟主型供应链相对于非盟主型供应链,是比较典型的一种供应链类型。从供应链的主导主体分析,可以将供应链划分为制造企业主导供应链、商业企业主导供应链和第三方物流企业主导供应链等形式。引言本章作为实战篇的第2个章节,介绍了供应链数据分析与挖掘对于企业的重要价值、基本思路以及典型案例。本章首先介绍了用户满意度提高的供应链成本的降低对于企业的重要价值,并介绍了在供应链数据分析与挖掘部分所涉及的几个重要任务,分别是用户偏好的全方位洞察、用户满足情况的多维度总结以及产品需求量的精准预测;接下来介绍了如何应用Tableau制作用户偏好以及用户满足情况的供应链监控仪表板;最后介绍了如何应用Python建立产品需求量预测模型,强调了建模过程中需要重点考虑的问题,并展现了数据预分析、产品行为模式聚类以及时间序列建模和效果评价的整个建模流程。本章学习目标包括以下几点:1.了解供应链数据分析与挖掘的主要目标以及基本内容;2.应用Tableau设计多维度供应链数据分析与监控仪表板;3.掌握产品需求量预测的关键点并应用Python实现产品需求量预测模型的建模过程。本章要点/学习目标用户偏好维度供应链监控仪表板设计用户满足维度供应链监控仪表板设计本章内容123144产品需求量预测模型设计目的供应链数据分析的一个重要方面是了解用户偏好,包括展示用户最喜欢什么产品,哪些地区对于这些产品的需求量最大,用户对于产品的需求量随时间的变动趋势如何等。进行供应链数据分析与挖掘需要TPC-DS数据集中的4张事实表,分别是calalog_sales,web_sales,catalog_returns与web_returns。由于Tableau并不能像PowerBI一样支持将没有主外键约束的事实表导入到同一个数据模型中,因此我们需要编写SQL查询从以上4张事实表中提取分析所需的数据构成一个新的事实表。15打开Tableau,连接SQLServer2019服务器后,在数据源界面左键单击左下角【新自定义SQL】,将以上SQL代码输入到弹出的窗口中16设计目的选择【确定】后,获得合并后的事实表,重命名为“catalog&web_sales”,接下来将customer_address,item,reason,ship_mode,warehouse,date_dim等数据表拖拽到数据源区域并设置与catalog&web_sales表的连接关系(均使用左连接)。需要注意的是,由于catalog&web_sales表有两列日期外键,分别是sold_date_sk与ship_date_sk,因此需要拖拽到两张date_dim表以建立与catalog&web_sales表的连接关系,分别重命名为sold_date_dim与ship_date_dim17设计目的可视化效果用户偏好维度供应链监控仪表板展示了用户在各个时间段内对各类别商品的偏好情况,支持时间与产品大类两个维度的筛选18组件介绍1.卡片卡片将用户偏好维度最为关键的数据指标突出展示,包括时间区间、总销售额、总订单量、产品总需求量、人均客单价等192.簇状条形图簇状条形图分别将地理维度和品牌维度的产品需求量信息拆分为了catalogsales网络与websitesales网络,按照产品需求量降序排列并展示了需求量最高的五个地区与品牌20组件介绍3.折线图折线图展示了各类别产品在一个季度的各周内分别在catalogsales网络与websitesales网络的需求量变化趋势21组件介绍4.气泡图气泡图展示了销量最高的产品子类别,直观展示出各个类别的相对热度22组件介绍小结用户偏好维度供应链监控仪表板主要展示了各类别产品在总销售额、总订单量、产品总需求量、人均客单价四个重要的数据指标方面的表现,可用于监控某类别产品的畅销程度随时间的变化趋势从而洞察用户偏好并据此制定后续的针对性策略。23引言本章作为实战篇的第2个章节,介绍了供应链数据分析与挖掘对于企业的重要价值、基本思路以及典型案例。本章首先介绍了用户满意度提高的供应链成本的降低对于企业的重要价值,并介绍了在供应链数据分析与挖掘部分所涉及的几个重要任务,分别是用户偏好的全方位洞察、用户满足情况的多维度总结以及产品需求量的精准预测;接下来介绍了如何应用Tableau制作用户偏好以及用户满足情况的供应链监控仪表板;最后介绍了如何应用Python建立产品需求量预测模型,强调了建模过程中需要重点考虑的问题,并展现了数据预分析、产品行为模式聚类以及时间序列建模和效果评价的整个建模流程。本章学习目标包括以下几点:1.了解供应链数据分析与挖掘的主要目标以及基本内容;2.应用Tableau设计多维度供应链数据分析与监控仪表板;3.掌握产品需求量预测的关键点并应用Python实现产品需求量预测模型的建模过程。本章要点/学习目标用户偏好维度供应链监控仪表板设计用户满足维度供应链监控仪表板设计本章内容123244产品需求量预测模型设计目的供应链数据分析的另一个重要方面是满足用户需求,即提高用户对于每一次消费的满意程度。一般而言用户的满意程度会取决于产品的质量以及运输所花费的时间,需要设计相应的仪表板以实现用户满意程度的监控。25可视化效果用户满足维度供应链监控仪表板展示了用户在各个时间段内的满意度情况,使用退货率(退货订单数/总订单数)以及响应速度(下单时间与发货时间的差)作为主要数据指标,支持时间与产品大类两个维度的筛选26组件介绍1.卡片卡片将用户满足维度最为关键的数据指标突出展示,包括时间区间、退货净损失、退货总订单量、总退货率、平均响应天数等272.折线图折线图展示了各类别产品在一个季度的各周内分别在catalogsales网络与websitesales网络的退货率变化趋势28组件介绍3.组合图组合图替代了柱状图,分别展现了各个运输方式下的平均响应速度以及退货率29组件介绍4.矩阵矩阵展示了从各个仓库发往各个地区订单的平均响应速度,并按照各地区响应速度最慢至最快进行排序30组件介绍5.词云图词云图展示了退货订单中的各种原因出现的频率,文字体积越大表示由于该种原因发生退货的情况就越多31组件介绍小结用户满足维度供应链监控仪表板以退货率和响应速度作为关键的数据指标,从时间、运输方式、物流目的地等维度进行拆解计算,以实现针对供应链满足用户需求情况的监控。32引言本章作为实战篇的第2个章节,介绍了供应链数据分析与挖掘对于企业的重要价值、基本思路以及典型案例。本章首先介绍了用户满意度提高的供应链成本的降低对于企业的重要价值,并介绍了在供应链数据分析与挖掘部分所涉及的几个重要任务,分别是用户偏好的全方位洞察、用户满足情况的多维度总结以及产品需求量的精准预测;接下来介绍了如何应用Tableau制作用户偏好以及用户满足情况的供应链监控仪表板;最后介绍了如何应用Python建立产品需求量预测模型,强调了建模过程中需要重点考虑的问题,并展现了数据预分析、产品行为模式聚类以及时间序列建模和效果评价的整个建模流程。本章学习目标包括以下几点:1.了解供应链数据分析与挖掘的主要目标以及基本内容;2.应用Tableau设计多维度供应链数据分析与监控仪表板;3.掌握产品需求量预测的关键点并应用Python实现产品需求量预测模型的建模过程。本章要点/学习目标用户偏好维度供应链监控仪表板设计用户满足维度供应链监控仪表板设计本章内容123334产品需求量预测模型背景简介预测产品需求量一直是快消行业和电商行业企业的关键话题,其核心是在用户发生购买行为之前就预先将适量的产品放置于库房之中,以覆盖未来一段时间内的用户需求。如果不能够对产品需求量做出一个比较精准的预测,那么不合理的备货很有可能会导致产品缺货和堆积的情况出现。产品缺货会严重阻碍销售营业额、降低用户满意度;产品堆积则会大大占用库房资源、增加库存成本。因此,实现产品需求量预测一方面能够提高用户满意度和成交量,另一方面也能够节省资源和成本,为企业带来大量的收益,是提升供应链效率的关键手段。34数据准备产品需求量预测是若干个时间序列预测问题的集合。理想状态下,应该对每一种产品在每一个地区的未来某个时间段内的需求都做出预测,这样才能够做出完整的备货决策,然而实际情况是,当产品数量众多(百万种产品)时,对每一种产品都建立预测模型是不可行的,因为这会带来过重的运算负荷,并且会使得整个预测系统过于复杂且难以维护。面对这样的难题我们采取的折中方案是将所有的产品按照其历史行为的特征进行聚类,每一类产品的历史行为是比较相似的,包括需求体量、周期性趋势、长期趋势等。针对每一类产品建立时间序列预测模型后,所有该类别的产品都使用同一个模型实现预测。35接下来有几个重要因素需要考虑:到底应该将所有的产品划分为几个类别?产品的历史行为与哪些因素有关?如何确定产品需求预测在时间维度上的精细度,即精准至天,周,月还是季度?36数据准备考虑完以上问题后,我们在Windows菜单栏中打开JupyterNotebook,新建Python3Notebook文件,命名为“TPC-DS产品需求量预测模型”,编写Python代码连接SQLServer2019,编写SQL查询语句以获取原始数据。假设此时我们希望将预测的颗粒度设置为月份,即以月为时间单位展开预测,编写代码(见本页备注)该代码抓取了每一种产品在过去60个月的时间内每个月的实际需求量,并获取产品名称(item)、品牌(brand)、子类(class)和种类(category)四个颗粒度由细至粗的产品属性。本例中我们仅考虑catalogsales网络和websitesaels网络,执行代码后,观察建模原始数据37数据准备数据预分析1.item颗粒度首先针对item颗粒度进行分析,提取item颗粒度的产品行为。执行代码后,获得item颗粒度产品行为趋势图,为了图示直观仅选择前10种产品行为进行展示tem颗粒度共有8987种产品,且每种产品的行为模式相差很大,直接执行item颗粒度的建模困难较高。382.brand颗粒度接下来对brand颗粒度进行分析,提取brand颗粒度的产品行为。执行代码后,获得brand颗粒度产品行为趋势图8987个产品分别隶属于948个品牌,且图中可以观察到各品牌的行为模式可以大体上划分为3种,前2种品牌的需求量一直处于较高的水平,最小值在10000左右,峰值可以达到60000至70000,且周期性非常明显;而第3种品牌的需求量相对而言处于一个较低的水平,最大值也不超过10000。39数据预分析3.class颗粒度接下来对class颗粒度进行分析,提取class颗粒度的产品行为。执行代码后,获得class颗粒度产品行为趋势图8987个产品分别隶属于16个子类,颗粒度变得更粗,从图中可以明显地识别出2种行为模式,且周期性非常明显。40数据预分析414.category维度接下来对category颗粒度进行分析,提取category颗粒度的产品行为。执行代码后,获得category颗粒度产品行为趋势图在category颗粒度下,产品行为已经完全退化为一种行为模式,针对category建模很明显是没有意义的。42数据预分析综上,我们完成了四种颗粒度的产品行为的预分析。在理想状态下,应该就item颗粒度的产品行为展开聚类并建模,但是由于过程过于复杂;而class维度和category维度的颗粒度太粗,不足以覆盖大多数的产品行为模式,预测模型的精度将会很差;因此,本例中我们将对brand颗粒度的产品行为展开聚类并建模,因为brand颗粒度足够精细(948种brand),能够在很大程度上覆盖大多数的产品行为特征,同时我们在产品行为图中也已经识别出了3种行为模式,建模难度和复杂度也得到了很好的控制。43数据预分析产品行为模式聚类在决定针对brand颗粒度的产品行为进行建模后,我们需要首先识别brand颗粒度的几种产品行为模式。尽管我们在图中已经识别出了3种具体的行为模式,但是我们并不能完全确定划分为3种行为模式是否是合理的,因此我们依旧需要借助KMeans聚类算法帮助我们更加科学的确定最佳聚类数。执行代码后,获得手肘图当聚类数为3时,手肘图到达明显拐点,与我们的直观观察是一致的。44接下来我们将聚类数设置为3,执行brand颗粒度的产品行为模式聚类。执行代码后,获得各聚类簇数结果汇总聚类后各组的品牌数量非常不平衡,类别0有908个品牌,而类别1和类别2分为只有20个品牌,接下来直观查看各组的聚类情况。45产品行为模式聚类执行代码后,得到各组的产品行为的需求量均值以及1倍标准差范围区间类别1品牌(红色部分曲线)呈现明显的周期性上升趋势,而类别2品牌(蓝色部分曲线)呈现明显的周期性下降趋势,但是在2002年底呈现出反弹趋势。以上2个类别的产品行为模式非常明显,并且各类别仅包含20个品牌,无须再次拆分。类别0品牌(绿色部分)也呈现出明显的周期性趋势,但是在当前的纵坐标比例下很难看出类别0的划分是否合理,并且类别0中包含的品牌数量为908个,如此众多数量的品牌不太可能拥有过一个完全相同的产品行为模式,因此需要将类别0各品牌的行为模式继续进行分拆。46产品行为模式聚类执行代码后,得到类别0各品牌产品行为图类别0中各品牌的行为模式比较杂乱,并没有呈现出一致性,因此需要对类别0中的品牌继续进行聚类,以识别出更精细化的产品行为模型。47产品行为模式聚类再次绘制手肘图以确定最佳聚类数。执行代码后,得到手肘图当聚类数为5时,手肘图到达明显拐点。48产品行为模式聚类接下来我们将聚类数设置为5,执行类别0各品牌产品行为模式聚类。执行代码后,获得聚类结果汇总尽管各组内的品牌数量并不是完全平衡,但是划分也较为合理。接下来查看各细分组内的产品行为模式(此处的类别0至类别4为此前类别0的细分类别,为了显示区别,将此处的类别0至类别4修改为类别3至类别7)。49产品行为模式聚类执行代码后,获得各细分类别产品行为趋势图(在此仅演示类别3的绘图代码,其他代码略)50产品行为模式聚类各细分类别的产品行为得到了不错的区分,接下来将各组的产品行为趋势图进行汇总。执行代码后,类别3至类别7产品行为趋势图我们将此前的类别0再次进行聚类,重新识别出5种产品行为趋势,并且很好地体现了各组间不同的产品行为模式。加上之前聚类得到的类别1和类别2,我们共将brand颗粒度的产品行为划分为7个类别,接下来我们将对这7个类别执行时间序列建模。51产品行为模式聚类时间序列建模与效果评估我们在此演示针对类别2品牌的时间序列建模过程。绘制类别2产品行为趋势图从图中可以看到产品行为有着非常明显的周期性趋势
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 谈军训心得体会(33篇)
- 食品安全自检自查制度
- 中专自我总结范文3篇
- 西湖导游词600字(32篇)
- 山东省聊城市2024-2025学年高一上学期11月期中物理试题
- 江西省赣州市十八县二十四校2024-2025学年高三上学期期中考试英语试题(含解析)
- 世界的海陆气候与居民-2024年中考地理总复习易混易错题(原卷版)
- 语文教学论教案 第一章 语文课程的性质、理念及目标
- 个人分期还款协议范本
- 企业贷款担保格式
- 青岛市特殊建设工程消防验收办事指南
- 光伏电站施工进度计划安排与保证措施
- 北京市西城区2023-2024学年五年级上学期期末数学试卷
- 人际关系的建立与维护
- 初中九年级化学课件复分解反应的条件“百校联赛”一等奖
- 冷库安全施工方案
- 翻转课堂教学模式与设计
- 《企划案撰写》课件
- 2024年五粮液集团公司招聘笔试参考题库含答案解析
- 《数据结构与算法》教案
- 为什么要做好服务
评论
0/150
提交评论