商务大数据分析导论 课件 项目四 构建数据模型_第1页
商务大数据分析导论 课件 项目四 构建数据模型_第2页
商务大数据分析导论 课件 项目四 构建数据模型_第3页
商务大数据分析导论 课件 项目四 构建数据模型_第4页
商务大数据分析导论 课件 项目四 构建数据模型_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网站分析与推荐目录01.网站分析与推荐的重要性02.电商数据分析指标体系网站分析与推荐的重要性PARTONE网站分析与推荐的重要性为了能够更好地满足用户需求,依据其网站海量的数据,研究用户的兴趣偏好,分析用户的需求和行为,发现用户的兴趣点,从而引导用户发现自己的信息需求,将长尾网页准确地推荐给所需用户,帮助用户发现他们感兴趣但很难发现的网页信息。为用户提供个性化的服务,并且建立网站与用户之间的密切关系,让用户对推荐系统产生依赖,从而建立稳定的企业忠实顾客群,实现客户链式反应增值,提高消费者满意度。通过提高服务效率帮助消费者节约交易成本等,制定有针对性的营销战略方针,促进企业长期稳定高速发展。01电商数据分析指标体系PARTTWO电商总体运营指标人均页面访问数,即页面访问数(PV)/独立访客数(UV),该指标反映的是网站访问粘性。流量类指标01访问到下单转化率,即电商网站下单的次数与访问该网站的次数之比。订单产生效率指标02网站成交额(GMV),电商成交金额,即只要用户下单,生成订单号无论这个订单最终是否成交,便可以计算在GMV里面,包含付款和未付款的部分。总体销售业绩指标03毛利率,是衡量电商企业盈利能力的指标,是销售毛利与销售收入的比值整体指标04网站流量指标包括独立访客数和页面访问数,相应的指标定义在前文(电商总体运营指标)已经描述,在此不在赘述。流量规模类指标01指在流量推广中,广告活动产生的投放费用与广告活动带来的独立访客数的比值流量成本类指标02跳出率(BounceRate)也被称为蹦失率,为浏览单页即退出的次数/该页访问次数,跳出率只能衡量该页作为着陆页面(LandingPage)的访问流量质量类指标03注册会员数、活跃会员数、会员复购率、会员回购率、会员留存率会员类指标04网站销售(转化率)类指标基础类指标,包括一定统计周期内加入购物车次数、加入购物车买家数以及加入购物车商品数。购物车类指标01基础类指标,包括一定统计周期内的下单笔数、下单金额以及下单买家数。下单类指标02基础统计类指标,包括一定统计周期内支付金额、支付买家数和支付商品数。支付类指标03客户价值类指标包括一定统计周期内的累计购买客户数和客单价。客户指标01第一次在店铺中产生消费行为的客户所产生交易额与新客户数量的比值新客户指标02包括消费频率、最近一次购买时间、消费金额和重复购买率。老客户指标03商品类指标SKU、SPU和在线SPU。产品总数指标01主要是独家产品的收入占比,即独家销售的产品收入占总销售收入的比例。产品优势性指标02包括品牌数和在线品牌数指标。品牌数指商品的品牌总数量。在线品牌数则指在线商品的品牌总数量。品牌存量指标03包括上架商品SKU数、上架商品SPU数、上架在线SPU数、上架商品数和上架在线商品数。上架05包括首次上架商品数和首次上架在线商品数。首发04市场营销指标包括新增访问人数、新增注册人数、总访问次数、订单数量、活动下单转化率以及投资回报率(ROI)。市场营销活动指标01包括新增访问人数、新增注册人数、总访问次数、订单数量、UV订单转化率、广告投资回报率。广告投放指标02市场竞争类指标包括市场占有率、市场扩大率和用户份额。市场占有率指电商网站交易额占同期所有同类型电商网站整体交易额的比重;市场扩大率指购物网站占有率较上一个统计周期增长的百分比;用户份额指购物网站独立访问用户数占同期所有B2C购物网站合计独立访问用户数的比例。市场份额相关指标01包括交易额排名和流量排名。交易额排名指电商网站交易额在所有同类电商网站中的排名;流量排名指电商网站独立访客数量在所有同类电商网站中的排名。网站排名02分析方法与过程目录01.数据抽取02.数据探索分析03.结果分析数据抽取PARTONE数据抽取以用户的访问时间为条件,选取3个月内(2020-02-01〜2020-04-29)用户的访问数据作为原始数据集。每个地区的用户访问习惯以及兴趣爱好存在差异性,本例抽取广州地区的用户访问数据进行分析,其数据量总计有837450条记录,其中包括用户号、访问时间、来源网站、访问页面、页面标题、来源网页、标签、网页类别和关键词等属性。01数据探索分析PARTTWO2.1网页类型分析作为第一步,我们针对原始数据中用户点击的网页类型进行统计,网页类型是指“网址类型”中的前3位数字(它本身有6/7位数字)。前面已经提到过,此处处理的要义在于“分块进行”,必要时可以使用多线程甚至分布式计算。所以,代码清单12-2所给出的例子,已经展示了处理大数据的要义所在。后面的各项统计均按照类似的方法进行,不再赘述。2.1网页类型分析结果见表12-3,从中发现点击与咨询相关(网页类型为101,http://www.****.com/ask/)的记录占了49.16%,其次是其他的类型(网页类型为199)占比24%左右,然后是知识相关(网页类型为107,http://www.****.com/info/)占比22%左右。2.1网页类型分析

统计分析知识类型内部的点击情况,因知识类型中只有一种类型(107001),所以利用网址对其进行分类,获得知识内容页(http://www.****.com/info/*/数字.html,其中数字部分可能带有下划线_)以及知识首页(http://www.****.com/infb/*/)和知识列表页(http://www.****.com/info/*.html,是除了知识内容页外的html页面)的分布情况2.1网页类型分析分析其他(199)页面的情况,其中网址中带有“?”的占了32%左右,其他咨询相关与法规专题占比达到43%,地区和律师占比26%左右。2.1网页类型分析2.1网页类型分析

从上述网址类型分布分析中,可以发现一些与分析目标无关数据的规则。①咨询发布成功页面。②中间类型网页(带有midques_关键字)。③网址中带有“?”类型,无法还原其本身类型的快搜页面与发布咨询网页。④重复数据(同一时间同一用户,访问相同网页)。⑤其他类别的数据(主网址不包含关键字)。⑥无点击.html页面行为的用户记录。⑦律师的行为记录(通过快车-律师助手判断)。记录这些规则,有利于在数据清洗阶段对数据进行清洗操作。2.2.点击次数分析

统计分析原始数据用户浏览网页次数(以“真实IP”区分)的情况,其结果见表12-9,可以从表中发现浏览一次的用户占所有用户总量的58%左右,大部分用户浏览的次数在2〜7次,用户浏览的平均次数是3次。2.2.点击次数分析从上表中可以看出大约80%的用户(不超过3次)只提供了大约30%的浏览量(几乎满足二八定律)。在数据中,点击次数最大值为42790次,对其进行分析,发现是律师的浏览信息(通过律师助手进行判断)。表10是对浏览次数达到7次以上的情况进行的分析,可以从中看出大部分用户浏览8到100次。2.2.点击次数分析针对浏览次数为一次的用户进行分析,其结果如表11所示。其中,问题咨询页占比78%,知识页占比15%,而且这些记录基本上全是通过搜索引擎进入的。2.2.点击次数分析针对点击一次的用户浏览的网页进行统计分析,其结果见表12-12O可以看出排名靠前的都是知识与咨询页面,因此可以猜测大量用户的关注都在知识或咨询方面上。2.3.网页排名2.3.网页排名

由分析目标可知,个性化推荐主要针对以html为后缀的网页(与物品的概念类似)。从原始数据中统计以html为后缀的网页的点击率,其点击率排名的结果见表12-13。从表中可以看出,点击次数排名前20名中,“法规专题”占了大部分,其次是“知识”,然后是“咨询”。但是,从前面分析的结果中可知,原始数据中与咨询主题相关的记录占了大部分。在其html后缀的网页排名中,“专题与知识”的占了大部分。通过对业务了解,专题是属于知识大类里的一个小类&在统计以html为后缀的网页点击排名,出现这种现象的原因见表12-14。其中,知识页面相对咨询的页面要少很多,当大量的用户在浏览咨询页面时,呈现一种比较分散的浏览次数,即其各个页面点击率不高,但是其总的浏览量高于知识。所以造成网页排名中咨询方面的排名比较低。2.3.网页排名2.3.网页排名从原始html的点击率排行榜中可以发现如下情况,排行榜中存在这样两种类似的网址"http://www.****.com/infb/hunyin/lhlawlhxy/201107071376932.html"和"http://www.****.com/info/hunyin/lhlawlhxy/20110707137693.html"o通过访问其网址,发现两者属于同一网页,但由于系统在记录用户的访问网址的信息时会将其记录在数据中。因此,在用户访问网址的数据中存在这些翻页的情况,针对这些翻页的网页进行统计,结果见表15。2.4数据预处理本案例在原始数据的探索分析的基础上,炭现与分析目标无关或模型需要处理的数据,针对此类数据进行处理。其中涉及的数据处理方式有:数据清洗、数据集成和数据变换。通过这几类的处理方式,将原始数据处理成模型需要的输入数据,其数据处理流程图如图所示。

1)数据清洗从探索分析的过程中发现与分析目标无关的数据,归纳总结其数据满足如下规则:中间页面的网址、咨询发布成功页面、律师登录助手的页面等。将其整理成删除数据的规则,其清洗的结果见表16从表中可以发现,律师用户信息占了所有记录中的22%左右。,其他类型的数据,占比很小,大概5%左右。1)数据清洗经过上述数据清洗后的记录中仍然存在大量的目录网页(可理解为用户浏览信息的路径),在进入推荐系统时,这些信息的作用不大,反而会影响推荐的结果,因此需要进一步筛选以html为后缀的网页。根据分析目标以及探索结果可知,咨询与知识是其主要业务来源,故需筛选咨询与知识相关的记录,将此部分数据作为模型分析需要的数据。1)数据清洗针对数据进行清洗操作,Python实现的代码例子(部分)如代码清单5所示。代码清单5Python访问MariaDB(MySQL)数据库进行清洗操作2)数据变换

由于在用户访问知识的过程中,存在翻页的情况,不同的网址属于同一类型的网页,见表17数据处理过程中需要对这类网址进行处理,最简单的处理方法是将翻页的网址删掉。但是,用户访问页面是通过搜索引擎进入网站的,所以其入口网页不一定是其原始类别的首页,采用删除的方法会损失大量的有用数据,在进入推荐系统时,会影响推荐结果。因此,针对网页需要还原其原始类别,处理方式为首先识别翻页的网址,然后对翻页的网址进行还原,最后针对每个用户访问的页面进行去重操作,其操作结果见表18。2)数据变换2)数据变换有关于用户翻页的数据处理代码如代码清单6所示。3)属性规约由于推荐系统模型的输入数据需要,需对处理后的数据进行属性规约,提取模型需要的属性。本案例中模型需要的数据属性为用户和用户访问的网页。因此删除其他的属性,只选择用户与用户访问的网页,其输入数据集见表23。3)属性规约4)模型构建在实际应用中,构造推荐系统时,并不是采用单一的推荐方法进行推荐。为了实现较好的推荐效果,大部分都结合多种推荐方法将推荐结果进行组合,最后得出推荐结果,在组合推荐结果时,可以采用串行或者并行的方法。本例所展示的是并行的组合方法,如图所示。4)模型构建基于物品的协同过滤算法主要分为两步。I

计算物品之间的相似度。II

根据物品的相似度和用户的历史行为给用户生成推荐列表。5)基于物品的协同过滤

基于协同过滤推荐算法包括两部分:基于用户的协同过滤推荐和基于物品的协同过滤推荐

其中,训练集与测试集是通过交叉验证的方法划分后的数据集。通过协同过滤算法的原理可知,在建立推荐系统时,建模的数据量越大,越能消除数据中的随机性,得到的推荐结果对比数据量小要好。但是数据量越大,模型建立以及模型计算耗时就越久。因此本文选择数据处理后的婚姻与咨询的数据,其数据分布情况见表26。由在实际数据中,物品数目过多,建立的用户物品矩阵与物品相似度矩阵是一个很庞大的矩阵。因此,在用户物品矩阵的基础上采用杰卡德相似系数的方法,计算出物品相似度矩阵。通过物品相似矩阵与测试集的用户行为,计算用户的兴趣度,获得推荐结果,进而计算出各种评价指标。5)基于物品的协同过滤5)基于物品的协同过滤

为了对比个性化推荐算法与非个性化推荐算法的好坏,本文选择了两种非个性化算法和一种个性化算法进行建模并对其进行模型评价与分析。两种非个性化算法为:Random算法和Popular算法。其中,Random算法是每次都随机挑选用户没有产生过行为的物品并推荐给他

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论