版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、在线商城精细化业务运营系统建设方案在线商城精细化业务运营系统建设目标2在线商城精细化业务运营系统建设目标分为两部分:大数据平台层和数据分析引擎(大数据应用)。构建一个海尔电商业务大数据平台,收集、存储和组织多源在线商城电子商务及相关业务数据;数据分析引擎,包括BI商业智能分析系统、智慧供应链管理、推荐营销系统,对电商业务及相关业务数据进行监控、分析和挖掘,并进行可视化数据展现;在线商城精细化业务运营系统3分布式文件系统(存放电商相关业务数据)结构化数据半&非结构化数据HBase列族数据库Hive数据仓库数据集市NoSQL数据库(文档、图形数据库)主动传数据被动采数据Storm实时流式计算框架B
2、I商业智能智能供应链管理关系型数据库可视化数据展现其他存储集群告警外部数据接口中间计算结果及数据接口电商业务系统appO2O系统PC被动采数据被动采数据监控被动采数据主动采数据推荐系统大数据应用App数据接口、ETL数据抽取、数据处理电商业务大数据应用系统电商业务大数据平台结构化数据半结构化 / 非结构化数据多数据源抽取并存储4Oracle点击流日志其他数据接口MySQLSQL Server分布式数据库Flume & Sqoop序列化ETL清洗HDFS 分布式文件系统电商业务结构化数据电商业务半结构化 / 非结构化数据电商业务结构化数据,通过两种途径抽取并存放到HDFS分布式文件系统中:能够序
3、列化的数据,直接存放到HDFS中;不能够序列化的数据,通过数据整理后统一存放在分布式数据库环境中,再经过序列化后再存放到HDFS中,经整理后还不能序列化的数据也直接存放到HDFS中;电商业务半结构化和非结构化数据:各种日志数据(通常序列化半结构化数据)直接存放到HDFS中;点击流和数据接口中的数据(通常序列化半结构化数据)直接存放到HDFS中;非结构化的数据直接存放到HDFS中;NoSQL数据处理5OracleMySQLSQL Server分布式数据库Flume & SqoopETL数据处理结构化数据(电商业务数据)数据处理要解决的问题:重复的数据处理缺失的数据处理格式不统一的数据处理检查数据
4、逻辑错误需要进行计算的数据处理数据处理包括数据清洗、数据转化、数据提取、数据计算等处理方法。数据处理最基本的目的是从大量杂乱无章、难以理解的数据中,抽取并推导出对解决问题有价值、有意义的数据。数据处理对收集到的数据进行加工整理,形成适合数据分析的样式,是数据分析前必须经历的过程。数据清洗数据转换数据提取数据计算在线商城大数据组织及存储6HDFS分布式文件系统中存放海量的结构化和半结构化数据,合理化组织数据的存储:电商业务结构化数据和有一定格式关系的半结构化的数据存放在Hadoop Hive数据仓库中,并根据海尔商业的业务需求,根据业务主题进行数据集市的构建;在线商城业务中半结构化的数据直接存放
5、在HDFS分布式文件系统中,一定格式关系的半结构化数据存放在Hadoop HBase列族数据库中和其他NoSQL数据库中;分布式文件系统(存放电商相关业务数据)HBase列族数据库Hive数据仓库数据集市NoSQL数据库(文档、图形数据库)Storm实时流式计算框架监控数据接口、ETL数据抽取、数据处理在线商城数据平台Hadoop Hive数据仓库业务主题数据集市业务主题大数据计算框架7Storm内存流式计算框架Hadoop离线计算框架Spark 并行计算框架计算层Storm实时内存流数据计算框架:一个分布式的、容错的、实时的内存流式计算系统;Hadoop离线大数据计算框架:大数据离线批处理系
6、统,传统大数据离线MapReduce计算分析;Spark并行大数据计算框架:Hadoop MapReduce的通用的并行计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。适用于实时查询分析适用于离线的大数据统计分析适用于大数据并行计算根据在线商城数据分析的实时性和延时需求,可选择不同的大数据计算框架构建查询分析业务:数据引擎-大数据应用8行业业务属性决定计算的逻辑,计算数学是实现计算逻辑的方法(利用数学领域的算法
7、和理论)数据分析不仅仅指运算数据,还包括全面了解数据分析所处的背景和环境数据分析结果可以保存在多种结构中数据也可以在不同的分布式集群之间进行传输、复制、同步数据分析结果可以通过多种展现形式(表格、各种展现图)进行数据展现行业属性 + 算法 = 大数据应用系统(帮助用户自动化数据分析:BI商业智能、个性化推荐、智能供应链管理)BI商业智能智能供应链管理关系型数据库可视化数据展现其他存储集群告警外部数据接口中间计算结果及数据接口推荐系统大数据应用App 数据引擎电商业务大数据应用系统在线商城精细化业务营销-数据分析9在线商城精细化业务运营数据分析描述性数据分析EDA探索性数据分析CDA验证性数据分
8、析常见的分析方法,统计商城常规性指标。商城BI分析,KPI制订和监控数据分析是指用适当的统计分析方法,对收集来的大量数据进行分析,提取出有价值的信息,总结出所研究对象的内在规律。侧重在数据之中发现新的特征,高级数据分析商城的智能供应链管理、推荐系统侧重于验证已有假设是否成立,高级数据分析商城的智能供应链管理、推荐系统在线商城精细化业务-BI商业智能分析10平均订单金额 = 下单金额/下单单量客单价 = 下单金额/下单客户数客单量 = 下单单量/下单客户数客户转化率 = 下单客户数/访客数下单转化率 = 下单单量/访问次数提交单量,统计时间内(按天、周、月统计)用户成功提交的总订单量,包括先款订
9、单量(在线支付、公司转账、邮件汇款等)和先货订单量(货到付款、各类自提等)和未付款的订单。销售额 = 访客数 * 转化率 * 客单价,提升商城的总收入主要考核的KPI公式。当电子商务网站的老客户的比例比较高的时候,转化率比较高,所以提升老客户的活跃度是提升转化率从而增加整体收入的一个有效手段。内配调拨内配调拨内配调拨(优选)内配调拨补货补货补货智能供应链管理库存模型11一级库RDC供应商供应商一级库RDC二级库RDC二级库RDC二级库RDC前置库FDC二级库RDC二级库RDC二级库RDC前置库FDC前置库FDC补货和内配调拨采购补货只能发生在一级库、二级库直接向供应商采购补库存:供应商 - 一
10、级库供应商 - 二级库内配调拨,一级库、二级库和前置库之间可以相互进行内配/调拨补货:一级库 - 二级库 -前置库一级库 - 前置库注:前置库优先于主线上级二级库进行内配调拨,次选上级邻近二级库;智能供应链管理12销量预测供应商消费者自动补货健康库存预知未来的营销保证现货率直销商品处理库存管理买卖向谁买?买什么?怎么买?定价?做促销?如何履约?大数据驱动供应链销量预测 建立模型13零星销量汇总历史上层持续增长稳定线性回归,指数平滑平稳季节性季节性周期短历史移动加权平均影响销量的因素:影响因子:价格、流量、温度各个模型的权重系数,同品类的商品可以用多种模型计算,再根据每种模型的权重进行加权均方差
11、的计算,计算出最终销量预测销量预测业务算法模型:新品模型保守模型季节性模型不动销模型决策树模型月均价格模型市场需求回归模型趋势跟随的价格模型神经网络、机器学习、聚类模型纳入促销计划的价格模型销量预测数据清洗14销量预测结果后,需要考虑去除相关数据:促销数据价格变动数据清仓数据在销量预测计算过程中,凡是由价格变动引起的因素,都需将模型进行清洗和过滤。自动补货模型15根据销量预测进行补货:补货点(LOP):安全库存 + VLT(到货周期)天数内的销量备货周期(BP):一次采购量可满足的销售天数目标库存(TI):补货点 + 备货周期BP天数内的销量0补货点目标库存0补货点目标库存健康库存(库存模拟与
12、预测)16监控在线商城的商品以及全国配送中心的库存健康情况,分析库存异常的原因并给出处理建议,提供滞销商品报告。库存健康模拟产品未来的一个时间点,提前做出滞销、降价、退货等处理。保证库存不是一个最大的值而是一个最合理的值。用补货点与安全库存点的逻辑关系来提升整个补货效率。个性化推荐系统17推荐系统18推荐系统,根据不同客户的兴趣特点和购买行为,预测客户对某种商品感兴趣的程度,向客户推荐商品信息或提供个性化商品,引导客户购买。帮助客户找到感兴趣的、愿意购买某样商品的兴奋点,形成购买行为;基于用户的:收集用户的信息属性,对于每一个用户A,找到跟他比较接近或者相似的一些用户。根据这些相似的用户的信息
13、对用户A的兴趣点进行预测,挖掘出用户A潜在的兴趣点。基于物品:收集物品的信息属性,对每个物品X找到一些类似的物品。一个用户如果对X有很高的兴趣,那么这个用户很可能也对X相似的其他项目感兴趣。基于知识库的:除了用户和项目信息,还需要进一步分析用户的评价内容和反馈。用向量表示数据19编号问题1是否为男性?2一线城市的用户?3月收入是否超过7000元?435岁以上?5最大的购物金额是否大于1000元?6购买次数大于10次?7是否写过商品评价?8是否介绍过其他人购买商品?9客单价是否超过200元?10本周的访问次数是否大于2次?用户答案用户距离A1,1,1,1,0,0,1,0,0,00B1,0,0,1
14、,0,0,1,0,1,00.3C1,1,0,0,0,0,0,0,1,00.4D1,1,0,1,0,0,1,0,1,00.2E1,1,1,1,0,0,1,0,0,00F1,1,1,1,0,0,1,0,0,10.1G1,1,1,1,0,1,1,0,0,00.1H1,0,1,0,1,0,1,0,1,10.5I1,1,1,1,0,1,1,0,1,00.21,1,1,1,0,0,1,0,0,0以用户A的属性为基准条件,进行用户对比,客户距离小于等于0.1的为一个客户群体例如:用户B的属性答案与基准条件进行对比,其中有3项是不同的,用户距离就是3/10=0.3与用户A距离小于等于0.1的有3个用户,所以找
15、到与用户A“相似”的E、F、G用户为一个相似客户群体;如果与用户A“相似”的用户有1000人,其中有900人购买了海鸥五星手表,那么用户A也非常有可能对这款商品感兴趣;千人千面精准营销用户画像20行为建模数据收集用户画像网络日志数据用户行为数据网站交易数据文本挖掘自然语言处理机器学习预测算法聚类算法协同过滤用户属性用户购买能力用户兴趣行为特征心里特征性别角色千人千面精准营销用户画像21性别年龄教育程度星座腰围身高体型家中是否有孕妇孩子年龄是否有孩子孩子性别是否有车是否有房用户的关系网婚否收入活跃程度购物类型评价关注程度颜色偏好品牌偏好家电的潜在购买需求促销敏感度购物忠诚度购买力消费信用水平所属
16、购买群体基本属性购买能力行为特征社交网络心理特征兴趣爱好千人千面精准营销用户分群22海淘犹豫型理性比较型购物冲动型目标明确型用户浏览SKU数量用户浏览至购买的时长学校公司家网吧用户分群网购达人有房一族家庭用户单身贵族时尚男女奶爸奶妈闪购用户超级用户电脑达人数码潮人千人千面精准营销23性别:男年龄:26-35购买力:高收入:8000需要:商务机价位:4000颜色:黑/红用户画像个性化搜索体系个性化推荐体系千人千面情感分析在线商城精细化业务运营系统构建流程24在线商城精细化业务运营系统构建25第一,建议部署在物理服务器环境中,根据初期的数据容量和分析业务的实时性,估算硬件的配置、合理化选择Hado
17、op及NoSQL的模块、组件及规模;第二,在N个工作服务器环境中部署HDFS分布式文件系统,并部署Hadoop平台的相关组件HBase、Pig、Hive、Zookeeper、序列化传输等产品和组件;第三,部署NoSQL分布式数据库,确认使用的产品,例如MongoDB或者巨杉数据库;第四,根据电商业务数据的格式和容量,抽取业务数据,并存放到Hadoop平台中并合理化数据组织,根据业务需求主题,建立数据集市。第五,根据电商推荐业务分析的实时性,考虑使用实时数据分析计算还是使用大数据传统切片计算框架或者并行计算框架;第六,结合业务数据的分析需求,建立BI商业智能分析、智能供应链管理、电商推荐系统大数
18、据引擎;第七,可视化数据展现,对数据实时监控和数据分析结果以图表等方式进行展现;推荐硬件及运行环境26服务器配置建议处理器:两颗以上(单颗8-10核心)2.6-3.0GHz CPU内存:64-128GB硬盘:10 * 2TB SATA硬盘网络:万兆网络、千兆以太网(管理)注:NameNode管理节点可以做RAID,DataNode工作节点不能做RAID。一个tacktracker上同时运行的任务数取决于一台机器有多少个处理器;27网络拓扑建议28一机架内30台左右服务器共享一个10GB的交换机;各机架的交换机通过上行链路与一个核心交换机或路由器互联(10GB以上);同一机架的不同服务器之间的带宽远高于不同机架上节点间的带宽;Hadoop分配MapReduce任务时会倾向于执行机架内的数据传输,尽量避免跨机架的数据传输;核心交换机交换机(1台)(30台)服务器交换机(1台)(30台)服务器机架1机架2在线商城精细化业务运营系统配置建议NameNode + JobTrackerSecondary NameNodeHBase Master + ZooKeeper生产集群20台=1台1台1台+DataNode + HBa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度年福建省高校教师资格证之高校教师职业道德全真模拟考试试卷A卷含答案
- 2024年xx村年度脱贫户、监测户增收工作总结
- 牛津译林版英语高三上学期期末试题及答案指导
- 机电工程师招聘面试题与参考回答(某大型国企)
- 新修订《疫苗流通和预防接种管理条例》培训试题及答案
- 2024年简化货品采购协议格式
- 2024年限定区域分销商协议条款
- 2024年度工程领域劳务协议范本
- 2024年新汽车租赁经营协议样本
- 2024全新保健品商业合作协议样本
- 山东省济南市历下区2023-2024学年八年级上学期期中语文试题
- 图神经网络在生物医学影像分析中的应用
- 浅谈管理者的自我管理
- 第一章 结构及其设计 课件-2023-2024学年高中通用技术苏教版(2019)必修《技术与设计2》
- 语文教学常规检查表
- “思政”课社会实践
- 临时用电漏电保护器运行检测记录表
- 复杂性尿路感染
- 重度残疾儿童送教上门
- 膀胱癌综合治疗新进展
- 音乐ppt课件《小小的船》
评论
0/150
提交评论