版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于分布式架构的大数据商业建模Big Data Practitioner目录1大数据战略与应用创新2大数据建模技术架构3大数据建模应用场景4前言大数据的核心 预测数据多样, 多数据源,且高质量模型统计模型、机器学习为主广泛的交叉比对预测分析事件发生的可能性大量高质量数据 + 模型预测广泛的数据采集广泛的交叉关联大量的统计建模即时的模型应用大数据 vs 小数据大数据小数据数据源多种数据源,打破数据孤岛单一数据源数据结构非结构化数据为主结构化数据为主样本筛选用全部数据作为样本随机抽样关联和因果更重视关联关系更重视因果关系时效性实时性要求高实时性要求低应用重点洞察历史,预测未来当前业务流转数据应用演
2、进路线决策支持关系型数据库数据仓库联机分析数据挖掘商务智能数据可视化数据开放1940197019881993大数据全球的大数据产业和生态系统已经形成并初具规模全球大数据生态格局基础Hadoop: Cloudera HortonWork MapRNoSQL: Cloudant Couchbase数据管理: Oceansync Datadog数据安全与存储: Stormpath Nimblestorage分析平台: databricks dataspora非结构化: Palantir Quid可视化: visual.ly actuate日志: splunk loggly应用广告: eXelate
3、DataXu营销: Lattice Gainsight金融: Zestfinance Lendup教育: Panorama Knewton数据数据市场: bluekai DataMarket factual Azure Marketplace数据源: quandl premise xignite plaid开源框架Hadoop, Yarn Storm, Spark开源数据库HBase, MongoDBCouchBase, Neo4J开源计算Mahout, WabbitGraphLab, R开源其他Zookeeper, PentahoTalend中国大数据生态的六大趋势应用化从投入基础设施转向可
4、执行的分析与应用服务化一切皆服务 (SaaS, PaaS, IaaS, DaaS, MaaS)云端化一切服务皆为云 (所有企业数据和分析最终都会转移到云端)实用化 描述性分析 预测性分析 诊断性分析低成本化降低“去IOE”运动的技术及成本门槛整体化大数据整体解决方案:获取 存储 整合 分析 可视化01020304构建消费者完整兴趣图谱打通互联网和移动互联网多维度数据处理与实时计算用户隐私相关法律完善大数据商业建模与应用的挑战目录1大数据战略与应用创新2大数据建模技术架构3大数据建模应用场景4前言技术架构概要大数据时代的到来,数据的量、源都发生了剧烈变化,这种变化引发了变革,开源运动的进一步发展
5、为这场变革提供了催化剂。下面重点探讨商业模型技术架构如何应对这种变化:大数据应用大数据管理大数据技术电商互联网媒体线下零售家电制造汽车广电旅游金融运营商大数据解决方案统计模型最优化模型营销模型机器学习与数据挖掘模型可视化模型与可视化层RPythonScalaJavaC、C+SQLWekaSASProcessing分析工具层计算层提供的Java、C、C+、Python等的API,以及已知的对这些API的封装的开源软件,如:Rhadoop,Rhive,SparkR、Hadoop Streaming接口层模型层业务应用云需求层各种操作系统函数调度与封装Redis等非结构化数据库OracleMysql
6、等关系型数据库GraphXGraphProcessingMlibMachineLearningSparkStreamingSparkSqlSpark流计算框架MahoutPigGiraphHiveHbaseMap-Reduce计算框架ZooKeeper计算层HDFS分布式文件系统消息队列碰盘文件系统数据文件系统层Windows操作系统Linux、Unix操作系统操作系统层数据管理层HadoopSparkNimbus,Supervisor,WorkerStorm实时流计算框架GraphlabProcmodelGraphlabC+APIGraphlab图处理并行框架GraphlabStorm数据库
7、操作系统API大数据商业建模技术架构图大数据应用大数据采集业务数据汇集系统用户行为数据采集系统互联网公开数据抓取系统大数据清洗业务数据清洗系统用户行为数据清洗系统互联网公开数据清洗系统大数据标准化用户多重ID归一化系统商品归一化系统大数据结构化用户标签管理系统商品标签管理系统大数据管理大数据技术可视化数据操作平台百分点大数据底层技术平台数据全生命周期管理业务流程全生命周期管理业务价值挖掘建模数据访问资源管控(YARN/MESOS)分布式存储(磁盘及内存)数据获取安全( 认证 权限 ACL )监控 配置及报警安装及云服务电子商城个性化系统移动商城个性化系统媒体网站个性化系统在线营销支持系统门店营
8、销支持系统会员营销支持系统全网市场监控系统舆情管家商情管家用户洞察系统个性化推荐引擎(BRE)自动化营销引擎(BME)大数据分析引擎(BAE)微信商城个性化系统大数据产品全景图数据管理层说明数据管理层计算层数据文件系统层操作系统层硬件之上第一层,Linux, Unix,Windows所有建模工具,数据管理与处理系统都依赖于此HDFS文件系统,消息队列,磁盘文件系统及数据库文件系统提供数据处理、计算的框架和方式Hadoop, Spark, Storm等Oracle、Mysql等传统数据库提供了对结构化数据管理与处理的整套方法需求层模型层数据层模型层说明模型层模型与可视化层分析工具层接口层解决不同
9、业务应用场景的问题模型实现工具:R/PYTHON/JAVA等分析工具与数据管理层的API接口需求层模型层数据层R接口层交互方式总结工具基础层交互方式RHiveRHiveRHdfsRhdfsRMap-ReduceRmrRSparkSparkRROracle、MysqlRODBCRRedisRredisR与Hadoop的交互,通过Rhive,Rhdfs实现从Hive或者HDFS中读取/输入数据Rmr实现了用R完成Map-Reduce任务R与Spark的交互通过SparkR包实现R与关系型数据库的交互 通过RODBC实现R与Redis数据库的交互通过Rredis实现 百分点商业模型用户画像模型基于用
10、户兴趣爱好、购买行为、媒体浏览行为进行用户群体细分基于用户消费行为、商品使用行为等确定种子人群,通过相似度计算等方法进行人群扩散预估消费者效用函数,识别影响消费者购买的因素用户管理模型会员价值分析会员营销管理流失情况分析流失预警唤醒沉默用户预测新品上市销量和生命周期,描述扩散路径分解客户对某产品各种属性的偏好,以及客户对各属性重要度的判别协同过滤模型进行商品推荐文本挖掘模型分析用户对商品描述的偏好及用户的评价用LR模型等对广告点击率进行预估建立完整的消费者转化路径,对路径不同触点的渠道进行归因分析商品管理模型用户关系模型广告行业模型用户群细分模型用户群扩散模型消费者选择模型客户终身价值(CLV
11、)客户关系管理(RFM)用户流失预警点击率预估模型渠道归因模型联合分析模型协同过滤模型文本挖掘模型新产品扩散模型识别用户的关系网络发展领导者和潜在用户找到意见领袖扩展营销范围回归分析贝叶斯估计神经网络决策树时间序列分析Model Platform社会网络分析(SNA)目录1大数据战略与应用创新2大数据建模技术架构3大数据建模应用场景4前言真实用户的数字化(标签化)描述,是在深刻理解业务需求和用户特点的基础上得到的标签化用户画像的定义用户画像落地姓名、性别、联系方式、居住地址、收货地址、社交图谱、家庭成员、朋友圈、线上行为数据、线下行为数据标签是用户特征的符号表示,用户画像可以用标签的集合来表示
12、统计模型根据一定的业务规则生成用户标签算法模型利用机器学习算法(SVM、KNN等)生成用户标签商业模型利用商业模型(RFM、SNA等)生成用户标签数据用户画像建模用户画像标签用户基本信息用户行为信息社交信息业务类高奢人群.易流失人群 有车一族高购买倾向人群折扣敏感人群事实人口属性购物了什么品类会员信息浏览了几次.机器学习建模原始输入网站行为消费行为会员信息广告上行为.清洗、结构化、统计建模业务规则建模用户价值活跃度忠诚度影响力.商业模型预测模型预测人口属性当下需求人群属性消费能力潜在需求标签+机器学习建模用户画像标签层级自定义用户标签体系营销特征消费偏好购买意图内容偏好媒体兴趣人口属性上网特征
13、WEB站APP微信EDM年龄性别地域行业教育程度关健人生阶段屌丝高富帅高端人群雾霾营销人群营销活动接受度消费周期消费能力消费金额上网时长上网时段上网频次终端信息财经汽车房产医疗健康商品品类商品品牌价格区间用户画像是从客户实际业务需求出发,通过不同维度将用户标签化,目前百分点用户画像体系按人口属性、上网特征等5个维度将用户标签化,同时支持自定义标签体系,以支撑业务应用场景以业务需求为导向的360全景画像用户微观画像 案例1:TCL么么哒手机新品上市营销案例1:TCL么么哒手机新品上市营销项目关键点老用户营销微博营销甄别行业最有话语权的微博识别意见领袖找到想买手机的用户找到目标人群项目关键点原始数
14、据清洗及预处理用户行为特征提取协同过滤等用户特征 过滤输出酷友电商旗舰平台用户历史交易数据度量手机与其它品类相似性依据用户行为特征进一步过滤锁定目标人群识别终端消费用户消费频次消费品类价格承受程度案例1:TCL么么哒手机新品上市营销老用户营销模型筛选老用户, 找到最有可能购买的老用户,使用的算法为协同过滤、购买概率预测通过客音短信平台发送博文内容微博TCL相关Keyword搜索爬取评论内容用户信息想买么么哒手机人群ID想买竞品手机人群ID网络投入用户运营组人工触达(私信)甄别行业最有话语权的微博构建影响力指数模型识别意见领袖运用社会网络模型(SNA)运用情感分析文本挖掘技术转发内容转发大家一起
15、么么哒信息新品推荐新品导购软性文章案例1:TCL么么哒手机新品上市营销微博营销模型1影响力指数编制运用层次分析法(Analytic Hierarchy Process)确定指标权重。运用综合递阶加权方法测算各行业微博影响力指数。基于分类下的蓝V用户的微博影响力数据,综合加权计算出不同行业在微博平台影响力指标。影响力指数传播力指数覆盖度指数活跃度指数转发博文点赞数原创博文转发数粉丝数评论数案例1:TCL么么哒手机新品上市营销微博营销模型2社会网络分析(Social Network Analysis)运用网络理论(Network theory)分析社会网络结构要素:节点(Nodes)连接(Link
16、s)衡量:联结(Connections):同质性多重性相互性邻近性分布(Distributions)桥接中心度密度距离关系强度派别(Segmentation)聚类系数接应LinkNode案例1:TCL么么哒手机新品上市营销微博营销通过网络密度等指标衡量网络交互情况好坏网络中心性分析寻找意见领袖、活跃人物凝聚子群分析寻找有意义的小圈子SNA模型建模分析流程关系数据整合网络整体结构分析网络中心性分析凝聚子群分析结构洞分析SNA建模分析识别意见领袖模型2社会网络分析(Social Network Analysis)案例1:TCL么么哒手机新品上市营销微博营销案例1:TCL么么哒手机新品上市营销微博营
17、销模型3 文本挖掘模型抓取微博“想买”规则过滤标注微博未知微博SVM模型训练模型微博分类“想买”人群产品品类产品品牌规则集合1老用户营销通过协同过滤和购买概率预测建模后筛选出数据案例1:TCL么么哒手机新品上市营销模型应用筛选出前3等级用户进行客音短信推送等级一274人等级二3,612人等级三24,118人等级四19,197人等级五941,451人效果提升2微博营销10,000+人案例1:TCL么么哒手机新品上市营销模型应用微博有意向购买手机的用户运营人员进行触达购买手机的用户100,000+人 案例2:华为用户数据拉通与用户画像项目 案例2:华为用户数据拉通与用户画像项目商业模型在本项目的位
18、置网站用户行为商品数据用户基本信息数据存储标签(十五大类)人口属性服务领域花粉领域营销特征上网特征宏观画像微观画像用户行为统计模型人口属性统计模型商品关联度模型用户流失预警模型分类标签预测模型价值度模型商品推荐模型用户价值分群模型潜在需求模型商业模型前端应用。华为触点关注热点产品情感移动应用社交图谱用户类型第三方帐号内容偏好兴趣偏好。 案例2:华为用户数据拉通与用户画像项目什么是模型本项目的用户标签模型专指用于为某一用户生成具体业务标签的数据处理过程明确某标签定义后,盘点生成该标签所需的数据,设计用于该标签生成的数据处理过程,即该标签的标签模型华为用户画像项目标签模型统计模型算法模型商业模型业
19、务需求业务建模产出标签需求标签定义数据盘点模型设计模型优化与评估确定模型数据标签模型生成标签 案例2:华为用户数据拉通与用户画像项目以社交图谱标签为例数据:花粉俱乐部抓取数据和部码数据模型:SNA(社会网络分析)工具:R语言、RHDFS包产出标签:社交图谱标签,包括意见领袖、活跃分子、交际花社交图谱标签点数: 1,241; 连接数:5,803; 网络密度: 0.0039, 剔除孤立点,剩余结点862,网络密度:0.0056; 社交图谱的网络结构 案例2:华为用户数据拉通与用户画像项目以社交图谱标签为例社交图谱的网络结构图社交图谱的网络结构分析用户ID入度中心度牛肉小丸36我叫丶肉妞妞25华为荣耀大管家24XXX20被罚站的树817听天丶由命丶丶16Enjoyme内心16泰山足球14我的名字好
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《防灾避险》课件
- 财务部述职报告范文
- 亳州商铺调研报告范文
- 价值链整合平台模式规划(分享)
- 销售合同下载
- 七下语文23课知识课件
- 课件教学结尾
- 2024年度版全新工程款支付三方协议3篇
- 三年级下册教学课件下载
- 扳手课件教学课件
- 青霉素及其发酵生产工艺课件(共50页).ppt
- 截止阀合格证模板
- 精品资料(2021-2022年收藏)中国邮政工资200810范文
- 资本运营理论与融资重点整理
- 学生学习习惯家长问卷调查表家长问卷调查表
- 职业暴露及预防控制
- 转换开关方案PPT课件
- 氩气安全技术说明书
- 小企业创业基地(孵化器)调查问卷
- 常用钢制管件(弯头、三通、异径管、管帽)理论重量体积表
- 最全问诊PPT课件
评论
0/150
提交评论