议题3电信场景下spark一站式分析平台_第1页
议题3电信场景下spark一站式分析平台_第2页
议题3电信场景下spark一站式分析平台_第3页
议题3电信场景下spark一站式分析平台_第4页
议题3电信场景下spark一站式分析平台_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电信场景下Spark一站式分析平台夏命榛2014-08目录Page2电信大数据场景与关键技术1.2.数字足迹案例3.平台和关键技术Page3Page4Page5过滤生成详单数据模型实时KPI计算/CEP探针周期上报仪表盘15min~sec~sec~msec详单查询~hour~min事件产生探针实时上报~msec事件产生…实时KPI15分钟KPI报表(现状)15分钟KPI报表(优化后)1小时KPI报表(现状)天级KPI报表(现状)15sec1min>2hour报表查询15分钟报表统计HDFS挑战:1、HDFS的入库性能2、高性能实时流处理场景一:业务KPI统计分析Page6区域人数分布热力图直观的显示居住区、CBD、旅游点、软件园等区域各时段人数变化情况。OD图与算法(区域间人口流动)与地图的结合,使用者可自由指定感兴趣的区域,查询指定功能区域间人口流动情况,如高档住宅区及CBD间的人口流动情况,为城市规划,广告屏和店面选址等应用提供宏观参考数据。区域流量分布热力图直观的显示出区域内用户对视频流量的使用,确定价值客户挖掘区域范围,同时也为后继的网规网优、路网规划、广告推广等提供宏观参考数据。用户相似度计算分析和对应的数据套餐推荐:结合用户上网的流量使用信息,挖掘出相似性用户,把用户使用套餐多的选择推荐给其他相关类似用户,期望扩大运营商的销售收入。(基于个性化的协同推荐算法)场景二:用户流量使用的关联分析电信行业数据源及数据特征一览领域类别项目数据源特征属性M域企业管理ERP/供应链/财务/人力资源信息等人交易型(点操作)、符合3NF规范构筑数据模型、结构化存储100TB级容量、响应速度10~100毫秒以人为核心的数据B域用户数据定购业务信息交易型(点操作)、符合3NF规范构筑数据模型、结构化存储TB-PB级容量、响应速度要求10~100毫秒用户终端信息(型号、机型、模式、操作系统等)用户信息(用户消费习惯、开户信息、ARPUGroup)业务数据业务基本信息交易型(点\批操作)、部分符合3NF规范构筑数据模型、结构化/非结构化存储(如阅读基地等)PB级容量、响应速度要求1~10毫秒业务定购关系业务使用记录(计费、排行、定价等)O域网络数据话单/清单/信令数据机器结构化数据、以文本或表格形式存储,具备嵌套特征100TB-PB级容量、响应速度100毫秒工单数据人交易型(点\批操作)、符合3NF规范构筑数据模型、结构化GB级容量、响应速度秒级以网络控制信息为核心的数据统计数据机器结构化数据、以表格形式存储100TB-PB级容量、响应速度100毫秒性能数据故障/告警数据结构化数据、以文本或表格形式存储,具备日志特征TB级容量、响应速度10~100毫秒位置信息网络接入信令结构化数据、以文本或表格形式存储,具备日志、时空特征PB级容量、响应速度要求1~10毫秒基站信息地图/轨迹信息人/机器以人为核心的数据管道中流的数据互联网数据以http协议数据为主,如网页/点击/URL/视频等非结构化数据、以文本形式存储,具备日志特征PB~10PB级容量、响应速度要求1~10毫秒

物联网数据传感器数据/空间位置信息/时间序列机器结构化数据、以文本形式存储,具备日志、时空特征100PB级容量、响应速度要求1~10毫秒以物为核心的数据电信网络的数据按人、按网络、按负载目录Page8数字足迹案例2.1.电信大数据场景与关键技术3.平台和关键技术电信大数据电信网络核心数据资产:ID、网络交互、移动位置。实现用户、网络、社会的数字化映射,实现闭环优化和能力开放。基于位置的应用是目前探索较少的领域。Page9CustomerInternetRNCxGSNPCRF音乐游戏大数据分析电商企业应用行业应用TelcoNetworkBSS,CRM,HLR,OCSControllerVAS21IP网络NetworkOS探针阅读视频动漫…自营业务第三方应用运营探针数据互联网数据运营数据M2M物联网数据闭环优化能力开放用户网络社会数字足迹Page10GSMUMTSLTE应用道路规划精准营销根据用户的移动位置记录,分析用户的时空行为特征,支撑LocationInsightServiceDemo数据用户数:18个RNC,125万用户每天位置记录数:12亿每天数据量:80GB数据采集数据分析BSCRNC位置聚合时空分析位置采集匿名化区域道路人全网用户,广覆盖,全时段,连续性好数据处理Page11SparkRealtimeMRLocationcomputeHDFSCubebuildingMOLAPHDFSAPIDataMiningStream/GeoFencingMR

MD-modelPointmodelad-hocqueryLocationcomputeTrajectoryAnalysisad-hocqueryPage12数字足迹DemoPage13精准营销实时监控Page14道路规划精准营销灾难救援店铺选址平安城市智能交通节能减排广告评估用户洞察与数据面关联分析与信令面关联分析目录Page15平台关键技术3.1.电信大数据场景与关键技术2.数字足迹案例平台架构-顶层Page16通用服务器PCServer2288数据探索数据挖掘可视化批处理流计算预处理预处理位置数据清洗地图数据集成特征提取数据选择数据探索SparkSQL统计分析OLAP时空查询、行为分析数据挖掘道路匹配轨迹聚类频繁轨迹挖掘可视化Google/Baidu地图报表echarts“茶壶里的饺子”Page17平台架构-细化平台核心能力Page18通用服务器PCServer2288数据探索数据挖掘可视化批处理流计算预处理数据采集和组织追求信息完整,高效组织分布式计算追求Scaleout,性价比,多计算模式算法、模型追求智能,平台化,平民化算法模型Page19点模型栅格时空模型语义时空模型数据预处理轨迹分段地图语义标注道路、POI一系列时空点一系列轨迹一系列语义轨迹智能交通Zone统计分析,道路拥塞分析精准营销人群属性,职业,购买力分析平安城市时空行为分析,异常轨迹分析数据挖掘语义时空模型1、针对位置的ST-Matching道路匹配算法2、时空聚类、频繁轨迹挖掘、拥塞预测栅格时空模型1、100M*100M栅格2、数据量压缩10倍以上3、后续分析加速5倍以上位置记录地图数据实时流计算Page20对实时数据流做即时分析,一般要求亚秒级处理时延独特场景:不允许将数据存下来再分析的场景。将数据存储下来再分析成本不可接受的场景。需要低时延输出结果的场景,时延越小价值越高,如算法交易。华为自研流计算StreamSMART的体系架构流数据源StreamSMARTRuntime流数流输出StreamSMARTStudioIDEReportOLAPDatamingMPPDBDWHRTD*Self-MonitoringAutomaticRecoveryTechnology华为自研流计算StreamSMART流应用开发Health&LifeSciencesStockmarketSourceSinkSourceSource算子算子算子算子算子算子算子算子算子算子算子API接口分布式运行环境集成开发环境工具包流处理语言IDE开发方式面向业务专家,系统提供IDE环境,根据业务需要快速构建大部分的业务应用。API开发方式面向软件开发员,通过调用API构建应用通用服务器套餐实时推荐场景测试结果Page23组件EDR流量与XDR流量对比流速率(万事件/秒)CPU使用(%)内存使用(GB)storm1:114510023storm1:10153100storm1:40146100StreamSMART1:13034016StreamSMART1:1032627StreamSMART1:4036327SparkStreaming1:134~46(1s,2s,5s,10s)80SparkStreaming1:1042~6575SparkStreaming1:4049~6560~90注:SparkStreaming的测试未经调优SparkStreaming优缺点理论分析优点Exactlyonce语义,应用不易出错(一致性)容错恢复方式比连续计算模型的效率更高是Spark生态一部分,易于“Marketing”缺点每个小批量启动都要联系Master,带来处理延迟应用需编程,无成熟CEP方案和CQL语言RDD不可变性带来大量小Object,对GC冲击较大适用场景准实时统计类应用,半分钟级时延对容错要求高,吞吐量要求高的场景必须和离线计算维护一份代码的场景华为自研多维分析:SparkOLAPJDBCHDFS历史详单MOLAPMOLAPMOLAPRDDPartitionRDDPartitionRDDPartitionOLAPRDDCubeStoreAPILoadLoadLoadHDFS实时流处理NewDataRDDPartitionRDDPartitionJDBCRDDHDFSHDFSMPPDB详单详单详单MPPDBNewDataConnectorLodadSparkOLAPPlanner(基于Catalyst扩展)Page25Page26SparkOLAPQueryProcessor

电信大数据关键技术点感知感知感知流并行文本视频图像轨迹时序图数据管理计算分析数据挖掘数据探索大数据平民化E2E开发环境接口可视化数据开放关键技术点感知:1、针对文本、视频、时空、社交等数据的感知和信息提取;如WebSensor探针和文本分析计算和管理:2、分布式文件系统提升IO吞吐;3、集中存储,统一格式免转换4、集中资源管理,统一调度多计算框架5、针对异构数据(时序、图、轨迹、流数据)的新计算模式,支持多数据多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论