版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SAP大数据分析平台方案议程大数据的技术特点及发展趋势-宋一平基于用户访问的大数据应用场景及Demo演示-孙戎&姚法主要大数据应用场景Demo演示主流媒体、网站的大数据应用场景SAP大数据解决方案-孙戎数据交换平台数据仓库平台数据管控平台数据的展现与可视化SAP建议的大数据解决方案及验证四个关键技术的发展方向IT 的消耗连通性Connectivity智能手机卖的比PC 多到2013年,将有超过150亿的移动设备连接到互联网云 Cloud到2011年,80% 新软件提供云服务的能力社交媒介Social Media有超过10亿的人们访问社交网络Facebook 超过 Google,作为访问最多的网
2、站大数据 Big Data数据量每18个月增长一倍,其中 85% 非结构化数据也包含在业务领域传统IT架构不堪重负迫使不断寻求新的技术 例如 Hadoop全球2014年全球数据总量4.1ZB85% 来自于新数据类型2020年将有10倍增长,将达到40ZB未来新的数据源 (情感, 点击流,地理、传感器等)中国2013年中国数据总量0.8ZB2013年数据量是2012年的两倍2013年中国相当于2009年全球数据量2020年将是2013年10倍,将达到8.5ZBRef: HortonworksKB-MB-GB-TB-PB-EB-ZB-YB-NB-DB大数据分析案例Netflix (奈飞)在美国有
3、2700 万订阅用户,在全世界则有 3300 万,每天高峰时段网络下载量都是出自 Netflix的流媒体服务,现在人们在网上看流媒体视频比看实体 DVD 的时间还多。每天用户在 Netflix 上产生 3000 万多个行为,比如你暂停、回放或者快进时都会产生一个行为,Netflix 的订阅用户每天还会给出 400 万个评分,还会有 300 万次搜索请求,询问剧集播放时间和设备等成功美剧的要素:导演:大卫芬奇 David Fincher(社交网络、七宗罪)奥斯卡影帝:凯文史派西 Kevin Spacey (王牌对王牌,洛城机密)典型的BBC剧型大数据分析案例美国总统奥巴马的再次当选创造了奇迹:在
4、他获胜前的 70 年时间里,没有一名美国总统能够在全国失业率高于 7.4% 的情况下连任成功;如何获得更多选民支持以及让他们掏腰包,奥巴马团队比罗姆尼团队更加聪明:奥巴马与罗姆尼均获得近 10 亿美金筹款,而其网络筹款是罗姆尼的两倍;奥巴马在整个竞选过程中的花销不到 3 亿美金,而罗姆尼花了近 4 亿美金却仍然败选;奥巴马最终以 332 票赢得选举,高出罗姆尼近一百张投票,而在大选前一周的一项民调中显示,55% 的被调查选民都认为罗姆尼比奥巴马更具有未来视野!成功当选的要素:实时分析社交媒体信息,掌握各州舆情掌握“微观智能”,实践“微竞争”实现花少钱,办大事大数据 Big Data维基百科对大
5、数据的定义:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。VelocityVolumeVarietyMobileCRM DataPlanningOpportunitiesTransactionsCustomerSales OrderThingsInstant MessagesDemandInventory简单明了Gartner定义:“大数据是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。”大数据是一种观念、文化、创新思维、洞察力什么是大数据? 4V特征Volume海量数据TB、PB Variety结构化数据非结构化数
6、据Velocity实时查询即席分析BIG DATAValue预测分析发现价值从 DB 到 BD 数据库(Database, DB)到大数据(Big Data, BD)1、数据规模:譬如VLDB(Very Large Database),和“大海”XLDB(Extremely Large Database)相比仍旧偏小。“池塘”的处理对象通常以MB 为基本单位,而“大海”则常常以GB,甚至是TB、PB 为基本处理单位。2、数据类型:DB 数据的种类较少,而以结构化数据为主。BD 数据的种类繁多,包含着结构化、半结构化以及非结构化数据,并且半结构化和非结构化数据所占份额越来越大。3、模式(Sche
7、ma)和数据的关系:DB 先有模式,后产生数据。BD 时代难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。4、处理对象:DB 中数据是处理对象。BD 中除了数据是处理对象之外,还可通过某些数据的存在来判断其他种类的数据是否存在,要将数据作为一种资源来辅助解决其他诸多领域的问题。5、处理工具:DB 采用所谓的One Size Fits All。BD 是说No Size Fits All。传统数据和大数据的区别大数据之前,依赖模型及算法当数据越大时,数据本身(而不是研究数据所使用的算法和模型)保证了数据分析结果的有效性。只要拥有足够多的数据,也能得到接近
8、事实的结论。数据足够多时,利用相关关系,无需知道因果关系就能得出结论Google 翻译时,并不设定语法和翻译规则。而是利用Google数据库中收集的所有用户的用词习惯进行比较推荐。当用户行为的记录数据越来越多时,计算机可在不了解问题逻辑的情况之下,提供有效的结果。能处理多种数据结构,大数据利用互联网上记录人类行为数据进行分析以前,计算机能处理结构化数据,并记录在数据库中。大数据技术降低对数据结构的要求,社交信息、地理位置信息、行为习惯信息、偏好信息等各种维度的信息都可以实时处理,立体完整地勾勒出每一个体的各种特征。大数据技术大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocit
9、y)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT 领域新一代的技术与架构。HadoopHadoop集群架构HadoopNameNode10s to 1000s DataNode(s)Hadoop软件架构计算引擎Map-ReduceHiveHBaseMahoutPigSqoop数据存储HDFS一个开源的分布式处理大数据的系统架构,由Apache基金会开发大规模、低廉的服务器集群HDFS:Hadoop分布式文件系统,PB级别Map / Reduce:并行计算框架在较低成本下,处理分析无限容量的任何格式数据, 但性能较慢HADOOP
10、2.0Hadoop发展趋势HADOOP 1.0Single Use System 单一使用系统Batch Apps批应用Multi Purpose Platform 多用途平台Batch, Interactive, Online, Streaming, 批, 交互, 在线,流处理MapReduce(cluster resource management 集群资源管理& data processing 数据处理)HDFS(redundant 冗余, reliable storage 可靠的存储) YARN(cluster resource management 集群资源管理)HDFS2(redu
11、ndant 冗余, reliable storage 可靠的存储) MapReduce(batch 批)Tez(Interactive 交互)Others(varied 多样化)Hadoop 不等于大数据但提供了一个低成本的大数据存储方案15% 的世界500强企业,在2015年前将要开始挖掘大数据的价值89% 的客户还在使用传统的RDBMS作为他们的大数据方案一部分50% 的大数据客户正在或将要采用Hadoop方案34% 的Hadoop用户存储和分析的数据100TB 55% 的Hadoop用户每天跑多于1次的分析任务,18%的Hadoop用户每小时执行多于1次的分析任务国外企业的Hadoop应
12、用基于客户交互数据的目标市场预测分析欺诈侦测与安全检查数据探索与机器学习搜索日志的分析和网页数据的挖掘工作。其中一个由1100台节点组成的集群,包括8800核CPU和12000TB的原始存储用于存储并处理电子商务交易的相关数据。集群超过1700个节点,数量总量已经超过17个PB,每天净增长20T左右。每天在Hadoop集群运行的MapReduce任务有超过4万(有时会超过6万),其中大部分任务是每天定期执行的统计任务,例如数据魔方、量子统计、推荐系统、排行榜等等。这些任务一般在凌晨1点左右开始执行,3-4个小时内全部完成。每天读数据在2PB左右,写数据在1PB左右目前已经在江苏省上线的Mc+A
13、bis信令共享平台,就是由珠海世纪鼎利承建的基于Hadoop框架的云平台构建了一个公用云平台;有自己的商业版Hadoop解决方案;Hadoop社区的积极贡献者。国内企业的Hadoop应用数据中心的数据源范围全国业务支撑系统中的数据集合生产系统中的非结构化数据,例如合同、发票扫描件等网页内容;互联网视音频;博客、微博、论坛数据;邮件;广告数据;客户行为轨迹等位置信息;监控视音频数据;传感数据等传统类数据互联网类数据物联网类数据其他类数据IDC数据等数据中心的数据当量为PB级,在数据爆炸时代,很容易达到EB级1ZB=1,024EB=1,048,576PB=1,073,741,824TB云数据中心与
14、传统数据中心的区别云计算数据中心是一种基于云计算架构的,计算、存储及网络资源松耦合,完全虚拟化各种IT设备、模块化程度较高、自动化程度较高、具备较高绿色节能程度的新型数据中心。云数据中心的特点:高度的虚拟化,包括服务器、存储、网络、应用等虚拟化,使用户可以按需调用各种资源;自动化管理程度,包括对物理服务器、虚拟服务器的管理,对相关业务的自动化流程管理、对客户服务的收费等自动化管理;绿色节能,云计算数据中心在各方面符合绿色节能标准,一般PUE值不超过1.5云数据中心与传统数据中心在区别:云数据中心的基础设备更加规模化、标准化,由此带来了管理的复杂性。云数据中心为了节省成本、实现日益增多的业务,须
15、采用各种虚拟化技术。管理差异,体现在自动化方面。在云数据中心,当业务需要迁移、设备需要统一配置、故障需要及时检查排除、流程需要跟踪时,如何高效管理这样海量的设备和应用?当然需要通过自动化的手段来实现。云数据中心的出现无疑是新的进步,除了高度的虚拟化等特征,还包括新技术和新产品,如低功耗CPU,固态硬盘等。服务器架构的发展趋势磁盘存储CPU内存Log瓶颈数据磁盘存储Log数据备份 更高密度的CPU核心和内存计算提高吞吐量水平可扩展以满足高并发和不断增长的业务需求更经济的采购和运维成本NLS传统小型机x86 新型服务器CPU内存.分布式水平扩展大数据价值实现的难点复杂性易于获取多样性实时性可执行行
16、业特定业务场景及业务规则特定算法分析结果易于获取决策能够有效送达(人、机器)对决策能快速反应要了解相关资源情况能够获取执行结果实时性要求高随机性高数据来源数据结构数据范围数据获取方式21大数据:从数据到价值数据捕获与采集数据存储与管理数据分析与挖掘结果展示与决策开展行动与评估批处理ETL复制与同步数据众包复杂事件处理结构化非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理A/B Testing关联规则分析分类 / 聚类遗传算法 / 神经网络预测模型 / 模式识别时间序列分析回归分析系统仿真 / 机器学习空间分析社会网络分析自然语言分析Map
17、Reduce / R语言标签云聚类图空间信息流热图信息推送确定行动内容确定资源确定时间确定位置反馈计划实际对比基于用户访问的大数据应用场景及Demo演示SAP HANA 平台所有SAP应用运行的最佳平台SAP HANA是SAP战略的核心所有的SAP应用都可以运行在HANA平台上,大部分已经进行了优化SAP HANA可以基于云或传统模式进行部署SAP HANA可以基于私有云 (HEC) 以及平台云部署(HCP)SAP HANA由通过第三方的共有云提供(Amazon AWS, Microsoft Azure)核心业务处理流程S/4HANA数据仓库与数据集市例如:BW on HANA高级分析 BPC
18、, S&OP, CO-PA操作型报表, BI HANA Live, Lumira云方案Successfactors, Sales, Service and Marketing大数据Customer Engagement IntelligenceIoT 预测性维护SAP HANA 市场领先的内存数据库平台The Forrester Research WaveForrester研究中的亮点“SAP 内存数据库技术开始得到市场的认可.” Noel Yuhanna, ForresterSAP HANA 平台在策略和现阶段能力的评分都得到了最高SAP 是唯一一个在远见得到满分的公司SAP 是唯一一个在数
19、据管理和交易能力方面得到满分的公司SAP 还在其他方面得到了满分,其中包括执行,市场表现,合作伙伴,分析能力等Source: The Forrester WaveTM: In-Memory Database Platforms, Q3 15 SAP HANA 市场领先的内存数据库平台The Forrester Research Wave来源: Gartner (2016)年2月 /doc/reprints?id=1-2ZV8BTS&ct=160229&st=sbSAP 提供了IQ与HANA两套方案。HANA成为SAP数据仓库解决方案的核心SAP在数据仓库领域持续获得成功。BW on HANA的
20、用户持续高速增长。 SAP持续提升基于云的灵活部署能力,以及高可用性/容灾等方面方案。 SAP持续强化HANA与Hadoop以及其它数据平台的集成能力, 并且提供了Vora产品支持Spark,作为大型数据仓库的方案更加成熟和完善。数据仓库与数据管理分析系统2016年2月SAP HANA网站门户分析:-)预测性维护网络优化内部威胁探测实时风险管理资产追踪360度客户视图客户流失个性化关怀产品建议实时需求供应预测欺诈监测利用大数据来驱动业务更深入地了解客户的需求场景一:故障信息与工控数据相关性分析局限性ERP系统压缩机故障数据不足,粒度太粗,影响到故障关联工控数据的分析若IT数据足够,粒度合适,可
21、以进一步分析OT数据的模式及进行故障模式的预测场景介绍将ECC PM模块中的设备故障信息数据(IT)与工控系统收集的传感器数据(OT)进行关联。用户可以针对某一类设备具体的一次故障,然后以设备的故障日期为基线向以前时间倒推查询工控系统中设备运行数据。由此观察设备故障与传感器信号的关联关系,展示设备故障模式。步骤数据采集:通过SAP HANA SDS(Smart Data Streaming)从SCADA系统实时推送压缩机运转数据(OT)到SAP HANA;通过SLT从ECC系统实时导入数据(IT)到SAP HANA数据存储:分别把IT数据和OT数据存放到不同HANA数据库表中 数据清洗:分析两
22、类数据之间关联性数据建模:建立信息视图,对两类数据进行实时快速的关联,聚合数据展示:使用SAP Business Object Design Studio直连HANA视图,通过组件交互反应数据间的关联关系,以多维度、可视化的方式对数据进行展示场景一:故障信息与工控数据相关性分析以地图展示故障发生站点(站点经纬度数据存储在SAP HANA中),及现有西气东输站点个数、设备数量及一年内总共发生故障数目和类型。场景一:故障信息与工控数据相关性分析点击其中一个站点,可将过滤应用到整个界面例如:点击“霍尔果斯”站点,显示霍尔果斯的故障类型和按月故障数量场景一:故障信息与工控数据相关性分析分析故障发生时间
23、、站点分布:如乌鲁木齐站点,15年1季度发生故障2次,2,3季度发生故障各1次。通过分析,1季度发生故障概率较高,故可在1季度末增加检修次数分析故障类型分布:所有站点中,停机维护共发生8次,所占比例最高通过分析,可在下年维修预算中,为停机维护提供较多预算场景一:故障信息与工控数据相关性分析点击其中一条故障描述,以故障/检修日期为基线,向前倒推查询压缩机转速数据,展示对应时间节点的发动机转速信息。场景一:故障信息与工控数据相关性分析经过分析,可通过转速判断出压缩机故障原因,例如图3转速不规律,可能是故障前的转速模式,故需要安排检修场景二:能耗相关分析步骤将管道压力跟温度作为独立因子,对压缩机的转
24、速进行拟合。数据预处理:选取6,8,10号压缩机在2014.10.19 2015.12.03的转速数据,将这三台压缩机的数据进行平均计算;同时选取在2014.10.19 2015.12.03期间的管道温度和压力数据;将压力,管道,转速的数据平均计算到每一天;去除转速小于1000的数据(可认为此时压缩机停止工作);再将这三项数据的日期进行关联,按日期维度进行后续建模。数据训练:将2014.10.19 2015.07.01期间的数据进行训练,选取多元回归(MLR)算法进行建模。数据预测:将所有数据(2014.10.19 2015.12.03)代入建立好的模型中进行压缩机转速的预测,拟合成一条曲线场
25、景描述基于某站点管线温度与压力,通过SAP HANA内置PAL算法,拟合出压缩机转速曲线(近似认为压缩机能耗模式)。局限缺少管线能耗数据温度,压力与压缩机转速数据契合程度低分析功能测试二:能耗相关分析压缩机拟合值,平均真实值,6号,8号,10号压缩机真实值的曲线场景三:防欺诈管理利用高效能的SAP HANA内存计算技术与业务流程相结合预警通知和管理采用实时模拟计算以减少误报利用SAP HANA内存计算技术处理海量数据针对不断变化的欺诈模式可以根据规则和预测分析进行检测更早地发现欺诈减少损失预防和遏制欺诈情况少花钱同时提高检测准确性分析性能调查检测实施设计*监视KPI关键绩效指标并生成管理报告采
26、用快速评测、评估和欺诈remediation方法对报警进行管理执行大量的和实时的检测任务,终止可疑的业务交易通过模拟和校准定义欺诈检测策略分析欺诈模式并定义检测规则和模型场景三:采用SAP HANA技术的SAP防欺诈管理方案SAP HANAIn-Memory(*) 可采用SAP HANA 、 SAP 预测分析 (可选) 或者第三方工具高性能处理海量数据主要收益与SAP和非SAP的运营系统的强大的数据集成能力对检测规则可以灵活地建模还可选择将欺诈状态提供给外部业务运营系统进行事件处理 (例如取消对欺诈的支付行为) 场景三:高性能应用架构一个灵活且强大的技术环境提高了检测效率BI 工具数据提供和集
27、成运营系统(SAP或者非SAP)工资支付付费采购订单差旅报销检测和告警调查和决策SAP HANAIn-Memory.在线演示:“云大物移” 网站分析所涉及的内容1、用户的访问体验怎么样?把自己当作网站的用户去访问网站,留意网站的潜在目标、客户体验和不便之处。顺便关注下竞争对手网站。2、网站的流量获取策略是什么样的?这些信息可从流量来源报告中获取。3、用户的留存情况与忠诚度怎么样?可查看用户忠诚度和新近度数据。4、如何发现和快速改进网站存在问题的页面?分析热门着陆网页。找出那些跳出率较高的着陆页面及其跳出率较高的原因,提供优化建议。5、哪些页面是最有价值的页面?页面价值和着陆页面的单次访问价值。
28、6、用户如何使用网站上的站内搜索?通过关键字标签云可以快速了解这些信息。7、用户在网站上有产生转化吗?分析目标和目标价值。8、营销预算是否需要优化?查看广告转化与效果。9、用户的转化流程顺畅吗?关注渠道可视化报告。10、分析报告中是否还存在盲点?可查看智能报告。网站的眼睛网站的神经网站的大脑访问来自哪里?访问者在哪里?哪些页面最受欢迎?访问者从哪里来?访问者从哪里进入?网站布局合理吗?网站导航清洗吗?哪些功能存在问题?网站内容有效吗?转换路径靠谱吗?如何分析目标?如何分配广告预算?如何衡量产品表现?哪些产品需要优化?哪些指标需要关注?网站分析是什么网站分析的目的、流程及价值如何完成网站的目标如
29、果你不能衡量它,你就不能改进他如何进行网站分析访问量访问来源媒介访问时间粒度地理位置目标页面新老访问网站流量多维分析指标维度维度自然搜索BD流量直接流量推介流量集中访问网站流量质量分析网站内容及导航分析首页列表页列表页列表页详情页详情页详情页详情页详情页详情页网站页面质量分析频道页详情页类别页离开网站返回首页离开网站质量数量网站用户分析1、用户统计监控分析各类用户群体的变化情况,看网站在吸引和保留用户方面的能力2、用户定向营销分析用户的行为来指导网站区分用户群体的营销3、用户调研用问卷和实验的方法了解用户的需求、建议和满意度社交媒体意见领袖的管理44社交媒体意见领袖管理解决方案有三个部分(如下
30、图所示):意见领袖的维护,意见领袖分析,意见领袖导控。通过三个部分,抓住媒体传播关键路径,有效和社交媒体的意见领袖建立良好的互动机制,意见领袖的识别与影响力评估45意见领袖评估的主要流程意见领袖影响范围分析网站转化分析创建网站分析体系1、定义网站目标期望网站达到的效果,创建网站时的原始动力2、细化网站的目标(目标=子目标+子目标)1、用什么指标衡量2、目标实现的时间范围3、如何操作3、分解网站的目标。多用“so what”反问自己如1、希望访问者来自哪里?2、希望访问者从哪里进入网站3、网站的哪些页面应该尽量多的被看到?4、访问者应该按哪些路径浏览网站5、访问者应该从哪里离开网站网站转化分析寻
31、找关键KPI指标的路径SAP大数据分析平台解决方案方案整体技术框架ERP数据SEM数据SRM数据PDM外部数据源OAEAM数据交换平台流数据(ESP)数据复制(SRS)ETL(Data Services)ESB(PI)数据管控平台主数据治理(MDG)元数据管理(信息管家)数据质量管理(Data Quality)数据标准管理数据安全管理企业级数据仓库平台PMISSAP HANAIn-memory computing分析SAP BusinessObjects BI探索, 仪表盘, 报表, 图表, 可视化SAP Lumira 数据分析与可视化SAP Predictive Analysis 预测分析S
32、AP大数据平台建议架构历史数据、非机构化数据Hadoop分布式文件系统HivePigSpark扩展数据层(冷存储)结构化历史数据扩展表磁盘数据结构化实时数据热表扩展存储(定义)SDAvUDFVoraModels / PAL / R温存储(动态分层)热存储(内存计算)数据老化自动搬移DLMCRM数据SAP 移动平台 (BI Mobile, Mobile ApplicationSAP大数据平台解决方案数据交换平台数据仓库平台数据管控平台数据的展现与可视化1SAP HANA Smart Data AccessSAP ESP - EventStream ProcessorSAP Data Servic
33、esSAP SRS - Replication ServerSAP LT Replication ServerSAP SQL Anywhere任何数据源数据迁移转换和持续数据Event StreamsData SynchronizationData VirtualizationODBCSAP HANAVirtual TablesData Sources (SP6: HANA, IQ, ASE, Hadoop, Teradata) Network Devices Wired / WirelessComplex Event Data SourceNon-SAP Data SourcesCloud
34、DeploymentsSAP Business SuiteTrigger-BasedLog-BasedETL, Batch强大的数据提供平台SAP的数据服务方案全面考虑数据集成, 数据质量管理, 数据切面及非结构化数据获取问题支持访问全部关键业务数据(任意数据源,类型和领域), 一体化平台全面解决数据的清洗、排重、归并、衍生、合并、统计、汇总等一系列数据加工问题结构数据非结构数据 一个运行时架构及一系列服务业务界面统一的元数据技术界面数据服务解决方案包数据抽取数据质量数据切面文本分析统一的管理环境(调度, 安全, 用户管理) 一套源/目标各类型数据库:OracleDB2Sybase ASESy
35、base IQSQL ServerInformixMySQLTeradataHP NeoViewNetezzaODBCSAP HANA全面接口支持各类型技术接口:Text delimitedText fixed widthEBCDICXMLCobolExcelHTTPJMSSOAP(Web Services)JSONSAP BusinessObjects Data Service性能强劲的执行引擎使用便捷的开发工具所有的任务在统一的图形界面开发易于使用,拖拽界面内带数据预览、结构分析、清洗和调试交付可信赖的信息集成数据质量管理跨越BI环境的元数据管理端到端冲突分析简化变动管理性能强劲的执行引擎
36、通过高性能并行架构支持网格计算最好的企业应用连接性实时和批处理数据整合Designer (Windows)Administrator (Web)Request-Response Access ServerReal-time ServicesJob Server and EngineHeterogeneous Data SourcesHeterogeneous Data TargetsWeb ApplicationsLocal RepositoryCentral RepositoryData IntegratorSAP大数据平台解决方案数据交换平台数据仓库平台数据管控平台数据的展现与可视化2SA
37、P 大数据 实时平台各种移动应用各种应用服务器SAP Business Suite 和 BW ABAP 应用服务器JSONR开放的连通性MDXSQLSAP HANA 平台SAP HANA 平台覆盖了数据库,数据处理,应用平台,预测功能,计划编制功能,文本分析和商务智能分析等功能,所以能为企业运营提供全面实时的支持。管理 Administration扩展的应用服务集成服务Deployment:数据库服务开发 DevelopmentOLTP | OLAP | Search | Text Analysis |Predictive | Events | Spatial | Rules | Planni
38、ng | Calculators处理引擎应用函数库 和 数据模型Predictive Analysis Libraries | Business Function Libraries | Data Models & Stored ProceduresData Virtualization | Replication | ETL/ELT | Mobile Synch | Streaming应用服务器 | UI 集成服务 | Web 服务器本地 On-Premise | 混合 Hybrid | 按需 On-Demand支持各种设备ON-PREMISE | CLOUD | HYBRIDSAP HAN
39、A 平台基于HANA的大数据平台SpatialGraphPredictiveSearchText AnalyticsPlanningDataEnrichmentSeriesDataFunctionLibraries处理服务Web Server JavaScriptFiori用户界面Graphic Modeler应用服务ALMApplication Lifecycle Management列存储内存数据库 OLTP+OLAP多核大规模并行计算高级压缩多租户动态分层存储数据库服务高可用性和灾难恢复开放的标准数据模型Data VirtualizationELT & Replication集成服务Ha
40、doop IntegrationStreaming (CEP)Remote DataSync企业大数据温度数据在架构中的存储分布数据温度产品数据特点可能操作热数据(内存存储)SAP HANA内存即时分析要求的结构化数据和流数据,比如ERP中的数据存储在HANA内存中. 热数据频繁访问,较高性能要求写、读、更新和删除温数据(硬盘存储)SAP HANA 动态分层大数据或者PB级数据扩展- 适合不需要内存实时处理的数据,比如:预测性维护场景需要的主要设备实时数据与热数据在统一的HANA平台中. 温数据是相对时间久不太常查询的数据, 但是需要在线访问写、读、更新和删除 冷数据(扩展存储)Hadoop(
41、文件存储)结构化数据:如超过三年以上的财务数据大部分实时数据大部分非结构化数据已经关闭或者不用的数据可以从热存储和温存储迁移到冷存储存放实时数据和非结构化数据,可无限扩展,降低成本写,读、删除数据的温度是随时间动态变化的,而且并不是同类型数据只存在一个存储空间,要看具体的业务场景和数据价值,比如实时数据不只是在温存储中,也可以在HANA内存中,HANA也有处理时间序列的功能。HANA大数据平台的数据存储层如何有效区别各数据层次内存管理操作类型日常运行的业务应用,分析操作和统计报表实时分析复杂的分析、预测等密集型计算数据特征当前活跃数据信息单位价值高的业务数据管理数据量管理数据规模在几十个TB量
42、级Hadoop企业级海量数据存储低成本的数据存储、通用硬件高度灵活、可扩展架构数据特征大量非结构化/半结构化数据,社交媒体和外部数据非活跃,批量处理数据信息单位价值相对不高的业务数据数据移动(同前)管理数据量管理数据规模可达到PB级动态分层HANA的磁盘级处理引擎数据特征历史数据为主近实时的分析场景信息单位价值较高的业务数据数据移动(Data Lifecycle Mgt.)定义数据分割/分区策略按照规则在内存和硬盘引擎间移动数据管理数据量管理数据规模在几百个TB以内SAP HANASAP HANAHANA RAMDT数据的温度是随时间动态变化的,而且并不是同类型数据只存在一个存储空间,要看具体
43、的业务场景和数据价值,比如实时数据不只是在温存储中,也可以在HANA内存中,HANA也有处理时间序列的功能。支持丰富的Hadoop处理引擎,支持主要的Hadoop厂商,如Cloudera, Hortonworks, MapR等Smart Data Access将外部的数据源映射为本地的数据表,做到实时访问外部数据源支持与Hadoop,Teradata, Microsoft SQL Server, Oracle, IBM DB2, IBM Netezza 等数据库的集成Virtual UDF (vUDF)可自定义的数据联邦类型支持访问Hadoop分布式文件系统(HDFS),无需Mapper/Re
44、ducer解析包支持直接调用自定义的Map Reduce任务vUDF可集成到SQL语句效益能够利用Hadoop集群中HIVE & Spark无法提供的功能 (如. Hadoop Distributed File System (HDFS) 和MapReduce)提高非结构化数据的即席查询能力SAP HANAvUDF OperatorRFC HadoopHadoopMap ReduceHDFSYARNHIVE与Hadoop的深度集成Smart Data AccessYARNHDFS其他应用文件文件文件SAP HANA - Apache Spark Adapter可用于提高分布式系统连接的性能编译
45、查询可以提高应用和数据分析在各节点的运行效率基于 Hadoop 的 OLAP 体验非常常见,可用于从大数据中挖掘业务洞察,比如向下钻取 HDFS 数据编译查询Apache Spark Adapter向下钻取功能SAP HANA 内存平台 SAP HANA VoraApache SparkSAP HANA VoraApache Spark内存存储应用服务数据库服务集成服务处理服务SAP HANA 平台SAP HANA VoraApache SparkSAP HANA-ApacheSpark AdapterSAP HANA Vora 内置于 Apache Spark 执行架构之中,是一款内存计算查
46、询引擎,能够基于 Hadoop 提供丰富的交互式分析体验。SAP HANA Vora与Spark的深度集成SAP大数据平台解决方案数据交换平台数据仓库平台数据管控平台数据的展现与可视化3数据资产管理资产财务一体化系统700,00015,0001,0003,0002,000物料供应商客户会计科目矿别HR系统500组织机构电子商务系统20,0003,000物料供应商数据中心3,000元数据指标物料供应商客户会计科目矿别组织机构元数据指标用友等其他系统500,00010,0001,0001,000物料供应商客户会计科目华能集团核心主数据总量约为126万。这些数据源不统一,分散在资产财务一体化,人力资
47、源系统,电子商务系统、数据中心等系统中,各自独立管理1,2200,00028,0002,0004,0002,0005003,000什么样的数据能够成为资产,或有资格成为资产?被企业拥有和控制能够用货币来计量能为企业带来经济利益数据资产增值扩大数据规模,提高数据活性,提升收集运用数据的能力建设数据交易,加速数据资产化数据治理关键点数据治理每个治理点都必须基于具体和成熟的业务需求 没有一刀切 “one size fits all” 的解决方案关注交互模型 业务与IT数据治理不只是购买数据管理的软件,也需要有一个清晰的数据管理规划数据治理需要有不断并进和跟踪的各自维度数据治理包含整个企业或组织,不仅
48、仅是IT的事情企业或组织的领导决策层参与是必要的根据对象、流程和技术需求,并以SAP产品和解决方案为基础,SAP 希望建立灵活的、可持续的数据治理“The formal orchestration of people, processes, and technology to enable an organization to leverage data as an enterprise asset.”MDM Institute数据治理的维度1. DataExplicit definitions for each data element流程标准化的数据维护分布IT 系统工具与应用清晰定义 源
49、/集成数据治理的核心目标:在整个企业内部制定并执行统一的,且符合业务要求的、科学合理的数据标准通过数据标准的执行使得企业内部各个业务环节使用的主数据完整统一,只有一个真正的版本并且质量较高提高主数据的使用率和用户对企业数据质量的信任度最终满足企业的诸多管理战略目标的需求数据对象元数据 为每个数据元素显式定义数据质量治理定义分析验证改进维护批准报表SAP 数据管理使业务更完整、更精确信息生命周期管理集成清洗与监控管理关联归档Before After数据质量管理主数据管理内容管理发布内容发布数据集成SAP Data Services:访问、集成、清洗、匹配和加强数据SAP Document Pre
50、sentment by OpenText:一致协作SAP Information Lifecycle Management:数据保持管理SAP Information Steward: 监控数据质量SAP Extended ECM by OpenText: 纸质流程数字化上下文文档合规归档记录管理SAP Master Data Governance:治理主数据SAP Portal Content Management by OpenText:协同门户SAP Invoice Management by OpenText:优化发票流程获得清洗保持清洗数据质量可视化数据质量平衡计分卡数据质量评分标准
51、最新质量计分随时间质量运行趋势关键质量维度 (数据KPI),可定制SAP大数据平台解决方案数据交换平台数据仓库平台数据管控平台数据的展现与可视化4商务智能是后ERP时代的迫切需求分析系统计划洞察BI行动ERP交易系统商务智能 优化 行动执行 运营绩效决策支持数据分析预测交易流程运营综合运营分析财务分析设备管理销售分析计划调度分析生产分析物资分析人力分析大数据分析整体框架和应用规划全面、综合、决策物资采购销售设备运输生产执行财务人力订单生产计划企业级数据可信分析运营分析生产分析运销分析财务分析生产计划分析销售计划分析运输计划分析外购计划分析物资计划分析煤产量分析产能分析产能利用率开拓进尺毛煤入仓
52、生产生产分析运行状态监控利用率分析故障率分析完好率分析使用时间设备电耗销售分析价格分析客户分析库存分析合同分析备品备件分析采购分析供应商分析运营成本分析利润分析杜邦分析资产分析预算分析人力资本分析人员构成分析人员状态分析人员绩效分析人员流动分析决策支持应用智能投资决策运营风险预警生产计划智能自动排程设计实时需求预测实时供给预测定制化生产生产风险预警设备故障预警预测性维护客户需求预测销售订单预测市场价格预测财务风险预警资金计划智能人力最优模型设计商务智能应用分析适应不同用户的要求决策层管理层执行层管理关键指标,及时调整经营战略。比如收购或并购新公司,进入新市场,引入新产品;管理层需要获取和解读数
53、据,快速调整运作战术。比如开展/终止销售计划,调整供应链指标;日常业务操作需求,直接获得分析内容提高操作效率。比如客户信用状况,成本费用报表;具体的视角实时浏览/行业规范(套打)全面的视角实时分析/趋势分析/预测推演统一的视角实时告警/交互审批/级联分析示例:仪表板SAP大数据预测分析专为业务用户设计数据挖掘/统计学/概率学 专业知识无业务分析师数据 科学家业务用户低高97%3%1%SAP 大数据预测分析SAP PA 智能建模+Lumira自助探索SAP PA 专家建模R语言SAP HANA 分析函数包BI 平台HANARDBMSExcel / CSVhadoopBW*ClipboardSAP商务智能详细架构报表仪表盘分析水晶报表即席查询DashboardDesign Studio数据探索高级分析平台客户端BI工具数据源语义层*数据源数据建模数据分析分析共享查看平台Lumira 服务器(基于 HANA)Lumira 云 (基于HANA)Lumira 桌面版Excel / CSVLumira 服务器(内存数据库) SAP IQ企业核心业务数据数据展现BO仪表盘Lumira自助探索其它应用系统SAP ERPSAP大数据预测分析系统架构 敏捷分析+内存数据库+自助探索移动可视化第三方数据SAP CRM 历史数据扩展存储Predictive
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB 20464-2024农作物种子标签通则
- 四下18课知识课件
- 2024年度工程人才引进居间合同2篇
- 二零二四年度广告代理合同服务内容拓展协议2篇
- 4.1科学探究力的合成课件高一上学期物理
- 二零二四年度福州市外贸公司业务员劳动合同2篇
- 2024版技术咨询合同条款
- 人教版九年级化学第二单元复习课件
- 二零二四年度物业管理服务合同:物业公司管理与服务质量保证3篇
- 诊所合同模板
- 生鲜肉购销简单合同
- 军事理论-综合版智慧树知到期末考试答案章节答案2024年国防大学
- YC/T 310-2024烟草漂浮育苗基质
- 一年级数学期中家长会
- 职熵-大学生职业素质与能力提升智慧树知到期末考试答案章节答案2024年中国海洋大学
- 《电脑重装系统教程》课件
- 水域和海洋中的火灾防范知识培训
- 项目管理与时间规划培训资料
- 园林植物的识别基础-园林植物的识别基础
- 高危孕产妇管理护理课件
- 奇经八脉完整版本
评论
0/150
提交评论