




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据概述& Oracle 大数据处理方案Rich Niemiec ,Rolta 企业, 年提供创新性技术,发挥富有洞察力影响第1页2Rich 介绍Rolta International 董事会顾问TUSC 前总裁500 强企业(增加速度最快 500 家私营企业) 在美国设有 10 个办事处;总部设在芝加哥Oracle 技术&应用高级合作搭档Rolta TUSC 前总裁、Rolta EICT International 前总裁 著有以下著作(3 本 Oracle 畅销书 十多年来排名第一 Oracle 调优书籍):Oracle Performing Tips & Techniques (Cov
2、ers Oracle7 & 8i)Oracle9i Performance Tips & TechniquesOracle Database 10g Performance Tips & TechniquesOracle Database 11g Performance Tips & TechniquesOracle 国际用户组前主席Oracle 中西部用户组现任主席入选芝加哥企业家名人堂 1998 年入选安永年度企业家和世界名人堂 年IOUG 顶级演说家 1991、1994、1997、 和 年12 次荣获 MOUG 顶级演说家称号国家三人组成功人士奖 年Oracle 认证大师和 Oracle
3、 ACE 总监普渡大学出色电子与计算机工程师 年第2页议题Oracle 趋势现实状况技术发展未来规划第3页 Oracle 趋势了解 Oracle第4页Exadata X-3:内存数据库4 T DRAM/22 T 闪存第5页6Oracle 首创技术 创新! 1979 年,第一个商用关系型数据库管理系统1983 年,第一个 32 位 RDBMS1984 年,第一个具备读取一致性数据库1987 年,第一个客户端-服务器模式数据库1994 年,首次商业评定和多层安全性数据库评定1995 年,第一个 64 位 RDBMS1996 年,首次突破 30,000 TPC-C1997 年,第一个 Web 数据库
4、1998 年,第一个具备原生 Java 支持而且突破 100,000 TPC-C 数据库1998 年,第一个Linux上 商用 RDBMS 年,第一个支持 XML 语言RDBMS 年,第一个实现中间层数据库缓存数据库 年,第一个带有 Real Application Clusters 集群支持 RDBMS 年,第一个真正网格数据库 年,第一款无偿 Oracle 数据库(10g 快捷版) 年,Oracle 首次为 Linux 平台提供支持 年,公布 Oracle 11g! 年,公布 Oracle Exadata (Oracle 收购 BEA) 年,Oracle 收购 Sun Java、MySQL
5、、Solaris、硬件和 OpenOffice 年,Oracle 公布 MySQL Cluster 7.1、Exadata、Exalogic 年,Oracle X2-2、ODA、Exalytics、SuperCluster、大数据、云和社交网络 年,Oracle X3-2、Oracle 12c OEM、可插拔数据库和 X3-8 年,公布 Oracle 12c! 公布 Oracle Exadata X3-8 ,收购 Acme Packet!第6页企业面临挑战和分析需求管理 角度业务 角度孤立思维我不关注我不知道您没有告诉我这是他们问题制订决议很困难数据不可靠汇报不可追溯没有访问权限数据源不相关缺
6、乏集成战略管理老板不喜欢我不知道我为何会这么做云计算、移动计算、社交媒体和大数据分析推进产生新计算模式。 该模式进而引发业务转型以提升效率, 促进法规遵从,提升整体业务可连续性,以及以客户为中心。第7页8加深认识:大数据革命搜集、存放和分析数据能力在信息技术带来影响中一直占有主要一席。在这个数字化程度日益提升时代,您所做每件事都会有一个电子统计。伴随企业积聚数据越来越多并到达数百 TB,他们纷纷寻求愈加尖端软件工具对数据进行挖掘和分析,从而帮助企业愈加好地了解市场和客户,甚至是帮助企业对未来作出预测。您怎样搜集和存放数据? 您怎样传输数据?您怎样分析数据?您怎样从数据获益? 第8页大数据为何主
7、要?张加万天津大学软件学院第9页技术趋势:Gartner Hype Cycle 第10页Gartner 公布 技术趋势第11页数据量增大 数据量大小变得主要近年来,全球数据量快速增加。 年:800 TB (1012) 年:160 EB (1018) 年:500 EB(仅互联网) 年:2.7 ZB (1021) 年:35 ZB?一天中生成数据?Twitter:7 TBFacebook:10 TB 以上大数据:创新、竞争力和生产率下一个前沿McKinsey Global Institute, 年我们淹没于数据之中,但渴望取得信息2.8 x 1020 位内存空间 John von Neumann(C
8、omputer and the Brain,哈佛大学讲稿,发表于半个世纪前)从各种在线起源整理所得数据第12页数据量有多少 年每个月互联网流量超出 1E; 年每个月互联网流量为 21E。 年,天天创建数据到达 2.5E(大约等于 1Z (1000E)/年) 年 6 月 Facebook Hadoop 集群数据量到达 100PFacebook:天天处理数据量到达 500T 每小时扫描 Hive 数据量到达 210T单个 Jet 引擎 20T/小时(此速率与 Facebook 相同!)Gmail 拥有 4.5 亿用户沃尔玛 100 万笔客户交易/小时(相当于 2.5P 数据库)大型强子对撞机一年产
9、生数据量达 13P业务数据每 1.2 年翻一番19% 市值达 10 亿美元企业拥有超出 1P 数据( 年将到达 31%) 年 Oracle 率先公布EB级磁带库之前对人类基因组进行解码需10 年;现在只需一周!第13页IOUG 调查* 年 9 月* 大数据带来巨大挑战与机遇: 年 IOUG 大数据战略调查(IOUG = Independent Oracle Users Group,独立 Oracle 用户组)第14页大数据预测未来天气* V*EarthRisk 企业系统基于 :820 亿次 计算60 年数据第15页16什么是大数据和大数据分析?大数据是指规模超出惯用软件工具在允许时间内捕捉、管
10、理和处理能力数据集。 大数据分析是指可处理传统分析方法因数据量过大、数据类型过于多样、速度改变过快等原因无法分析处理数据。第16页17每个组织都将使用大数据大数据涵盖以下领域:社交媒体、传感器数据、生物学、交通数据、 RFID 数据、环境数据、航空、无线网络、安防与视频数据、零售、医疗、工程系统、搜索数据、摄影、呼叫统计和 CRM/ERP 数据等。第17页IOUG 调查 年 9 月第18页IOUG 调查 年 9 月第19页大数据特点大数据主题适合用于大数据量软硬件技术专注于 Web 2.0 技术数据库横向扩展关系型&分布式数据分析分布式文件系统实时分析大数据领域数字营销优化 数据探索和发觉欺诈
11、检测与防范社交网络和关系分析机器生成数据分析数据保留财务电信媒体生命科学零售政府第20页大数据提供商第21页在最开始阶段我们是怎样实现?Larry Page 和 Sergey Brin 编写 BigFile;GFS (Google File System) 得自于此,接着,MapReduce 将工作映射 到集群多工作节点,然后对分布式处理结果做聚合(用于生成 Google WWW 索引)Apache 推出了 Hadoop(Facebook、Yahoo、Amazon EC2 和 S3 均采取此框架),此开源版框架采取 HDFS 和 MapReduce 在同一工作节点对分布处理后作业做批处理, 速
12、度不算超快(秒钟比毫秒),也不适合于交互式分析(不支持更新,只支持叠加)Google 则推出了 BigTable(支持压缩高性能数据存放),Google Maps、Google Reader、Google Earth、YouTube 和 Gmail 均采取该存放系统Apache 添加了 NoSQL 数据库:Cassandra 和 HBase多个系统开始采取 NoSQL,这其中也包含 Oracle NoSQL (BerkeleyDB)。第22页大数据基础知识我们目标是组织数据而不移动数据! Hadoop HDFS 和 MapReduce(访问 PB 级数据低成本方式)。HDFS 能够存放任何类型
13、数据或结构,但 MapReduce 只与键值对配合工作获取并存放数据 NoSQL(简单键值对存放) Amazon DynamoDB(托管)、Apache Cassandra、HBase、BigTable、MongoDB、Oracle NoSQL(分布式键值),或者仅使用原始 HDFS/GFS 和 MapReduce(这些架构大多都具备最终一致性!)分析数据 Google Dremel、Apache Hive 数据仓库、Oracle 数据分析工具(OBIEE)54% 正在使用大数据企业表示: “项目至关主要!”第23页各种 NoSQL 数据库 最终一致性NoSQL 支持 BASE:基本可用性 (
14、Basically Available)柔性状态 (Soft state)最终一致性 (Eventually consistent)第24页大数据工具革命Google File System (GFS)Google MapReduceApache/Hadoop 世界Hadoop 文件系统 (HDFS)MapReduceHbaseHypertable(baidu使用)Google BigTableApache Hive(DWHSE)ZooKeeper 与 Pig (协作) (操作 HDFS)Cassandra(基于 DynamoDB Amazon 和 BigTable)第25页审阅 Hadoop
15、 生态系统另一个方法* 这张精彩幻灯片节选自 Cloudera Hadoop 演示文稿,作者是 Todd Lipcon第26页Yahoo! 将 Hadoop 扩展至 4000 个节点 4000 个节点 100 个机架(每个机架 40 个节点) 32T RAM = 8G/节点 x 4000 个节点 超出 30,000 个关键 CPU 处理能力 16PB 裸容量,千兆以太网第27页IOUG 调查 年 9 月第28页IOUG 调查 年 9 月注意: 未来 3 年,“Not Using Hadoop” 所占百分比为 56%第29页 年 NoSQL 趋势Hadoop 扩展至企业级Microsoft 加入
16、 Hadoop 大军(与 Yahoo! 分拆出 Hortonworks 建立合作搭档关系 在Windows Server 和 Azure 中采取 Hadoop,有到MSSQL 连接器)基于 NoSQL 处理方案安全问题妨碍了 NoSQL 发展Oracle 以更大力度投入 NoSQL 竞争(大数据机) “伴随客户寻求方法应对新以及不停发展数据源(如 Web、传感器、社交网络、和移动应用)引发数据激增,Oracle 开始经过提供高可用、可靠和可伸缩 NoSQL 数据库环境,帮助客户发觉和挖掘这些数据价值。” Oracle 高级副总裁 Andrew Mendelsohn内存数据网格与 NoSQL 集
17、成成就了 Facebook 和 Twitter 成功案例 年 1 月 26 日公布于 DataVersity第30页NoSQL 数据库 超出 120 种第31页32下一代数据架构第32页全部数据都有所不一样!数据领域特征(Oracle 信息架构框架)第33页IOUG 调查 年 9 月第34页IOUG 调查 年 9 月第35页开源项目框架查询/数据流数据访问协作/工作流统计工具实时第36页分析 两面性各个领域保持一致统计学、计算机科学、应用数学、经济学、机器学习、数据挖掘、模式识别、自然语言处理、数据融合与集成、模拟和优化等等。以下描述模型和预测模型有利于取得对数据有益了解交流已取得认识 (可视
18、化)分析含有各种各样形式和规模:零售业销售分析金融服务分析风险分析与信用分析人才分析营销分析行为分析集合分析欺诈分析定价分析电信供给链分析运输分析以上跨职能分析有利于推进组织战略交流已取得认识(可视化)石油与天然气炼油石油化工冶金电力化工预定义职能 KPI、知识数据模型、目标、警报 多维绩效分析、预测分析、预测设计正确战略、沟通、协作、记分卡、促进行动工程师、主管、操作员直属经理、职能经理职能专员/战略分析师高管基于实时运行数据和业务数据以及现场图智能第37页分析处理方案第38页Oracle 数据库 具备分析功效!分析功效说明数据挖掘Oracle 数据挖掘 经过复合算法实现模式发觉、结果预测以
19、及识别关键预测指标等。复杂数据转换ETL 功效, SQL 表示式或 DBMS_DATA_MINING_TRANSFORM 程序包。适适用于缺失值、异常值处理、分级和标准化。统计功效SQL 统计功效:假设检验(t 测试、F 测试)、皮尔逊相关、交叉表/描述统计(中值和模式等)DBMS_STAT_FUNCS 包添加了分布拟合过程。窗口函数/SQL 分析函数计算累积、移动和居中聚合。 频繁项目集Oracle Data Mining 所使用关联算法将以DBMS_FREQUENT_ITEMSET 为基础。图像特征提取Oracle Intermedia 支持提取颜色直方图、纹理和位置颜色。 线性代数UTL
20、_NLA 程序包提供用于向量和矩阵运算惯用 BLAS 库和 LAPACK 库子集。OLAP除下钻和汇总之外,Oracle OLAP 还支持多维分析、时间序列分析、建模和预测空间分析Oracle Spatial 分析和挖掘功效包含分级、模式识别、空间关联、共存挖掘和空间聚类、拓扑和 NW 数据模型分析 最短路径、最小生成树、最近邻分析和货郎担问题等等文本挖掘此标准 SQL 用于经过自动分类和聚类对存放在数据库、文件和 Web 中文本/文档进行索引、搜索和分析第39页还提供预先打包分析第40页Oracle 支持惯用 DMF 和 DMA函数适用性算法分类适适用于预测特定结果惯用技术逻辑回归朴素贝叶斯
21、支持向量机决议树回归预测连续数值结果多重回归支持向量机属性主要性依据与目标属性关系紧密程度对属性进行排名。 最短描述长度异常检测识别罕见情况或可疑情况一类支持向量机聚类找到自然分组。 增强 K 均值正交分区聚类关联找到与频繁一起出现项关联规则Apriori特征提取产生新属性作为现有属性线性组合。 非负矩阵分解高价值客户、中等价值客户或低价值客户可能会购置/不会购置客户终生价值制程不良率医疗诊疗原因买方优先保险欺诈依法纳税客户细分生命科学发觉产品捆绑缺点分析模式识别数据预测示例第41页是否含有预测性?后见之明洞察先见之明历史定位经典 MIS 汇报或 BIOracle Reports、Hyperi
22、on、IBM Cognos 和 SAP BO 等业务/行为分析、趋势当前正在发生什么情况?/为何会发生这种情况?预测优化过去行为有利于预测未来结果当前正在发生什么情况?为何会发生这种情况?将会/应该会发生什么情况?第42页Oracle 适合用于大数据预测分析“开放性”秘诀源:Wikipedia第43页“Hadoop 增强了 Oracle 力量”“Hadoop 意在增强传统数据库,而不是取而代之。”Doug Cutting第44页IOUG 调查 年 9 月第45页Oracle 为大数据预测分析提供技术第46页Oracle 用 10 天时间访问 Twitter Firehose* 选自 Larry
23、 Ellison 在 甲骨文全球大会上发表主题演讲 第47页将关注者、地理位置、荣誉和兴趣等绘制成图 选自 Larry Ellison 在 甲骨文全球大会上发表主题演讲 使用 X2-8 Exadata , X2-4 Exalytics 及 Endeca第48页Oracle 为大数据快速布署提供技术 已准备就绪!第49页50Exadata X-3:内存数据库4 T DRAM/22 T 闪存缓存第50页51优势倍增*:访问 1/ 数据;就像将 8P 内存驻留在 X3-8 4T 存放中一样1 TB(经压缩)10 TB 用户数据需要 10 TB IO100 GB(使用分区修剪)20 GB (使用存放索
24、引)5 GB (使用智能扫描)亚秒级(在数据库机上)数据降低到原来 1/10,扫描加紧 倍 工程化系统优势!*Oracle 幻灯片 感激!第51页IOUG 调查 年 9 月第52页 Oracle 大数据优势真正成熟和完备 与众不一样完全集成 Hadoop 和加载器Exadata 和 Exalytics BI 集成与处理方案大数据硬件,其上包含 Hadoop HDFS、MapReduce、R 编程语言(统计和回归等)、Oracle NoSQL,符合 ACID,简单键-值对数据模型(多服务器上哈希键 主键/次键和字节数组)Oracle BerkeleyDB(已商业化8年!),该架构能够依据需要使用
25、外部表与 HDFS(Hadoop 文件系统)集成。Oracle Loader for Hadoop (OLH) 从 MapReduce 获取分析数据,最终将这些数据装载到 11g Database(这么做愈加轻易)任何级别并发都是灵活,而且能够横向扩展Oracle 对集群化和高可用性 (HA) 含有深刻了解(不会出现单点故障!)Oracle 管理工具与 Oracle 专业人员一样含有巨大作用BerkeleyDB 是全球最广泛使用数据库工具包,全球已布署超出 2 亿个Oracle 速度堪称实时,不会像批处理那样迟缓第53页建立一支成功团体使用能够创造未来技术!使每位团体组员以为 有责任为项目成功出一份力使每位团体组员各尽其职与全部团体组员分享成功成功团体特质:尊重客户忠诚度 信任共同目标 沟通 灵活性诚信无私精神 支持相互了解 主动态度 领导力凝聚众人之力,取得更大成就第54页55Oracle 规模成长到多么大 OW第55页56最终思索追逐技
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 信息安全服务外包合同
- 参展商服务合同协议书
- 线上客服培训
- 露天矿山承包经营合同
- 股权收购合同出资协议
- 护士门诊礼仪培训
- 农田灌溉合同范本
- 包装设计师习题库及答案
- 艾滋病手术患者安全护理
- 肾衰竭护理图解
- 卫星通信干扰分析-洞察分析
- 《小儿白血病》课件
- 砂石料仓储管理优化方案
- 酒吧娱乐场所安保巡逻服务方案
- 【初中生物】微生物的分布+课件2024-2025学年人教版生物七年级上册
- 职工宿舍安全培训
- 星河湾物业家政服务方案
- 医院缺陷管理办法
- SAP ERP:SAPPM设备管理模块介绍.Tex.header
- QSPI-9708-2016-光伏电站安装施工质量验收规定
- 财政投资评审咨询服务预算和结算评审项目 投标方案(技术方案)
评论
0/150
提交评论