




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库技术及其演变第1页,共18页,2023年,2月20日,星期六原因精细化竞争精准用户精准定位资源分配、调度竞争对手、外部情报速度客户需求产品开发市场投放可用时间延长不可用时间减少强度加大数据增长来源的多样化人工操作PC、手机生成机器生成数据的多样化结构化、半结构、非结构化数据第2页,共18页,2023年,2月20日,星期六原因数据量增长每两年翻番数据单位:G->T->P->E软硬件技术进步,价格降价需求带来供给供给带来新需求第3页,共18页,2023年,2月20日,星期六总体与OLTP共用到分离硬件使用方式不同处理能力有限从多处OLTP系统获取数据未来会不会合?Hana等内存数据库云平台OracleExaData一体机dw->dw2.0原因历史数据管理企业精细化竞争需求变化增加了半结构化、非结构化数据分交互层、集成层、近线层、离线层dw3.0什么样?第4页,共18页,2023年,2月20日,星期六总体-DW架构来自:/technetwork/cn/community/developer-day/1-edw-refer-architecture-case-454566-zhs.pdf第5页,共18页,2023年,2月20日,星期六总体-DW2.0来自:DW2.0–TheArchitecturefortheNextGenerationofDataWarehouse
第6页,共18页,2023年,2月20日,星期六总体集中式->分布式->云原因单机处理能力有限高可用应用复杂挑战多服务器协作跨服务器数据关联单机不可靠云服务的迁移反向于集中式?云是否合适大数据?结构化数据->半结构化、非结构化数据体量大(Volume)类型多样化(Variety)*处理速度快(Velocity)价值密度低(Value)如何高效利用半结构化、非结构化数据?第7页,共18页,2023年,2月20日,星期六总体批处理->实时小时、天、周计算频率到现在的分钟、秒甚至毫秒主要用于决策到用于生产挑战获取数据与历史数据集成、一致性、完整性异常处理提供高并发实时服务批处理、实时可不可以用一套框架处理?第8页,共18页,2023年,2月20日,星期六数据库SMP->MPPSMP代表:oracle、db2、sqlserverMPP代表:teradata、greenplum、netezzaMPP->NoSQL集群扩展能力有限对非结构化数据支持不好引擎较单一NoSQL和MPP会不会融合到一起?RDBMS->专有数据库图数据库、多维数据库Hadoop优点较早解决了利用PC服务器扩展到上千台服务器生态系统发展良好大量的使用第9页,共18页,2023年,2月20日,星期六数据库缺点MR效率低复杂学习成本高稳定性较差Spark优点速度快高级API,开发效率高集成流式处理、数据挖掘、SQL缺点快速开发中复杂大数据框架的发展方向效率总体效率单机效率第10页,共18页,2023年,2月20日,星期六数据库规范SQL事务JDBC、ODBC稳定、易用降低安装复杂度降低维护难度不可用时间减少大一统VS专业化大一统带来易使用、易维护、规范化,同时特定应用效率、成果会比较低专业化带来更专业的处理方式,效率更高,同时部署、维护难度更大数据库的发展方向大规模横向扩展半结构、非结构化数据支持与大数据架构的配合数据库配合使用第11页,共18页,2023年,2月20日,星期六数据库-其他技术列式存储只扫描相应的列混合使用多种存储介质磁带、光盘、HDD、SSD、内存压缩CPU换IO,大部分不是时间换空间分区LoadBitmap索引无主外键不记日志(弱日志)预统计(inforbrightknowledgegrid)部分信息统计后放入系统表,查询直接走系统表还有哪些技术可以引入?第12页,共18页,2023年,2月20日,星期六Spark是未来吗?第13页,共18页,2023年,2月20日,星期六ETL趋势分析->生产应用批处理->实时处理粗略->精准单一类型->多种类型数据同时使用同时使用文本文件、专有格式文件、多种数据库ETL工具专有工具,独立服务器代表IBMDataStage、InformaticaPowerCenter、PentahoKettle优点集成度高学习门槛低多种数据源协同工作缺点复杂问题灵活不够单独学习第14页,共18页,2023年,2月20日,星期六ETL演进同数据库路线类似SMP、MPPHA多种数据源混合使用ETL-数据仓库直接利用数据仓库的存储与计算能力优点学习成本低充分利用资源实现灵活缺点必须入库才可操作调度等需要单独开发与其他服务争抢资源基于工具或数据仓库,哪种方式在大数据处理方面占优势?第15页,共18页,2023年,2月20日,星期六BI第三方开发->自服务工具更容易使用用户要求响应时间更短PC->移动一切前端应用移动化BI工具MOLAP生成Cube文件,需要独立服务器代表IBMcognos、SAPBO、oracleBIEE、tableau优缺点同ETL工具自带数据集市专有格式->通用格式专有服务器->通用服务器我们需要什么样的BI?第16页,共18页,2023年,2月20日,星期六数据挖掘完整工具->类库工具:SAS、SPSS类库:ApacheMahour、ApacheSparkMllib\GraphX专有语言->通用语言专有语言:SAS、R通用:Python我们如何进行数据挖掘?第17页,共18页,2023年,2月20日,星期六硬件小机+盘阵->PCServer->云SMP结构是小型机+盘阵MPP也是多台小型机+盘阵Hadoop、Spark等使用PC服务器、云CPU摩尔定律绿色化
HDD->SSD->MemoryHDD存储在线;磁带存储离线数据HDD存储顺序访问、速度慢;随机访问且要求高的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 英语词汇拓展:名词复数变化的技巧
- 高中语文古诗文阅读教学重点内容详解
- 计算机网络安全管理知识考点
- 一件有意义的事记叙事文(6篇)
- 《能源种类与利用方式:高中地理环境科学教案》
- 八年级语文社团活动方案
- 公主舞蹈活动方案
- 公交公司送清凉活动方案
- 公交职工文化节活动方案
- 公众考古活动方案
- 三超一疲劳安全教育
- 《自动控制原理》说课
- 医疗器械(耗材)项目投标服务投标方案(技术方案)
- 乡村医生从业管理条例全面解读
- 2024年中国石油集团招聘笔试参考题库含答案解析
- 神经科患者的心理支持与护理
- 智慧楼宇智能化管理系统需求规格说明书
- 幼儿园中班数学《小鱼有多长》
- 过程控制系统及仪表智慧树知到课后章节答案2023年下青岛大学
- 中国共产主义青年团团员发展过程纪实簿
- 项目现场施工管理制度
评论
0/150
提交评论