




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、公示系统相关技术初探 Hadoop 列存储 内存数据库目录 Hadoop 为什么会出现Hadoop Hadoop的整体结构 Hadoop与传统数据库比较 Hadoop的应用场景 列存储 内存数据库为什么会出现Hadoop 1.lucene建立文本索引出现问题,无法解决超大规模的数据 2.google宣布GFS和MapReduce框架 3.Hadoop出现为什么会出现Hadoop Hadoop是什么 一个分布式文件系统和并行执行环境 让用户便捷地处理海量数据 Apache软件基金会下面的一个开源项目Hadoop的整体结构 Hadoop生态系统 1Hadoop项目项目对应的传统结构对应的传统结构H
2、DFS类似于FAT32、NTFS的文件结构Hbase类似于存储在文件结构上的数据库Mapreduce提供了一种并行处理的方式Pig外接ETL工具将各种别的数据库转换为Hadoop格式数据Hive提供外面的sql查询统计分析应用Sqoop提供Hadoop数据转换为传统数据库的工具Hadoop的整体结构NameNodeDataNode 存储元数据 存储文件内容元数据保存在内存中文件内容保存在磁盘 保存文件,block ,datanode之间的映射关系维护了block id到datanode本地文件的映射关系Hadoop的整体结构 物理分布的Hadoop集群Hadoop的整体结构 MapReduce
3、原理Hadoop与传统数据库比较 并行处理为什么我们不能使用数据库加上更多磁盘来做大规模的批量分析? 这个问题的答案来自于磁盘驱动器的另一个发展趋势:寻址时间的提高速度远远慢于传输速率的提高速度。Hadoop与传统数据库比较 数据比较 Hadoop:20个TS4节点组成的集群,其中一个节点作为NameNode和JobTracker,另外19个节点作为DataNode和TaskTracker。每个计算节点8个map+4个reduce。 ORACLE:1个Oracle集群 8个计算节点10套存储0100200300400500600700单表扫描单表聚合两表关联1两表关联2聚合+distinct1
4、20G数据测试结果数据测试结果HadoopOracle050010001500200025003000单表扫描单表聚合两表关联1两表关联2聚合+distinct2.7T数据集测试结果数据集测试结果TDWORACLE(单位:秒)Hadoop与传统数据库比较 Hadoop的主要特性 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。 高容错性。Hadoop能够自动保存数据的多个副
5、本,并且能够自动将失败的任务重新分配。Hadoop与传统数据库比较 Hadoop所失去的 批量导入。 将输入数据转化成想要的格式并加载到数据库中 索引。只能使用蛮力来作为处理选项 更新。 事务。 完善的约束、完善的引用、视图。 Hadoop更适合于非在线的应用,而不是在线的应用。Hadoop的应用场景 公示系统采用Hadoop的两种模式 将数据汇总至总局并部署为Hadoop结构 总局部署主节点(master),数据节点(slave)在各省局Hadoop的应用场景 将数据汇总至总局并部署为Hadoop结构 分析1:总局汇总数据估算为50,000,000户企业*1KB=50G的数据,每天的增长数据
6、量估算为1,000,000*1KB=1GB数据,而以腾讯公司为例现在的数据总量为38PB=38,000,000GB,每天的数据增长量为20TB=20,000GB。 根据右图,在50GB数据量的情况下,采用Hadoop结构不能比传统数据库结构带来优势。0100200300400500600700单表扫描单表聚合两表关联1两表关联2聚合+distinct120G数据测试结果数据测试结果HadoopOracleHadoop的应用场景 将数据汇总至总局并部署为Hadoop结构 分析2:就现有的Hadoop在淘宝、baidu、腾讯和移动的应用来看,都是采用Hadoop进行离线应用 日志分析、排序、搜索、
7、广告计算,广告优化、分析,点击流分析,链接分析、索关键字进行内容分类、搜索引擎,创建索引、word 计数,统计值计算,统计数据,过滤,分析,查询、垃圾数据分析、数据分析、机器学习、数据挖掘、大规模图像转换 在线应用使用Hadoop很少见,而我们的应用本身是一个数据量较小的在线应用,不是特别符合。Hadoop的应用场景 总局部署主节点(master),数据节点(slave)在各省局 分析1、2:同前面分析 分析3:备份策略、权限控制、安全问题。 分析4:Hadoop设计的初衷针对的就是解决网络时延远小于磁盘读取速度的问题,而在这种问题下我们遇到的瓶颈恰好相反目录 Hadoop 列存储 列存储原理
8、 列存储主要厂商 内存数据库列存储原理列存储原理 列存储的优势 按列存储每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量 一个字段的数据聚集存储,那就 更容易为这种聚集存储设计更好的压缩/解压算法。列存储的劣势 写入和更新都比传统行存储要慢列存储主要厂商 Sybase IQ Oracle Exadata Vertica Infobright目录 Hadoop 列存储 内存数据库 内存数据库原理 主要内存数据库 内存数据库应用场景内存数据库原理 内存数据库 顾名思义就是将数据放在内存中直接操作的数据库。相对于磁盘,内存的数据读写速度要高出几个数量级,将数据保存在内存
9、中相比从磁盘上访问能够极大地提高应用的性能。 方式 内存数据库抛弃了磁盘数据管理的传统方式,基于全部数据都在内存中重新设计了体系结构,并且在数据缓存、快速算法、并行操作方面也进行了相应的改进,所以数据处理速度比传统数据库的数据处理速度要快很多,一般都在10倍以上。内存数据库原理 微秒级的查询响应 并发处理 完备的事务处理 直接内存访问 数据恢复机制 与磁盘数据库同步Application-Tier PlatformNetworkIn-MemoryDatabase(s)ApplicationInmDBlibrariesTransaction Logs.Client-ServerCheckpoin
10、t filesApplicationInmDBlibraries内存数据库原理主要内存数据库数据库名称数据库名称说明说明Oracle TimesTen一个全新设计的内存数据库。它使用基于行的关系模型(表、列、数据类型、索引等)实现数据存储,并使用SQL作为访问语言。它提供了许多API,并且支持Oracle PL/SQL。应用程序的访问方式与其他关系数据库完全相同。SQLite资源占用少、性能良好和零管理成本,嵌入式数据库有了它的用武之地,它将为那些以前无法提供用作持久数据的后端的数据库的应用程序提供了高效的性能IBM SolidDBIBM solidDB 可以提供每秒数万至数十万事务的吞吐率,并且始终可以获得微秒级的响应时间(或延时)。eXtremeDB是一款高速内存实时数据库系统,该数据库用于各种需要高性能、小尺寸、紧密存储、零内存分配或几种属性兼有的应用领域。eXtremeDB内存实时数据库以其高性能、低开销、稳定可靠的实时数据管理能力在实时数据管理领域和嵌入式数据管理领域及服务器有着广泛的应用。主要内存数据库(新增比较)Oracle TimesTenSQLiteIBM SolidD
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 厦门工学院《有限元法与应用》2023-2024学年第二学期期末试卷
- 汝州职业技术学院《管理学原理A》2023-2024学年第二学期期末试卷
- 中国药科大学《矩阵论5》2023-2024学年第二学期期末试卷
- 濮阳科技职业学院《世界文化史》2023-2024学年第二学期期末试卷
- 西安海棠职业学院《交互设计原理》2023-2024学年第二学期期末试卷
- 吉林财经大学《医学影像设备与技术学》2023-2024学年第二学期期末试卷
- 云南旅游职业学院《建筑与城市影像》2023-2024学年第一学期期末试卷
- 湖北财税职业学院《民舞-中国民族民间舞》2023-2024学年第二学期期末试卷
- 国际贸易实务讲义出口合同的履行
- 建筑民工劳务合同
- 标准 12千伏气体绝缘环网柜技术符合性评估实施细则
- 渔家傲(天接云涛连晓雾)说课稿
- 2023年3月PETS2真题卷及答案
- GB/T 30220-2013游乐设施安全使用管理
- GB/T 28461-2012碳纤维预浸料
- 遇见友谊-如何学会与朋友相处主题班会课件
- 中外文化交流史课件
- 深圳医保知识参考题库(有答案)
- 手术室区域划分
- 《高等数学》全册教案教学设计
- 薪酬管理第6版第3章课件
评论
0/150
提交评论