大数据处理详细设计.doc

上传人：a*** IP属地：天津上传时间：2021-07-26 格式：DOC 页数：9 大小：282KB 积分：22 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、。目录目录 .11.引言 .21.1背景与目的 .21.2专业术语及说明 .21.3参考资料 .22.设计概述 . .32.1任务及目标 .32.2需求概述 .32.3运行环境概述 .33.系统详细需求分析 . .43.1详细需求分析 .44.总体设计方案 . .44.1系统总体结构 .44.2系统模块划分 .55.系统详细设计 . .55.1系统结构设计 .55.2系统功能模块详细设计 .66.信息编码设计 . .66.1代码结构设计 .66.2代码命名规则 .77.维护设计 .77.1系统的可靠性和安全性 .77.2系统及用户维护设计 .77.3系统扩充设计 .78.系统配置 .78.1硬

2、件配置 .78.2软件配置 .79.关键技术 .89.1关键技术的一般说明 .89.2关键技术的实现方案 .810. 测试.810.1 测试方案 .8。1。1. 引言1.1 背景与目的当下互联网和计算机技术越来越多的被各行各业利用，于是产生了海量的数据。进入 2012 年后，“大数据”一词越来越多的被提及，人们用它来描述和定义信息爆照时代产生的海量数据。显而易见地，数据正在迅速膨胀并变大，它决定着企业的未来发展，虽然现在企业可能还没有意识到，但随着时间的推移，人们将越来越多的意识到数据对企业的重要性。而这就需要有一种框架来分析处理这种大数据。对于电力行业更是如此，电力方面每时每刻都在产

3、生着大量的数据，而对这些数据的分析和利用有着巨大的市场前景和意义。1.2 专业术语及说明Hadoop ：一种分布式基础架构，由 Apache 基金会开发。用户可以在不了解分布是底层细节的情况下，开发分布式程序。充分利用集群的威力运算和存储。Hadoop 实现了一个分布式系统（ Hadoop DistributedFileSystem ），简称 HDFS。 HDFS有着高容错性的特点，并且设计用来部署在低廉的（ low-cost）硬件上。而且它提供高传输率（high throughput ）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。 HDFS放宽了

4、（ relax ）POSIX的要求（ requirements ）这样可以流的形式访问（ streamingaccess ）文件系统中的数据。Hbase：是一个分布式的、面向列的开源数据库。Mapreduce：是一种编程模型，用于大规模数据集（大于1T）的并行运算。当前的软件实现是指定一个 Map 函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce函数，用来保证所有的映射的键值对中的每一个共享相同的键组。1.3 参考资料【 1】相海泉 . 大数据时代 J. 中国信息界 , 2013 (5).【 2】李成华 , 张新访 , 金海 , 等 . MapReduce: 新型的分布式并行

5、计算编程模型J.计算机工程与科学, 2011, 33(003): 129-135.【 3】谢桂兰 , 罗省贤 . 基于 HadoopMapReduce 模型的应用研究 JJ. 微型机与应用, 2010, 25(3): 4-7.【 4】陈勇 .基于 Hadoop 平台的通信数据分布式查询算法的设计与实现DD.北京 :北京交通大学 , 2009.【 5】 Taylor R C. An overview of the Hadoop/MapReduce/HBase framework and itscurrentapplicationsin bioinformaticsJ.BMCbioinformat

6、ics,2010, 11(Suppl12):S1.。2。2. 设计概述从 HBASE中取数据（ driver类）通过 MapReduce对数据进行第一次处理(Mapper类) 根据应用层的需要，对处理过的数据再次进行处理（Reducer 类以及附加类：简单的数学基本函数、统计、概率等），并且返回给客户端（预留接口）2.1 任务及目标数据合成：1、 PI 的常用函数：最大值、平均值等2、专业函数（与PI 服务器类似的内置函数）数据订单：1、基本的数据挖掘、数理统计函数功能（如统计/ 概率）2.2 需求概述因为电力行业在实际生产和应用的过程中会产生大量的数据，而这些数据又对电力有着巨大的影响和

7、意义。对这些数据的处理和存储就成为一个迫在眉睫的问题。从这些数据中可以提取很多对于电力行业以后的发展和现今的实际生产有着指导意义的数据，利用好这些海量的数据则成为如今电力的一个极具战略意义的问题。但是，如今的 PI 服务器不但不能满足于这个需求而且成本较高，所以就有替代的必要。2.3 运行环境概述20 个计算节点的Hadoop 集群（可横向扩展），集群配置为2*4 核 CPU，40 80G内存，6 12T 存储。2.4 详细设计方法和工具利用 Map函数从 Hbase 中取数据， Reduce 函数对取到的数据进行处理，返回结果给用户。如下图编程工具： eclipse编程语言： java。3

8、。3. 系统详细需求分析3.1 详细需求分析A 功能需求分析：批量查询功能，数据处理功能（专业数学函数，基本计算函数，统计等）B 性能需求分析：实时性要求较高，对于数据的处理计算Mapreduce 完全能够胜任C资源需求分析：多台普通X86 服务器，成本较低。D 系统运行环境及限制条件分析：系统需要在Linux 系统上面运行，搭建hadoop 集群框架E 现有软、硬件资源分析：如今华电现有X86 服务器 4 台，可以利用虚拟技术对hadoop集群进行布置。软件方面目前hadoop 框架已搭建成功，可以直接使用。4. 总体设计方案4.1 系统总体结构如下图为 hadoop、 hbase、 h

9、adoop mapreduce 的层次结构MapReduce分为三个类： Driver类、 Mapper 类、 Reducer 类输入的参数类型是String类（测点名 +时间段 +（ query内容），解析之后，通过MapFunction按照检索条件最后输出List （ Hashtable ）类型结果；经过Map Function之后的结果，然后在Reducer 类里通过调用附加类的函数进行运算，最后输出结果List （ Value ）。如下图。4。Map FunctionArrayListReduce FunctionArrayList(SearchResultsw)。用户4.2 系统模块

10、划分1） Map类：Map写入检索条件，遍历数据库HBASE，得到需要的数据（可以提供的API 按时间检索，按点名检索等）。需要参数为Hashtable类型（ hashtable）进过 Map 函数之后输出数据为ArrayList。2） Reduce 类：Reduce 函数得到Map的返回结果即ArrayList类型的数据之后经过运算处理返回给 User 的数据为 ArrayList(SearchResultsw)。3）基础类：封装的函数：加减乘除等基本运算、统计count 、计算概率、解析字符串、专业函数等。4） Driver类：使用 JobConf 和 JobClient提交作业；与Ma

11、p类和 Reduce 类关联。5. 系统详细设计5.1 系统结构设计系统分为两个java 包：一个是批量查询的包（querydatatable），一个是批量计算的包（ datamath ）。5。在 querydatatable包内，有四个类： DriverQuery类、QueryMap类、StringAnalytical类、 TxtHBase 类。在 datamath 包内，有多个类：MathDriver 类、 MathMap 类、 MathSum类、 MathCount类、 MathDataAppend 类等，这个包内需要封装一些类似PI 服务器里的函数，如下表所示：PIMapReduce三

12、角函数三角函数（ sin 、cos 、 tan ）Log、 lgLog、 lg平方根 Sqr 、方差平方根 Sqr 、方差Avg、 max、min 、 total（ sum）Avg、 max、 min 、total （sum）绝对值 abs、近似值（ round ）绝对值 abs 、近似值（ round ）加减乘除加减乘除统计统计专业函数（水汽、功率）专业函数（水汽、功率）字符串解析 (.)字符串解析（ . ）时间转化（时间戳）时间转化（时间戳）错误处理错误处理好点、坏点处理好点、坏点处理55.2 系统功能模块详细设计总体功能分为两个部分：数据订单，数据合成。A. 数据订单即批量查询功能编写字

13、符串解析类，解析HBase 的 RowKey。然后编写Mapper 类，这个类继承自MapReduceBase，重写这里面的接口函数Mapper，将检索条件写入Mapper 类。然后通过 Driver 类调用 JobConf 和 JobClient 提交作业。B. 数据合成即根据上次应用的需求对查询后的数据进行处理计算。查询后的数据传递给Reducer 类，在Reducer 类里进行处理，这里需要封装多个Reducer 类，根据上面列表内的函数依次封装，用户 Reducer 类需要继承MapReduceBase类及实现Reducer 接口函数，注意的一点是这个里面的输入Key 及 Value

14、要与 Mapper的输出 key 及 Value 类型相同。另外因为有电力方面专业函数的存在，需要编写一个附加类来提供这些计算方法，以便于在用户Reducer 类里面调用。以上的核心逻辑处理完之后，用output.collect方法来输出最终的结果。最后还是使用 JobConf 及 JobClient来提交作业。6. 信息编码设计6.1 代码结构设计源代码分为两个包，每个包内有不同的java类。 Source 文件下需要导入hadoop 框架的四个 .xml文件分别为： core-site.xml、 hbase-site.xml、 hdfs-site.xml、mapred-sit

15、e.xml。还有需要有hadoop 的 jar包支持。MapReduce框架结构主要是分为3 个类： Driver类、 Map类、 Reduce 类。6。Driver 类代码结构为：首先创建 JobConf 对象 conf ，设置 conf 的配置，关联 Map类、 Reducer 类及其他类。然后调用 JobClient 的静态方法 runJob 方法启动 M/R程序。Map 类代码结构为：这个用户类要求继承自MapReduceBase并且实现Mapper 接口，然后根据检索条件遍历HBase 中的内容，得到所需要的内容，并且或输出或传递给Reducer用户类。Reducer 类代码结构为：

16、这个用户类要求继承自MapReduceBase并且实现 Reducer 接口，然后通过调用附加类中的函数运算或者根据要求，对Mapper 之后的数据经行处理，并且利用 output.collect方法输出最终的结果。附加类代码结构：根据表中所列的函数及其他需求，编写封装函数。6.2 代码命名规则尽量使用英文直译之后名称来定义，首字母大写。7. 维护设计7.1 系统的可靠性和安全性后期设计中会加入控制台设计，权限设计以及针对用户的特殊设计。7.2 系统及用户维护设计利用 hadoop 框架提供的维护可以实现这一功能。7.3 系统扩充设计因为 hadoop 框架是支持横向扩展的，所以存储量这方面

17、不用担心。在功能方面可以预留接口以方便以后的功能性扩展。8. 系统配置8.1 硬件配置开发：可以在虚拟机下开发，需要五台虚拟机搭建hadoop 集群（测试使用）。运行：多台普通的X86 服务器。（实体的hadoop 集群）8.2 软件配置开发环境： eclipse、 java1.6 、 hadoop 框架、 HBase、 win7 64位操作系统运行环境： zookeeper 、 HBase、 Hadoop、 Linux64位操作系统。7。9. 关键技术9.1 关键技术的一般说明Map/Reduce 是一个用于大规模数据处理的分布式计算编程模型，用户定义一个map 函数来处理一个 Key/V

18、alue 对以生成一批中间的 key/value 对，在定义一个 reduce 函数将所有的这些中间的有着相同的 key 的 values 合并起来。而基于 hadoop 的 MapReduce也是如此。9.2 关键技术的实现方案运行于Hadoop 的 MapReduce 应用程序最基本的组成部分包括一个Mapper 和一个Reducer 类，以及一个创建JobConf 的执行程序，在一些应用中还可以包括一个Combiner类。 MapReduce框架是由一个单独的 JobTracker （master ）和很多歌 TaskTracker （slave ）集群节点的一个共同组成。在 MapReduce客户端的代码需要指明输入 / 输出的位置（文件路径 /DB/NOSQL/HBASE），客户端再加上作业的参数，就构成了作业配置（job configuration），客户端代码需要定义map 和 reduce 方法通过实现合适的抽象类，并在实现的方法中编写业务逻辑，在客户端还要定义 Map/Reduce 的输入和输出类型，当Hadoophe job client提交作业（ jar包 /class/可执行程序）和配置信息给J

人人文库> 全部分类> 行业资料

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据处理详细设计.doc

文档简介

温馨提示

最新文档

评论

大数据处理详细设计.doc

文档简介

温馨提示

最新文档

评论

相关文档