基于大数据的统计分析模型设计_第1页
基于大数据的统计分析模型设计_第2页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于大数据的统计分析模型设计统计是利用尽可能少的局部样本数据来发现总体规律,处理对象往往数据规模小且数据结构单一。在大数据环境下,面临海量数据的采集与统计,传统方法已无法满足大规模数据集处理基于Hadoop系统,利用其分布式存储和并行处理机制,设计了大数据环境下的统计分析模型,从海量数据中提取出有用的信息特征,实现数据资源共享,为相关部门决策提供信息服务。0引言随着统计数据规模的快速增长,数据特征日趋复杂,数据收集渠道多样,统计学相关领域研究已进入大数据时代。如何高效收集样本数据、挖掘信息,从海量数据中提取有用的信息特征,将信息及时提供给相关部门决策,成为当前统计学研究热点之一。与国外相比,我

2、国在统计分析工作中存在信息资源整合程度不高、数据共享匮乏、信息不完整等问题。随着大数据时代的到来,对大数据分析与挖掘的研究和应用越来越重视,大数据的挖掘与分析将帮助统计部门在有效合理的时间内采集、处理、管理与分析海量数据。目前政府部门间借助政务平台可以实现数据资源共享,但是企业与政府间缺乏数据的分享平台,造成了信息隔离,对此,统计部门要构建起全方位的海量数据共享和分布式存储的安全统计分析平台,实现跨地区的统计信息交流,满足海量信息数据的实时分享和处理。1大数据大数据是一种大规模的数据集合,数据分析人员无法在一定时间内用一般软件对其进行提取、处理、分析和管理。处理大数据的关键技术包括大规模数据集

3、的并行处理技术、分布式数据库、分布式文件存储与处理系统、数据挖掘、云计算等。大数据具有5V特点:Volume(体量浩大)、Variety(类型多样)、Velocity(生成快速)、Veracity(真实性高)、Value(价值巨大)。1.1云计算云计算(CloudComputing)是传统信息技术发展融合的产物,基于效用计算(UtilityComputing)、并行计算(ParallelComputing)、分布式计算(DistributedComputing),它提供便捷的、可用的、按需付费的网络访问。云计算平台可以提供laaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务

4、),同时负责数据安全、分布式网络存储、虚拟化、负载均衡、热备份冗余等,用户在使用资源时不需考虑底层基础架构。大数据应用不在于掌握庞大的数据信息,而在于对获取的数据进行专业化处理,以挖掘出数据的价值。大数据处理任务无法用单机串行计算方式处理,必须采用分布式架构进行计算。其特点在于依托云计算的分布式处理、云存储、分布式数据库和虚拟化技术对海量数据进行挖掘。1.2大数据处理技术1.2.1大数据研究现状Science、Nature等国际顶级学术期刊出专刊探讨了大数据处理与分析研究,介绍海量数据给社会生产和人们生活带来的挑战和机遇,学者们断言:“数据将是未来举足轻重的资源。在应用方面,目前已有很多企业开

5、始做大数据处理的相关研究,IBM、谷歌、雅虎、亚马逊等公司纷纷提出自己的大数据处理架构和计算模式。谷歌首先提出了分布式存储系统GFS文件系统、大型分布式数据库BigTable。2012年美国政府斥资2亿美元启动了大数据研究和发展计划,大力发展数据信息化基础设施建设。1.2.2大数据处理关键技术处理和分析大数据的关键在于具备分布式存储功能和强大的计算能力,数据处理的基础在于数据存储,数据分析的关键在于强劲的处理能力。Hadoop是一个可扩展、可靠、开源的分布式计算系统,该框架能够实现在计算机集群中用简单的计算模式处理海量数据,同依赖高性能服务器相比,Hadoop扩展性较好,同时集群中的节点都可以

6、提供本地存储和计算。1.3基于大数据的统计分析研究统计是一项数据处理工程,面对大数据集的处理,统计样本变大、数据特征复杂等使得统计工作也变得繁琐,而数据挖掘是从大量数据中取得有用信息的过程,利用现代信息技术及挖掘算法,可以高效地对有用数据获取与处理。不妨将数据挖掘理解为一个大数据状态下精确处理数据的统计模型,对挖掘后的数据再引入统计学的思想进行相关数据处理与分析,将两种方法有机结合起来。图1大数据环境下的统计工作基础架构Hadoop为统计分析工作提供了一个稳定可靠的分析系统和共享存储,它包含两个核心技术:MapReduce和HDFS。MapReduce实现数据的处理和分析,HDFS负责数据的共

7、享存储。如图1所示,大数据环境下,统计工作的基本架构包含数据采集中心和统计分析处理中心。数据采集中心主要是通过部署在云计算环境下的服务器集群去完成数据采集工作,数据主要存放在HDFS分布式数据库中;统计管理部门设立总的服务器集群,为保证系统的可扩展性,还可以将基层的服务器随时纳入该集群中,利用MapReduce机制分配和处理计算任务;统计分析处理中心主要是智能算法池,通过算法的应用对采集到的数据进行分析。2基于Hadoop的大数据统计分析模型构建大数据环境下的统计分析系统以海量数据挖掘为基础,传统的统计分析系统采用定期对数据进行处理和分析的方式来更新模型。由于是定期被动更新,模型无法保持实时性

8、,容易造成统计结果不连续。系统的设计关键在于海量数据的实时采集获取、统计分析处理和存储,目的在于实现统计信息资源的共享。基于Hadoop的层次化统计分析模型如图2所示,自上而下包括云平台应用层、逻辑与接口层、计算层、文件系统管理层、物理资源层。图2基于Hadoop的层次化统计分析模型物理资源层:负责管理平台的基础设施,为平台提供物理设施,除包含分布式集群、数据采集终端、基础网络外,还包括围绕应用相关的基础组件。文件系统管理层:主要用于存储数据文件和日志文件,同时具备高可用数据备份功能。该层主要采用HDFS分布式存储,提供很强的数据吞吐能力。针对不同的数据统计终端,该层设计使用不同的操作系统,以便于数据的统一性。计算层是该统计模型的核心层,所有的运算机制和数据处理任务都在该层完成。其基础框架是基于HadoopMapReduce并行计算框架,采用对数据“分而治之”的方法来完成并行化的大数据统计分析工作,用Map和Reduce函数提供两个高层的并行编程抽象模型和接口,工作人员只需要实现这两个基本接口即可快速完成并行化数据处理程序设计。此外该层还包含了Hadoop平台的流数据处理storm和实时处理spark,用于对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论