版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.大数据工程实验室申请书1工程实验室拟突破的技术方向大数据工程实验室拟突破的技术方向为:R 语言与 Hadoop 分布式计算平台交互技术。R语言是一种自由免费软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R 本来是由来自新西兰奥克兰大学的RossIhaka 和 Robert Gentleman 开发(也因此称为R),现在由“R 开发核心团队”负责开发。 R的源代码可自由下载使用,可在多种平台下运行,包括 UNIX,Linux,Windows 和 MacOS。R主要是以命令行操作为主,同时支持 GUI的图形用户界面。 R内建多种统计学及数字分析功能, R比其他统计学或数学专用的编程语
2、言有更强的物件导向功能。R的另一强项是绘图功能, 制图具有印刷的素质, 也可加入数学符号。虽然 R主要用于统计分析或者开发统计相关的软体,但也有人用作矩阵计算。其分析速度可媲美GNU Octave甚至商业软件MATLAB。CRAN为 Comprehensive R Archive Network 的简称,它除了收藏了 R 的执行档下载版、源代码和说明文件,也收录了各种用户撰写的软件包。全球有超过一百个 CRAN镜像站,上万个第三方的软件包。 R 的行业应用非常广泛,例如:统计分析,应用数学,计量经济,金融分析,财经分析,人文科学,数据挖掘,人工智能,生物信息学,生物制药,全球地理科学,数据可视
3、化。Hadoop是一个分布式系统基础架构,由 Apache 基金会开发。用1 / 5.户可以在不了解分布式底层细节的情况下, 开发分布式程序。 充分利用集群的威力高速运算和存储。 Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System ),简称 HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。 而且它提供高传输率来访问应用程序的数据, 适合那些有着超大数据集的应用程序。 HDFS 放宽了可移植操作系统接口的要求, 这样可以以流的形式访问文件系统中的数据。自 2006 年,Hadoop以 MapReduce和 HDFS独立发展开
4、始,到今年 2013 年不过 7 年时间, Hadoop 的家族已经孵化出多个 Apache 的顶级项目。特别是最近 1-2 年,发展速度越来越快,并且融入了很多新技术( YARN, Hcatalog, Oozie, Cassandra )。Hadoop 家族的强大之处,在于对大数据的处理,让原来的不可能( TB,PB 数据量计算)成为了可能。 R 语言的强大之处,在于统计分析,在没有 Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来 R语言都是统计学家专属的工具。所以, hadoop 重点是全量数据分析,而 R 语言重点是样本数据分析。 两种技术放在一起,恰好是取
5、长补短。以计算机开发人员的思路,所有事情都用 Hadoop去做,没有数据建模和证明,“预测的结果”一定是有问题的;以统计人员的思路,所有的事情都用R去做,以抽样方式,得到的“预测的结果”也一定是有问题的。所以R语言与 Hadoop的结合,是产界业的必然的导向,也是产界业和学术界的交集,同时也为交叉学科的人才提供了无限广阔的想象空间。目前,通常有两种方法将R语言与大数据处理平台相结合使用。2 / 5.第一种方法是,在Hadoop上用 MapReduce处理 PB、TB量级的数据,缩小数据容量到 GB量级,然后将其加载到 R中进行处理。在 R 中,GB级别的数据可以利用 MPI并行处理框架构建的集
6、群计算。 R包 Rmpi、snow、snowfall 都可以实现多种 MPI 支持的并行编程模式。第二种方法是,直接使用支持 Hadoop的 R包,在 R 中操作存放在 HDFS中的数据,并利用 R语言完成 MapReduce算法,用来替代 Java 的 MapReduce 实现。 R包 Rhadoop使得 R语言具有处理高达 TB甚至 PB级的大数据的能力。在 GitHub 社区可以找到该项目与开源实现代码。 Rhadoop 包含有三个包,分别是 rhdfs,rmr 以及 rHBase,分别对应 Hadoop系统架构中的 HDFS,MapReduce和 Hbase三个部分。除了 Rhadoo
7、p之外,还有从 R中进行 Hive 查询的 Rhive 包,能够直接从 Hive 中进行查询。将 R和结合起来,其既能够利用分布式计算打破数据量的限制, 又能够利用 R 中的众多优秀的免费扩展包,快速实现所需的数据处理分析。综上所述, R 语言与 Hadoop 的交互使用技术就成了本项目急需突破的技术方向。2工程实验室的主要功能与任务大数据工程实验室的主要功能如下:( 1)为统计学学科与大数据有关的课程教学提供支持。统计学专业的就业前景非常广阔。 整个世界已经迎来了大数据时代, 就业市场对熟悉并且能够分析大数据的应用型人才思贤若渴, 所以对大数据挖掘等与大数据相关的课程的理论学习和实践操作显得
8、尤为重3 / 5.要。一个功能齐全、 技术先进的大数据工程实验室将对大数据的学习者提供一个良好的实践环境, 为学习者将来从事大数据处理做好充足的准备。( 2)为统计学学科大数据相关科研课题的研究提供支撑。在保证完成学校教学任务的前提下, 大数据工程实验室打算面向学校及社会开放,为大数据相关科研课题研究提供支持。 为大数据的相关科研课题的研究提供大量、 详实的数据。 为大数据的相关科研课题的研究提供数据处理与分析工具。( 3)在一定程度上为社会提供相关服务。可以为社会有关单位和个人提供大数据的采集、准备、存储、分析与挖掘以及大数据的展示与可视化等一系列服务。 可以进行大数据分析与挖掘的设计、 开
9、发、培训,真正实现产、学、研的有机结合。工程实验室的任务如下:( 1)培养统计学学科学生对大数据的分析与挖掘能力,尤其培养学生面对复杂大数据时分析与挖掘方法的创新。( 2)以实验室为基地建立学术氛围浓厚的大数据分析科研团队。提倡科研团队先根据数据特点构建缜密的大数据分析模型, 然后依托于功能齐全的大数据工程实验室对模型进行实践验证, 继而最终修正完善模型。4 / 5.( 3)把自主研发的大数据分析与挖掘的技术应用到企业中,通过我们对模型的预测和决策确保企业的最终决策能应对日益增加的复杂性,跟上日益加快的步伐。3工程实验室的近期和中期目标大数据工程实验室的近期目标如下:( 1)建立先进稳定的 Hadoop与 R的交互平台;( 2)组建具有行业领先水平,结构合理的大数据分析与挖掘创新团队。力争使该团队成员人人熟练掌握 Hadoop与 R的交互技术,利用 R语言对复杂大数据进行建模最终用于预测和理论上的决策;大数据工程实验室的中期目标( 1)自主研制开发基于 Hadoop与 R交互平台的大数据分析与挖掘技术,尤其针对复杂数据,例如基于物联网和云计算的大数据。主要针对不同类型的复杂数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 开展119消防宣传日活动总结
- 感恩父母亲演讲稿(9篇)
- 开展119消防安全宣传月活动总结7篇
- 十万个为什么知识竞赛
- 公共卫生服务卫生监督协管
- 基于双端行波法的架空线-电缆混合线路故障定位研究
- 二零二五年度公路货物运输与智能仓储管理系统合同3篇
- 基于特征模理论的机载阵列天线研究
- 二零二五年度个人临时借款合同范本3篇
- 不同封装形式的锂离子电池串联电弧故障热电特征研究
- 昆明手绘版旅游攻略
- 法律诉讼及咨询服务 投标方案(技术标)
- 带式输送机滚筒出厂检验规范
- 《信息检索基础知识》课件
- 具有履行合同所必须的设备和专业技术能力的承诺函-设备和专业技术能力承诺
- 格式塔心理咨询理论与实践
- 英语六级词汇(全)
- 1325木工雕刻机操作系统说明书
- 医院出入口安检工作记录表范本
- 斯瓦希里语轻松入门(完整版)实用资料
- 复古国潮风中国风春暖花开PPT
评论
0/150
提交评论