下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、用户需求书序号仪器设备 名称参考品牌 (需提供三 个品牌)参考型 号(与品 牌对应 的三个 型号)技术指标数量单位1大数据分析 平台*1.基础模块:(1 )系统采用B/S架构,即浏览器/服务器架构。可通过浏览器直接访问平台;屏蔽复杂的 大数据分析底层技术,提供可视化数据分析用户界面。(2) 提供8个Hadoop生态链产品,包含 HDFS Yarn、Map Reduce Hive、Spark组件;同时 支持原生 Hadoop、cloudera Hadoop、Hortonworks Hadoop ;基于分布式运算,可并行处理 数据。(3)提供4个数据挖掘引擎,包含云分类引擎、云聚类引擎、云关联规则
2、引擎、云智能推荐 引擎。(4)支持用户权限区分,分为系统管理员和普通用户。(5)支持作业调度、作业监控和作业管理等大数据作业任务管理;支持实时监控平台、子节 点运行情况及指标(CPU内存、存储)。(6)支持工作流,包括工作流定义、流程属性配置、流程服务等;通过拖拽组件的形式,无 需编程即可实现数据挖掘流程。(7)支持建模中间结果在线预览,过程数据可视化。(8) 数据源管理支持 3种数据来源数据上传数据, 分别为本地计算机、关系型数据库及 HDFS 其中本地上传文件支持 CSV类型;支持数据分享功能,实现冋平台用户数据功共用。1套(9)支持工作流,包括工作流定义、流程属性配置、流程服务等;通过拖
3、拽组件的形式,无 需编程即可实现数据挖掘流程。(10)支持建模中间结果在线预览,过程数据可视化。(11)支持定时任务设置功能,可创建任务组,定时周期支持秒、分、小时、日、周、月、 年为单位;支持任务之间依赖的功能。(12)支持后续的系统资源扩展,通过增加硬件资源可实现支持实验人数的增加。2. 算法单元:分布式算法包括6大类共37种算法,其中包括数据预处理13种、统计分析6种,分类算法7种、聚类算法4种、回归算法6种、协同过滤1种。分别为:(1) 数据预处理包括:数据去重、记录选择、数据映射、反映射、数据拆分、SQL探索、空 值处理、数据标准化、衍生变量、表合并、表堆叠、哑变量处理、数据离散化。
4、(2)统计分析:行列数目统计、频数统计、全表统计、主成分分析、相关分析、卡方检验。(3) 分类算法包括:逻辑回归、决策树分类、梯度提升树分类(GBDT)、朴素贝叶斯、随机 森林、SVM支持向量机、多层感知机分类器。(4) 聚类算法包括:K-Means算法、二分k均值算法,混合高斯模型(GMM) LDA。(5)回归算法包括:线性回归、广义线性回归、决策树回归、梯度提升树回归、随机森林 回归、保序回归。协同过滤算法包括:ALS (建模、评估、预测)。3. 接口扩展:(1)接口模块基于标准 RESTful设计,用户可以方便,快捷的通过浏览器在线浏览、测试 各个接口。(2) 数据源接口:提供从分布式文
5、件系统 HDFS以及大数据仓库 Hive创建数据源接口调用标 准。(3)工程管理接口:提供新建,修改,删除,查询用户工程的接口调用标准。(4 )系统组件管理接口:提供新建,修改,删除,查询系统组件的接口调用标准。(5)模型管理接口:提供查询,应用模型进行预测的接口调用标准。 任务调度接口:提供数据源,工程的调度,包括依赖任务,定时任务等的接口调用标准。2大数据开发 实训平台*1. 基础模块:(1) 包含4台Linux虚拟机(裸机)集群。(2) 配置vim文本编辑、SSH远程登录、NTP时间冋步等软件2. Hadoop增强模块:(1) 支持分布式文件系统HDFS具有高度容错性,对硬件性能要求低;
6、能提供高吞吐量的数据访问,适合大规模数据集上的应用;可以实现流的形式访问(streami ng access )文件系统中的数据。(2) 支持分布式计算框架MapReduce可用于大规模数据集的并行运算;支持作业调度和集 群资源管理;数据/代码互定位;系统优化;出错检测和恢复等。(3) 支持集群资源管理 YARN可为上层应用提供统一的资源管理和调度,提高集群利用率,实现资源统一管理和数据共享;负责应用程序提交、与调度器协商资源以启动 ApplicationMaster 、监控ApplicationMaster运行状态并在失败时重新启动它等。(4) 基础Commo平台,主要包括FileSyste
7、m、RPC和串行化库以及配置文件和日志操作等。(5 )含有畜水池抽样 MapReduce实现,包含配套工程源码、测试数据、相关文档等。(6) 含有KMea ns算法Map Reduce实现,包含配套工程源码、测试数据、相关文档等。(7) 含有TF-IDF算法MapReduce实现,包含配套工程源码、测试数据、相关文档等。3. 基于Hadoop的Hive增强模块:(1) 作为数据仓库工具,可以将结构化的数据文件映射为一张数据库表。(2) 提供简单的SQL查询功能,可直接执行相关HiveQL脚本、进行数据导入导出等。(3 )支持大数据集的批处理作业。(4 )含有航空客户价值分析数据预处理模块案例,
8、包含配套工程源码、测试数据、相关文档 等。4. 基于Hadoop的HBase增强模块:(1)基于列的模式,适合于非结构化的数据存储,具有高可靠性、高性能、可伸缩等特点。(2 )可直接执行相关 HBaseShell交互式终端命令、进行数据导入导出、使用Map Reduce与HDFS进行交互。1套(3)含有基于HBase冠字号查询系统的模块案例,包含配套工程源码、测试数据、相关文档 等。5. 基于Hadoop的Pig增强模块:(1)适合于使用 Hadoop和Map/Reduce平台来查询大型半结构化数据集。(2 )允许对分布式数据集进行类似SQL的查询。(3) 可直接执行相关 Pig Latin脚
9、本、进行大数据分布式文件系统HDFS±的各种数据处理。(4)含有Pig数据处理综合案例,包含配套工程源码、测试数据、相关文档等。6. 基于Hadoop的Spark增强模块:(1)包含大数据快速计算 Spark模块环境,如 Spark Core、Spark SQL、Spark Mllib 。(2) 可直接启动Spark-shell进行操作,也可以和 YARN进行整合,可直接操作HDFS兼容性强。(3)启用内存分布数据集,能够提供交互式查询,还可以优化迭代工作负载。(4)含有基于Spark MLlib的电影推荐系统,包含配套工程源码、测试数据、相关文档等。7. 基于Hadoop的Oozie增强模块:(1)包含 Hadoop Hive、HBase Pig、Spark 等集成环境。(2) 作为管理Hadoop
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【海珠区】18-19学年八年级上学期期末语文试卷(含答案)
- 班主任工作范文三年级班主任工作计划-0
- 班主任工作范文九年级学生辅导工作计划
- 初级心理治疗师历年考试真题试题库(含答案解析)
- 系统解剖学知到智慧树章节测试课后答案2024年秋河南大学
- 教育元宇宙:VR营销学培训课件有哪些应用场景
- 联合国国际货物销售买卖合同
- 福州第一中学2025届高考仿真卷语文试题含解析
- 房子买卖合同申请
- 合同实务管理
- GA/T 2137-2024法庭科学工业大麻及其加工产品中Δ9-四氢大麻酚等4种成分检验液相色谱和液相色谱-质谱法
- PCCP管道安装监理实施细则
- Unit5Our New rooms Lesson2(教学设计)2024-2025学年重大版英语五年级上册
- 事业单位工作人员平时考核工作方案
- 高职汽修专业《汽车发动机构造与维修》说课稿
- 电大专科《市场营销学》期末试题标准题库及答案(试卷号:2175)
- 印刷行业保密协议2024年
- 10以内加减法口算100题
- 2024年山西省忻州市事业单位招聘考试(职业能力倾向测验)题库含答案
- 2024年达州水务集团限公司招聘历年高频考题难、易错点模拟试题(共500题)附带答案详解
- 消防康复方案
评论
0/150
提交评论