大数据实验平台招标参数_第1页
大数据实验平台招标参数_第2页
大数据实验平台招标参数_第3页
大数据实验平台招标参数_第4页
大数据实验平台招标参数_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、采购需求及详细技术参数:大数据实验平台需要满足40人同时并发。1、实验系统硬件要求:硬件配置需保证满足以下最低性能要求:硬件类别指标具体需求大数据实验平台管理控制设备节点个数不少于1台CPU双CPU,型号不低于IntelXeonE5-2603v3内存不低于128GB(ECCDDR4)硬盘总物理容量不低于4TBSATA128G固态硬盘网卡不少于3个GE网口风扇4个降温风扇,1个排气风扇功能1.设备提供所有云计算工具,必须包括Hive、Spark、Pig的配置功能,配置Spark的作业调度方式和内存管理方式。2.支持大数据查询及分析功能,如聚集查询、连接查询、选择操作、嵌套查询、Llke查询等功能大数据实验平台主计算节点设备节点个数不少于1台CPU单CPU,型号不低于IntelXeonE5-2603v3内存不低于64GB(ECCDDR4)硬盘总物理容量不低于4TBSATA网卡2个GE网口风扇4个降温风扇,1个排气风扇功能1.单台设备最大可管理150个子计算节点,可同时支持3000个计算任务分配;具备Hbase海量事物处理功能2.设备提供与云计算平台能够对接的软件服务,如任务调度、数据接口和统计建模工具(R)大数据实验平台子计算节点节点个数不少于3台CPU单CPU,型号不低于IntelXeonE5-2603v3内存不低于64GB(ECCDDR4)硬盘总物理容量不低于4TBSATA网卡2个GE网口风扇4个降温风扇,1个排气风扇功能1.要求设备负责所有云计算工具(如Hive、Spark、Pig)中计算任务的转换、实施和执行。2.要求同时可并行处理100个GB级数据大数据实验平台云桌面设备数量不少于2台CPU单CPU,型号不低于IntelXeonE5-2603v3内存不低于64GB(ECCDDR4)硬盘1TSSD固态硬盘网卡2个GE网口风扇4个降温风扇,1个排气风扇功能1.能够对分配的虚拟机资源进行生命周期管理,可以根据实验流程计算资源的使用时间,当可使用时间结束时,能够自动的释放计算资源,包括处理器、内存、存储空间等。2.为学生提供云桌面功能,每台设备可支承20学生虚拟桌面5个科研桌面资源3.支持多用户的并发快速启动,实验所支持的学生虚拟机可同时在3分钟内完成启动。交换机数量不少于2台端口数量24个10/100/1000Base-T以太网端口VLAN支持基于端口的VLAN(4K个)QOS支持IEEE802.1p/DSCP优先级、支持优先级映射、支持端口信任模式、每端口支持4个队列、支持端口队列调度。网络管理支持SNMP,WEB网管,内置H3CWiNet内嵌式网管软件、支持命令行接口(CLI),Telnet,Console口进行配置、支持VCT(VirtualCableTest)电缆检测功能、支持Loopback-detection端口环回检测。功能为接入交换机的任意两个网络节点提供独享的电信号通路机柜数量不少于1台规格600*900*2000MM符合标准符合ANSI/EIARS-310-D、IEC297-2、DIN41491、PART1、DIN41494、PART7、GB/T3047.2-92标准;兼容ETSI标准功能安置硬件设备移动硬盘数量2块功能接口USB3.0,存储不低于2T用来备份所有案例库及数据集2、大数据实验平台统软件指标要求:包含数据挖掘算法与大数据分析算法两部分内容,共17大类96个实验项目,涵盖统计分析、软件应用、算法展示、统计算法开发以及大数据计算等内容。序号功能名称功能需求1大数据实验平台教师管理系统1.系统功能要求:系统采用B/S结构,支持在线注册功能,分为超级管员和普通教师管理功能,系统包括班级管理、实训设置、实训内容管理、实验报告管理、虚拟机管理、云计算集群管理功能;2.设备管理:按教学要求新建课程;新建课程可以选择参与实验班级、选择要开设的实验、实验开始时间,实验的结束时间等;系统可对所有的实验进行增加、修改、删除等功能。3.虚拟机管理:要求可演示实验名称、实验类型、实验时间、可要看详细内容、查看实验虚拟机、关闭实验虚拟机等功能。4.云计算集群管理:存储管理、Hadoop管理、Spark管理。要求可显示正常节点数、运行作业数、内存使用情况、CPU使用情况、作业名称、用户名、开始时间、作业计算状态等功能。5.其他要求:1.需提供大数据实验系统软件著作权登记证书。2大数据实验平台设备管理系统1.为整个系统提供管理功能,管理系统各设备,可对各设备进行开关机,恢复实验初始状态等功能2.提供实验环境配置功能,大数平台计算平台配置功能、计算节点服务自动化配置功能和实验初始配置功能三个方面,能够通过原始数据进行统计分析,直观的显示实验结果。3.专业的数据管理系统可以为整个实验平台提供数据存储、安全保障功能。系统可管理整个实验平台的数据能全部汇总到本台管理设备,此管理系统可以对用户信息的统一存储和控制,提供查询功能,修改功能,支持用户信息注册功能、实验日志存储查询功能、实验结果存储查询功能、考核成绩存储查询功能。4.提供云计算平台配置功能,包括配置存储限额、作业调度方式等。5.提供所有云计算工具,由于大数据行业教学内容需求的重要性,须包括Hive、Spark、Pig的配置功能,配置Spark的作业调度方式和内存管理方式。6.可以监控整个云计算平台的运行状况,包括可用资源和已用资源、作业的排队状况、正常和异常的作业运行状况,并提供干预功能,及时释放异常占用资源和终止异常作业。7.提供的接口须与系统无缝对接,对接系统包括HDFS、HBase、YARN、Pig、Hive、Mahout、Spark、Shell、JDBC、ClouderaManager。8.提供与云计算平台能够对接的软件服务,如任务调度、数据接口和统计建模工具(R)。9.用户数据可自定义进行计算,提供各接口的使用说明。提供专业的Hadoop计算系统,支持分布式计算,为实验平台提供计算服务、数据分析服务;单台设备支持15资源同时计算;要求提供数据挖掘、数据分析、数据统计、数据过滤功能、数据聚集、连接查询、嵌套查询、Like查询等功能。提供WEB管理界面,支持导向式管理,要求可强制关闭不良计算资源,要求可通过界面可视化窗口进行实施监控。10.要求系统负责所有云计算工具(如Hive、Spark、Pig)中计算任务的转换、实施和执行。11.系统要求同时可并行处理100个GB级数据;要求提供部分节点故障无间断计算;要求根据主节点分配数据重要级别,进行排队计算;要求实时返回任务执行进度和资源消耗状态;要求实时返回任务执行进度和资源消耗状态。12.系统采用基于Openstack的全定制化虚拟化方案,基于X86架构的VT功能的单个CPU核可运行多个虚拟机。虚拟化系统支持多种操作系统,包括Linux和Windows的不同版本,每个虚拟机有私有的硬件,包括网卡、磁盘以及图形适配卡等,能模拟至接近真实电脑的速度。13.能够对分配的虚拟机资源进行生命周期管理,可以根据实验流程计算资源的使用时间,当可使用时间结束时,能够自动的释放计算资源,包括处理器、内存、存储空间等。14.系统架构包括物理硬件层、虚拟化层、管理层和应用层。结合大数据实验流程的云计算平台管理软件,将所有的硬件层整合,把统一的硬件资源抽象出来组成一个统一的云计算资源池平台。资源管理与实验流程无缝结合。本系统对虚拟化平台具有良好的开放性和兼容性,为了适应大数据分析实验与科研工作的要求,须支持市场主流的Windows版本和Linux操作系统。15.本系统实现从虚拟机资源到大数据实验与科研全过程统一管理,根据大数据实验过程的特征,解决虚拟机动态部署与调度过程中统一资源管理问题,保证虚拟机的服务质量,提高资源利用效率。实验管理人员可通过页面实现虚拟资源的关联,学生可通过页面无缝访问所分配的虚拟计算资源。16.要求可与科研虚拟机配合工作,要求数据可永久存储性在科研虚拟机内;17.支持多用户的并发快速启动,实验所支持的学生虚拟机可同时在3分钟内完成启动。3大数据实验平台实验终端大数据教学演示类实验资源1.统计与建模方法演示:探索性数据分析演示、常用概率分布和渐进性演示、置信区间和假设检验演示、线性回归模型演示、广义线性回归模型演示2.数据挖掘方法演示:分类预测基本流程演示、数据预处理演示、分类方法演示、聚类分析演示、关联分析演示大数据Excel类实验资源1.Excel数据处理:Excel基本操作、Excel数据可视化、Excel函数与公式、Excel透视表、Excel数据分析2.Excel高级编程:VBA程序基础、VBA数据类型、VBA流程控制、VBA综合应用3.关联分析演示4.其他要求:1.需提供大数据实验系统软件著作权登记证书。大数据R语言类实验资源1.R语言编程基础:R语言数据类型、R语言子集和控制语句、R语言数据导入导出、R语言数据可视化、R语言探索性数据分析2.R语言统计与建模:R语言常用概率分布和渐进性、R语言置信区间和假设检验、R语言单元线性回归模型、R语言多元线性回归模型、R语言广义线性回归模型、R语言数据挖掘、R语言分类预测基本流程、R语言数据预处理3.R语言决策树分类方法:R语言高级分类方法、R语言聚类分析、R语言关联分析4.★R语言数据分析综合应用:R语言建立营销响应模型、R语言预测股票价格、R语言建立信用评分模型、R语言预测门店销售额、R语言人口教育情况分析大数据SAS类实验资源1.SAS编程基础:SAS基本操作、SAS数据步、SAS数据导入导出、SAS数据可视化、SAS宏定义和调用2.SAS统计与建模:SAS常用概率分布和渐进性、SAS置信区间和假设检验、SAS线性回归模型、SAS广义线性回归模型、SAS方差分析3.SAS数据挖掘:SAS主成分和因子分析SAS聚类分析、SAS判别分析、SAS相关分析、SAS生存分析4.★SAS数据分析综合应用:SAS建立营销响应模型、SAS预测股票价格、SAS建立信用评分模型、SAS预测门店销售额、SAS人口教育情况分析大数据教学Hadoop/Spark类实验1.Hadoop大数据分析:HDFS基本操作、MapReduce词频统计、MapReduce高级特性、迭代式MapReduce程序开发、Hive基本操作1.Spark大数据分析:Spark基本操作、Spark词频统计、Spark网络日志分析、Spark实体解析、Spark电影推荐1.大数据分析综合应用:车辆GPS位置信息分析、超市零售数据分析、微博消息分析、用户网上行为分析、电影评分分析4超市零售大数据案例库1.数据描述:实战案例所用数据为国内某超市从2012年8月1日到2013年8月1日共一年的交易数据,包含了812,847条交易、2,893,385件单个商品以及20,154名顾客2.实战要求:用Hive做数据分析和数据准备,所有代码在大数据计算集群上执行,用R语言做数据可视化3.用Hive做数据分析和数据准备:统计周末和工作日每小时的销售额和交易数量、统计一年内每天的销售额和交易数量、统计一年内每天各类商品的销售额和交易数量、统计所有用户的最近消费间隔、消费频次和消费金额4.用R语言做数据可视化:画出周末和工作日每小时的交易数量、画出一年内每天的交易数量、画出一年内每天各类商品的交易数量、将所有顾客用RFM模型聚成3类5微博消息大数据案例库1.数据描述:实战案例所用数据为新浪微博数据,包含了从2013年6月1日到14日期间的12,102,744条微博2.实战要求:用IKAnalyzer做中文分词,用Hive做数据分析和数据准备,所有代码在大数据计算集群上执行,是用R语言做数据可视化。3.用Hive做数据分析和数据准备:统计各关键词的热度变化指标、转发数和评论数、统计热度变化前五和后五的关键词每天的出现次数、转发数和评论数1.用R语言做数据可视化:画出热度变化指标、转发数和评论数的直方图、画出热度变化指标、转发数和评论数的散点图矩阵和相关性、画出热度变化前五和后五的关键词每天的出现次数、转发数和评论数6人口教育情况大数据分析案例库1.数据描述:实验所用数据为美国人口统计局对350万美国家庭进行问卷调查的结果数据,包含了美国民众生活的方方面面,包括家世、教育、工作、交通、互联网使用和居住等等。本实验主要探索教育程度(本科、硕士和博士)对就业情况和收入的影响。本实验所用数据包含了283个字段,共1,017,209个样本2.实战要求:要求首先进行数据准备,然后进行探索性数据分析。主要探索教育程度(本科、硕士和博士)对就业情况和收入的影响,学生可以从自己感兴趣的角度出发,探索相关问题1.探索性数据分析和数据预处理:读取样本画出不同教育程度的人数柱状图、过滤出失业的样本画出不同教育程度失业比例的柱状图、画出不同州的失业比例的地理信息图、画出收入中位数的箱形图、画出收入中位数的分布密度曲线图。7车辆GPS位置大数据信息案例库1.数据描述:实战案例所用数据为XX市出租车从2010年9月1日到2日的GPS位置数据,包含了7726辆出租车的共33,042,225条位置记录2.实战要求:用Hive做数据分析和数据准备,所有代码在大数据计算集群上执行,用R语言做数据可视化。3.用Hive做数据分析和数据准备:统计每小时出租车的载客情况;统计每小时载客出租车的平均车速;统计每小时载客出租车的利用率、统计出租车在3时、8时和13时的瞬时载客情况;统计各载客出租车在3时、8时和13时的瞬时速度;4.用R语言做数据可视化:可视化每小时出租车的平均速度和利用率;画出3时、8时和13时出租车载客情况的地理信息图;画出3时、8时和13时载客出租车瞬时速度的地理信息图8用户上网行为大数据案例库1.数据描述:实验所用数据为谷歌(Google)和亚马逊(Amazon)的产品数据。包含了谷歌产品数据集、亚马逊产品数据集、两个产品数据集的真实匹配结果,用于评估算法、英文停止词列表等2.实战要求:定义函数解析产品数据、创建初始产品数据RDD、定义文本记号化函数、去除停止词、记号化两个小数据集、查看亚马逊产品小数据集中记号数最多的产品记录、定义计算TF的函数、创建谷歌和亚马逊小数据集的并集RDD、计算所有记号的IDF、定义计算TF-IDF的函数、定义计算余弦相似度的函数、定义计算TF-IDF余弦相似度的函数、进行实体解析、产品真实匹配数据集、统计谷歌和亚马逊小数据集中匹配的产品数、统计匹配的产品的平均余弦相似度、统计不匹配的产品的平均余弦相似度、优化算法并尝试亚马逊和谷歌产品标准数据集;9预测股票价格大数据案例库1.数据描述:实验所用数据为上证50组合(以2015年12月31日的选股为标准)中从2007年1月1日至2015年12月31日每日的股票开盘价、最高价、最低价、收盘价、成交量和调整价,预测股票价格的走势。2.实战要求:数据准备,探索性数据分析和数据预处理最终建立预测模型;数据准备,载入相关程序包,并设置随机数种子;探索性数据分析和数据预处理:查看其中一只股票的价格走势和成交量、近三个月价格走势的布林线、定义需要预测的目标变量进行探索性数据分析和数据预处理;建立分类模型:训练梯度boosting模型、测试模型性能画出ROC曲线。10Python类实验Python类实验:Python数据处理、Python基本操作、Python列表操作、★Python数据分析、Python函数和程序包、Numpy数组操作、Matplotlib数据可视化、Pandas数据框操作、Python数据降维、Python聚类分析、PythonK近邻分类、Python回归分析、Python支持向量机分类、Python决策树分类、Python随机森林分类、Python模型评估

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论