版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 数据挖掘与大数据分析实验平台方案北京红亚华宇科技有限公司二零一五年数据挖掘与大数据分析实验室目录一.背景 . 4 1.1数据挖掘和大数据分析行业背景和发展趋势 . 4 1.2数据挖掘与大数据分析实验室建设的必要性 . 5 二.数据挖掘与大数据分析实验室设计理念及目标 . 5 2.1实验室设计理念 . . 5 2.2 数据挖掘与大数据分析实验室建设目标与特色 . 62.2.1实验室建设目标 . . 6 2.2.2实验室特色 . 7 三.数据挖掘与大数据分析实验平台建设方案 . . 8 3.1 基础环境建设 . . 83.1.1IT 环境建设. 8 3.1.2网络环境建设. 8 3.2 实验平台
2、功能 . . 93.2.1用户管理功能. 10 3.2.2实验管理功能. 10 3.2.3课件资源管理功能 . . 11 3.2.4实验加载功能. 12 3.2.5考试管理功能. 13 3.2.6Hadoop 管理功能 . . 14 3.2.7部署方式简易. 15 3.2.8科研创新支撑. 15 3.3实训平台特色 . . 16 四.数据挖掘与大数据分析实验课程内容 . 17 4.1E XCEL 数据处理 . . 20 4.2统计与建模方法演示 . . 20 4.3数据挖掘方法演示 . . 21 4.4SAS 编程基础 . . 22 4.5R 语言编程基础. 23 4.6M Y SQL 数据库
3、操作. 23 4.7JAVA 数据爬取. 24数据挖掘与大数据分析实验室4.8E XCEL 高级编程 . . 25 4.9SAS 统计与建模 . . 26 4.10SAS 数据挖掘 . 27 4.11R 语言统计与建模 . 28 4.12R 语言数据挖掘 . 29 4.13H ADOOP 大数据分析 . 30 4.14JAVA 自然语言处理 . 31 4.15SAS 数据分析综合应用 . 32 4.16R 语言数据分析综合应用 . 32 4.17大数据分析综合应用 . 33 4.18实验列表 . 34 五.数据挖掘与大数据分析实验室建设优势 . 36 5.1方案优势 . . 36 5.2技术优
4、势 . . 36 六.技术服务 . . 37 6.1售前技术服务 . . 38 6.2技术培训 . . 38 6.3售后技术服务 . . 38 七.数据挖掘与大数据分析实验室设备清单 . 39数据挖掘与大数据分析实验室一. 背景1.1 数据挖掘和大数据分析行业背景和发展趋势移动互联网、电子商务以及社交媒体的快速发展使得企业需要面临的数据量成指数增长。根据 IDC 数字宇宙(Digital Universe研究报告显示,2020 年全球新建和复制的信息量已经超过 40ZB,是2012年的12倍; 而中国的数据量则会在2020年超过8ZB ,比2012年增长22倍。数据量的飞速增长带来了大数据技术
5、和服务市场的繁荣发展。IDC 亚太区(不含日本 最新关于大数据和分析(BDA领域的市场研究表明,大数据技术和服务市场规模将会从2012年的5.48亿美元增加到2017年的23.8亿美元,未来5年的复合增长率达到34.1%。该市场涵盖了存储、服务器、网络、软件以及服务市场。数据量的增长是一种非线性的增长速度。据IDC 分析报道,最近一年来,亚太区出现了越来越广泛的大数据和分析领域的应用案例。在中国,从互联网企业,到电信、金融、政府这样的传统行业,都开始采用各种大数据和分析技术,开始了自己的大数据实践之旅; 应用场景也在逐渐拓展,从结构化数据的分析,发展到半结构化、非结构化数据的分析,尤其是社交媒
6、体信息分析受到用户的更多关注。用户们开始评估以Hadoop 、数据库一体机以及内存计算技术为代表的大数据相关新型技术。最新调研结果显示,提高竞争优势,降低成本以及吸引新的客户是中国用户对大数据项目最期望的三大回报。目前现有的大数据项目主要集中在业务流程优化以及提高客户满意度方面的应用。IDC 发现很多用户希望大数据能够为企业带来业务创新,并且开始使用高级分析的解决方案以管理复杂的数据环境。过去一年中用户对社交数据的收集和分析应用的关注度增加明显。未来,地理位置信息分析将会增长迅速,这也会推动用户对大数据安全和隐私管理的关注。在亚太区,澳大利亚和新加坡的用户对大数据的相关投资主要在咨询服务方面,
7、更关注如何根据新的最佳实践需求设计和实施方案。中国和印度在大数据领域的硬件投资则非常明显,更倾向于数据中心相关的基础架构的投资。数据挖掘与大数据分析实验室在传统的数据分析与商业数据挖掘中,人们通常遵循二八原则。也就是任务20%的用户提供了80%的价值,因此利用优势资源用户对于少数用户的服务。随着互联网的发展,越来越多的低价值用户进入到商业体系中,这部分用户成为商业企业竞争的目标。比如电商行业,大量顾客都是传统意义上的低价值客户,数据表明对于这部分用户价值的挖掘可以改变二八原则,甚至可达到价值的几乎均匀分布。并且由于计算技术的发展,对于大数据的分析也成为了可能。1.2 数据挖掘与大数据分析实验室
8、建设的必要性数据挖掘与大数据分析是以计算机基础为基础,以挖掘算法为核心,紧密面向行业应用的一门综合性学科。其主要技术涉及概率论与数理统计、数据挖掘、算法与数据结构、计算机网络、并行计算等多个专业方向,因此该学科对于实验室具有较高的专业要求。实验室不仅要提供基础的开发环境,还要提供大数据的运算环境以及用于实验的实战大数据案例。这些实验素材的准备均需专业的大数据实验室作为支撑。目前,在我国高校的专业设置上与数据挖掘与大数据分析实验相关的学科专业包括:计算机科学与技术、信息管理与信息系统、统计学、经济、金融、贸易、生物信息以及公共卫生等。这些专业的学生需要分别从原理、技术与应用等不同的角度掌握大数据
9、分析的理论与分析方法。学生要很好地掌握这些课程,除了课堂学习,通过实验来加深理解和提高实际应用操作能力也是主要途径。调查表明,数据挖掘与大数据分析实验所需要的算法、计算环境以及数据等,都无法在我国高校现有的实验室中完成。因此,建设专门的数据挖掘与大数据分析实验室就显得非常重要。二. 数据挖掘与大数据分析实验室设计理念及目标2.1 实验室设计理念数据挖掘与大数据分析实验室的设计全面落实“产、学、研、用”一体化的思想和模式,从教学、实践、科研和使用多方面注重专业人才和特色人才的培养。本实验室建设方案融合数据挖掘与大数据分析专业教学、实训、实战等各层次实践教学,能够从面向大数据分析行业需求和促进学生
10、职业发展的角度规划和建设数据挖掘与大数据分析实验室,真正在产业、学校、科研及实际项目中相互配合,发挥优数据挖掘与大数据分析实验室 势,形成生产、学习、科学研究、实践运用的系统运作模式,从而建设大数据分析特色专业。利用虚拟化教学资源,搭建实训平台和实战平台,将理论学习、实践教学和大数据分析实战融为一体,由难而易、循序渐进,逐步提升学生的学习技能和实践水平,提高“学”的质量和成效。利用大数据分析主流软件框架,搭建与业界主要用户一致的实验与科研环境,将理论课程中学到的数据挖掘算法运用到实际的数据分析过程中,提升学生的动手操作和项目实践能力。使得学生所学与企业项目人才需求无缝衔接,与教师的科研工作紧密
11、配合。通过专业的大数据分析计算资源搭建的开放式大数据分析平台,可以充分的融合教师的科研需求,教师可以在开放的平台环境下开展大数据科研工作,提升教师的科研创新能力,充分提高“研”的成效。2.2 数据挖掘与大数据分析实验室建设目标与特色2.2.1 实验室建设目标大数据指的是所涉及的数据量规模巨大到无法利用目前主流软件工具,在合理时间内达到采集、管理、处理、并整理成为帮助企业经营决策更积极目的的数据信息。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数
12、据的“增值”。因此数据挖掘与大数据分析实验室重点培养学生对于数据的处理与分析能力。由此可见,数据挖掘与大数据教学过程中包含数据挖掘算法与大数据分析算法两个部分的内容。学生首先要掌握数据挖掘的基本理论与算法,其次要掌握大数据处理的框架与平台,进而掌握针对大数据的数据挖掘方法。因此本实验室建设内容包括数据挖掘部分与大数据算法部分两大类实验。数据挖掘部分的实验包括基本实验与算法实验两部分。基本实验用于给学生建立起数据挖掘的基本概念,展示常用的数据挖掘算法。以典型的应用数据为例,展示常用算法的分析效果。算法实验为学生提供编程框架,针对重要的数据挖掘算法进行实数据挖掘与大数据分析实验室 现。该部分实验以
13、R 语言为开发环境,学生通过本实验室将掌握数据挖掘主要算法的实现方法。大数据算法实验包括基本的大数据分析平台与算法实验以及典型实战数据分析实验两部分。大数据分析平台与算法实验包括平台配置与典型算法设计两大类,通过该类实验使得学生能够完成对于大数据分析平台的配置与初始化工作并具有基本MapReduce 算法开发能力。典型实战数据分析实验,让学生利用真实的行业数据,完成大数据挖掘与分析,掌握数据挖掘与大数据分析的一般流程。2.2.2 实验室特色1、大数据环境搭建与大数据算法实现相结合。大数据算法作为最新的算法分析技术具有完全不同的设计思路,算法开发过程对初次接触该部分内容的本科生而言有较大的难度,
14、一方面是算法思想的新颖性,另一方面则是算法实现对于程序开发的能力要求较高。因此为了实验的顺利完成,需要给学生一个入门的过程,本实验室通过环境搭建以及简单实验的过渡来实现的。本实验对于学生的要求是框架性的,允许学生的创新,以激发和培养学生的创新意识和创新能力。2、多梯度、层次式的系列实验。为了照顾和覆盖能力和兴趣存在明显差别的多个学生群体,在设置特色实验的具体实验内容时,提供层次性、阶段性的开发目标,不同学生可以根据自己的能力差别选择合适的开发任务难度,而且在实验过程中,学生也可以根据进度调整相应的实验难度,以避免学生不能完成实验的情况,充分维护和提高学生参与该特色实验的兴趣和信心。3、充分支撑
15、的科研工作。系统提供数据分析接口,可将收集到的大数据进行分析统计,按自己需求生成报表,为科研工作提供数据支承。例如某地区经济数据分析、股市数据分析等。数据挖掘与大数据分析实验室三. 数据挖掘与大数据分析实验平台建设方案作为专业的高校实验室建设方案提供商,结合相关知名高校及科研机构的教学及科研成果,提供了一套完整的高校数据挖掘与大数据分析的实验室解决方案。该实验室方案按照数据挖掘、大数据平台与算法、行业实战数据分析三个层次来搭建。通过典型的算法展示、算法实现结合大数据分析的应用场景与案例对学生进行数据分析方面的综合训练,从而实现专业实验教学的由点及面、理论到应用、涵盖原理验证/综合应用/自主设计
16、及创新的多层次实验体系。3.1 基础环境建设实验室基础环境建设主要是支撑实验室教学运行的基本环境配套建设,包括学生实验用桌椅、教学用投影音响器材、实验室空调系统、综合布线系统、安防监控系统及实验室装修系统等。通过这些基础支撑环境的建设,才能保证实验室正常为教学和科研服务。综合基础环境建设的各项内容,针对实验室的空间环境及现代实验教学的发展趋势,一个实验班级50个学生可分为5个实验组,每组可安排10个学生同时进行实验,这样可安排50个学生同时进行数据挖掘与大数据分析相关的实验课程。3.1.1 IT环境建设IT 环境建设包括实验终端个人电脑和存储规划建设。学生实验终端计算机一方面可以采用普通终端P
17、C 机,组合成实验室局域网,支撑学生进行实验,另一方面随着云计算技术的发展,学生计算机可以采用虚拟桌面云终端的设计方式,通过采用专用云资源服务器及存云调度设备进行设计,利用服务器虚拟化的方法来对终端进行支撑,用户通过部署在实验台的瘦客户端进行实验操作,所有应用、数据统一存放在后台服务器,虚拟桌面云终端不存放任何数据,可被管理工具统一管理,包括分发系统、更新软件、远程监控、审计等操作。虚拟桌面云平台也通过虚拟化平台的管理工具管理,大大降低维护人员的重复工作量。3.1.2 网络环境建设数据挖掘与大数据分析实验室网络部署环境如图1所示。其中,路由器和交换机数据挖掘与大数据分析实验室 等网络设备将用户
18、和存储连接起来,是用户之间以及用户与资源之间的通信设备;实训平台设备提供云存储和统一资源调度系统功能,其可以是一台设备,也可以是多台设备的集群部署,以提高设备的虚拟化能力,用户通过统一资源调度平台调用其中的所所有资源,而无需关注硬件设备;管理员可以对平台进行统一管理,包括账户管理、资源管理、实验管理等;普通用户可以通过平台进行各项数据挖掘实验及技术验证等操作。针对校方已有的网络设备,可以进行整合,而且相关设备与模块也可根据校方专业教学和实验室建设的具体情况进行选择。 图 数据挖掘与大数据分析实验室网络拓扑结构3.2 实验平台功能教学实训平台建设通过云计算虚拟化平台及教育管理平台实现教学实训平台
19、的建设。云计算虚拟平台通过云计算管理平台为计算机教学虚拟各种实验操作环境,让学生进行各种数据挖掘算法的演示与开发,真实体验数据科学在实际环境中的应用。教育培训管理平台即我们通常说的网络学习平台, 是一种基础性技术平台。 它以课程管理为中心、学习活动驱动的一套辅助性培训信息化解决方案软件系统。创新性引进了模拟仿真教学的理念, 可将面授课堂完全搬到网络进行, 同时引进了培训班的概念, 将课程学习及考试与培训班有机结合, 对在线培训进行有效管理。数据挖掘与大数据分析实验室3.2.1 用户管理功能根据学校实际情况,管理员可以自定义添加删除专业、年级和班级,通过Excel 表格批量导入导出用户。根据实验
20、环境也可进行用户的自主注册,由管理员审核后即可进行登录。 专业、年级、班级列表 批量导入用户列表3.2.2 实验管理功能根据教学安排制定课程表,安排学生的选修课和必修课,最后通过课程调度可以按课程或者按用户进行安排课程。数据挖掘与大数据分析实验室 课程表3.2.3 课件资源管理功能针对高等院校计算机、商科、统计等学科相关专业德尔要求,本实验平台开发了包括低中高不同难度的17大类近百个实现项目。实验涵盖了统计分析、软件应用、算法展示、统计算法开发以及大数据计算等内容,可以满足不同学科不同层次学生的学习需求。针对这些实验内容,实验平台开发了相应的实验指导书、实验数据说明以及实验数据等课件资源。学生
21、可利用这些资源顺利完成实验内容。数据挖掘与大数据分析实验室 课件资源3.2.4 实验加载功能通过web 浏览器直接登录实训平台并启动实验,参照实验课件可以进行自主学习。在学生进行实验的过程当中,教师可以随时进行远程协助,对学生进行指导。实验结束后,自动释放系统资源。 学生实验环境数据挖掘与大数据分析实验室3.2.5 考试管理功能针对实验课程在线进行课程实训考核,学生可根据老师的要求提交实验报告,老师在后台进行评分。 实验报告 成绩数据挖掘与大数据分析实验室 后台打分3.2.6 Hadoop管理功能针对大数据处理机群,后台提供可视化的管理界在,可查看计算资源使用情况,可根据使用情况对机群进行管理
22、及资源分配。 数据挖掘与大数据分析实验室 Hadoop 机群管理3.2.7 部署方式简易数据挖掘与大数据分析实验平台部署非常简易,通过一根网线接入到实验室网络中,客户端无须安装任何客户端软件,即可完成设备的部署和环境的搭建。学生通过web 页面访问设备并进行实验,教师和管理员通过web 页面进行实验和设备的管理。实验平台所需的计算资源均通过虚拟化的方式提供,可灵活适应教学实验与科研工作需求。3.2.8 科研创新支撑数据挖掘与大数据分析实验平台通过虚拟机的方式为学生提供了实验开发与操作平台,同时也为教师科研提供专门的算法开发平台。通过这些算法平台,教师可方便地进行数据爬取、文本分析、算法实现等开
23、发工作,并且通过实验平台所提供的Hadoop 运算环境,自由设计算法处理数据。数据挖掘与大数据分析实验室 开启科研虚拟机 实际科研数据案例分析3.3 实训平台特色云计算虚拟功能平台采用云虚拟化技术,包括OS 虚拟化(单平台多操作系统,容易扩展迁移)、APP 虚拟化(一次安装,随处使用,方便共享)、实验环境虚拟化(用户接入实训平台,使用云虚拟环境提供的在线实验服务),提高了单台产品虚拟化能力,扩充了实验环境,达到了一台设备就是一个实验室的效果,降低了投入成本和维护成本。数据挖掘与大数据分析实验室 虚拟机管理 镜像生成器功能用户可以非常方便的完成所需设备的镜像制作以及新实验的环境搭建,无需购买新的
24、硬件设备。 简便快捷整合功能可以将实验需要的材料、虚拟机资源、网络、存储资源等整合成全新的实验供用户使用。 实验课程并发功能教师可以同时开展多个大数据分析课程,通过启动不动的实验课件,为不同的学员分配相应的实验课程。 实验考评功能提供教师编写考题的功能,可针对自身教学的需要,根据实验内容或相关知识点编写试题及答案加入题库;在给学生分配实验的同时可以引入相关的实验考题,学生在完成实验后回答相关的试题,系统将根据提交结果自动进行评分。 统一管理功能平台具备统一数据管理、实验内容管理等功能,结合真实网络、Hadoop 环境、行业应用数据进行信息大数据分析实验。四. 数据挖掘与大数据分析实验课程内容数
25、据挖掘与大数据分析涉及到概率论与数理统计、算法与数据结构、程序语言开发、数据挖掘、计算机网络、并行计算等多门学科。本实验课程的内容涵盖了上述所数据挖掘与大数据分析实验室涉及到的内容,并按照实验内容的复杂度分为初级、中级以及高级三个等级。同时实验课程也根据面向的专业不同,将实验内容分为了演示实验、一般操作性实验、开发性实验以及大数据开放实验等不同实现内容。这些内容的交叉组合可以实现针对不同专业与不同层次学生的实验课程设计。实验内容有4类共计100多个实验项目,采用实验管理系统,能够为数据挖掘与大数据教学及科研提供一个完整的、一体化的实验教学环境,从而打造出全方位的专业大数据分析实验室。数据挖掘与
26、大数据分析实验室 数据挖掘与大数据分析实验室4.1 Excel 数据处理Excel 是微软公司office 系列办公软件的组件之一,它是一个功能强大的电子表格程序。Excel 不仅可以将整齐而美观的表格呈现给用户,还可以用来进行数据的分析和预测,完成许多复杂的数据运算,帮助使用者做出更加有根据的决策。同时它还具有强大的可视化功能可以将表格中的数据通过各种各样的图形、图表的形式表现出来,增强表格的表达力和感染力。因此Excel 是用于数据挖掘与数据分析的最基本软件工具。本类实验主要侧重Excel 数据处理的教学,对学生无任何基础要求。本类实验包括:Excel 基本操作、数据可视化、函数与公式、透
27、视表和基本的数据分析方法。通过本类实验,学生可以掌握Excel 数据处理的基本方法。 4.2 统计与建模方法演示统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。建模就是建立模型,就是为了理解事物而对事物做出的一种抽象,是对事物的一种无歧义的书面描述。建立系统模型的过程,又称模型化。建模是研究系统的重要手段和前提。本类实验主要侧重统计学方法以及常用数学建模方法的演示,对学生无编程基础要求,也并不会涉及任何代码。本类实验包括:统计推断基础、统计分布、假设
28、检验、数据挖掘与大数据分析实验室基本线性回归、多变量线性回归和广义线性模型。通过本类实验,学生可以掌握统计与建模的一般方法和流程。 4.3 数据挖掘方法演示数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。本类实验主要侧重数据挖掘方法的演示,对学生无编程基础要求,也并不会涉及任何代码。本类实验包括:数据可视化、聚类、数据降维、分类基础、决策树分类方法、高级分类方法和关联分析。通过本类实验,学生可以掌握数据挖掘的常用方法和流程。数据挖掘与大数据分
29、析实验室 4.4 SAS 编程基础SAS (全称STATISTICAL ANALYSIS SYSTEM,简称SAS )是全球最大的软件公司之一,是由美国NORTH CAROLINA州立大学1966年开发的统计分析软件。经历了许多版本,并经过多年来的完善和发展,SAS 系统在国际上已被誉为统计分析的标准软件,在各个领域得到广泛应用。本类实验主要侧重SAS 编程的教学,对学生无编程基础要求。本类实验包括:SAS 基础、控制语句、数据类型、常用函数和程序调试。通过本类实验,学生可以掌握SAS 编程的基本方法。 数据挖掘与大数据分析实验室4.5 R 语言编程基础R 语言是一套完整的数据处理、计算和制图
30、软件系统。其功能包括:数据存储和处理系统、数组运算工具(其向量、矩阵运算方面功能尤其强大)、完整连贯的统计分析工具、优秀的统计制图功能、简便而强大的编程语言,可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。本类实验主要侧重R 语言编程的教学,对学生无编程基础要求。本类实验包括:R 语言基础、控制语句、数据类型、常用函数和程序调试。通过本类实验,学生可以掌握R 语言编程的基本方法。 4.6 MySQL 数据库操作MySQL 是一个关系型数据库管理系统,是最流行的关系数据库管理系统应用软件之一。MySQL 所使用的 SQL 语言是用于访问数据库的最常用标准化语言。由于其体积小、速度快、
31、总体拥有成本低,尤其是开放源码这一特点,一般中小型网站的开发都选择 MySQL 作为网站数据库。由于其社区版的性能卓越,搭配 PHP 和 Apache 可组成良好的开发环境。本类实验主要侧重SQL 编程和MySQL 的使用,对学生无编程基础要求。本类实验包括:MySQL 配置、SQL 中的DDL 、DML 和DCL 语句、MySQL 常用函数、存储过程和自定义函数。通过本类实验,学生可以掌握MySQL 数据库的基本使用方法和SQL 编程的基本方法。数据挖掘与大数据分析实验室 4.7 JAVA 数据爬取网络爬虫,又被称为网页蜘蛛、网络机器人,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚
32、本。传统爬虫从一个或若干初始网页的URL 开始,获得初始网页上的URL ,在抓取网页的过程中,不断从当前页面上抽取新的URL 放入队列,直到满足系统的一定停止条件。本类实验主要侧重用JAVA 编写爬虫程序的基本步骤和模块,要求学生在实验前掌握基本的JAVA 语法和JAVA 程序的调试方法。本类实验包括:抓取网页、处理HTML 页面、非HTML 正文提取、设计爬虫队列和并行爬虫。通过本类实验,学生可以掌握用JAVA 编写爬虫程序的基本方法。数据挖掘与大数据分析实验室 4.8 Excel 高级编程在Excel 中,有些数据分析的高级功能需要掌握VBA 才能充分实现。Visual Basic for
33、 Applications (VBA )是Visual Basic 的一种宏语言,是微软开发出来在其桌面应用程序中执行通用的自动化任务的编程语言。主要能用来扩展Windows 的应用程式功能,特别是Microsoft Office软件。本类实验主要侧重Excel VBA 的教学,要求学生在实验前先完成Excel 数据处理实验。本类实验包括:VBA 程序基础、控制语句、常用函数和综合应用。通过本类实验,学生可以掌握Excel VBA编程的基本方法。数据挖掘与大数据分析实验室 4.9 SAS 统计与建模SAS 具有强大的统计与建模功能,可以进行基本的统计检验、线性回归、方差分析、列联表检验等基本统
34、计分析,还可以进行曲线拟合、线性回归以及广义线性模型拟合。本类实验主要侧重用SAS 进行统计与建模的基本方法,要求学生在实验前先完成统计与建模方法演示和SAS 编程基础实验。本类实验包括:SAS 统计推断基础、统计分布、假设检验、基本线性回归、多变量线性回归和广义线性模型。通过本类实验,学生可以掌握用SAS 进行统计与建模的常用方法和流程。数据挖掘与大数据分析实验室 4.10 SAS 数据挖掘SAS Enterprise Miner (SAS EM 是一个图形化界面,菜单驱动的,拖拉式操作,对用户非常友好且功能强大的数据挖掘集成环境。其中集成了数据获取工具、数据抽样工具、数据筛选工具、数据变量
35、转换工具、数据挖掘数据库、数据挖掘过程、多种形式的回归工具、为建立决策树的数据剖分工具、决策树浏览工具、人工神经元网络和数据挖掘的评价工具。本类实验主要侧重用SAS EM进行数据挖掘方法的基本方法,要求学生在实验前先完成数据挖掘方法演示和SAS 编程基础实验。本类实验包括:SAS 数据可视化、聚类、数据降维、分类基础、决策树分类方法、高级分类方法和关联分析。通过本类实验,学生可以掌握用SAS EM进行数据挖掘的常用方法和流程。数据挖掘与大数据分析实验室 4.11 R 语言统计与建模R 语言具有强大的统计与建模功能。R 并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分
36、析。R 的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。本类实验主要侧重用R 语言进行统计与建模的基本方法,要求学生在实验前先完成统计与建模方法演示和R 语言编程基础实验。本类实验包括:R 语言统计推断基础、统计分布、假设检验、基本线性回归、多变量线性回归和广义线性模型。通过本类实验,学生可以掌握用R 语言进行统计与建模的常用方法和流程。数据挖掘与大数据分析实验室 4.12 R 语言数据挖掘R 语言在数据挖掘方面应用广泛,包含了大量的数据挖掘方面的算法包,使得它成为一款优秀的、不
37、可多得的数据挖掘工具软件。本类实验主要侧重用R 语言进行数据挖掘方法的基本方法,要求学生在实验前先完成数据挖掘方法演示和R 语言编程基础实验。本类实验包括:R 语言数据可视化、聚类、数据降维、分类基础、决策树分类方法、高级分类方法和关联分析。通过本类实验,学生可以掌握用R 语言进行数据挖掘的常用方法和流程。数据挖掘与大数据分析实验室 4.13 Hadoop 大数据分析Hadoop 是一个由Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop 实现了一个分布式文件系统(Hadoop Distri
38、buted File System ),简称HDFS 。HDFS 有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS 放宽了POSIX 的要求,可以以流的形式访问文件系统中的数据。本类实验主要侧重用Hadoop 进行大数据分析的基本方法,要求学生在实验前先完成MySQL 数据库操作实验。本类实验包括:Hadoop 配置、基本操作、基本MR 程序开发、迭代式MR 程序开发、高级MR 程序开发和Hive 数据库操作。通过本类实验,学生可以掌握用Hadoop 进行大数据分析的常用方法和流程。数据挖掘与大数据分析实验室
39、4.14 JAVA 自然语言处理自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。本类实验主要侧重用JAVA 进行自然语言处理的基本方法,要求学生在实验前掌握基本的JAVA 语法和JAVA 程序的调试方法。本类实验包括
40、:字符串编码、正则表达式、自动分词、句法分析和语义分析。通过本类实验,学生可以掌握用JAVA 编进行自然语言处理的基本方法。 数据挖掘与大数据分析实验室4.15 SAS 数据分析综合应用SAS 被称赞为“世界五百强背后的管理大师”。个中的原因就在于,企业 通过使用SAS 的商业智能软件,能够从海量的数据中,挖掘出不易认知的各种联系。大量企业正在使用SAS 进行市场营销的策略分析和研究,在市场细分、 客户流失管理、信用管理等诸多领域业已取得了初步的成效。因此,学生掌握SAS 的综合应用对未来的职场竞争力有着举足轻重的作用。本类实验主要侧重用SAS 在数据分析中的综合应用案例,要求学生在实验前先完
41、成SAS 统计与建模和SAS 数据挖掘实验。本类实验包括:SAS 建立信用评分模型、预测股票市场收益、预测经济指标、侦测欺诈交易、微阵列样本分类。通过本类实验,学生可以掌握用SAS 处理真实案例的常用方法和流程。 4.16 R 语言数据分析综合应用在Tiobe 公布的编程语言排行榜上,R 语言位列第27位,市场占有率目前是0.5%,SAS 目前是0.386%,排在第35位。可见,R 语言比SAS 使用人数更多。R 语言是全世界最强大的用于统计计算分析的计算机语言。它可以计算所有的统计学方程式。R 语言不只是一门计算机语言,而是一个工具包,一个群落,一个众多免费软件的集合。有了开源的R 语言,人人都能够准确地知道他们的房子、车子、公司和前景到底如何。许多世界五百强企业也正逐渐引入R 语言作为他们分析环境的一部分。本类实验主要侧重用R 语言在数据分析中的综合应用案例,要求学生在实验前先完成R 语言统计与建模和R 语言数据挖掘实验。本类实验包括:R 语言建立信用评分模型、预测股票市场收益、预测经济指标、侦测欺诈交易、微阵列样本分类。通过本类实验,学生可以掌握用R 语言处理真实案例的常
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司租车协议书正规模板5篇
- 高原红病因介绍
- 关于技术转让的协议
- 雀斑样痣病因介绍
- 中考政治复习知识专题八七下第四单元做学法尊法守法的人
- 2023年顺酐项目融资计划书
- 《MLCC制程介绍》课件
- 机械制图测试题含答案
- 养老院老人生活娱乐活动组织人员职业发展规划制度
- 养老院老人健康监测报告制度
- GB/T 36652-2018TFT混合液晶材料规范
- 国际商务谈判 袁其刚课件 第四章-国际商务谈判的结构和过程
- 国际商法教案(20092新版)
- 江苏开放大学汉语作为第二语言教学概论期末复习题
- 货物质量保证措施
- 工作简化方法改善与流程分析课件
- 国家开放大学《管理学基础》形考任务1-4参考答案
- 道德与法治《健康看电视》优秀课件
- 急性胰腺炎完整版课件
- 双绞线链路测试报告
- 《建筑工程类别划分标准》-全
评论
0/150
提交评论