



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Word参考资料,下载后可编辑云计算大数据挖掘体系构建分析 摘要:随着移动互联网、移动智能终端技术的快速开展,各种业务数据有了井喷式的增加,尤其是物联网的快速开展,产生了海量的实时监测数据。随着数据量的增大和数据类型的丰富,产生了大数据挖掘和云计算技术,本文从大数据挖掘步骤为切入点,分析了大数据挖掘存在的问题以及利用云计算技术解决问题的过程。 关键词:云计算;大数据挖掘 1引言 随着互联网技术的飞速开展以及各行业信息化的深入,业务数据从数量上还有类型上都发生了井喷式增长,特别是近几年物联网技术的普及,大量时序数据的产生标识着人类已经迈进了大数据时代。大数据不仅是数据量大,数据类型也极大的丰富。
2、有传统的结构化数据,也有文本、图片、视频等非结构化数据。大数据带来的潜在价值随着大数据挖掘技术的开展渐渐凸显出来。同时,基于云计算自身具备的计算存储资源松耦合集成和弹性资源分配等特点,能够在很大程度上支撑建立大数据挖掘体系所需的算力和存储资源需求,降低运行本钱,安全可靠。 2大数据挖掘技术介绍 随着信息系统数字化和智能化的不断推进,数据规模也将呈指数级趋势增长。大数据挖掘将成为推动整个产业数字化升级的重要抓手和举措。大数据顾名思义是指数量极大的数据汇集而成,大数据包括业务系统产生的业务数据,电商交易数据,物联网技术产生的时序数据,工业制造数据等等。这些数据中包含了极大的潜在价值有待开发,大数据
3、挖掘技术指的是从海量数据中利用适合的模型挖掘出有用的信息反应给原来的系统,带来更多的业务价值。大数据挖掘分成六个步骤:(1)定义问题:在进行数据挖掘之前,首先需要定义本次挖掘需要解决的问题是什么,也就是说要给本次数据挖掘定义明确的目标。依据大数据定义的问题选择适合的模型,模型是否适合关系着本次挖掘是否成功。(2)建立大数据挖掘库:大数据挖掘的根本就是用存在的历史数据训练选择的模型,调整模型中可以改变的参数到达本次挖掘最好的效果,所以建立大数据挖掘库至关重要。建立大数据挖掘库首先要收集数据并对数据进行描述,通过ETL技术对数据进行清洗、转化和加载。保证数据库中的数据是有效数据。(3)分析数据:对
4、预备好的数据进行分析,由于大数据的数据量非常巨大,用人工分析几乎不可能。一般借助R语言或者Scala语言对数据进行分析,发觉数据中对挖掘预测有影响的字段,为接下来的工作做好预备。(4)预备数据:通过数据分析后,可以锁定对挖掘预测结果有明显影响的字段,选择这些数据并进行记录,假如有进一步的需要,可以对这些数据进行函数转化后创造新的变量,并对这些新的变量进行记录,为后续的数据挖掘工作夯实数据根底。(5)建立并训练模型:依据过程开始定义的问题建立挖掘模型,建立挖掘模型是一个迭代的过程,首先考察不同的模型以推断是否对定义的问题有用。先用一局部预备的数据对模型进行训练,调整模型中的变量,然后在选择另一局
5、部数据对模型进行测试,如有需要,可以再选取一个数据集,对建立的模型进行验证。(6)评价模型并进行实施:训练好的模型要在实际的应用中进行推广,这对模型是一次考验。训练模型中会存在某些假如的条件,假如这些条件与实现的应用中条件一致,模型的评价度将会更高。评价模型首先要在小规榜样围内进行实施然后分析预测的结果是否与实际情况相符。假如模型的评价度较高,则可以在大范围内进行推广。模型的实施一般有两种使用方法,一种是给数据分析人员或者是业务系统作为工具,依据实际的数据对业务趋势进行预测;二是把评价过的模型应用到不同的数据集合上。随着近几年互联网的高速开展,业务数据量的急速增长,业务场景也变得越来越复杂,大
6、数据挖掘过程中数据的存储,数据的计算对计算机的要求变得越来越高,大数据挖掘需要的根底资源的本钱也随之迅速上升。 3云计算助力大数据挖掘 云计算能够为大数据挖掘提供低本钱的算力和存储环境。云计算主要是通过虚拟化技术将CPU计算资源、硬件存储和网络资源虚拟成多个环境,依据计算和存储资源的需求情况进行动态弹性管理,从而最大限度提升物理资源的复用价值,有效降低大数据挖掘的运行本钱。云计算能够为大数据挖掘建立一个高可用的算力及存储运行环境。为此利用云计算技术能够完成大数据挖掘所需要的规模级数据存储和计算功能。同时,云计算提供了一个高度安全可靠的运行环境,通常可以实现99.9%的高可用计算性能,能够为大数据挖掘提供实时计算和安全保障,最大限度防止因电路故障或其它故障导致大数据挖掘服务停止运行等问题。云计算能够为大数据挖掘建立一个高扩展的算力及存储运行环境。基于云计算自身的高度开放集成和扩展性等特点,能够随着大数据挖掘规模的变化来动态增减算力和存储资源,从而使得整个应用集成系统建立具有较高灵活性,从而有效降低算力资源和存储资源的白费,极大提升大数据挖掘系统的经济和环境效益。 4结束语 云计算技术的落地为大数据的存
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 七年级历史与社会上册教学设计(图片版)综合探究一 从地图上获取信息
- hrbp年终述职报告
- DB 1401T 23-2024居住区绿地种植设计规范
- 人事部年终工作总结
- 医院实习总结报告
- 房屋精装修改造施工合同
- 2025年上海市国内旅游合同协议(合同范本)
- 2025预制构件销售合同
- 2025关于简易租房合同的
- 代办就业合同标准文本
- 期中评估检测题无答案2024-2025学年七年级下册道德与法治
- 2025年江苏省职业院校技能大赛中职组(网络建设与运维)考试题(附答案)
- 统编版(2024)七年级下册《道德与法治》课本“活动课”参考答案
- TCEC-抽水蓄能电站枢纽布置格局比选专题报告编制规程
- 2025年钟山职业技术学院单招职业适应性考试题库必考题
- 2025年浙江名校协作体高三语文2月联考作文题目解析及范文:“向往”的“苦处”与“乐处”
- 新高考背景下混合式教学模式在物理教学中的实践与研究
- 财务岗位招聘笔试题与参考答案(某大型国企)2025年
- 2025风电机组无人机巡检技术方案
- 2024-2025学年广东省深圳市南山区监测数学三年级第一学期期末学业水平测试试题含解析
- GB/T 44869-2024玩具及儿童用品绿色包装技术规范
评论
0/150
提交评论