R语言大数据分析与挖掘 课件 第一章 大数据分析与挖掘概论_第1页
R语言大数据分析与挖掘 课件 第一章 大数据分析与挖掘概论_第2页
R语言大数据分析与挖掘 课件 第一章 大数据分析与挖掘概论_第3页
R语言大数据分析与挖掘 课件 第一章 大数据分析与挖掘概论_第4页
R语言大数据分析与挖掘 课件 第一章 大数据分析与挖掘概论_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章大数据分析与挖掘概论知识要点●了解大数据分析与挖掘的概念●了解大数据挖掘与大数据分析的区别●了解大数据分析与挖掘的应用目录

CONTENT大数据分析与挖掘大数据分析与挖掘流程大数据分析与挖掘应用123大数据分析与挖掘大数据起源与发展约翰·马西美国SGI的首席科学家“大数据”这一概念最早公开出现于1998年,约翰·马西指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等4个难题,并用“BigData(大数据)”来描述这一挑战,在计算领域引发思考。吉姆·格雷数据库领域的先驱人物2007年,吉姆·格雷指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径,并认为在实验观测、理论推导和计算仿真等三种科学研究范式后,将迎来第四范式—“数据探索”,开启了从科研视角审视大数据的热潮。发展形成基本共识大数据于2012年、2013年达到宣传高潮,2014年后概念体系逐渐成形,对其认知亦趋于理性。经过多年的发展和沉淀,人们对大数据已经形成基本共识:大数据现象源于互联网及其延伸所带来的无处不在的信息技术应用及信息技术的不断低成本化。大数据分析与挖掘大数据定义大数据定义大数据(BigData)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据5V特点大数据的5V特点为大量(Volume)、高速(Velocity)、多元(Variety)、价值(Value)、真实(Veracity)。●大量(Volume):数据量大。数据量的大小决定所考虑数据的价值和潜在的信息。●高速(Velocity):获得数据的速度快。●多元(Variety):数据类型多样。●价值(Value):合理运用大数据,以低成本创造高价值。●真实(Veracity):数据准确可依赖。大数据分析与挖掘大数据分析与挖掘的概念大数据分析数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。大数据挖掘大数据挖掘又称为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。大数据挖掘一般指从大量的数据中通过算法搜索隐藏于其中的信息的过程。大数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现搜索隐藏于数据中的信息。大数据分析与挖掘大数据分析与挖掘的联系与区别在协作上的联系(1)需要对大数据分析得到的信息进一步挖掘,将其转化为有效的预测和决策,这时就需要大数据挖掘。(2)大数据挖掘进行价值评估的过程也需要调整先验约束而再次进行大数据分析。在算法、数据和运行环境三个方面的区别(1)算法:大数据分析对算法的要求随着数据量的增加而降低,大数据挖掘则对算法要求更高,复杂度更大。(2)数据:大数据分析的对象多为动态增量数据和存量数据,大数据挖掘则大多使用存量数据。(3)运行环境:大数据分析对运行环境要求较高,多为云计算和云存储环境,而大数据挖掘则没有特定的要求,单机环境也是允许的。大数据分析与挖掘流程大数据分析与挖掘流程从大数据的特征和产生领域来看,大数据的来源相当广泛,由此产生的数据类型和应用处理方法千差万别。但是总的来说,大数据分析流程可划分为数据获取、数据预处理、数据分析和数据解释4个步骤。数据获取数据预处理数据分析数据解释大数据分析与挖掘流程数据获取数据获取通过各种方法获取数据信息便显得格外重要。数据获取是大数据分析流程中最基础的一步,目前常用的数据获取手段有传感器、射频识别、数据检索分类工具(如百度和谷歌等搜索引擎)、行业论坛或平台等商业网站及条形码技术等。数据的类别主要分为线下数据和线上数据,线下数据主要依托硬件,如红外传感器、高清摄像头等设备来获取,线上数据主要依托互联网获取,如互联网舆情信息、商务平台商品信息等。数据获取无时无刻不在进行中。大数据分析与挖掘流程数据预处理数据预处理概念数据预处理是非常重要的环节,对数据使用的一致性、准确性、完整性、时效性、可信性、可解释性提供了基本保障。现实中的数据避免不了“脏”数据,“脏”数据主要是指具备以下特征的数据:(1)不完整:缺少属性值或仅包含处理后结果(没有源数据)的数据。(2)包含噪声:存在错误或偏离期望值的数据。(3)不一致:前后存在矛盾、差异的数据。数据预处理(续)由于存在大量的“脏”数据,因此在一个完整的大数据挖掘过程中,数据预处理是必不可少的环节,大约要花费60%~70%的时间。数据预处理有4种方法:数据清洗、数据集成、数据变换和数据规约。数据清洗空缺值处理、格式标准化、错误纠正、异常数据和重复数据的清除。数据集成将多个数据源中的数据结合起来并统一存储,建立数据仓库,并消除数据冗余。数据变换平滑、聚集、数据概化、规范化、属性构造等。数据规约数据立方体聚集、维度规约(删除不相关的属性)、数据压缩(用PCA、LDA、SVD、小波变换等方法进行数据降维)、数值规约(线性回归、对数线性模型、直方图、聚类、抽样)。大数据分析与挖掘流程数据分析数据分析是整个大数据分析流程里最核心的部分,在数据分析的过程中,会发现数据的价值所在。数据分析有如下6个基本方面:可视化技术数据可视化是数据分析工具最基本的要求,可以直观地展示数据,让数据自己说话,让观众看到结果。数据挖掘算法数据挖掘包含集群、分割、孤立点分析,深入数据内部,挖掘价值。数据挖掘可以让分析员更好地理解数据。预测性分析能力预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。大数据分析与挖掘流程数据分析(续)语义引擎非结构化数据的多样性给数据分析带来了新的挑战,因此语义引擎需要被设计成能够从“文档”中智能提取信息的工具。数据质量和数据管理数据质量(数据的真实性、准确性、完整性、时效性)和数据管理(如何有效保障数据质量)是管理方面的最佳实践。数据仓库数据仓库是为了便于多维分析和多角度展示数据,按特定模式存储数据所建立起来的关系型数据库。大数据分析与挖掘流程数据解释概念在一个完善的大数据分析流程中,数据解释至关重要。但随着数据量的加大,数据分析结果往往也越复杂,用传统的数据解释方法已经不足以满足数据分析结果输出的需求。因此,为了提升数据解释、展示能力,必须对数据进行可视化操作。通过可视化分析,可以形象地向用户展示数据分析结果,更方便用户理解和接受结果。常见的可视化技术有基于集合的可视化技术、基于图标的可视化技术、基于图像的可视化技术、面向像素的可视化技术和分布式可视化技术等。大数据分析与挖掘应用在大数据时代的背景下,数据资产如何被有效地利用起来成为了一个热门话题。数据最终是要为商业、民生、国防等方面的运作与优化提供支撑的。近年来,由于大数据技术的发展,大数据分析与挖掘的应用场景分为优化、预测、分类和识别4个方面,同时也是大数据分析的主要任务。优化任务优化是大数据分析的主要任务预测任务预测是大数据分析和挖掘的最终目的分类任务对事物进行分类或聚类后,可以了解每个现有事物的特征识别任务识别是人工智能的范畴,可以提升社会各个生产环节的效率大数据分析与挖掘应用优化任务优化是大数据分析的主要任务,通过数据反馈了解哪些方面需要改进从而制定相关的决策。优化任务还需要更多的技术手段。在人们的生活中,大数据分析产生了许多便利的应用场景,具体如下:出行方面通过交通数据,交通实时预测算法可以改善人们的出行。购物方面通过用户行为和基础数据,个性化推荐算法可以改善人们的网上购物体验。疫情防控方面通过出行大数据创造的五色管理方法可以有效地对高风险人群进行预警,在降低疫情传播速度的同时,也方便了低风险人群的出行。大数据分析与挖掘应用预测任务、分类任务和识别任务预测任务预测是大数据分析和挖掘的最终目的,这是由于预测可以提前洞察到事物未来的趋势,掌握信息差,而信息差是制胜的关键,无论是商业上、政治上还是军事上,比竞争对手提前预知事物的发展态势是十分重要的。分类任务分类任务包含分类算法和聚类算法,分类和聚类有明显区别,分类是把现有事物打上已知标签,聚类是把相似的事物放在一起。对事物进行分类或聚类后,可以了解每个现有事物的特征,或者预估新兴事物的特征。例如,医学上的自动诊断,通过对大量的检验报告及病症的分类训练,实现对新的检验报告的分类预测。网络舆情监控系统也是如此,通过分类任务来感知敏感信息,从而实现自动监控。大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论