关于大数据基本概念及数据挖掘的算法_第1页
关于大数据基本概念及数据挖掘的算法_第2页
关于大数据基本概念及数据挖掘的算法_第3页
关于大数据基本概念及数据挖掘的算法_第4页
关于大数据基本概念及数据挖掘的算法_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于大数据基本概念及数据挖掘的算法一、大数据基本概念和处理数据能力的数据集;大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的相对概念。大数据的预处理主要完成对已接收数据的辨析、抽取、清洗等操作。(1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。(2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。大数据带来的数学问题所有数据集都是有限集合。大数据采样——把大数据变小、找到与算法相适应的极小样本集、采样对算法误差的大数据不一致问题——导致算法失效和无解、如何消解不一致大数据中的超高维问题——超高维导致数据稀疏、算法复杂度增加大数据中的不适定性问题——高维导致问题的解太多难以抉择大数据的特征冗余与缺失并在:大量冗余与局部缺失显式与隐式均有:大量显式与丰富隐式多元与异质共处:多元多变与异质异性量大与可用矛盾:量大低值与可用稀少大数据规模大小是一个不断演化的指标:当前任务处理的单一的数据集,从数十TB到十几PB级的数据规模(TB«PB«EB«ZB)处理大数据的可等待的合理时间依赖任务的目标:地震数据预测要求在几分钟内才有效、气象数据应该在小时级别、失联飞机数据处理要在7天之内、数据挖掘一般要求在12小时内二、大数据悖论大数据已被定义为科学探索的第四范式。继几千年前的实验科学、数百年前的理论科学和数十年前的计算科学之后,当今的数据爆炸孕育了数据密集型科学,将理论、实验和共享中不断创造着新的财富。根源在于,大数据的价值在于预测未知领域、非特定因素的是理论和方法应运而生的过程。而人们试图解决悖论的努力,正好是大数据落地生根的推动方法论缺位自2008年《自然》杂志推出“大数据”专刊以来,大数据概念就从学术大讨论,转向了企业的数字化转型,进而上升到“开放政府数据”的战略布局。然而,单纯的数量上为三者均没有设置数量级等门槛。方法论缺位是最大的障碍。大数据发展的核心动力源于人们测量、记录和分析世界的渴望,满足这些渴望需要数据、技术和思维三大要素。在计算技术、通信技术日益成熟的的方式提供,事实上思维和方法论才是决定大数据成败的关键,但目前来看,跨越学术与产业、技术与应用之间鸿沟的方法论依然不完善。在社会难题中淘金正如数学史上三次危机分别促成公理几何的诞生、集合论的创立和现代数据的发展一样,悖论是理论、技术和应用进步的巨大推动力。大数据悖论的解决,也将推动大数据应用的普及和社会价值的释放。经过新闻媒体和学术会议的大肆宣传之后,大数据技术趋势一下子跌到谷底,许多数据创业公司变得岌岌可危……根据这条著名的Gartner技术成熟度曲线,大数据已经走过了萌芽期和泡沫化的炒作期,并将在未来3~5年内步入低谷期。市场中的鸿沟大数据营销模型将经历创新者、早期采用者、早期大众、后期大众和落后者等5个阶段。这5个阶段之间存在着4条裂缝,其中最大、最危险的裂缝存在于早期市场与主之间,我们称之为“鸿沟”。大数据的主流市场来源于实用主义的早期大众和保守主义的后期大众,两者各自占据大数据市场1/3的份额。这两个群组的共同特征是均具备良好的信息技术基础和深厚的大安全可靠的大数据保障和广泛的社会应用基础,它们大多是致力于解决环境、能源和健康等社会问题的公共管理部门。大数据技术和应用获得创新者的追捧是显而易见的,获得早期市场的拥护也是轻而易规划整体产品大数据产品应该包括作为“核心吸引物”的一般产品、满足初级心理需求的期望产品和实现更高阶参与以及自我实现的延伸产品和潜在产品4个部分。现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构已成为IT系统的关键。数据的移动已成为IT系统最大的开销,目前传送大数据最高效也是最实用的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。在大数据时代,IT系统需要从数应对处理大数据的各种技术挑战中,以下几个问题值得重视:1、大数据对科学规范的挑战大数据带来了新的科研范式科研第四范式是思维方式的大变化,已故图灵奖得主吉姆格雷提出的数据密集型科研以分析数据。将数据丢进巨大的计算机机群中,只要有相关关系的数据,统计分析算法可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。大数据如何应用于开放的研究呢?这其中最不可或缺的一个环节就是数据开放。现在推进数据开放更为重要的是通过数据的共享来产生更多的价值。数据开放能够提高社会运行效率,积极整合各方公开的数据,建立基于大数据的城市规划来缓解交通和社会治安问题。数据开放能够激发巨大的商业价值,数据开放是面向社会大众的开放,任何人只要有能力都可以用它来创造新的商机。开放共享已经成为在数据大战中保持优势的关键。促进商业数据和个人数据的开放与共享。商业数据和个人数据的共享应用,不仅能促进相关产业的飞速发展,产生巨大的经济价值,也能给我们的生活带来巨大的便利。经常网购的人会有这样一种体验。很多电商网站能够在我们买书的时候,推荐我们刚好喜欢的其他书籍,这正是网站根据成千上万甚至上亿人私权”的冲击。因此,完善个人隐私保护等相关立法,对哪些个人数据可以进行商业化应工作稳步推进,为大数据发展应用打好根基。重现大数据研究结果数据的时代》中也指出“数据量的大幅增加会造成结果的不准确,一些错误的数据会混进数据库,”此外,大数据的另外一层定义,多样性,即来源不同的各种信息混杂在一起会加大数据的混乱程度,统计学者和计算机科学家指出,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。大数据意味着更多的信息,但同时也意味着更多的虚假关系信息,海量数据带来显著性检验的问题,将使我们很难找到真正的关联。我们以一个实际的案例来看一下样本量不断增大之后,会出现的问题:上表是关于某年网络游戏历程扩散的回归分析,当样本量是5241个体制外这个变量也开始显著,当样本增加到33万的时候,所有变量都具有显著性,这意味着世间万物都是有联系的。样本大到一定程度的时候,很多结果自然就会变得显著,会无的存在将会使这种虚假关系随着数据量的增长而增长,我们将很难再接触到真相。事实上,真实的规律是这样的:不变的固守旧有理论,而是在处理问题的过程中意识到海量数据所带来的复杂性,坚持分析方法和理论的不断创新。大数据研究结果可信与否《大数据时代》一书的作者维克托·迈尔-舍恩伯格说,大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。他认为,大数据赖于随机抽样;二是研究数据如此之多,以至于我们不再热衷于追求精确度;三是不必拘泥于对因果关系的探究,而可以在相关关系中发现大数据的潜在价值。因此,当人们可以放弃技术的进步,是人类决策工具的进步。改编自迈克尔·刘易斯的《魔球:逆境中制胜的智恩的经营哲学,描述了他抛弃几百年延续的选择球员的惯常做法,采用了一种依靠电脑程序和数学模型分析比赛数据来选择球员的方法。比利·比恩的成功称得上是对球探们经验决策的颠覆,是让数据说话的成功范例。正如维克托·迈尔-舍恩伯格将大数据视为人工智能的一部分,视为机器学习的一种应用一样,数据决策和数据旁证的博弈其实是人和机器的博弈。即便是有一将难求的数据科学家的协助,大数据决策依然是辅助系统。2、大数据带来的社会问题而且担心隐私被二次利用。因为,亚马逊监视着我们的购物习惯,谷歌监视着我们的网页是大数据的全数据分析、模糊计算和重关联却不求因果的特性,让隐私数据与社交网络等关联起来。按照维克托·迈尔-舍恩伯格的说法,危险不再是隐私的泄漏,而是被预知能性——这些能够预测我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险,无法贷款,甚至实施犯罪前就被预先逮捕。无论如何,大数据正在推动产权认知和结构的变革,以往IT产业链的主宰者或将在变革中遭遇冲击。大数据的魅力在于它能够让企业在无边界的数据海洋里遨游,发现社会进步的内在韵律,捕捉社会发展的先行参数。比如从消费者兴趣图谱中萃取研发创新智慧,业的健康诊断,而不局限于短效的精益管理;比如对地震等自然灾害的预警,构架社会应急机制……3、大数据带来的技术挑战抽样分析+全数据验证的分析思路似乎带有保守主义色彩,这种看法无疑是对大数据和抽样二者都存在偏见和不足,如果认为大数据就是收集所有样本的信息,让数据自己说话,那么在方法论上就是狭隘的。这里也涉及了全数据的第二个问题全(暂且假定我们通过人们在谷歌上输入搜索条目就找到了真正意义上的全:谷歌利用搜索记录而预测到流感爆发的案例被广为引用以说明无法解释变化的影响因素,维克托·迈尔·舍恩伯格对此的回答是:我们要相关性,不要因果关系。这并非是这位作者有选择的选择,而是放弃抽样而直接采用大数据的必然。抽样基础上研究了5000人,是“小数据”的复杂算法超过“大数据”的简单算法的真实案毕竟不是所有的社会事实都一场流感一样易于预测,况且即便是谷歌被广为赞誉的流感预新的Google流感趋势被发现明显高估了流感峰值水平。科学家指出基于搜索有太多的噪音影响了它的精确度这表明基于社交网络数据挖掘的流感跟踪将不是替代而只能补充传统的流行病监测网络。他们正在开发噪音较少的替代跟踪方法,例如基于Twitter的流感跟踪只包含真正病人的帖子,而不是转载的流感新闻报道。分析理解大数据——盲人摸象数据是企业最重要的资产,而且随着数据产业的发展,将会变得更有价值。但封闭的公正的第三方数据分析公司、研究机构作为中间商收集数据、分析数据,在数据层面打破现实世界的界限,进行多家公司的数据共享而不是一家公司盲人摸象,这才能实现真正意转变和有意义的变革。4、大数据管理的挑战每一种非结构化数据均可被视为大数据。这包括在社交网站上的数据、在线金融交易管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大视化技术。通过隔离管理大数据存储如果没有存储系统,将特定的前端存储端口到数据库,OLTP等等;致力于大数据应用到其他端口。背后的基本原理是使用专用端口,而大数据流量是以千字节或兆字节衡量,OLTP应用流量是以每秒的输入/输出操作(IOPS)衡量,因为数据块的大小是比大数据更大而端口。因此,更多的端口可以专注于大数据应用。专业的大数据存储管理兼容数据管理的存储系统。如EMCIsilon的集群存储系统对于大数据存储管理是一个更好的选择,因为在一个单一的文件系统中大数据能增长到多字节的数据。大数据分析除了存储,大数据管理的另一项大的挑战是数据分析。一般的数据分析应用程序无法这些应用程序运行在集群存储系统上,缓解大数据的管理。管理大数据的另一个需要重点考虑的是未来的数据增长。你的大数据存储管理系统应该是可扩展的,足以满足未来的存储大数据的存储管理和云计算管理,可以确保数据的所有权。有权选择将数据移入或移出云服务,而不被供应商锁定。5、大数据挖掘挑战面临的挑战(1)大数据集的挑战缺少大数据复杂度冗余度的度量方法缺少确保近似算法精度分析方法缺少根据分布知识对大数据进行抽样的方法(2)数据复杂性挑战挖掘将会很大程度地提高数据分析的性能和灵活性。源于数据仓库的数据立方体计算技术和OLAP(在线分析处理)技术极大地提高了大型数据库多维分析的性能。除了传统的数据立方体技术,近期的研究致力于构建回归立方体、预测立方体以及其他的面向统计的复杂数据立方体。这样的多维或高维分析工具对分层多维数据的有效分析提供了保证。(3)数据动态增长的挑战研究内容(1)研究分布式并行计算环境下的大数据大数据分析的基本策略I.与数据分布相联系的分治策略II.与算法机理相结合的并行策略(2)研究复杂度降精度可控的新的大数据分析算法(3)大数据分析平台研发四、大数据挖掘的算法来数据趋势的模型。分类方法用于预测数据对象的离散类别;而预测则用于预测数据对象的连续取值。许多分类和预测方法已被机器学习、专家系统、统计学和神经生物学等方丽的研究者提出,其中的大部分算法属于驻留内存算法,通常假定的数据量很小,最初的数据挖目前的数据挖掘研究已经在这些工作基础之上得到了很大的改进,开发了具有基于外存以处理大规模数据集合能力的分类和预测技术,这些技术结合了并行和分布处理的思想。1、数据变小——分类算法分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到根据情况向用户推荐关联类的商品,从而增加商铺的销售量。空间覆盖算法-基于球邻域的空间划分空间覆盖算法-仿生模式识别空间覆盖算法-视觉分类方法VCA把数据看作一幅图像,核心是基于尺度空间理论,选择合适的尺度使得同类样本区域融合在一起。分类超曲面算法HSC设训练样本所在空间为一封闭维方体区域,将此区域按照一定细分规则划分成若干小区域,使每个小区域只包含同一类样本点,并用样本点的类别标定该区域,合并相邻同类区域边界,获得若干超平面片封闭组成的分类超曲面。输入新样本点,根据分类判别定理判断样本点所在的类别。(1)通过特征区域细化直接解决非线性分类问题,不需要考虑使用何种函数,不需要升(2)通用可操作的分类超曲面构造法,基于分类超曲面的方法通过区域合并计算获得分类超曲面对空间进行划分(3)独特、简便、易行的分类判别方法,基于分类超曲面的方法是基于Jordan定理的分类判断算法,使得基于非凸的超曲面的分类判别变得简便、易行。2、极小覆盖子集在一个样本集的所有覆盖中,包含样本个数最少的覆盖称为样本集的极小覆盖子集。(1)计算极小覆盖子集的基本步骤:用一个方形区域覆盖所有样本点;将该区域划分成一系列小区域(单元格),直到每个小区域内包含的样本点都属于同一类别;将落在同一小区域内的样本点中选择且仅选择一个样本构成极小覆盖子集。(2)采样受限于极小覆盖子集全样本空间必然包含极小覆盖子集,任意一个数据集未必包含完整的极小覆盖子集。算法、再多的数据亦不会超过极小覆盖子集的代表性、再好的提升手段亦不会超过极小覆盖子集确定的精度。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场销售趋势作出预测并做出针对性的营销改变。类的数据关联性很低。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、和连续模型为代表。第三类是用于聚类的自组织映射方法,以ART网络有多种模型及算法,但在特定领域

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论