大数据分析趋势浅析_第1页
大数据分析趋势浅析_第2页
大数据分析趋势浅析_第3页
大数据分析趋势浅析_第4页
大数据分析趋势浅析_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析趋势浅析01大数据简介02大数据分析03大数据分析发展趋势目录01大数据简介02大数据分析03大数据分析发展趋势目录1大数据简介2012年初的一天,一位父亲进入他家附近的某超市向超市负责人兴师问罪。原因是超市把婴儿用品的优惠券寄给他17岁的女儿。一个月后,这位父亲又向超市经理致歉—他的女儿确实怀孕了。原来,这家超市建立了一个客户购买体系,其中用25种典型商品的消费数据构建了“怀孕预测指数”,这样即可准确地辨别出孕妇群体,以便更好地为她们提供服务商品。这个故事被刊登在《纽约时报》,轰动了全美,被称为“大数据的第一课”。1大数据简介2012年的总统大选时,花销不到3亿美元的奥巴马却击败了开支近4亿美元的罗姆尼,成为美国新一届总统。奥巴马的竞选发言人说,对于竞选团队来说,并不能只是面对一个笼统的选民概念,而主要针对每一个选民,深入挖掘他们被说服的因素是什么,这种具有针对性的方式,使得奥巴马的募捐方案和游说计划得到了意外的支持。那么,到底是什么支持了奥巴马的募捐方案和游说计划昵,是大数据。1大数据简介回顾自2009年淘宝在11月11日发起的“品牌商品五折优惠”活动以来的5年问,当天成交额由2009年的1亿元经过2010年的9.36亿元、2011年的52亿元、2012年的191亿元,一直狂飘到2013年的350.19亿元,正式超越美国“网络星期一”创造的单日120亿元(人民币)的记录,成为全球最大的购物狂欢节。这一系列的惊人创举的背后也是大数据,是大数据造就了天猫的辉煌。1.1大数据定义及特征大数据(bigdata)或称巨量资料,这些资料的规模巨大到无法使用目前的主流软件工具,在合理的时问内通过采集、管理、处理并整理而成为帮助企业经营决策的信息。维基百科将大数据定义为“无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的大量而复杂的数据集合”。Volume大量Velocity高速Variety多样三V特征1.2大数据处理的主要环节1.3大数据发展趋势1.3大数据十大发展趋势结合智能计算的大数据分析成为热点数据科学带动多学科融合,但是数据科学作为新型的学科,其学科基础问题体系尚不明朗,数据科学自身的发展尚未成体系与行业数据结合,实现跨领域应用与“物云移社”融合,产生综合价值大数据多样化处理模式与软硬件基础设施逐步夯实大数据安全和隐私新的计算模式将取得突破各种可视化技术和工具提升大数据分析大数据技术课程体系建设和人才培养是需要高度关注的问题开源系统将成为大数据领域的主流技术和系统选择01大数据简介02大数据分析03大数据分析发展趋势目录2大数据分析简介及趋势概况大数据分析的核心是从数据中获取价值,价值体现在从大数据中获取更准确、更深层次的知识,而非对数据的简单统计分析。神经计算01深度学习02人工智能04语义计算03大数据分析01大数据简介02大数据分析03大数据分析发展趋势目录3.1云中的大数据分析如今已有很多技术可用于处理云中的数据。实例包括亚马逊Redshift所托管的BI数据仓库、谷歌BigQuery数据分析服务、IBMBluemix云平台,以及亚马逊Kinesis数据处理服务等。“大数据的未来状态将是企业端和云端的某种混合态。”3.2 Hadoop:新的企业数据操作系统各种分布式分析框架,如MapReduce正在演变为分布式资源管理器,它们会逐渐地将Hadoop转变为一种通用的数据操作系统。有了Hadoop这样的分布式文件存储系统,你就能执行很多不同的数据操控和分析任务。3.3

大数据湖数据湖也称之企业数据湖或企业数据集中库,会将各种数据资源倾倒进一个大的Hadoop仓库中去,而不会事先设计什么数据模型。提供各种工具,再配上对数据湖中现存数据的顶层定义,供人们去分析数据。人们就可随着对数据湖的逐步深入而构建起自己的数据视图。这正是构建一个大规模数据库增量化的、有机的模型。3.4

更有预测性的分析有了大数据,分析师们不仅有了更多的数据可用,而且具备了处理大量多属性记录的能力。可以处理海量的记录,以及对每条记录的海量属性进行处理,从而提高了预测能力。大数据与计算能力相互结合,还能让分析师们去研究新的行为数据。例如消费者所访问的网站或位置信息等“稀疏数据”。3.5

SQLonHadoop:更快、更好ApacheHive就可为Hadoop提供一种结构化的、类SQL的查询语言。来自Cloudera,Pivotal软件、IBM和其他一些厂商的产品,不但可提供更好的性能,而且还能让查询进行的更快速。这些工具让Hadoop能更好地适用于“迭代分析”,也就是在询问了一个问题并得到答案后,可以在此基础上查询新的问题。这样的工作传统上是需要构建数据仓库才能进行的。3.6

更多、更好的NoSQL可取代传统基于SQL关系数据库的技术叫做NoSQL数据库,它正迅速普及,并用于一些特定的分析应用中。相比于传统的关系数据库,它可提供一种更快速、更直接的方式来分析客户或销售人员的关系网络。一个NoSQL键值组合数据库则可专门用于处理这样的情形,而且性能高,还是轻量级的。3.7

深度学习深度学习是近年来受到广泛关注的一个机器学习子领域,在MTT《技术评论》中当选为Zam十大突破性技术之首。它以学习表示方式的多个层次为基础,这些层次对应于特征、因素或者是概念的分层结构。高层次的概念由低层次的概念定义;低层次的概念可以用来形成很不同的多高层次概念。它是基于表示学习的机器学习方法,因为表示一个对象有很多种方式,而对于特定的任务,某些表示方式会使得学习任务更加容易完成。3.8

内存分析使用内存数据库来提速分析处理流程已越来越流行,而且收益颇大。事实上,很多企业已经在采用混合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论