大数据特征、采集和技术分析_第1页
大数据特征、采集和技术分析_第2页
大数据特征、采集和技术分析_第3页
大数据特征、采集和技术分析_第4页
大数据特征、采集和技术分析_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大 数 据特征、采集和技术分 析 大数据综述 大数据的特征 大数据采集、存储技术 大数据分析系统架构 大数据建模分析方法 分析结果的可视化展示技术目 录 随着现代信息采集技术、物联网、云计算、互联网络等信息技术以及新兴服务产业的快速发展,使得人类社会的数据种类和规模(社会管理、生产生活、行业产业、文化教育、资源环境等)正以前所未有的速度增长,数据从简单的处理对象开始转变为一种基础性资源(原始数据和应用数据)。 “如何更好地管理和利用大数据”已经成为普遍关注的话题。大数据的规模效应给数据存储、管理以及数据分析带来了极大的技术挑战和利用价值。 自2008年Nature杂志发表大数据专辑以来,大数据

2、的概念和价值得到越来越多的关注。2012年,美国和中国分别将大数据提升到国家战略高度。 大 数 据 综 述卫星监测数据资源环境数据智慧城市数据 大 数 据 综 述视频监测气象监测-24个指标土壤养分监测-15个指标土壤水分监测-5个指标生长监测-16个指标过程监测数据统计数据网络数据 大 数 据 综 述数据无处不在数据无时不有数据无物不生数据无人不感多源性异质性多样性增长性 随着传感器、智能移动设备、互联网等技术的发展,数据呈现爆炸式增长。 大 数 据 综 述 自古以来,在科学研究上,先后历经了实验、理论和计算3种范式。当数据量不断增长和累积到今天,传统的3种范式在科学研究,特别是一些新的研究

3、领域已经无法很好地发挥作用,需要有一种全新的第4种范式来指导新形势下的科学研究。基于这种考虑,图灵奖获得者、著名数据库专家Jim Gray 博士提出了一种新的数据探索型研究方式,被他自己称之为科学研究的“第4种范式”。 大 数 据 综 述科学研究方法科学发现的4种范式 大数据的发展对传统的数据处理技术体系提出了巨大的挑战,需要我们在数据采集、数据标准、数据处理、数据分析、数据展现等方面做全新的技术升级。 大 数 据 综 述 大数据技术是一个典型的跨领域研究方向,在数据的采集、存储、传输、管理、安全和分析等诸多方面均面临着技术变革和创新。数据复杂性计算复杂性系统复杂性数据处理技术与系统批量数据处

4、理技术与系统流量数据处理技术与系统交互式数据处理技术与系统多媒体数据处理技术与系统 大 数 据 综 述大数据面临的挑战大数据处理系统的三大发展趋势数据处理引擎专用化数据处理平台多样化数据计算实时化大数据分析支撑技术和应用深度学习知识计算社会计算可视化典型应用场景等 大 数 据 综 述大数据分析关键技术框架1、大数据典型处理模式MapReduce MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。Map(映射)和Reduce(归约),以及它们的主要思想,都是从函数式编程语言里借鉴的。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当

5、前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。 大 数 据 综 述 图1 MapReduce执行流程图 大 数 据 综 述 MapReduc模型首先将用户的原始数据源进行分块,然后分别交给不同的Map任务区处理。Map任务从输入中解析出链/值(Key/Value)对集合,然后对这些集合执行用户自行定义的Map函数得到中间结果,并将该结果写入本地硬盘。 MapReduc任务从硬盘上读取数据之后会根据Key值进行排序,将具有相同Key值的组织在一起,由用户自定义的MapReduc

6、函数作用于这些排好序的结果并输出最终结果。从MapReduc的处理过程可以看出,MapReduc的核心设计思想在于: 1)将问题分而治之; 2)把计算推到数据而不是把数据推到计算,有效地避免数据传输过程中产生的大量通信开销。MapReduc模型简单,且现实中很多问题都可用MapReduc模型来表示。 大 数 据 综 述原理和技术路线2、典型的大数据处理平台Hadoop 由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的优势进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed ,HDF

7、S。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上,提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS可以流的形式访问文件系统中的数据。 Hadoop框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算模式。 Hadoop已经发展成为包括文件系统、数据库、数据处理等功能模块在内的完整系统,某种程度上可以说已经成为大数据处理工具事实上的标准。 大 数 据 综 述图3 HadoopDB体系架构(Google) 大 数 据 综 述3、大数据处理基本框架大数据处

8、理典型框架及流程 大 数 据 综 述大数据的处理流程可以定义为在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准统一存储。利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。可分为三个主要环节:数据抽取与集成、数据分析以及数据解释。1)数据抽取与集成:在大数据集合中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据,同时对数据进行清洗,保证数据质量及可信性。 现有的数据抽取与集成方式可以大致分为以下4种类型:基于物化或ETL方法的引擎,基于联邦数据库或中间件方法的引擎,基于数据流方法的引擎,基于搜索引擎的方

9、法。 大 数 据 综 述2)数据分析:整个大数据处理流程的核心。从异构数据源抽取和集成的数据构成了数据分析的原始数据,根据不同应用的需求可以从这些数据中选择全部或部分进行分析。 面向典型的大数据分析领域,如推荐系统、商业智能、决策支持等,目前数据分析技术主要有:挖掘建模分析(数据挖掘方法),智能建模分析(机器学习方法),统计分析等。 3)数据解释:将数据分析分析结果面向用户进行展示,如可视化方式,人机交互方式,分析图表方式等。 大 数 据 综 述4、大数据时代面临的技术创新:大数据时代的数据存在着如下几个特点:多源异构、分布广泛、动态增长、先有数据后有模式,正是这些与传统数据管理迥然不同的特点

10、,使得大数据时代的数据管理面临着新的挑战。(1)大数据集成:广泛的异构性(数据类型从以结构化数据为主转向结构化、半结构化、非结构化三者的融合),数据产生方式的多样性带来的数据源变化,数据存储方式的变化,数据质量的变化。(2)大数据分析:数据处理的实时性(在线、近线、离线),动态变化环境中索引的设计,先验知识的缺乏。(3)大数据隐私问题(4)大数据能耗问题(5)大数据处理与硬件的协同 大 数 据 综 述(6)大数据管理易用性:从数据集成到数据分析、直到最后的数据解释,易用性应当贯穿整个大数据的流程。易用性的挑战,突出体现在两个方面:首先大数据时代的数据量大,分析更复杂,得到的结果形式更加多样化,

11、其复杂程度已经远远超出传统的关系数据库;其次,大数据已经广泛渗透到人们生活的各个方面,很多行业都开始有了大数据分析的需求、利用。(7)可视化原则:原位分析,用户界面与交互设计,大数据可视化,数据库与存储,算法,数据移动、传输和网络架构,不确定性的量化,并行化,面向领域与开发的库、框架以及工具,社会,社区以及政府参与。(8)匹配原则:(9)反馈原则: 大 数 据 综 述5、元数据及元数据管理元数据是关于数据的数据,数据之间的关联关系以及数据本身的一些属性大都是靠元数据来表示的。可视化技术离不开元数据的支持,因为如果无法准确的表征出数据之间的关系,就无法对数据进行可视化的展示。数据起源技术更是离不

12、开元数据管理技术,因为数据起源需要利用元数据来记录数据之间包括因果关系在内的各种复杂关系,并通过这些信息来进行相关的推断。如何在大规模存储系统中实现海量元数据的高效管理将会对大数据的易用性产生重要影响,海量元数据管理的问题是需要特别关注的一个问题。 大 数 据 综 述6、信息融合利用计算机技术对按时序获得的若干传感器的观测信息在一定准则下加以自动分析、综合,以完成所需的决策和估计任务而进行的信息处理过程。多传感器系统是信息融合的硬件基础,多源信息是融合加工的对象,协调优化和综合处理是信息融合的核心。需进一步研究的问题:数据融合系统的功能模型、抽象层次、系统体系结构、设计和性能评价等方面,还有待

13、于从系统的角度进行探讨。 大 数 据 综 述开发多传感器数据融合系统MSF系统则需要一个形式框架,以便对MSF系统进行形式化描述,对系统的性质进行形式化表达和验证,从而提高系统结构的可靠性和系统行为的可预测性。形式系统可表示为S=M,T;其中,M 为模型,T为理论。数据融合可视为形式系统上的运算:1)能用形式语言来描述世界(系统)、传感过程;2)能用模型来表达数据、数据运算和数据间的关系,模型由域、常量、函数以及域中元素间的关系构成;3)能用理论来表现关于世界和关于传感器的符号知识。一种形式语言、一个形式语言的理论和一个模型共同构成一个形式系统。 大 数 据 综 述7、大数据处理流程整个大数据

14、的处理流程可以定义为在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准统一存储。利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。具体来说可以分为数据抽取与集成、数据分析以及数据解释。大数据价值的完整体现需要多种技术的协同,文件系统提供最底层存储能力的支持。为了便于数据管理,需要在文件系统之上建立数据库系统。通过索引等的构建,对外提供高效的数据查询等常用功能,最终通过数据分析技术从数据库中的大数据提取出有益的知识。 大 数 据 综 述8、数据抽取与集成对所需数据源的数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合之

15、后采用统一定义的结构来存储这些数据。从数据集成模型来看,现有的数据抽取与集成方式可以大致分为以下种类型:基于物化或方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎及基于搜索引擎的方法。 大 数 据 综 述9、数据分析 数据分析是整个大数据处理流程的核心,大数据的价值产生于分析过程。从异构数据源抽取和集成的数据构成了数据分析的原始数据,根据不同应用的需求可以从这些数据中选择全部或部分进行分析。传统的分析技术如数据挖掘、机器学习、统计分析等在大数据时代需要作出调整,这些技术在大数据时代面临着一些新的挑战。主要有: 1)数据量大并不一定意味着数据价值的增加; 2)大数据时代的算法需

16、要进行调整; 3)数据结果好坏的衡量。 大 数 据 综 述10、数据解释 1)可视化技术; 2)人机交互技术; 3)数据起源技术。 在线(Online)毫秒-秒级;近线(Nearline)分-小时级;离线(Offline)天为基本单位。 大 数 据 综 述微软大数据成功预测奥斯卡21项大奖2013年,微软纽约研究院的经济学家大卫.罗斯柴尔德(David Rothschild),通过收集赌博市场、好莱坞证券交易所、用户自动生成信息等大量公开数据建立预测模型,利用大数据成功预测2014年第85届24个奥斯卡金像奖项中的19个。 2015年Rothschild再次成功预测第86届奥斯卡奖24个奖项中

17、的21个,并准确预测出最佳电影、最佳导演、最佳男女主角、最佳男女配角等重头奖项的获奖者,准确率为100。2012年11月奥巴马大选连任成功也被归功于大数据,他的竞选团队此前对民意进行了大规模与深入的数据挖掘。时代杂志更是断言,依靠直觉与经验进行决策的优势急剧下降,在政治领域,大数据的时代已经到来。奥巴马大选连任成功 大 数 据 综 述电商大数据 随着大型电子商务平台的发展,以往分散的经济数据开始聚合在像阿里巴巴、京东、亚马逊这样的巨头手中,可以实时完成汇总、瞬间完成数据分析,这些电商数据成为了解社会、行业甚至细化到企业的数据百宝库。可以分析出消费者的行为,进行精确的推荐营销,预测企业走势或者行

18、业兴衰。给平台管理者和商家、产家带来大量商机和利润。数据新闻让英国撤军2010年10月23日卫报利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。密布的红点多达39万,格外触目惊心。一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。 大 数 据 综 述Google成功预测冬季流感2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一

19、个特定的数学模型。最终google成功预测了2009冬季流感的传播,甚至可以具体到特定的地区和州。大数据与乔布斯癌症治疗乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。 大 数 据 综 述 互联网、传感技术及其应用的迅猛发展产生了各种各样的海量数据,它们的存储和处理很多都是前所未研究的; 社会和生产性服务业(包括物质的、精神的等方面)爆炸式发展产生了海量数据; 智慧城市,智能社区、交通、通信、物流、医疗、能源、信息化、机器人等应用中

20、产生了大量的数据。大数据分析产生的背景大数据特征和定义1. “大数据”的名称来自于未来学家托夫勒所著的第三次浪潮 1980年,著名未来学家托夫勒在其所著的第三次浪潮中热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。自然杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。2. 最早应用“大数据”的是麦肯锡公司(McKinsey) 对“大数据”进行收集和分析的设想,来自于世界著名的管理咨询公司麦肯锡公司。麦肯锡公司看到了各种网络平台记录的个人海量信息具备潜在的商业价值,于是投入大量人力物力进行调研。在2011年6月发布了关于“大数据”的

21、报告,该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到了各行各业关注。大数据特征和定义3. “大数据”的特点由舍恩伯格和库克耶在编写大数据时代中提出 “大数据”的4V特点:Volume(数据量大)、Velocity(输入和处理速度快)、Variety(数据多样性)、Value(价值密度低)。 这些特点得到了广泛认可,凡提到“大数据”特点的文章,基本上采用了这4个特点。4. 在云计算技术出现之后“大数据”才凸显其真正价值 自从有了云计算服务器,“大数据”才有了可以运行的轨道,才可以实现其真正的价值。有人就形象地将各种“大数据”的应

22、用比作一辆辆“汽车”,支撑起这些“汽车”运行的“高速公路”就是云计算。 最著名的实例就是Google搜索引擎。面对海量Web数据,Google于2006年首先提出云计算的概念。支撑Google内部各种“大数据”应用的,正是Google公司自行研发的云计算服务器。维基百科对大数据的定义:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。大数据特征和定义 任一概念或事物原则上都可用其具有的特征来描述或定义。一旦研究对象用其属性界定以后再开展各种设定目标的研究。同样,“大数据”概念也可从其主要特征(属性)的描述或定义开始来对它的研究。 大数据应该具有“大”或“多”的特征(

23、属性),但大数据不只是其包含的数据量大而已。因为仅仅数据量大的问题,现有的计算机软硬件技术基本上都已可解决,不必新提概念。 那么,我们所要研究的对象是什么?应该称作什么?它可能具有哪些主要特征? 大数据特征和定义1. 数量大 大数据的首要特征当然应该是“规模大”。何谓大,对于不同的应用问题可有不同的衡量标准,所以大小本身具有相对性,不能简单用数量划界来区分大小。 大数据可指大数据集合中包含的数据多,也可指组成大数据的网络包含的子数据个数多。应该说,这些问题如果没有时空的限制,原则上都已能用现有的软硬件技术解决。 这种大数据特征一般用来指明该大数据是由很多很多子数据构成的集合,现有各种数据库中的

24、数据大多是这种数据。大数据特征和定义2、类型多 大数据可以包含多种结构化数据和非结构化数据,数据类型很多,用现有的DBMS等软件技术难以描述和处理。 这种大数据特征一般用来指明该大数据中包含的各种数据类型很多,既可包含各种结构化数据类型,又可包含各种非结构化数据类型,乃至其他数据类型。大数据特征和定义3. 维度高 描述数据的属性维数高,不但可以多至成百上千(有限维),乃至无穷维(可数维、连续维),应用时不得不先降维后才能进一步处理。 这种大数据特征(高维度)一般用来指明构建大数据时可以包含各种高维度的子数据。特别,可以采用无穷维度的数据 。大数据特征和定义4、媒体多 表征大数据的媒体(或介质)

25、众多,包括文字、语言、音频、图像、视频、以及各种不断涌现着的新媒体等等。 这种大数据特征(多媒体)一般用来指明构建该类大数据的媒体多种多样,乃至包括刚在网上新出现的各种新媒体。5. 动态性和实时性 大数据的结构和内容等都可动态变化,而且变化频率高、速度快、范围广,数据形态具有极大的动态性,处理需要极快的实时性。大数据特征和定义6.多源性 组成大数据的子数据的来源空间分布广、时间持续长、网点种类多、数据采集和存储等设备的类型复杂繁多,从而导致采用的标准不一、表述的方式不同、以及数据语义解释混乱等现象,它们都给大数据的处理带来很多困难。 这种大数据特征(多源性)一般用来指明构建大数据的子数据的数据

26、来自很多地域、很多时间等等。大数据特征和定义7. 不确定性 不确定性包括随机性和模糊性等特性,可以体现在数据的内容、结构、处理、以及所含子数据间的关联等多方面。大数据中可以包含众多具有不同概率分布的随机数和众多具有不同定义域的模糊数。数间关联模糊不清、并且可能随时随机变化。8. 复杂性 一个大数据可以又是另一些大数据(作为其子数据)组成的集合,或者由很多大数据互联或超链接(包括递归链接)而成的复杂网络。此外,高维度数据各维之间的各种关联关系也是产生复杂性的重要原因。大数据特征和定义9. 强噪声 大数据中,往往有用数据和大量无用数据混在一起,因此大数据处理的一项必要工作就是“不断地清垃圾、除噪声

27、”。这个特征也可称为数据的“价值密度”低,大数据往往是有用数据的一种“贫矿”。10. 毒数据多 大数据中,可能存在大量有毒数据和有用数据混在一起。因此大数据处理的一项必要工作就是“不断地清除可能的毒数据,包括各种病毒、木马、蠕虫、以及恶意程序等等”。大数据特征和定义11. 可信性、安全性和实时性要求高 为了实现大数据的高保密性和高安全性,往往在大数据处理过程中需要加入许多动态变化的密码密钥加解密机制,以及软件文档的验证/认证等可信机制。而且具有严格的解密的实时性要求。其实,在使用有限长度密码时,没有实时性要求就等于没有保密性。大数据特征和定义12. 社会性 大数据往往具有很强的社会性,例如,对

28、于互联网语言,不同年龄、不同阶层和不同地域的人士往往会有各不相同的理解和运用。因此,为了准确地处理诸如互联网上的舆情大数据,必须仔细考虑数据内容理解中的各种社会性因素。13. 可执行性 大数据除了包含作为处理对象的“数据”之外,一般还可随带能够处理相应“数据” 的大量可执行代码(程序)。即每个大数据都可分为“数据”和“代码”两部分。因此可以说一个具有大量数据的程序也是一个大数据。例如面向对象数据库就可认为具有这种可执行性。又如空间飞行器的在轨维护数据。大数据特征和定义1. 可视化分析(AnalyticVisualizations) 数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据

29、,让数据自己说话,让用户直观看到结果。2. 数据挖掘算法(DataMiningAlgorithms) 借助机器等工具,利用数据挖掘中的集群、分割、孤立点分析及其他算法可深入数据内部,挖掘有价值的信息。3.预测性分析能力(PredictiveAnalyticCapabilities) 数据挖掘可以让用户更好的理解数据,而预测性分析可以让用户根据可视化分析和数据挖掘的结果做出一些预测性的判断。4.语义引擎(SemanticEngines) 非结构化数据的多样性带来了数据分析新的挑战,需要一系列的工具去解析、提取、分析数据。语义引擎设计成能够从“文档”中智能提取信息。5.数据管理和数据质量(Data

30、ManagementandMasterData Quality) 通过标准化的流程和工具对数据进行处理,保证高质量的分析结果。大数据分析的五个基本方面大数据特征和定义1. 数据精准获取技术 可穿戴式的信息获取技术 可植入、可嵌入式数据获取技术 微型移动信息获取技术 生物传感、微纳米传感器、便携式传感器等新型设备。大数据的获取2.数据标准化技术领域数据标准化变得极为迫切,信息采集、传输、存储、汇交的标准规范亟需大量出台,产业(行业)基准数据库亟需建立。大数据数据标准化标准体系框架传输速率编码标准传输方式传输冗余汇交方法汇交内容汇交分类汇交范围采集规范传输标准存储标准汇交标准采集内容采集方式采集时

31、间采集地点存储格式存储方式存储安全数据结构基 准 数 据 库数据增值的关键在于整合,但整合的前提是数据标准的统一。大数据的整合处理建模技术:农作物生长与产量形成机理建模;农产品消费行为与消费量变化动态建模;基于多代理系统进行农业智能仿真模拟;关联分析:专家会商系统结合;专家智慧动态引入;仿真模拟智能化和自适应;3.大数据分析处理技术(以农业为例)仿真过程介入;仿真结果反馈;生产与市场决策流程优化。大数据的分析和解释大数据的分析和解释5.大数据+超级计算 种子基因数据+环境因子数据+遗传模型+超级计算 通过计算机动态模拟种子的生产过程、产量形成过程大数据的处理6.大数据交互式可视化技术农信采监测

32、数据可视化 大数据背景下,在交互式数据可视化技术的支撑下,通过对高频变产品市场数据的处理,实现多品种、多地域、多类型产品市场变动的内在机理、波动周期、市场走势的可视化呈现。大数据的分析和解释地质数据分析结果的可视化大数据的分析和解释盆地勘测数据的可视化大数据的分析和解释预测结果数据的可视化大数据的分析和解释大数据建模分析是大数据应用和产生价值的核心!定量数据分析模型定性数据推理分析模型定量与定性信息混合处理模型构建的分析模型所对应的数据结构具备可扩展、可裁剪和交互定制的能力,可实现时间同步处理。大数据分析模型: 基于统计分析方法多元回归分析模型相关性(因素)分析模型差异性分析模型马尔科夫时序数

33、据处理模型等7.大数据建模分析技术大数据的建模分析 采用数据挖掘方法动态分类和聚类算法关联分析模型序列模式挖掘算法异常情况(现象)发现和分析算法 基于智能建模方法,基于动态神经网络的仿真系统支持向量机动态贝叶斯网络可生长的决策树等分析模型6.大数据建模分析技术大数据的建模分析 针对建模要素数据可能为定量、定性或半定量的情况,基于模糊集理论、云变换理论、粗糙集等方法,研究建立可进行定量与定性数据属性相转换和融合的综合处理方法和模型; 针对多层次、多阶段的分析问题,建立集成分析模型和决策主题导向的分析模型链,实现对决策问题的协同分析和过程支持。6.大数据建模分析技术大数据的建模分析 大数据环境下,

34、决策与预测方法向“数据+模型+分析”的模式发生着深刻转变,呈现出高频实时、深度定制化、全周期沉浸式交互、跨组织数据整合、多主体决策等特性。 大数据具有海量、多源、异构特性、实时处理、决策要素数据分布式采集和存储等特点,迫切需要研究建立专门针对大数据的分析模型、算法和工具。 研究智能化的数据处理方法,以适应从处理结构化数据向处理更多的非结构化数据、从处理单一数据集向迭代增长数据集、从批处理向流处理的转变; 研究面向管理主题和决策要素,更加趋于自适应和自识别的数据算法,以满足大数据智能化、实时性处理的要求;6.大数据建模分析技术大数据的建模分析 研究“跨域关联”技术, 通过大数据与云计算的结合,不

35、同领域数据集的跨域关联有助于发掘产品各个环节的痕迹,从凌乱纷繁的数据背后找到产品生产、流通和消费的轨迹,把“大数据”变成“小数据”,形成反映事物本质规律的“最小数据集”。 在模型与算法构建中,应充分考虑决策因素多元、数据增长、规模大、静态与动态数据结合、定量与定性信息相混合等特征,分析模型结构和信息处理机制应具备可扩展性,其结构参数和性质参数应具备自适应优化调整的能力。6.大数据建模分析技术大数据的建模分析7.基于深度学习模型的大数据分析技术 深度学习是机器学习领域一个新的研究方向,近年来在图像分析、语音识别、计算机视觉等多类应用中取得突破性的进展,其动机在于建立模型模拟人类大脑的神经连接结构

36、,在处理图像、声音和文本这些信号时,通过多个变换阶段分层对数据特征进行描述,进而给出数据的解释。 以图像数据为例,灵长类的视觉系统中对这类信号的处理依次为: 首先检测边缘的初始形状,然后再逐步形成更复杂的视觉形状。同样地,深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,给出数据的分层特征表示。深度学习的概念最早由多伦多大学的 等于 2006年提出,指基于样本数据通过一定的训练方法得到包含多个层级的深度网络结构的机器学习过程。传统的神经网络随机初始化网络中的权值,导致网络很容易收敛到局部最小值,为解决这一问题,Hinton 提出使用无监督预训练方法优化网络权值的初值,再进行权值微调

37、的方法,拉开了深度学习的序幕。深度学习所得到的深度网络结构包含大量的单一元素( 神经元) ,每个神经元与大量其他神经元相连接,神经元间的连接强度( 权值) 在学习过程中修改并决定网络的功能。通过深度学习得到的深度网络结构符合神经网络的特征,因此深度网络就是深层次的神经网络,即深度神经网络。7.基于深度学习模型的大数据分析技术深度神经网络学习模型7.基于深度学习模型的大数据分析技术2012年6月,纽约时报披露了Google Brain项目,吸引了公众的广泛关注。这个项目是由著名的斯坦福大学的机器学习教授Andrew Ng和在大规模计算机系统方面的世界顶尖专家Jeff Dean共同主导,用1600

38、0个CPU Core的并行计算平台训练一种称为“深度神经网络”(DNN,Deep Neural Networks)的机器学习模型(内部共有10亿个节点。在语音识别和图像识别等领域获得了巨大的成功。 2012年11月,微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅。据报道,后面支撑的关键技术也是DNN,或者深度学习(DL,Deep Learning)。7.基于深度学习模型的大数据分析技术大数据存储技术 大数据具有的多源性、异构性、规模性、动态增长性等特征,使得传统基于关系数据库的存储技

39、术已不能满足大数据的存储要求,对数据存储提出了更高的要求:对性能的要求 检索,数据资源的共享等需求,要求存储设备高性能。对容量的要求 观测数据、企业管理运营数据、中间计算结果数据、媒体数据、历史数据等。对数据资源有效管理的要求 合理的计算机数据管理软件、管理策略、硬件设施等。对数据资源保护的要求 避免人为误操作、设备损坏、灾害发生时的丢失等。大数据存储技术大数据存储关键技术 数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征,包括数据的频率、量、速度、类型和真实性。处理并存储大数据时,会涉及到更多维度,比如治理、安全性和策略。为了简化各种大数据类型的复杂性,可依据各种参数

40、对大数据进行分类,以设计存储模式和选择存储设备。依据大数据类型对业务问题进行分类业务问题可分类为不同的大数据问题类型。将业务问题映射到它的大数据类型。 下表列出了常见的业务问题并为每个问题分配了一种大数据类型。按类型对大数据问题分类 容易分析出每种数据的特征。这些特征可帮助我们了解如何获取数据,如何将它处理为合适的格式,以及新数据出现的频率。来自不同来源的数据具有不同的特征;例如,社交媒体数据包含不断传入的视频、图像和非结构化文本(比如博客文章),依据这些常见特征来评估数据。内容的格式数据的类型(例如,交易数据、历史数据或主数据)将提供该数据的频率意图:数据需要如何处理(例如对数据的临时查询)

41、处理是否必须实时、近实时还是按批次执行。大数据存储技术用大数据类型对大数据特征进行分类 按特定方向分析大数据的特征会有所帮助,例如以下特征:数据如何收集、分析和处理。对数据进行分类后,就可以将它与合适的大数据模式匹配:分析类型 对数据执行实时分析还是批量分析。请仔细考虑分析类型的选择,因为这会影响一些有关产品、工具、硬件、数据源和预期的数据频率的其他决策。一些用例可能需要混合使用两种类型: 欺诈检测:分析必须实时或近实时地完成。针对战略性业务决策的趋势分析:分析可采用批量模式。处理方法 要应用来处理数据的技术类型(比如预测、分析、临时查询和报告)。业务需求确定了合适的处理方法。可结合使用各种技

42、术。处理方法的选择,有助于识别要在大数据解决方案中使用的合适的工具和技术。大数据存储技术数据频率和大小 预计有多少数据和数据到达的频率多高。知道频率和大小,有助于确定存储机制、存储格式和所需的预处理工具。数据频率和大小依赖于数据源: 按需分析,与社交媒体数据一样实时、持续提供(天气数据、交易数据)时序(基于时间的数据)数据类型 要处理数据类型 交易、历史、主数据等。知道数据类型,有助于将数据隔离在存储中。内容格式(传入数据的格式)结构化(例如 RDMBS)、非结构化(例如音频、视频和图像)或半结构化。格式确定了需要如何处理传入的数据,这是选择工具、技术以及从业务角度定义解决方案的关键。大数据存储技术数据源

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论