大数据心得体会_第1页
大数据心得体会_第2页
大数据心得体会_第3页
大数据心得体会_第4页
大数据心得体会_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据心得体会早在2007年,人类制造的信息量有史以来第一次在理论上超过可用存储空间总量,近几年两者的剪刀差越来越大。2010年,全球数字规模首次达到了“ZB”(1ZB=1024TB)级别。2012年,淘宝网每天在线商品数超过8亿件。2013年底,中国手机网民超过6亿户。随着互联网、移动互联网、传感器、物联网、社交网站、云计算等的兴起,我们这个社会的几乎所有方面都已数字化,产生了大量新型、实时的数据。无疑,我们已身处在大数据的海洋。

有两个重要的趋势使得目前的这个时代(大数据时代)与之前有显著的差别:其一,社会生活的广泛数字化,其产生数据的规模、复杂性及速度都已远远超过此前的任何时代;其二,人类的数据分析技术和工艺使得各机构、组织和企业能够以从前无法达到的复杂度、速度和精准度从庞杂的数据中获得史无前例的洞察力和预见性。

大数据是技术进步的产物,而其中的关键是云技术的进步。在云技术中,虚拟化技术乃最基本、最核心的组成部份。计算虚拟化、存储虚拟化和网络虚拟化技术,使得大数据在数据存储、挖掘、分析和应用分享等方面不仅在技术上可行,在经济上也可接受。

在人类文明史上,人类一直执着探索我们处的世界以及人类自身,一直试图测量、计量这个世界以及人类自身,试图找到隐藏其中的深刻关联、运行规律及终极答案。大数据以其人类史上从未有过的庞大容量、极大的复杂性、快速的生产及经济可得性,使人类第一次试图从总体而非样本,从混杂性而非精确性,从相关关系而非因果关系来测量、计量我们这个世界。人类的思维方式、行为方式及社会生活的诸多形态(当然包括商业活动)正在开始发生新的变化。或许是一场革命性、颠覆性的变化。从这个意义上讲,大数据不仅是一场技术运动,更是一次哲学创新。1

大数据的概述

1.1

大数据的概念

大数据(Big

Data)是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处理它。

数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源,如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。

对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。对大数据进行分析能揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式。这种通过大数据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和Facebook,它们都是大数据时代的创新者。

1.2

大数据的三层关系

第一层关系:数据与机器的关系。大数据纪元刚开始,产业界碰到的第一个核心问题就是“大”的问题。做了几十年的数据仓库甚至海量并行处理的数据库都不能处理那么大的数据,怎么办?需要范式切换。主要有三个方面,新型的数据与机器关系当中的第一条就是重新考虑架构与算法,重新考虑舍得,有舍才能得,天下没有免费的午餐,所以必须要舍弃一些,得到一些新的。必须舍弃贵族化的高端小型机和UNIX服务器,得到平民化的更大量的X86服务器。通过这样一种可横向、可水平扩展服务器处理每两年翻番的数据量的挑战。第二个舍得是舍弃硬件的可靠性和可用性,得到软件的可靠性和可用性。这也就是谷歌三大论文以及Hadoop的核心重点。第三个舍得是舍弃传统数据库的强一致性,获得更放松一致性、可扩展架构,如NoSQL。第四个舍得是传统算法强调非常严格的精确性,现在要放弃一些精确性,通过近似、采样这种方式来获得更好的扩展性。

最早大数据的处理范式是Mapreduce的批量处理,英特尔慢慢有其他的需求,实时的流处理、多迭代的处理、图计算、即时查询等等新的范式百花齐放,最后万法归宗。刚才王斌老师将讲的SAP的HANA本身就是数据管理和分析的融合,现在非常流行的Hadoop之后的SPARK,就是把前面的各种范式进行了融合。(

Volume)

,数据种类多(

Variety)

,数据要求处理速度快(

Velocity)

,数据价值密度低(

Value)

,即所谓的四V

特性。

数据规模大(

Volume):企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。

数据种类多(

Variety):一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。

处理速度快(

Velocity):高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。根据IMS

Research关于数据创建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。

数据价值密度低(

Value):大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。目前,企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。

1.4

大数据的三个特征

除了有四个特性之外,大数据时代的数据还呈现出其他三个特征。

第一个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求.

第二个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。

第三个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。

2

大数据的技术与处理

2.1

大数据的技术

1.数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

2.数据存取:关系数据库、NOSQL、SQL等。

3.基础架构:云存储、分布式文件存储等。

4.数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage

Understanding),也称为计算语言学(Computational

Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI,

Artificial

Intelligence)的核心课题之一。

5.统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

6.数据挖掘:分类

(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity

grouping

or

association

rules)、聚类(Clustering)、描述和可视化、Description

and

Visualization)、复杂数据类型挖掘(Text,

Web

,图形图像,视频,音频等)。

7.模型预测:预测模型、机器学习、建模仿真。

8.结果呈现:云计算、标签云、关系图等。

2.2

大数据的处理

1.采集

大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

2.导入/预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

3.统计/分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

4.挖掘

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。

3

大数据的应用

正如诸多文献所谈到的,大数据对许多行业的影响和冲击已经呈现。例如,商零售、物流、医药、文化产业等。金融,作为现代经济中枢,其实也已透出了大数据金融的曙光。

过去的2013年,中国金融界热议最多的或许是互联网金融,更有人指出2013年是中国互联网金融元年。确实,第三方支付、P2P、网贷、众筹融资、余额宝、微信支付等发展迅速。众多传统金融业者也或推出自己的电商平台,或与互联网企业联手提供相应的金融产品和服务。

互联网金融,无论是业界、监管者或理论界,都在试图给出自己的理解和定义。但到目前为止,尚未有一个统一的、规范的概念。在我看来,互联网金融本来就是一个不确切的概念,也不可能有一个明确的定义。严格说来,所谓互联网金融只是大数据金融的一种展现或形态。换言之,前者是表,后者是里。

这是因为,无论是互联网还是金融业,其实质都是大数据(信息)。首先,对互联网企业而言,流量、客户等数据(信息)是其涉足金融业的基石。对金融企业而言,提供中介服务,撮合金融交易也是以数据(信息)为基础。其次,没有大数据技术的支撑,所谓互联网金融也难以快速、持续成长。20世纪90年代互联网浪潮的蓬勃兴起,至今已近二十年。但从世界范围看,所谓互联网金融却发展缓慢。当然,其中原因很多,但其主要原因则是大数据技术是近几年才快速发展起来的。最后,从金融企业来看,在数据中心建设,软硬件系统建设,数据(信息)挖掘、分析等方面也是做得有声有色,其庞大的客户数据、海量交易记录及众多信息源,使其在大数据应用方面也做了许多积极探索。因此,要准确反映近年新金融趋势,“大数据金融”比“互联网金融”更为贴切。

4

大数据应用中的三大难题

近年来,大数据这个词成为互联网领域关注度最高的词汇,时至今日,大数据已经不再是IT圈的“专利”了,从去年的春晚,到刚刚过去的两会,都能见到它的身影,但实际上春晚与两会的数据都只能叫做小数据,它与真正的大数据还相差甚远。即便如此,数据所产生的价值已经被人们所认知。

就大数据来说,它的发展可以分成三个阶段,第一个阶段是组织内部的数据,这些数据通常都是结构化的数据,我们一般将这些数据进行分类、排序等操作,将相同类型的数据进行对比、分析、挖掘,总而言之基本上都是统计工作。到了第二阶段,数据的范围扩大到行业内,各种各样的应用数据出现,数据量大规模增长,尤其是非结构化数据的出现。典型的像视频、图片这一类的数据,在这一阶段的特点就是非结构化和结构化数据并存,且数据量巨大,要对这些数据进行分析是我们目前现阶段所处在的状态。

第三阶段则是未来大数据发展的理想化状态,首先它一定是跨行业的,且数据的范围是整个社会。通过对这些数据进行分析加以使用,将直接改变我们的生活方式,这也是现在很多企业所设想的未来交通、医疗、教育等领域的发展方向。1.大数据太大不敢用

第三个阶段是我们所憧憬的,但在我们所处的第二阶段面对的更多是问题。其中的一个问题就是“大”。大数据给人最直观的感受就是大,它所带来的问题不仅仅是存储,更多的是庞大的数据没办法使用,以交通为例,从2001年开始在北京的主干道上都增设了一些卡口设备,到了今天基本上大街小巷都能看到。

这些设备每天所拍摄的视频及照片产生的数据量是惊人的,仅照片每天就能产生2千万张,而解决这些数据的存储只是最基本的任务,我们更需要的是使用这些数据。例如对套牌车辆的检查,对嫌疑车辆的监控,当你想要使用这些数据的时候,传统的数据库以及系统架构,放进这么庞大的数据,是根本跑不动的。这一问题导致很多企业对大数据望而却步。

2.大数据太难不会用

说到大数据的使用,自然离不开Hadoop,Hadoop本身提供了分布式系统中两个最重要的东西:分布式存储(HDFS)和分布式计算(Mapreduce)。这两者解决了处理大数据面临的计算和存储问题,但更为重要的是,为开发大数据应用开辟了道路。

Hadoop是目前解决大数据问题最流行的一种方式,但其仍然有不成熟的地方,曾作为雅虎云计算以及Facebook软件工程师的Jonathan

Gray就表示:“Hadoop实施难度大,且复杂,如果不解决技术复杂性问题,Hadoop将被自己终结。”正是由于这样的原因,Gray创办了自己的公司——Continuuity,这家公司的目标就是在Hadoop和Hbase基础上创建一个抽象层,屏蔽掉Hadoop底层技术的复杂性。由此可见想要用好大数据又是一大考验。

3.大数据太贵用不起

Hadoop的特点就是让你可以使用廉价的x86设备来完成大数据的业务,但事实上如果你真想要用它来完成某些商业任务你还得是个“土豪”。在国外那些使用大数据的成功案例里,亚马逊曾给出过这样一组数字,NASA需要为45天的数据存储服务支付超过100万美元。像Quant___cast这样的数字广告公司,同样也是花费了巨额的资金用在Hadoop技术上,来根据自己的需求定制系统。从上面两个案例来看用于商业用途的大数据现阶段还是很费钱的,随着大数据软件环境逐渐成熟,开发工具增多,价格在未来会逐渐降低。

从上面罗列的这三点困难,其实并不是要给大数据泼冷水,而是想说大数据想要淘金并不简单,首先在做大数据之前,好好盘点一下自己拥有的资源,不仅仅是数据资源,还包括知识与技能。确定了自己的能力之后,选择一个能够发挥你现有资源最大价值的项目。如果你需要帮手,应先考虑商业顾问,再考虑技术人才。为了解答一个生意上的困惑花下的钱,叫作投资,而把钱投到一个拥有特殊技能的IT人才身上,那就叫沉没成本。当你有了这些之后,选择更灵活且可扩展的工具,为以后的扩充打好基础。更重要的是——从小规模做起。

5

大数据创新的驱动力

计算机科学与技术的发展使得大规模信息处理基础设施产生重要改变。在过去的30年中,经典的数据库管理系统(DBMS)在处理大规模数据方面与时俱进,在企业数据处理等方面得到广泛应用。数据库研究和技术进展主要集中在数据建模、描述性查询语言、事务处理和数据库可靠性等。在这个过程中,相关的数据仓库和数据挖掘分析技术也成为一个热点研究方向;人们认识到数据处理过程中的信息可以被有效整理和分析来支持以数据为中心的决策支持。

数据库管理系统在目前的互联网时代继续占据了重要地位。在一个典型的互联网服务系统架构中,数据库管理系统和Web服务器及应用服务共同作用,为互联网用户提供各类信息和服务。在这个系统架构中,人们期望系统能支持无限次和高速的互联网用户访问,这个时候数据库层由于在硬件可扩展性上面的不足可能成为系统性能瓶颈。这个挑战我们称为大数据问题(big

data

problem)。大数据系统期望能对大规模异构复杂数据建模,进行实时分析;传统的商用数据库系统很难提供良好的解决方案。另一个大数据相关的挑战是服务器端数据中心的数据维护及安全隐私问题。近年来云计算技术已经成为大数据中心的一种可靠解决方案,Google,

Yahoo

and

Microsoft等公司也纷纷开发自己的云计算系统。尽管云计算在互联网应用中已经体现出很多优越性,其在系统成熟性、可用性等方面还有很大提高空间。

显而易见,大数据领域的大规模数据管理和复杂数据分析已经成为新的研究前沿。目前的各类大数据应用正是大数据研究的驱动力,比如社会网络、移动计算、科学应用等等。这些应用产生的大数据往往具有海量、时序动态性、多样等特性,给数据库领域的各项技术带来巨大挑战,涵盖包括数据获取、组织管理、分析处理和应用呈现等整个数据管理生命周期。针对数据管理和分析不同系统应用,各类大数据处理技术在也不断发展。MapReduce作为一种分布式的数据处理框架由于其灵活性、可扩展性、高效和容错等特性其近年来得到了广泛应用。此外,也有多类其他分布式数据处理系统用来解决MapReduce不擅长的问题,比如交互式分析、图计算和分析、实时和流处理、通用数据处理等等。大数据不但给数据库研究领域,同时也给体系结构、存储系统、系统软件和软件工程等计算机多个学科带来了很多机会和挑战。大数据正是目前很多计算机科学问题的根本,并驱动众多新科技的发展。

6

大数据的发展前景

大数据的概念来源于、发展于美国,并向全球扩展,必将给我国未来的科技与经济发展带来深远影响。根据IDC

统计,目前数据量在全球比例为:

美国32%、西欧19%、中国13%,预计到2020

年中国将产生全球21%

的数据,我国是仅次于美国的数据大国,而我国大数据方面的研究尚处在起步阶段,如何开发、利用保护好大数据这一重要的战略资源,是我国当前亟待解决的问题。而大数据未来的发展趋势则从以下几个方面进行:

(1)开放源代码

大数据获得动力,关键在于开放源代码,帮助分解和分析数据。Hadoop

和NoSQL

数据库便是其中的赢家,他们让其他技术商望而却步、处境很被动。毕竟,我们需要清楚怎样创建一个平台,既能解开所有的数据,克服数据相互独立的障碍,又能将数据重新上锁。

(2)市场细分

当今,许多通用的大数据分析平台已投入市场,人们同时期望更多平台的出现,可以运用在特殊领域,如药物创新、客户关系管理、应用性能的监控和使用。若市场逐步成熟,在通用分析平台之上,开发特定的垂直应用将会实现。但现在的技术有限,除非考虑利用潜在的数据库技术作为通用平台

(

如Hadoop、NoSQL)。人们期望更多特定的垂直应用出现,把目标定为特定领域的数据分析,这些特定领域包括航运业、销售业、网上购物、社交媒体用户的情绪分析等。同时,其他公司正在研发小规模分析引擎的软件套件。比如,社交媒体管理工具,这些工具以数据分析做为基础。

(3)预测分析

建模、机器学习、统计分析和大数据经常被联系起来,用以预测即将发生的事情和行为。有些事情是很容易被预测的,比如坏天气可以影响选民的投票率,但是有些却很难被准确预测。例如,中间选民改变投票决定的决定性因素。但是,当数据累加时,我们基本上有能力可以大规模尝试一个连续的基础。网上零售商重新设计购物车,来探索何种设计方式能使销售利润最大化。根据病人的饮食、家族史和每天的运动量,医生有能力预测未来疾病的风险。当然,在人类历史的开端,我们就已经有各种预测。但是,在过去,许多预测都是基于直觉,没有依靠完整的数据集,或者单单靠的是常识。当然,即便有大量数据支撑你的预测,也不表明那些预测都是准确的。2007

年和2008

年,许多对冲基金经理和华尔街买卖商分析市场数据,认为房地产泡沫将不会破灭。根据历史的数据,可以预测出房地产泡沫即将破裂,但是许多分析家坚持原有的观点。另一方面,预测分析在许多领域流行起来,例如欺诈发现(

比如在外省使用信用卡时会接到的诈骗电话),保险公司和顾客维系的风险管理。7结语大数据正在以不可阻拦的磅礴气势,与当代同样具有革命意义的最新科技进步(如纳米技术、生物工程、全球化等)一起,揭开人类新世纪的序幕。可以简单地说,以往人类社会基本处于蒙昧状态中的不发展阶段,即自然发展阶段。现在,这一不发展阶段随着2012年的所谓“世界末日”之说而永远成为了过去。大数据宣告了21世纪是人类自主发展的时代,是不以所谓“上帝”的意志为转移的时代,是“上帝”失业的时代。对于地球上每一个普通居民而言,大数据有什么应用价值呢?只要看看周围正在变化的一切,你就可以知道,大数据对每个人的重要性不亚于人类初期对火的使用。大数据让人类对一切事物的认识回归本源;大数据通过影响经济生活、政治博弈、社会管理、文化教育科研、医疗保健休闲等等行业,与每个人产生密切的联系。大数据技术离你我都并不遥远,它已经来到我们身边,渗透进入我们每个人的日常生活消费之中,时时刻刻,事事处处,我们无法逃遁,因为它无微不至:它提供了光怪陆离的全媒体,难以琢磨的云计算,无法抵御的仿真环境。大数据依仗于无处不在的传感器,比如手机、发带,甚至是能够收集司机身体数据的汽车,或是能够监控老人下床和行走速度与压力的“魔毯”(由GE与Intel联合开发),洞察了一切。通过大数据技术,人们能够在医院之外得悉自己的健康情况

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论