大数据分析与实践-社会研究与数字治理第1章 大数据分析基础_第1页
大数据分析与实践-社会研究与数字治理第1章 大数据分析基础_第2页
大数据分析与实践-社会研究与数字治理第1章 大数据分析基础_第3页
大数据分析与实践-社会研究与数字治理第1章 大数据分析基础_第4页
大数据分析与实践-社会研究与数字治理第1章 大数据分析基础_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章大数据分析基础QQ:81505050杨武剑周苏大数据分析与实践——社会研究与数字治理奥利·阿什菲尔特是普林斯顿大学的一位经济学家,他的日常工作

就是琢磨数据,利用统计学,他从大量的数据资料中提取出隐藏在数

据背后的信息。奥利非常喜欢喝葡萄酒,他说:“当上好的红葡萄酒有了一定的年份时,就会发生一些非常神奇的事情。”当然,奥利指的不仅仅是葡萄酒的口感,还有隐藏在葡萄酒背后的力量。“每次你买到上好的红葡萄酒时,”他说,“其实就是在进行投资,因为这瓶酒以后很有可能会变得更好。重要的不是它现在值多少钱,而是将来值多少钱——即使你并不打算卖掉它,而是喝掉它。如果你想知道把从当前消费中得到的愉悦推迟,将来能从中得到多少愉悦,那么这将是一个永远也讨论不完的、吸引人的话题。”关于这个话题,奥利已研究了25年。第1章导读案例葡萄酒的品质分析奥利花费心思研究的一个问题是,如何通过数字来评估波尔多葡

萄酒的品质。与品酒专家通常所使用的“品咂并吐掉”的方法不同,

奥利用数字指标来判断能拍出高价的酒所应该具有的品质特征。法国波尔多葡萄园第1章导读案例葡萄酒的品质分析“其实很简单,”他说,“酒是一种农产品,每年都会受到气候

条件的强烈影响。”因此,奥利采集了法国波尔多地区的气候数据

加以研究,他发现如果收割季节干旱少雨且整个夏季的平均气温较高,该年份就容易生产出品质上乘的葡萄酒。当葡萄熟透、汁液高度浓缩时,波尔多葡萄酒是最好的。夏季特别炎热的年份,葡萄很容易熟透,酸度就会降低。炎热少雨的年份,葡萄汁也会高度浓缩。因此,天气越炎热

干燥,越容易生产出品质一流的葡萄酒。熟透的葡萄能生产出口感柔润(

即低敏度)的葡萄酒,而汁液高度浓缩的葡萄能够生产出醇厚的葡萄酒。第1章导读案例葡萄酒的品质分析奥利把这个关于葡萄酒的理论简化为下面的方程式:葡萄酒的品质=12.145+0.00117×冬天降雨量+0.0614

×葡萄生长期平均气温-0.00386×收获季节降雨量正如彼得·帕塞尔在《纽约时报》中报告的那样,奥利给出的统计方程与实际高度吻合。把任何年份的气候数据代入上面这个式子,就能够预测出任意一种葡萄酒的平均品质。如果把这个式子变得再稍微复杂精巧一些,奥利还能更精确地预测出100多个酒庄的葡萄

酒品质。他承认“这看起来有点太数字化了”,“但这恰恰是法国人把他

们葡萄酒庄园排成著名的1855个等级时所使用的方法”。第1章导读案例葡萄酒的品质分析然而,当时传统的评酒专家并未接受奥利利用数据预测葡萄酒品

质的做法。英国的《葡萄酒》杂志认为,“这条公式显然是很可笑

的,我们无法重视它。”纽约葡萄酒商人威廉姆·萨科林认为,从波尔多葡萄酒产业的角度来看,奥利的做法“介于极端和滑稽可笑之间”。因此,奥利常常被业界人士取笑。当奥利在克里斯蒂拍卖行酒品部做关于葡萄酒的演讲时,坐在后排的交易商嘘声一片。传统的评酒大师认为,如果要对葡萄酒的品质评判得更准确,应该亲自去品尝一下。但是有这样一个问题:在好几个月的生产时间里,人们是无法品尝到葡萄酒的。波尔多和勃艮第的

葡萄酒在装瓶之前需要盛放在橡木桶里发酵18~24个月。第1章导读案例葡萄酒的品质分析像帕克这样的评酒专家需要在桶装4个月以后才能第一次品尝,这

个阶段的葡萄酒还只是臭臭的、发酵的葡萄而已。不知道此时这种无

法下咽的“酒”是否能够使品尝者得出关于酒的品质的准确信息。例如,巴特菲德拍卖行酒品部的前经理布鲁斯·凯泽曾经说过:“发酵初期的葡萄酒变化非常快,没有人,我是说不可能有人,能够通过品尝来准确地评估酒的好坏。至少要放上10年,甚至更久。”与之形成鲜明对比的是,奥利从对数字的分析中能够得出气候与酒价之间的关系。他发现冬季降雨量每增加1毫米,酒价就有可能提高0.00117美元。当然,这只是“有可能”而已。不过,对数据的分析使奥利可以在葡萄酒的未来品质——这是品酒师有机会尝到第一口酒的数月之前,更是在葡萄酒卖出的数年之前。在葡萄酒期货交易活跃的今天,奥利的预测能够给葡萄酒收集者极大的帮助。第1章导读案例葡萄酒的品质分析20世纪80年代后期,奥利开始在半年刊的简报《流动资产》上发

布他的预测数据。最初有600多人开始订阅。这些订阅者的分布很广,

包括很多百万富翁以及痴迷葡萄酒的人——这是一些可以接受计量方法的葡萄酒收集爱好者。但与每年花30美元来订阅简报《葡萄酒爱好者》的30000人相比,《流动资产》的订阅人数确实少得可怜。20世纪90年代初期,《纽约时报》在头版头条登出了奥利的最新预测数据,这使得更多人了解了他的思想。奥利公开批判了帕克对1986年波尔多葡萄酒的估价。帕克对1986年波尔多葡萄酒的评价是“品质一流,甚至非常出色”。但是奥利不这么认为,他认为由于生产期内过低的平均气温以及收获期过多的雨水,这一年葡萄酒的品质注定平平。第1章导读案例葡萄酒的品质分析当然,奥利对1989年波尔多葡萄酒的预测才是这篇文章中真正让人吃惊的地方,尽管当时这些酒在木桶里仅仅放置了3个月,还从未被品酒师品尝过,奥利预测这些酒将成为“世纪佳酿”。他保证这些酒的品质将会“令人震惊地一流”。根据他自己的评级,如果1961年的波尔多葡萄酒评级为100的话,那么1989年的葡萄酒将会达到149。奥利甚至大胆地预测,这些酒“能够卖出过去35年中所生

产的葡萄酒的最高价”。

葡萄酒收藏第1章导读案例葡萄酒的品质分析看到这篇文章,评酒专家非常生气。评酒专家们开始辩解,竭力指

责奥利本人以及他所提出的方法。他们说他的方法是错的,因为这一

方法无法准确地预测未来的酒价。然而,对于统计学家(以及对此稍加思考的人)来说,预测有时过高,有时过低是件好事,因为这恰好说明估计量是无偏的。1990年,奥利更加陷于孤立无援的境地。在宣称1989年的葡萄酒将成为“世纪佳酿”之后,数据告诉他1990年的葡萄酒将会更好,而且他也照实说了。现在回头再看,我们可

以发现当时《流动资产》的预测惊人地准确。1989年的葡萄酒确实是难得

的佳酿,而1990年的也确实更好。第1章导读案例葡萄酒的品质分析怎么可能在连续两年中生产出两种“世纪佳酿”呢?事实上,

自1986年以来,每年葡萄生长期的气温都高于平均水平。法国的天

气连续20多年温暖和煦。对于葡萄酒爱好者们而言,这显然是生产柔润的波尔多葡萄酒的最适宜的时期。传统的评酒专家们现在才开始更多地关注天气因素。尽管他们当中很多人从未公开承认奥利的预测,但他们自己的预测也开始越来越密切地与奥利那个简单的方程式联系在一

起。指责奥利的人仍然把他的思想看作是异端邪说,因为他试图把葡萄酒

的世界看得更清楚。他从不使用华丽的辞藻和毫无意义的术语,而是直接

说出预测的依据。第1章导读案例葡萄酒的品质分析整个葡萄酒产业毫不妥协不仅仅是在做表面文章。“葡萄酒经销

商及专栏作家只是不希望公众知道奥利所做出的预测。”凯泽说,

“这一点从1986年的葡萄酒就已经显现出来了。奥利说品酒师们的评级是骗人的,因为那一年的气候对于葡萄的生长来说非常不利,雨水泛滥,气温也不够高。但是当时所有的专栏作家都言辞激烈地坚持认为那一年的酒会是好酒。事实证明奥利是对的,但是正确的观点不一定总是受欢迎的。”第1章导读案例葡萄酒的品质分析葡萄酒经销商和专栏评论家们都能够从维持自己在葡萄酒品质方

面的信息垄断者地位中受益。葡萄酒经销商利用长期高估的最初评

级来稳定葡萄酒价格。《葡萄酒观察家》和《葡萄酒爱好者》能否保持葡萄酒品质的仲裁者地位,决定着上百万资金的生死。很多人要谋生,就只能依赖于喝酒的人不相信这个方程式。也有迹象表明事情正在发生变化。伦敦克里斯蒂拍卖行国际酒品部主席迈克尔·布罗德本

特委婉地说:“很多人认为奥利是个怪人,我也认为他在很多方面的确很

怪。但是我发现,他的思想和工作会在多年后依然留下光辉的痕迹。他所

做的努力对于打算买酒的人来说非常有帮助。”第1章导读案例葡萄酒的品质分析目录大数据基础大数据的结构类型大数据对分析的影响定性分析与定量分析12345四种数据分析方法6大数据分析的行业作用大数据基础PART011.11.1大数据基础信息社会所带来的好处是显而易见的:每个人口袋里都揣着一部手机,每台办公桌上都放着一台电脑,每间办公室内都连接到局域网或者互联网。半个世纪以来,随着计算机技术全面和深度地融入社会生活,信息爆炸已经积累到了一个引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——量变引起了质变。1.1大数据基础如今,人们不再认为数据是静止和陈旧的。但在以前,一旦完成了收集数据的目的之后,数据就会被认为已经没有用处了。比方说,在飞机降落之后,票价数据就没有用了——设计人员如果没有大数据的理念,就会丢失掉很多有价值的数据。数据已经成为一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新服务。今天,大数据是人们获得新的认知、创造新的价值的源泉,大数据还是

改变市场、组织机构以及政府与公民关系的方法。

大数据时代对我们的生活和与世界交流的方式都提

出了挑战。1.1.3广义的大数据1.1.1定义大数据1.1.2大数据的3V特征大数据时代对我们的生活和与世界交流的方式都提出了挑战。1.1大数据基础1.1.1

定义大数据所谓大数据,狭义上可以定义为:用现有的一般技术难以管理的大量数据的集合。这实际上是指用目前在企业数据库占据主流地位的关系型数据库无法进行管理的、具有复杂结构的数据。或者也可以说,是指由于数据量的增大,导致对数据的查询响应时间超出了允许的范围。研究机构加特纳给出了这样的定义:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”1.1.1

定义大数据世界级领先的全球管理咨询公司麦肯锡说:“大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、存储、营理和分析的能力。这是一个被故意设计成主观性的定义,并且是一个关于多大的数据集才能被认为是大数据的可变定义,即并不定义大于一个特定数字的TB才叫大数据。因为随着技术的不断发展,符合大数据标准的数据集容量也会增长;并且定义随不同的行业也有变化,这依赖于在一个特定行业通常使用何种软件和数据集有多大。因此,大数据在今天不同行业中的范围可以从几十TB到几PB。”随着“大数据”的出现,数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用正逐渐成为行业人士争相追捧的利润焦点,在全球引领了又一轮数据技术革新的浪潮。1.1.2

大数据的3V特征从字面上看,“大数据”这个词可能会让人觉得只是容量非常大的数据集合而已,但容量只不过是大数据特征的一个方面,如果只拘泥于数据量,就无法深入理解当前围绕大数据所进行的讨论。因为“用现有的一般技术难以管理”这样的状况,并不仅仅是由于数据量增大这一个因素所造成的。IBM说:“可以用3个特征相结合来定义

大数据:数量(Volume,或称容量)、

种类(Variety,或称多样性)和速度

(Velocity),或者就是简单的3V,

即庞大容量、极快速度和种类丰富的数

据。”1.1.2

大数据的3V特征(1)Volume(数量)。用现有技术无法管理的数据量,从现状来看,基本上是指从几十TB到几PB这样的数量级。当然,随着技术的进步,这个数值也会不断变化。如今,存储的数据量在急剧增长中,我们存储所有事物,包括环境数据、财务数据、医疗数据、监控数据等等,数据量不可避免地会转向ZB级别。可是,随着可供企业使用的数据量不断增长,可处理、理解和分析的数据的比例却不断在下降。1.1.2

大数据的3V特征(2)Variety(种类、多样性)。随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括流数据)、搜索索引、社交媒体、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。种类表示所有的数据类型。其中,爆发式增长的一些数据,如互联网上的文本数据、位置信息、传感器数据、视频数据等,用目前企业主流的关系型数据库是很难存储的,它们都属于非结构化数据。1.1.2

大数据的3V特征当然,这些数据中有些是过去就一直存在并保存下来的。和过去不同的是,除了存储,还需要对这些大数据进行分析,并从中获得有用的信息。例如监控摄像机中的视频数据,超市、便利店等零售企业几乎都配备了监控摄像机,最初目的是为了防范盗窃,但现在也出现了使用视频数据来分析顾客购买行为的案例。例如,美国高级文具制造商万宝龙过去是凭经验和直觉来决定商品陈列布局的,现在尝试利用监控摄像头对顾客在店内的行为进行分析。通过分析监控摄像数据,将最想卖出去的商品移动到最容易吸引顾客目光的位置,使得销售额提高了20%。1.1.2

大数据的3V特征美国移动运营商T-Mobile也在其全美1000家店中安装了带视频分析功能的监控摄像机,可以统计来店人数,还可以追踪顾客在店内的行动路线、在展台前停留的时间,甚至是试用了哪一款手机、试用了多长时间等,对顾客在店内的购买行为进行分析。1.1.2

大数据的3V特征(3)Velocity(速度)。数据产生和更新的频率也是衡量大数据的一个重要特征。就像我们收集和存储的数据量和种类发生了变化一样,生成和需要处理数据的速度也在变化。这里,速度的概念不仅是与数据存储相关的增长速率,还应该动态地应用到数据流动的速度上。有效地处理大数据,需要在数据变化的过程中对它的数量和种类执行分析,而不只是在它静止后执行分析。例如,遍布全国的各种便利店在24小时内产生的POS机数据,电商网站中由用户访问所产生的网站点击流数据,高峰时达到每秒近万条的微信短文,全国公路上安装的交通探测传感器和路面状况传感器(可检测结冰、积雪等路面状态)等,每天都在产生着庞大的数据。1.1.2

大数据的3V特征在3V的基础上,IBM又归纳总结了第四个V——Veracity(真实和准确)。“只有真实而准确的数据才能让对数据的管控和治理真正有意义。随着新数据源的兴起,传统数据源的局限性被打破,企业愈发需要有效的信息治理以确保其真实性及安全性。”1.1.2

大数据的3V特征互联网数据中心IDC说:“大数据是一个貌似不知道从哪里冒出来的大的动力。但是实际上,大数据并不是新生事物。然而,它确实正在进入主流并得到重大关注,这是有原因的。廉价的存储、传感器和数据采集技术的快速发展、通过云和虚拟化存储设施增加的信息链路,以及创新软件和分析工具,正在驱动着大数据。大数据不是一个‘事物’,而是一个跨多个信息技术领域的动力/活动。大数据技术描述了新一代的技术和架构,它被设计用于:通过使用高速(Velocity)的采集、发现和/或分析,从超大容量(Volume)的多样(Variety)数据中经济地提取价值(Value)。”这个定义除了揭示大数据传统的3V基本特征,即大数据量、多样性和高速,还增添了一个新特征:价值。1.1.2

大数据的3V特征总之,大数据是个动态的定义,不同行业根据其应用的不同有着不同的理解,其衡量标准也在随着技术的进步而改变。1.1.3

广义的大数据大数据的狭义定义着眼点在数据的性质上,我们从广义层面上再为大数据下一个定义:“所谓‘大数据’是一个综合性概念,它包括因具备3V(Volume/Variety/Velocity,数量/品种/速度)特征而难以进行管理的数据,对这

些数据进行存储、处理、分析的技术,以及能够通过分析这些数据获得实用意义和观点的人才和组织。”

广义的大数据1.1.3

广义的大数据“存储、处理、分析的技术”指的是用于大规模数据分布式处理的框架Hadoop、具备良好扩展性的NoSQL数据库,以及机器学习和统计分析等;“能够通过分析这些数据获得实用意义和观点的人才和组织”,指的是目前十分紧俏的“数据科学家”这类人才以及能够对大数据进行有效运用的组织。大数据的结构类型PART021.21.2大数据析的结构类型数据量大是大数据的一致特征。由于数据自身的复杂性,作为一个必然的结果,处理大数据的首选方法是在并行计算的环境中进行大规模并行处理(MassivelyParallelProcessing,MPP),这使得同时发生的并行摄取、并行数据装载和分析成为可能。实际上,大多数的大数据都是非结构化或半结构化的,需要不同的技术和工具来处理和分析。1.2大数据的结构类型大数据最突出的特征是它的结构。下图显示了几种不同数据结构类型数据的增长趋势,由图可知,未来数据增长的80%~90%将来自于不是结构化的数据类型(半、准和非结构化)。

数据增长日益趋向非结构化1.2大数据的结构类型实际上,有时这4种不同的、相分离的数据类型是可以被混合在一起的。例如,一个传统的关系数据库管理系统保存着一个软件支持呼叫中心的通话日志,这里有典型的结构化数据,比如日期/时间戳、机器类型、问题类型、操作系统,这些都是在线支持人员通过图形用户界面上的下拉式菜单输入的。另外,还有非结构化数据或半结构化数据,比如自由形式的通话日志信息,这些可能来自包含问题的电子邮件,或者技术问题和解决方案的实际通话描述。另外一种可能是与结构化数据有关的实际通话的语音日志或者音频文字实录。即使是现在,大多数分析人员还无法分析这种通话日志历史数据库中的最普通和高度结构化的数据,因为挖掘文本信息是一项强度很大的工作,并且无法简单地实现自动化。1.2大数据的结构类型人们通常最熟悉结构化数据的分析,然而,半结构化数据(XML)、“准”结构化数据(网站地址字符串)和非结构化数据代表了不同的挑战,需要不同的技术来分析。除了三种基本的数据类型以外,还有一种重要的数据类型为元数据。元数据提供了一个数据集的特征和结构信息,这种数据主要由机器生成并且能够添加到数据集中。搜寻元数据对于大数据存储、处理和分析是至关重要的一步,因为它提供了数据系谱信息以及数据处理的起源。元数据的例子包括:·XML文件中提供作者和创建日期信息的标签;·数码照片中提供文件大小和分辨率的属性文件。大数据对分析的影响PART031.31.3大数据对分析的影响大数据技术已经改变了数据分析的现状,并且需要一个新的方法——就是我们所说的“现代分析”。“大数据分析”在很多情况下又称为“大数据预测分析”。数据分析是数据处理流程的核心,因为数据中所蕴藏的价值就产生于分析的过程,它和以往数据分析最重要的差别在于数据量的急剧增长,也正因为此,使得对于数据的存储、查询以及分析的要求迅速提高。1.3.2大数据分析的定义1.3.1大数据的影响数据分析是数据处理流程的核心,因为数据中所蕴藏的价值就产生于分析的过程,它和以往数据分析最重要的差别在于数据量的急剧增长,。1.3大数据对分析的影响1.3.1

大数据的影响大数据有多“大”?就分析而言,我们为大数据下一个不同的定义:如果数据满足以下任何一个条件,那么就视其为大数据:(1)分析数据集非常大,以至于无法匹配到单台机器的内存中。(2)分析数据集非常大,以至于无法移到一个传统的专用分析平台上。(3)分析的源数据存储在一个大数据存储库中,例如Hadoop、MPP数据库、NoSQL数据库或者NewSQL数据库。1.3.1

大数据的影响大数据所具有的特性使其在“数据规模”“数据类型多样性”“响应速度”等方面影响着大数据的分析过程。当分析师在矩阵或者表格中处理结构化数据时,“数量”意味着更多的行、更多的列或者两者都有。分析师日常使用随机采样记录的数据集,包含数以百万计甚至数以亿计的行,然后使用样本来训练和验证预测模型。如果目标是为总体建立单个预测模型,建模行为的发生率相对较高而且在总体中发生较为均匀,采样的效果会非常好。但是,使用现代分析技术,采样变成了一个可选择的方法,不会因为计算资源有限而成为分析师必须使用的方法。1.3.1

大数据的影响将更多的行加入分析数据集中,会对分析产生截然不同的影响。改善预测模型效果最有效的方法是加入具有信息价值的新变量,但是你不会总是事先知道什么变量将给一个模型增加价值。这意味着,当增加一个量到一个分析数据集中,需要工具来使分析师能够很快浏览众多变量,进而找到那些能够给预测模型增加价值的变量。有多个行和列也意味着有更多的方法来确定一个预测模型。例如,一个应答指标和五个预测因子的分析数据集——一个在任何标准下都算小的数据集。五个预测因子有29个特定组合作为主要影响,如果考虑到预测因子的相互作用和各种转换,将会有许多其他可能的模型形式。可能的模型形式的数量会随着变量的增加而爆炸性增长,那些能使分析师有效搜索到最佳模型的方法和技术就会非常有用。1.3.1

大数据的影响“种类”意味着所处理的数据不是矩阵或表格形式的结构化数据。本质上,这不是新的,分析师已经处理许多不同格式的数据多年,而文本挖掘也是一个成熟的领域。大数据趋势下带来的最重要的变化是分析数据存储中非结构化格式的大规模应用,以及越来越多的人认识到非结构化数据——网络日志、医疗服务提供者记录、社会媒体评论等,为预测建模提供了显著的价值。这意味着分析师规划和建立公司分析架构工具时必须考虑非结构数据。1.3.1

大数据的影响“速度”在两个方面影响着预测分析:数据源和目标。分析师处理流数据,例如赛车的遥测或者医院ICU监控设备的实时反馈,必须使用特殊的技术来采样和观测数据流,这些技术将连续的流转换成一个独立的时间序列以便于分析。当分析师试图对流数据应用预测分析时,例如在一个实时评分中,大多数组织在对单个交易进行评分时将会使用一个能够提供实时响应的高性能决策引擎。1.3.2

大数据分析的定义大数据是一个含义广泛的术语,是如此庞大而复杂的,需要专门设计的硬件和软件工具进行处理的大数据集。这些数据集收集自各种各样的来源:传感器,气象信息,公开信息如杂志、报纸、文章等等。大数据产生的其他例子包括购买交易记录、网络日志、病历、监控、视频和图像档案以及大型电子商务。传统批处理数据分析的典型场景是这样的:在整个数据集准备好后,在整体中进行统计抽样。然而,出于理解流式数据的需求,大数据可以从批处理转换成实时处理。这些流式数据、数据集不停地积累,并且以时间顺序排序。由于分析结果有存储期(保质期),流式数据强调及时处理,无论是识别向当前客户继续销售的机会,还是在工业环境中发觉异常情况后需要进行干预以保护设备或保证产品质量,时间都是至关重要的。1.3.2

大数据分析的定义在不同行业中,那些专门从事行业数据的搜集、对收集的数据进行整理、对整理的数据进行深度分析,并依据数据分析结果做出行业的研究、评估、洞察和预测的工作被称为数据分析。所谓大数据分析,是指用适当的方法对收集来的大量数据进行分析,提取有用信息和形成结论,从而对数据加以详细研究和概括总结的过程。或者,顾名思义,大数据分析是指对规模巨大的数据进行分析。大数据分析是大数据到信息,再到知识的关键步骤。如果分析者熟悉行业知识、公司业务及流程,对自己的工作内容有一定的了解,比如熟悉行业认知和公司业务背景,这样的分析结果就会有很大的使用价值。1.3.2

大数据分析的定义大数据分析结合了传统统计分析方法和数据分析方法,在研究大量数据的过程中寻找有价值的模式和信息模式,用量化的方式帮助决策者做出更明智的决策以更好地适应变化。首先,我们要列出搭建数据分析框架的要求,比如确定分析思路就需要用到营销、管理等理论知识;另一方面是针对数据分析结论提出有指导意义的分析建议。能够掌握数据分析基本原理与一些有效的数据分析方法,并能灵活运用到实践工作中,这对于开展数据分析起着至关重要的作用。数据分析方法是理论,而数据分析工具就是实现数据分析方法理论的工具,面对越来越庞大的数据,必须依靠强大的数据分析工具帮我们完成数据分析工作。1.3.2

大数据分析的定义(1)数据分析可以让人们对数据产生更加优质的诠释,而具有预知意义的分析可以让分析者根据可视化分析和数据分析后的结果做出一些预测性的推断。(2)大数据的分析与存储和数据的管理是一些数据分析层面的最佳实践。通过规范的流程和工具对数据进行分析,可以保证一个预先定义好的高质量的分析结果。(3)不管使用者是数据分析领域中的专家还是普通的用户,作为数据分析工具的数据可视化可以直观地展示数据,让数据自己表达,让客户在交互中获得理想的结果。(4)只有经过分析的数据才能对用户产生重要的价值,所以大数据的分析方式在IT领域显得格外重要,是决定最终信息是否有价值的决定性因素。定性分析与定量分析PART041.41.4定性分析与定量分析定性分析与定量分析都是一种数据分析技术。其中,定性分析专注于用语言描述不同数据的质量。与定量分析相对比,定性分析涉及分析相对小而深入的样本。由于样本很小,这些分析结果不能适用于整个数据集,它们也不能测量数值或用于数值比较。例如,冰激凌销量分析可能揭示了五月份销量图不像六月份一样高。分析结果仅仅说明了“不像它一样高”,而并未提供数字偏差。定性分析的结果是描述性的,即用语言对关系的描述。1.4定性分析与定量分析定量分析专注于量化从数据中发现的模式和关联。基于统计方法,这项技术涉及大量从数据集中得到的观测结果。定量分析结果是绝对数值型的,因此可以被用在数值比较上。例如,对于冰激凌销量的定量分析可能发现:温度上升5度,冰激凌销量提升15%。1.4定性分析与定量分析此外,关键绩效指标(KPI)也是一种用来衡量一次业务过程是否成功的度量标准。它与企业整体的战略目标和任务相联系。同时,它常常用来识别经营业绩中的一些问题,以及阐释一些执行标准。因此,KPI通常是一个测量企业整体绩效的特定方面的定量参考指标。KPI常常通过专门的仪表板显示。仪表板将多个

关键绩效指标联合起来展示,并且将实测值与关键绩

效指标阈值相比较。图1-7医院服务综合KPI四种数据分析方法PART051.51.5四种数据分析方法数据分析是一个通过处理数据,从中发现一些深层知识、模式、关系或是趋势的过程,它的总体目标是做出更好的决策。通过数据分析,可以对分析过的数据建立起关系与模式。数据分析学是一个包含数据分析,且比数据分析更为宽泛的概念,这门学科涵盖了对整个数据生命周期的管理,而数据生命周期包含了数据采集、数据存储、数据传输、数据加工、数据利用、数据销毁等过程。此外,数据分析学还包括数据分析用到的相关理论、方法、模型、技术和工具。在大数据环境下,数据分析学发展了数据分析在高度可扩展的、分布式技术和框架中的应用,使之有能力处理大量的来自不同信息源的数据。1.5四种数据分析方法不同的行业会以不同的方式使用大数据分析工具和技术,例如:·在商业组织中,利用大数据的分析结果能降低运营开销,有助于优化决策。·在科研领域,大数据分析能够确认一个现象的起因,并且能基于此提出更为精确的预测。·在服务业领域,比如公众行业,大数据分析有助于人们以更低的开销提供更好的服务。1.5四种数据分析方法大数据分析使得决策有了科学基础,现在做决策可以基于实际的数据而不仅仅依赖于过去的经验或者直觉。根据分析结果的不同,我们大致可以将分析归为4类,即描述性分析、诊断性分析、预测性分析和规范性分析。不同的分析类型需要不同的技术和分析算法,这意味着在传递多种类型的分析结果的时候,可能会有大量不同的数据、存储、处理要求,生成的高质量分析结果将加大分析环境的复杂性和开销。每一种分析方法都对业务分析具有很大的帮助,同时也应用在数据分析的各个方面。图1-8四种数据分析方法的价值和复杂性不断提升1.5.3预测性分析1.5.1描述性分析1.5.4规范性分析1.5.2诊断性分析大数据分析使得决策有了科学基础,现在做决策可以基于实际的数据而不仅仅依赖于过去的经验或者直觉。1.5四种数据分析方法1.5.1

描述性分析描述性分析是最常见的分析方法,是探索历史数据并描述发生了什么,是对已经发生的事件进行问答和总结。这一层次包括对数据的总体统计规律(如总体分布的相关信息)进行数量或可视化展示,为数据分析师提供了重要指标和业务的衡量方法。这种形式的分析需要将数据置于生成信息的上下文中考虑,例如每月的营收和损失账单,分析师可以通过这些账单,获取大量的客户数据。如下

图中可以明确地看到哪些商品的销售达到了销

售量预期。利用可视化工具,能够有效地增强

描述型分析所提供的信息。

图1-9各产品销售量统计表预警图1.5.1

描述性分析相关问题可能包括:·过去12个月的销售量如何?·根据事件严重程度和地理位置分类,收到的求助电话的数量如何?·每一位销售经理的月销售额是多少?据估计,生成的分析结果80%都是自然可描述的。描述性分析提供的价值较低,但也只需要相对基础的训练集。1.5.1

描述性分析进行描述性分析常常借助OLTP(联机事务处理过程)、CRM(客户关系管理系统)、ERP(企业资源规划系统)等信息系统,经过描述性分析工具的处理生成即席报表或者数据仪表板。报表常常是静态的,并且是以数据表格或图表形式呈现的历史数据。查询处理往往基于企业内部存储的可操作数据,例如CRM或者ERP。1.5.2

诊断性分析诊断性分析旨在寻求一个已发生事件的发生原因。这类分析通过评估描述性数据,利用诊断分析工具让数据分析师深入分析数据,钻取数据核心。其目标是通过获取一些与事件相关的信息来回答有关的问题,最后得出事件发生的原因。相关的问题可能包括:·为什么Q2商品比Q1卖得多?·为什么来自东部地区的求助电话比来自西部地区的要多?·为什么最近三个月内病人再入院的比率有所提升?1.5.2

诊断性分析诊断性分析是基于分析处理系统中的多维数据进行的。与描述性分析相比,诊断性分析的查询处理更加复杂,它比描述性分析提供了更加有价值的信息,但同时也要求更加高级的训练集。诊断性分析常常需要从不同信息源搜集数据,并以一种易于进行下钻和上卷分析的结构加以保存。诊断性分析的结果可以由交互式可视化界面显示,让用户能够清晰地了解模式与趋势。良好设计的BI仪表板能够整合信息,按照时间序列进行数据读入、特征过滤和钻取数据等功能,以便更好地分析数据。例如从“销售控制台”图中可以分析出“区域销售构成”“客户分布情况”“产品类别构成”和“预算完成情况”等信息。1.5.3

预测性分析预测性分析用于预测未来的概率和趋势,例如基于逻辑回归的预测、基于分类器的预测等。预测性分析预测事件未来发生的可能性、预测一个可量化的值,或者是预估事情发生的时间点,这些都可以通过预测模型来完成。通过预测性分析,可以获得参与建模的条件变量和目标变量的映射规律,以及条件变量对于目标变量的影响力和重要程度。这种影响力和重要程度构成了基于过去事件对未来进行预测的模型的基础。通常,这些用于预测性分析的模型与过去已经发生的事件的潜在条件是隐式相关的,如果这些潜在的条件改变了,那么用于预测性分析的模型也需要进行更新。1.5.3

预测性分析预测模型通常会使用各种可变数据来实现预测。数据成员的多样化与预测结果密切相关。在充满不确定性的环境下,预测能够帮助做出更好的决定。预测模型也是很多领域正在使用的重要方法。如下图中的“销售额和销售量”,可以分析出全面的销售量和销售额基本呈上升趋势,借此可推断下一年的基本销售趋势。图1-10预测基本销售趋势1.5.3

预测性分析预测性分析提出的问题常常以假设的形式出现,例如:·离散型的,如银行客户风险等级预测;·连续型的,如国家外汇储备预测。预测性分析尝试着基于模式、趋势以及来自于历史数据和当前数据的期望,来预测事件的结果,这将让我们能够分辨风险与机遇。这种类型的分析涉及包含外部数据和内部数据的大数据集以及多种分析方法。与描述性分析和诊断性分析相比,这种分析显得更有价值,同时也要求更加高级的训练集。1.5.4

规范性分析规范性分析建立在预测性分析的结果之上,基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析,规范需要执行的行动,帮助用户决定应该采取什么措施。规范性分析根据期望的结果、特定场景、资源以及对过去和当前事件的了解对未来的决策给出建议,例如基于模拟的复杂系统分析和基于给定约束的优化解生成。规范性分析通常不会单独使用,而是在前面方法都完成之后,最后需要完成的分析方法。它注重的不仅是哪项操作最佳,还包括了其原因。换句话说,规范性分析提供了经得起质询的结果,因为它们嵌入了情境理解的元素。因此,这种分析常常用来建立优势或者降低风险。1.5.4

规范性分析例如,交通规划分析考量了每条路线的距离、每条线路的行驶速度、以及目前的交通管制等方面因素,来帮助选择最好的回家路线。下面是两个这类问题的样例:·这三种药品中,哪一种能提供最好的疗效?·何时才是抛售一只股票的最佳时机?1.5.4

规范性分析规范性分析比其他三种分析的价值都高,同时还要求最高级的训练集,甚至是专门的分析软件和工具。这种分析将计算大量可能出现的结果,并且推荐出最佳选项。解决方案从解释性的到建议性的均有,同时还能包括各种不同情境的模拟。这种分析能将内部数据与外部数据结合起来。内部数据可能包括当前和过去的销售数据、消费者信息、产品数据和商业规则。外部数据可能包括社会媒体数据、天气情况、政府公文等等。如右图所示,规范性分析涉及利用商业规则和大量的内外部数据来模拟事件结果,并且提供最佳的做法。图1-11规范性分析通过引入商业规则、内部数据以及外部数据来进行深入彻底的分析大数据分析的行业作用PART061.61.6大数据分析的行业作用大数据分析基于新的存储和计算架构,是可在在结构化和非结构化数据中使用以确定未来结果的算法和技术,用于预测、优化和模拟等许多用途。预测分析可帮助用户评审和权衡潜在决策的影响力,用来分析历史模式和概率,以预测未来业绩并采取措施。1.6.3大数据分析的能力1.6.1大数据分析的决策支持价值1.6.4大数据分析面临的问题1.6.2大数据分析的关键应用大数据分析基于新的存储和计算架构,是可在结构化和非结构化数据中使用以确定未来结果的算法和技术,用于预测、优化和模拟等许多用途。1.6大数据分析的行业作用1.6.1

大数据分析的决策支持价值大数据分析的主要作用包括:(1)决策管理。这是用来优化并自动化业务决策的一种卓有成效的成熟方法,通过预测分析让组织能够在制定决策以前有所行动,以便预测哪些行动在将来最有可能获得成功,优化成果并解决特定的业务问题。决策管理包括管理自动化决策设计和部署的各个方面,供组织管理其与客户、员工和供应商的交互。从本质上讲,决策管理使优化的决策成为企业业务流程的一部分。由于闭环系统不断将有价值的反馈纳入到决策制定过程中,所以,对于希望对变化的环境做出即时反应并最大化每个决策的组织来说,它是非常理想的方法。1.6.1

大数据分析的决策支持价值当今世界,竞争的最大挑战之一是组织如何在决策制定过程中更好地利用数据。可用于企业以及由企业生成的数据量非常高且以惊人的速度增长,而与此同时,基于此数据制定决策的时间段却非常短,且有日益缩短的趋势。虽然业务经理可能可以利用大量报告和仪表板来监控业务环境,但是使用此信息来指导业务流程和客户互动的关键步骤通常是手动的,因而不能及时响应变化的环境。希望获得竞争优势的组织必须寻找更好的方式。决策管理使用决策流程框架和分析来优化并自动化决策,通常专注于大批量决策并使用基于规则和基于分析模型的应用程序实现决策。对于传统上使用历史数据和静态信息作为业务决策基础的组织来说这是一个突破性的进展。1.6.1

大数据分析的决策支持价值(2)滚动预测。预测是定期更新对未来绩效的当前观点,以反映新的或变化中的信息的过程,是基于分析当前和历史数据来决定未来趋势的过程。为应对这一需求,许多公司正在逐步采用滚动预测方法。7×24小时的业务运营影响造就了一个持续而又瞬息万变的环境,风险、波动和不确定性持续不断。并且,任何经济动荡都具有近乎实时的深远影响。毫无疑问,对于这种变化感受最深的是CFO(财务总监)和财务部门。虽然业务战略、产品定位、运营时间和产品线改进的决策可能是在财务部门外部做出,但制定这些决策的基础是财务团队使用绩效报告和预测提供的关键数据和分析。具有前瞻性的财务团队意识到传统的战略预测不能完成这一任务,他们正在迅速采用更加动态的、滚动的和基于驱动因子的方法。1.6.1

大数据分析的决策支持价值在这种环境中,预测变为一个极其重要的管理过程。为了抓住正确的机遇,为了满足投资者的要求,以及在风险出现时对其进行识别,很关键的一点就是深入了解潜在的未来发展,管理不能再依赖于传统的管理工具。在应对过程中,越来越多的企业已经或者正准备从静态预测模型转型到一个利用滚动时间范围的预测模型。采取滚动预测的公司往往有更高的预测精度,更快的循环时间,更好的业务参与度和更多明智的决策制定。滚动预测可以对业务绩效进行前瞻性预测;为未来计划周期提供一个基线;捕获变化带来的长期影响;与静态年度预测相比,滚动预测能够在觉察到业务决策制定的时间点得到定期更新,并减轻财务团队巨大的行政负担。1.6.1

大数据分析的决策支持价值(3)预测分析与自适应管理。稳定、持续变化的工业时代已经远去,现在是一个不可预测、非持续变化的信息时代。未来还将变得更加无法预测,企业员工需要具备更高技能,创新的步伐将进一步加快,价格将会更低,顾客将具有更多发言权。为了应对这些变化,CFO(财务总监)们需要一个能让各级经理快速做出明智决策的系统。他们必须将年度计划周期替换为更加常规的业务审核,通过滚动预测提供支持,让经理能够看到趋势和模式,在竞争对手之前取得突破,在产品与市场方面做出更明智决策。具体来说,CFO需要通过持续计划周期进行管理,让滚动预测成为主要的管理工具,每天和每周报告关键指标。同时需要注意使用滚动预测改进短期可见性,并将预测作为管理手段,而不是度量方法。1.6.2

大数据分析的关键应用在应用大数据的行业中,营销分析、客户和内部运管理是应用最广泛的三个领域:中国信息通讯研究院发布的《大数据白皮书》表明:61.7%的企业将大数据应用于营销分析,50.2%的企业将大数据应用于客户分析,近50%的企业将大数据应用于内部运营管理。作为大数据时代的核心内容,大数据的预测分析已在商业和社会中得到广泛应用。随着越来越多的数据被记录和整理,未来预测分析必定会成为所有领域的关键技术。例如:1.6.2

大数据分析的关键应用(1)预测分析帮助制造业高效维护运营并更好地控制成本。一直以来,制造业面临的挑战是在生产优质商品的同时在每一步流程中优化资源。多年来,制造商已经制定了一系列成熟的方法来控制质量、管理供应链和维护设备。如今,面对着持续的成本控制工作,管理人员、维护工程师和质量控制的监督执行人员都希望知道如何在维持质量标准的同时避免昂贵的非计划停机时间或设备故障,以及如何控制维护、修理和大修业务的人力和库存成本。此外,财务和客户服务部门的管理人员,以及高级别的管理人员,与生产流程能否很好地交付成品息息相关。1.6.2

大数据分析的关键应用(2)预测分析帮助电信运营商更深入了解客户。受技术和法规要求的推动,以及基于互联网的通信服务提供商和模式的新型生态系统的出现,电信提供商要想获得新的价值来源,需要对业务模式做出根本性的转变,并且必须有能力将战略资产和客户关系与旨在抓住新市场机遇的创新相结合。预测和管理变革的能力将是未来电信服务提供商的关键能力。1.6.2

大数据分析的关键应用(3)犯罪预测与预防,预测分析利用先进的分析技术营造安全的公共环境。为确保公共安全,执法人员一直主要依靠个人直觉和可用信息来完成任务。为了能够更加智慧地工作,许多警务组织正在充分合理地利用他们获得和存储的结构化信息(如犯罪和罪犯数据)和非结构化信息(在沟通和监督过程中取得的影音资料

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论