大数据分析与实践-社会研究与数字治理第10章 用户角色与分析工具_第1页
大数据分析与实践-社会研究与数字治理第10章 用户角色与分析工具_第2页
大数据分析与实践-社会研究与数字治理第10章 用户角色与分析工具_第3页
大数据分析与实践-社会研究与数字治理第10章 用户角色与分析工具_第4页
大数据分析与实践-社会研究与数字治理第10章 用户角色与分析工具_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章用户角色与分析工具QQ:81505050杨武剑周苏大数据分析与实践——社会研究与数字治理我们要讲述的是一个有关对图书馆进行实验的故事。实验对象是史学史中最有趣的数据集:一个旨在包罗所有书籍的数字图书馆。图10-1图书馆的进化第10章导读案例包罗一切的数字图书馆这样神奇的图书馆从何而来呢?1996年,斯坦福大学计算机科学系的两位研究生正在做一个现在已经没什么影响力的项目——斯坦福数字图书馆技术项目。该项目的目标是展望图书馆的未来,构建一个能够将所有书籍和互联网整合起来的图书馆。他们打算开发一个工具,能够让用户浏览图书馆的所有藏书。但是,这个想法在当时是难以实现的,因为只有很少一部分书是数字形式的。于是,他们将该想法和相关技术转移到文本上,将大数据实验延伸到互联网上,开发出了一个让用户能够浏览互联网上所有网页的工具,他们最终开发出了一个搜索引擎,并将其称为“谷歌(Google)”。第10章导读案例包罗一切的数字图书馆到2004年,谷歌“组织全世界的信息”的使命进展得很顺利,这就使其创始人拉里•佩奇有暇回顾他的“初恋”——数字图书馆。令人沮丧的是,仍然只有少数图书是数字形式的。不过,在那几年间,某些事情已经改变了:佩奇现在是亿万富翁。于是,他决定让谷歌涉足扫描图书并对其进行数字化的业务。尽管他的公司已经在做这项业务了,但他认为谷歌应该为此竭尽全力。第10章导读案例包罗一切的数字图书馆雄心勃勃?无疑如此。不过,谷歌最终成功了。在公开宣称启动该项目的9年后,谷歌完成了3000多万本书的数字化,相当于历史上出版图书总数的l/4。其收录的图书总量超过了哈佛大学(1700万册)、斯坦福大学(900万册)、牛津大学(1100万册)以及其他任何大学的图书馆,甚至还超过了俄罗斯国家图书馆(1500万册)、中国国家图书馆(2600万册)和德国国家图书馆(2500万册)。唯一比谷歌藏书更多的图书馆是美国国会图书馆(3300万册)。而在你读到这句话的时候,谷歌可能已经超过它了。第10章导读案例包罗一切的数字图书馆长数据,量化人文变迁的标尺当“谷歌图书”项目启动时,大家都是从新闻中得知的。但是,直到两年后的2006年,这一项目的影响才真正显现出来。当时,我们正在写一篇关于英语语法历史的论文。为了该论文,我们对一些古英语语法教科书做了小规模的数字化。现实问题是,与我们的研究最相关的书被“埋藏”在哈佛大学魏德纳图书馆里。来看一下我们是如何找到这些书的。首先,到达图书馆东楼的二层,走过罗斯福收藏室和美洲印第安人语言部,你会看到一个标有电话号码“8900”和向上标识的过道,这些书被放在从上数的第二个书架上。多年来,伴随着研究的推进,我们经常来翻阅这个书架上的书。那些年来,我们是唯一借阅过这些书的人,除了我们之外没有人在意这个书架。第10章导读案例包罗一切的数字图书馆有一天,我们注意到研究中经常使用的一本书可以在网上看到了。那是由“谷歌图书”项目实现的。出于好奇,我们开始在“谷歌图书”项目中搜索魏德纳图书馆那个书架上的其他书,而那些书同样也可以在“谷歌图书”项目中找到。这并不是因为谷歌公司关心中世纪英语的语法。我们又搜索了其他一些书,无论这些书来自哪个书架,都可以在“谷歌图书”中找到对应的电子版本。也就是说,就在我们动手数字化那几本语法书时,谷歌已经数字化了几栋楼的书!第10章导读案例包罗一切的数字图书馆谷歌的大量藏书代表了一种全新的大数据,它有可能会转变人们看待过去的方式。大多数大数据虽然大,但时间跨度却很短,是有关近期事件的新近记录。这是因为这些数据是由互联网催生的,而互联网是一项新兴的技术。我们的目标是研究文化变迁,而文化变迁通常会跨越很长的时间段,这期间一代代人的生生死死。当我们探索历史上的文化变迁时,短期数据是没有多大用处的,不管它有多大。第10章导读案例包罗一切的数字图书馆“谷歌图书”项目的规模可以和我们这个数字媒体时代的任何一个数据集相媲美。谷歌数字化的书并不只是当代的:不像电子邮件、RSS(内容聚合)订阅和Superpokes(超级戳)等,这些书可以追溯到几个世纪前。因此,“谷歌图书”不仅是大数据,而且是长数据。由于“谷歌图书”包含了如此长的数据,和大多数大数据不同,这些数字化的图书不局限于描绘当代人文图景,还反映了人类文明在相当长一段时期内的变迁,其时间跨度比一个人的生命更长,甚至比一个国家的寿命还长。“谷歌图书”的数据集也由于其他原因而备受青睐——它涵盖的主题范围非常广泛。浏览如此大量的书籍可以被认为是在咨询大量的人,而其中有很多人都已经去世了。在历史和文学领域,关于特定时间和地区的书是了解那个时间和地区的重要信息源。第10章导读案例包罗一切的数字图书馆由此可见,通过数字透镜来阅读“谷歌图书”将有可能建立一个研究人类历史的新视角。我们知道,无论要花多长时间,我们都必须在数据上入手。数据越多,问题越多大数据为我们认识周围世界创造了新机遇,同时也带来了新的挑战。第一个主要的挑战是,大数据和数据科学家们之前运用的数据在结构上差异很大。科学家们喜欢采用精巧的实验推导出一致的准确结果,回答精心设计的问题。第10章导读案例包罗一切的数字图书馆但是,大数据是杂乱的数据集。典型的数据集通常会混杂很多事实和测量数据,数据搜集过程随意,并非出于科学研究的目的。因此,大数据集经常错漏百出、残缺不全,缺乏科学家们需要的信息。而这些错误和遗漏即便在单个数据集中也往往不一致。那是因为大数据集通常由许多小数据集融合而成。不可避免地,构成大数据集的一些小数据集比其他小数据集要可靠一些,同时每个小数据集都有各自的特性。脸书就是一个很好的例子,交友在脸书中意味着截然不同的意思。有些人无节制地交友,有些人则对交友持谨慎的态度;有些人在脸书中将同事加为好友,而有些人却不这么做。处理大数据的一部分工作就是熟悉数据,以便你能反推出产生这些数据的工程师们的想法。但是,我们和多达1拍字节的数据又能熟悉到什么程度呢?第10章导读案例包罗一切的数字图书馆第二个主要的挑战是,大数据和我们通常认为的科学方法并不完全吻合。科学家们想通过数据证实某个假设,将他们从数据中了解到的东西编织成具有因果关系的故事,并最终形成一个数学理论。当在大数据中探索时,你会不可避免地有一些发现,例如,公海的海盗出现率和气温之间的相关性。这种探索性研究有时被称为“无假设”研究,因为我们永远不知道会在数据中发现什么。但是,当需要按照因果关系来解释从数据中发现的相关性时,大数据便显得有些无能为力了。是海盗造成了全球变暖吗?是炎热的天气使更多的人从事海盗行为的吗?如果二者是不相关的,那么近几年在全球变暖加剧的同时,海盗的数目为什么会持续增加呢?我们难以解释,而大数据往往却能让我们去猜想这些事情中的因果链条。第10章导读案例包罗一切的数字图书馆第三个主要挑战是,数据产生和存储的地方发生了变化。作为科学家,我们习惯于通过在实验室中做实验得到数据,或者记录对自然界的观察数据。可以说,某种程度上,数据的获取是在科学家的控制之下的。但是,在大数据的世界里,大型企业甚至政府拥有着最大规模的数据集。而它们自己、消费者和公民们更关心的是如何使用数据。很少有人希望美国国家税务局将报税记录共享给那些科学家,虽然科学家们使用这些数据是出于善意。eBay的商家不希望它们完整的交易数据被公开,或者让研究生随意使用。搜索引擎日志和电子邮件更是涉及个人隐私权和保密权。书和博客的作者则受到版权保护。各个公司对所控制的数据有着强烈的产权诉求,它们分析自己的数据是期望产生更多的收入和利润,而不愿意和外人共享其核心竞争力,学者和科学家更是如此。第10章导读案例包罗一切的数字图书馆如果要分析谷歌的图书馆,我们就必须找到应对上述挑战的方法。数字图书所面临的挑战并不是独特的,只是今天大数据生态系统的一个缩影。第10章导读案例包罗一切的数字图书馆目录用户角色分析的成功因素分析编程语言业务用户工具1234用户角色PART0110.110.1用户角色在大多数组织中,分析的用户角色有这样几种类型,即超级分析师、数据科学家、业务分析师和分析使用者。区分这些用户角色并不能满足所有分析需求,但会提供一个框架来帮助你理解实际用户的需求。像超级分析师和数据科学家这样有经验的用户,倾向于使用R、SAS或者SQL这样的分析语言。而业务用户,包括业务分析师和分析使用者,则倾向于使用商业化的交互型软件。图10-2用户角色的区分10.1.3业务分析师10.1.1超级分析师10.1.4分析使用者10.1.2数据科学家区分用户角色并不能满足所有分析需求,但会提供一个框架来帮助你理解实际用户的需求。10.1用户角色10.1.1

超级分析师某大型企业有三位数据专家。一位A,36岁,另一位B,46岁,而C则更年轻,这说明数据分析是一个新兴行业。十多年前,数据分析的概念还很模糊,当时如果有人把Excel表格玩得很溜就很厉害了。但是现在,如果去找一个数据分析的工作,自我表示对Excel的操作很精通,在面试官看来这是件很基础的事——说明这个行业变化很快。所谓超级分析师,是一个像统计师、精算师或者风险分析师一样的专门职位,他们适合于在分析方面有巨大投资的团队中工作,或者在提供分析服务的组织中担任咨询师和开发者。超级分析师了解传统的统计分析和机器学习,并且在应用分析方面有相当多的工作经验。10.1.1

超级分析师超级分析师更愿意使用分析编程语言这样的工作,例如LegacySAS或者R。他们有丰富的训练和工作经验来使编程语言能够贴合生产,并且认为分析编程语言比图形用户界面的分析软件包更灵活也更强大。“正确的”分析方法对于超级分析师来说尤其重要。他们会更加关注使用“对的”方法,而不是用不同方法得到商业结果的不同方面。这意味着,如果一个特定的分析问题要求一个具体方法或者一类方法。如生存分析,超级分析师会花费很大力气来使用这种方法,即使这对于预测准确的改善很少。10.1.1

超级分析师在实际工作中,由于超级分析师侧重于处理高度多样化的问题,并且不能完全准确地预测需要解决问题的种类,他们更倾向于使用各种各样的分析方法和技术。对于一种特定的方法和技术的需求即使非常少见,但是如果需要,超级分析师也希望能够用上它。因为数据准备对于成功的预测分析特别重要,超级分析师需要能够解读和控制他们所处理的数据。这不意味着超级分析师想要管理数据或者运行ETL任务,他们只是需要让数据管理流程变得透明和可反馈。10.1.1

超级分析师ETL(抽取、转换、加载)是数据仓库技术,也是BI(商业智能)项目的一个重要环节,它是将数据从来源端经过抽取、转换和加载至目的端的过程,其对象并不限于数据仓库。ETL所描述的过程一般包含ETL或是ELT(抽取、装载、转换)并且混合使用。通常愈大量的数据、复杂的转换逻辑、目的端为较强运算能力的数据库,愈偏向使用ELT,以便运用目的端数据库的平行处理能力。ETL(或ELT)的流程可以用任何编程语言开发完成,由于ETL是极为复杂的过程,而手写程序不易管理,有愈来愈多的企业采用工具协助ETL的开发,并运用其内置的元数据功能存储来源与目的所对应的转换规则。10.1.1

超级分析师超级分析师的工作成果可能包括:·管理显示分析结果的报告;·撰写预测模型规范;·预测模型对象(例如PMML文件)。PMML(预测模型标记语言)利用XML描述和存储数据挖掘模型,是一个已经被W3C所接受的标准。MML是一种基于XML的语言,用来定义预测模型。·用编程语言(如Java或C)编写的一个可执行的评分函数。10.1.1

超级分析师超级分析师不想过多地参与生产部署或者导入模型评分,但如果该组织没有投入用于模拟评分部署的工具,他们也可能执行这个角色。超级分析师会更多地参与具体分析软件的品牌、发布和版本的工作。在分析团队有着重要影响的组织里,他们在选择分析软件上发挥了决定性的作用。他们也希望控制支持分析软件的技术基础设施,但往往不关心特定的硬件、数据库、存储等细节。10.1.2

数据科学家数据科学家在很多方面与超级分析师很相似,这两个角色都对具体工具缺乏兴趣,并且渴望参与有关数据的任何工作。数据科学家和超级分析师的主要不同在于背景、训练和方法上。一方面,超级分析师倾向于理解统计方法,将分析带向统计方向,并且更喜欢使用高级语言与内置的分析语法。另一方面,数据科学家往往具有机器学习、工程或计算机科学的背景。因此,他们倾向于选择编程语言(如C、Java、Python),更擅长用SQL和MapReduce工作。他们对用Hadoop工作有着丰富的经验,这是他们喜欢的工作环境。10.1.2

数据科学家数据科学家的机器学习渊源影响着他们的研究方法、技术和方法,从而影响他们对分析工具的需求。机器学习学科往往不是把重点放在选择“正确的”分析方法上,而是放在预测分析过程的结果上,包括该过程产生模型的预测能力。因此,他们很容易接受各种暴力学习的方式,并且选择可能在统计范式里很难实施的方法,但这些方法可以表现出良好的效果。数据科学家往往对现有的分析软件供应商热情不高,尤其是那些喜欢通过软推销技术细节迎合企业客户的软件供应商。相反,他们倾向于选择开源工具。他们寻求最好的“技术”解决方案,一个具有足够的灵活性来支持创新的解决方案。数据科学家倾向于亲手“生产”分析结果,而超级分析师则正好相反,更喜欢能够在过程中完全放手的方式。10.1.3

业务分析师业务分析师在组织中以不同角色使用分析结果,对于他们来说,分析是重要的但不是唯一的责任。他们还需要应付一系列其他工作,如贷款、市场分析或渠道等。业务分析师对分析非常熟悉,并且可能经过一些培训和有一定经验。不管怎么样,他们更喜欢一个易于使用的界面和软件,像SASEnterpriseGuide、SASEnterpriseMiner、SPSSStatistics,或者其他一些产品。与超级分析师非常关心选择问题的“正确”方法不同,业务分析师倾向于一种更简单的方法。例如他们可能对回归分析很熟悉,但是对不同种类的回归方法和如何计算回归模型的细节并不感兴趣。他们看重在解决问题框架内可以指导他们选择方法和技术的“向导”工具。10.1.3

业务分析师业务分析师知道数据对于分析的成功很重要,但是却不想直接处理它们。相反,业务分析师更愿意使用已经被组织中其他人修正过的数据。数据正确性对业务分析师非常重要,数据应该在内部是一致的,并与分析师所理解的业务一致。在大多数情况下,业务分析师的工作成果是一个总结分析结果的报告。工作成果也可能是一些决策,如关于一个复杂贷款决策的商品数量。业务分析师很少做生产部署的预测模型,因为他们的工作方法往往缺乏超级分析师的严谨性和高效性。业务分析师看重优质、客户友好的技术支持,倾向于使用在分析中表现出可靠性的来自供应商的软件。10.1.4

分析使用者分析使用者通常仅仅是从事预测、自动化决策等具体分析过程的非专业人员,他们专注于业务问题和事件,不直接在生产中进行分析工作,相反,他们以自动化决策、预测或者其他智能的可嵌入到所参与业务流程的形式来使用分析结果。虽然分析使用者一般不会参与数学计算,但他们很关注总体效用、效果和所使用系统的可靠性。例如,信用卡呼叫中心的客户服务代表可能不关心具体用于确定决策的分析方法,但非常关注该系统是否需要很长时间才能达成决策。如果当系统拒绝信用卡申请或拒绝了太多看似风险良好的客户而无法提供合理的解释时,客户代表就会拒绝这个系统。因为正在快速增长的分析对业务流程产生积极影响的方法很多,并且嵌入式分析已经几乎没有使用的障碍了,所以这类用户将有最大的增长潜力。10.1.4

分析使用者表10-1展示了适合每个用户角色的不同工具。表10-1用于不同用户的分析工具10.1.4

分析使用者企业应该以协作和自定义的方式支持所有用户角色的需求。不同角色的用户不可能孤立地工作,有经验的用户应该能够与业务用户分享应用程序,反之亦然。数据的复杂性和不透明性往往会推动用户探索新的编程工具,而干净透明的数据结构是实现商业友好型分析的重要推动者。分析的成功因素PART0210.210.2分析的成功因素组织为了使分析被广泛接受,必须认识到不同的用户需求。现代企业中的许多用户都需要易使用且无需编程的用户界面。然而,易于使用的工具可能缺乏复杂分析或自定义分析所需要的关键功能。10.2分析的成功因素为了获得尽可能广泛的影响,应该重点关注以下三个重要的成功因素:(1)关注数据基础设施。有经验的分析师会把大量时间花在“数据纠纷”上,也就是采集、转换和清理原始数据。企业用户没有多余的时间去清洗数据,这些用户需要一个易于访问的清洁、可靠的数据来源。(2)确保协作。有经验的用户在开发、测试和验证分析应用程序中起着关键作用,他们要确保基础的数学知识是正确的。商务用户工具应该直接使用和利用有经验的分析师开发的先进分析工具。10.2分析的成功因素(3)为业务流程定制分析。当分析直接影响一个业务流程时往往是最高效的。用户不需要进行“业务分析”,他们需要进行信用分析、劳动力分析或者其他利用数据和业务规则的任务。这些工具应该支持针对特定业务流程、角色和任务的自定义应用分析。为了最大化商业影响力,我们要开发一种能够支持组织中从新手到专家的各种用户群体的分析方法。建立一个高效的数据平台,有着清洁、易获取的数据,确保用户群体之间的协作,并且能够定制支持业务流程的分析。这些是建立一个更有智慧的组织的关键。分析编程语言PART0310.310.3分析编程语言如果一种编程语言的主要用户是分析师,并且该语言具有分析师所需的高级功能,我们就把它归为“分析”语言。我们可以通过自定义代码或外部分析库来使用通用语言(如Python或者Java)进行高级分析。数据科学家对使用Python进行机器学习越来越感兴趣。10.3.3SQL10.3.1R语言10.3.2SAS编程语言可以通过自定义代码或外部分析库来使用通用语言(如Python或者Java)进行高级分析。数据科学家对使用Python进行机器学习越来越感兴趣。10.3分析编程语言10.3.1R语言R语言是一个面向对象,主要用于统计和高级分析的开源编程语言,它在高级分析中的使用率快速增长。图10-3R语言示例10.3.1R语言R语言是S语言的一种实现。S语言是1980年左右由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析和作图的解释型语言。S语言最初的实现版本是S-PLUS商业软件。新西兰奥克兰大学的罗伯特·绅士和罗斯·伊卡及其他志愿人员组成“R开发核心团队”开发了R系统。R和S语言在程序语法上可以说几乎一样,只是在函数方面有细微差别。R的核心开发团队引领对核心软件环境的持续改善,同时R社区用户可以贡献支持特定任务的软件包。10.3.1R语言R是一套完整的软件系统,支持:·数据处理和存储;·计算数组和矩阵的运算符;·数据分析工具;·图形设备;·编程功能像输入和输出、条件句、循环和递归运算。10.3.1R语言R发行版本中包括支持基本统计、图形和有价值的实用程序的14个基本包。用户可以选择从CRAN或其他库中添加包。由于存在广泛的开发者社区和贡献的低门槛,在R中可获得的软件功能远远超过了商业分析软件。

图10-4R语言可视化图形示例10.3.1R语言虽然R核心开发团队负责研发R基础软件,但每个包的开发人员都负责各自软件包的质量。这意味着实际使用的编程语言和实施的质量会有很大的不同。质量保证以社区为基础,用户可以而且的确会报告错误。大多数提供商业分析软件或数据管理平台的供应商都提供连接到R语言程序或将R语言脚本嵌入到其他功能中的能力。基本的R发行版本包括一个内置的用于交互和脚本开发的控制台。然而,许多用户更喜欢使用集成开发环境(IDE)或GUI界面。R最著名的商业界面是RStudio。10.3.1R语言R语言的主要优点是它的综合功能性、可扩展性和低成本,其主要弱点是多样化和集市化开发的方法,由此产生了大量的重叠功能、松散的标准和异构的软件质量。商业化的发行版本通过质量保证、培训和用户支持来解决这些缺陷。它的另一个主要不足是无法处理超过单个机器存储容量的数据集。有一些开源软件可以部分解决这个问题,另外,RevolutionAnalytics的ScaleR软件包支持针对大数据的分布式超存储分析。10.3.2SAS编程语言SAS语言是SASInstitute(公司)开发的命令式编程语言,该公司还利用SAS编程语言开发工具和软件。世界各地的组织都在使用SAS,大部分评估都认为SAS是分析行业的领导者。然而,单就SAS编程语言本身难以衡量其使用方面的影响,在对分析师和数据挖掘师的大范围调查中,SAS的评级低于R和其他开源工具。图10-5SAS统计分析结果10.3.2SAS编程语言SAS编程语言的编程步骤一般有两种类型。SASDATA读取数据,以不同的方式操纵数据,并创建SASDATA集,这是一个专有的数据结构。SASPROC是使用SASDATA集生成用户指定的特殊分析,它的结果可以是发布到文件的显示或报告,或SASDATA集的形式。一个SASPROC的输出可以作为另一个SASPROC输入。大多数的SAS程序员在SAS软件中运行程序,然而也有一些其他的选择。由杜勒斯研究所发布的一个商业软件产品Carolina可以让用户将SAS程序转化为Java语言。SAS为Windows、Linux、UNIX操作系统提供了相应的编程语言运行环境。除了这些平台,WPL支持MacOS上的WPS。大多数SAS编程步骤在SAS运行环境中以单线程运行,而相同的程序在WPS中以多线程运行。10.3.2SAS编程语言为了改善在SASDATA步中的一些明显的局限性,SAS开发了DS2(一种面向对象的编程语言)以适合高级数据操作。SASDS2代码在五种不支持标准SASDATA步的环境下运行:·SAS联邦服务器;·SASLASR分析服务器;·SAS嵌入式过程;·SAS企业挖掘器;·SAS决策服务。10.3.3SQLSQL(结构化查询语言)是一种关系数据库语言。在对数据科学家的调查中,有71%的受访者说他们使用SQL的程度远超过其他任何语言。图10-6OracleSQL示例10.3.3SQLSQL语言最初是在20世纪20年代早期由IBM研究者们开发的,其应用和使用在20世纪80年代随着关系数据库的广泛使用得到了快速增长。如今,SQL已经从传统的关系数据库扩展到了数据仓库应用和软件定义的SQL平台(像是Hive或者Shark)。SQL是一套基于集合的声明性语言而不是一个像SAS或BASIC的命令式程序语言。美国国家标准协会(ANSI)在1986年定义了一个SQL标准,紧随其后的是国际标准化组织(ISO)在1987年也制定了SQL标准,但不同的数据库厂商用各种方式限制了代码从一个平台到另一个平台的可移植性。10.3.3SQL数据库管理员使用SQL来创建和管理数据库,他们可以使用SQL创建表、删除表、创建索引、插入数据到表中、更新表中的数据、删除数据以及执行其他操作。将关系型数据库作为一个“沙盒”的分析师也可以使用这些SQL的功能。更为常见的是,分析师可以使用SQL从关系数据库中选择和恢复数据,从而在其他分析操作中使用。ANSISQL包括一些基本的分析功能,包括标量函数、聚合函数和窗口函数。标量函数可以对单个值操作,包括数字运算和字符串操作等。聚合函数对集合的值操作并且返回一个汇总值,它们包含常见的统计功能,如计数、总和、均值、方差、标准差、相关性和二元线性回归。窗口函数类似于聚合函数,但用户可以将操作应用于数据分区,命令数据或定义带有移动“窗口”数值的组,这些函数支持如累积分布、排名和排序的操作。10.3.3SQL除了支持基础统计(如聚合函数等),ANSISQL标准不包括高级分析。数据库供应商,如Oracle,提供特定平台的SQL拓展用于分析。更多的支持表函数的高级数据库可以嵌入用通用编程语言所写的程序(如C、Java、Python或者R)并且使用这些语言写的分析库。SQL用于分析的最大优势是它的标准化、平台中立性和对基本数据操作的实用性。虽然特定供应商的SQL版本与ANSI标准偏差较大,大多数基本操作可以在不同平台以一致的方式进行。大部分有较强ANSISQL背景的用户可以很快学会一个特定供应商的SQL版本。因为在大型企业中普遍使用SQL平台,对SQL有基本理解对试图检索和操作数据的分析师来说十分重要。SQL用于分析的主要缺点是缺乏高级分析的标准算法。业务用户工具PART0410.410.4业务用户工具现在的组织需要用比以前更少的时间做出更多的决策。现代分析决策影响着短期业务的执行以及企业的长期竞争力。正确的决策意味着竞争力和盈利能力的飞跃,而错误的决策能带来毁灭性影响。在这种竞争格局下,海量数据肯定会让问题更复杂。从即时社交媒体评论到上周的销售交易数据,再到数据仓库中存储的多年客户购买历史数据,即使是最小的决定,也必须考虑到数据量和数据的多样性。10.4.3新的分析工具与方法10.4.1BI的常用技术10.4.2BI工具和方法的发展历程现代分析决策影响着短期业务的执行以及企业的长期竞争力。正确的决策意味着竞争力和盈利能力的飞跃,而错误的决策能带来毁灭性影响。10.4业务用户工具10.4.1BI的常用技术以下是商务智能中三种最常用的技术:(1)报告和查询。建立在一个传统的关系数据库和数据仓库中,报告和查询工具检索、分析和报告存储在基础数据库或数据仓库中的数据。报告和查询工具的例子有SAPBusinessObjects和MicrosoftAccess/SQLServer。(2)线分析处理OLAP。允许用户从多个维度来分析多维数据,OLAP工具和应用程序可以生成预制的数据集或信息“立方体”。OLAP工具的例子包括Essbase和CognosPowerPlay。10.4.1BI的常用技术(3)以电子表格为基础的决策支持系统(DSS)。使用户能够分析数据的电子表格格式的专业应用程序。以电子表格为基础的DSS应用的例子有MicrosoftExcel和企业绩效管理(EPM)的解决方案,如OracleHyperion。数据分析师可以获得功能强大的数据整合和分析工具,它们将不同来源的数据放入单一的工作流程中,可视化工具也使数据易于展示和使用——这些都是以前不一定能做到的。随着商业进程不断加快,无论可用数据的数量还是种类都在呈指数级增长,传统的商务智能(BI)工具未能以同样的速度发展,数据分析师只能拼凑着定制解决方案和不同的工具,浪费宝贵的时间和稀缺的预算。10.4.2BI工具和方法的发展历程为了更好地理解传统商务智能(BI)工具的局限性,我们来回顾一下BI工具和方法的发展历程。在20世纪80年代初首次登上历史舞台后,早期的商务智能工具是建立在传统关系型数据库或者数据仓库之上的。利用ETL功能来将所需数据从原始形式(关系型或者其他形式)转化为一个关系型数据模型,这样分析师和其他用户就可以使用报告和查询工具对数据进行检索、分析和报告。

图10-7传统商务智能过程10.4.2BI工具和方法的发展历程到20世纪90年代中期,数据量和速度的增长比ETL工具的能力增长更快,这产生了一个瓶颈。受数据复杂性所累,ETL工具艰难地在流程中做数据转换,使得分析速度以及商业决策速度都变慢了。更麻烦的事情是,如果ETL逻辑里的任何一部分不正确,在这期间的所有转换都需要重做,同时也要对新生成的数据进行转换。10.4.2BI工具和方法的发展历程寻找规避ETL瓶颈的方法促使了一种新的商务智能范式的崛起,被称为OLAP或联机分析处理。OLAP工具允许用户使用预制的数据集或信息“立方体”从几个不同的角度来分析多维数据。立方体产生于一个数据库中提取的相关信息,该数据库采用有各种数据之间关系的多维数据模型,立方体允许用户进行复杂的分析和即席查询,速度比以前快很多。

图10-8OLAP多维数据集范例10.4.2BI工具和方法的发展历程OLAP用户将会使用三个基本操作中的一个或多个来分析立方体中的数据。(1)整合或汇总。在这些操作中,数据从一个或多个方面进行汇总,例如,销售部的所有销售办公室预测总体销售趋势和收入。(2)向下钻取分析。相比于向上汇总,这些操作允许用户对更具体的运营进行分析,如确定每个单独产品或SKU占公司总体销售额的比例。(3)交叉分析。这些操作使得用户能够取出或切割来自于OLAP立方体和视图,或不同角度子集的特定数据集来进行各种分析。10.4.2BI工具和方法的发展历程OLAP显然已经达到其能力极限。随着商业进程持续加快,需要快速进行海量分析和快速场景的变换,OLAP在需要进行快速决策的时代已经变得不那么有用。为了适应对分析速度和灵活性的要求,通过MicrosoftExcel发展出了一种可替代的方法。这种以电子表格为基础的决策支持系统或DSS是一种使数据分析易于使用且高度灵活的专业应用程序。它允许用户手动输入数据或从数据库中导出数据,然后保存数据以便在工作表、宏和流程图中的后续操作使用。这种灵活性的缺点是由于手动数据输入和剪切—粘贴信息会导致高错误率。10.4.2BI工具和方法的发展历程因为灵活性高,电子表格决策支持系统的应用程序仍然在使用。大多数数据分析师和他们的企业管理人员都同意这个观点,为了使决策支持系统应用程序在尖端、高度复杂的分析中更有用,组织必须要招募昂贵而稀缺的分析师来编写能在该表格数据上运行的复杂代码。通常这个代码需要较长的开发周期,快速发展的企业没有这么多时间来等待。10.4.2BI工具和方法的发展历程许多需要进行快速决策的组织意识到,上述旧范式已经无法满足他们目前的分析要求:·及时性——由于访问数据和迭代分析花了太长时间,同时如果太昂贵以至于不能持续更新,大多数决策在做出时就已经过时了。·准确性——因为目前使用历史数据做出决策,而历史数据并不是总能产生好的对未来的预测,它们往往是不准确的决策。·质量——以质量差的数据为核心,如果企业用户没有能力自己解决这些问题,组织往往会做出质量不好的决策。·相关性——因为没有现成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论