大数据分析与决策_第1页
大数据分析与决策_第2页
大数据分析与决策_第3页
大数据分析与决策_第4页
大数据分析与决策_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析与决议

姜昱汐

(大连交通大学经济管理学院经济学教研室)第1页2022/9/72一、大数据相关概念二、大数据分析三、大数据应用经典案例四、大数据可靠性五、大数据与贝叶斯方法汇报内容第2页-3-数据管理技术发展历史数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术出现使该领域进入了一个新发展阶段19461951195619611970197419791991第一台计算机ENIAC面世磁带+卡片人工管理磁盘被创造,进入文件管理时代网络型SQLE-RGE企业创造第一个网络模型数据库,但仅限于GE自己主机1960年代,IT系统规模和复杂度变大,数据与应用分离需求开始产生,数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数据库为主导IBME.F.Dodd提出关系模型SQL语言被创造关系型数据库ORACLE公布第一个商用SQL关系数据库,后续快速发展数据仓库数据仓库开始涌现,关系数据库开始全方面普及且平台无关,进入成熟期后,互联网快速发展,数据量成倍递增,量变引发质变,开始对数据管理技术提出全新要求1946年,电脑诞生,数据与应用紧密捆绑在文件中,彼此不分Hadoop成为Apache顶级项目,重点支持海量数据分布式管理和分布式计算GFS谷歌发表论文介绍分布式计算第3页-4-大数据发展背景全球信息化发展已步入大数据时代150亿个设备连接到互联网全球每秒钟发送290万封电子邮件天天有2.88万小时视频上传到YoutubeFacebook每日评论达32亿条,天天上传照片近3亿张,每个月处理数据总量约130万TB全球产生数据量1.8ZB,预计年将增加到35ZB大数据正快速成为最值得关注IT领域之一5月,EMCWorld2011大会主题“云计算相遇大数据”,EMC除了一直提倡云计算外,还抛出"大数据"(BigData)概念6月底,IBM、麦肯锡等众多国外机构公布"大数据"相关研究汇报,给予主动跟进2011年10月,Gartner认为2012年十大战略技术将包含"大数据"2011年11月底,IDC(互联网数据中心)将"大数据"放入2012年信息通信产业十大预测之一IDC全球数据量预测(1ZB

=1百万PB=10亿TB)Google网站Bigdata关键词搜索及新闻引用量第4页2022/9/75什么是大数据123大数据定义了解大数据“4V”特征大数据产生、增加第5页2022/9/76“大数据”是怎样产生?二十一世纪是数据信息大发展时代,移动互联、社交网络、电子商务等极大拓展了互联网边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。

半个世纪以来,伴随计算机技术全方面融入社会生活,信息爆炸已经积累到了一个开始引发变革程度。它不但使世界充满着比以往更多信息,而且其增加速度也在加紧。信息爆炸学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了全部些人类智力与发展领域中。第6页2022/9/77大数据时代爆炸增加想驾驭这庞大数据,我们必须了解大数据特征。地球上至今总共数据量:在

年,个人用户才刚才前进TB时代,全球一共新产生了约180EB数据;在

年,这个数字到达了1.8ZB。而有市场研究机构预测:到

年,整个世界数据总量将会增加44倍,到达35.2ZB(1ZB=10亿TB)!1GB

=2^30字节1TB=2^40字节1PB

=2^50字节1EB

=2^60字节1ZB=2^70字节第7页2022/9/78大数据4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”显著特征,或者说,只有具备这些特点数据,才是大数据。VolumeVelocityValueVariety第8页2022/9/79数据体量巨大(Volume):baidu资料表明,其新首页导航天天需要提供数据超出1.5PB(1PB=1024TB),这些数据假如打印出来将超出5千亿张A4纸。有资料证实,到当前为止,人类生产全部印刷材料数据仅为200PB(不能在单个计算机上集中存放,普通需要用到分布式/云计算模式等)。数据类型多样化:现在数据不但是文本形式,更多是图片、视频、音频、地理位置信息等各种类型数据,个性化、非结构化数据占据较大百分比。大数据4V特征处理速度快数据处理遵照“1秒定律”,可从各种类型数据中快速获取高价值信息价值密度低:以视频为例,几小时视频,在不间断监控过程中,有用数据可能仅仅几秒。单个数据可能价值不大,不过数据整体还是有高价值(比如一个班级大家发微博可能没有尤其大意义,不过全国高校大学生发微博就能够反应当代大学生思想理念)第9页2022/9/710大数据组成大数据=海量数据+复杂类型数据海量交易数据:企业内部经营交易信息主要包含联机交易数据和联机分析数据,是结构化、经过关系数据库进行管理和访问静态、历史数据。经过这些数据,我们能了解过去发生了什么。大数据包含:交易数据和交互数据集在内全部数据集海量交互数据:源于Facebook、Twitter、微博、微信及其它起源社交媒体数据组成。它包含了呼叫详细统计、设备和传感器信息、GPS和地理定位映射数据、经过管理文件传输协议传送海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。能够告诉我们未来会发生什么。海量数据处理:大数据涌现已经催生出了设计用于数据密集型处理架构。比如含有开放源码、在商品硬件群中运行ApacheHadoop。第10页2022/9/711大数据市场潜力第11页利用GPS数据了解交通情况3月29日奥巴马政府公布了”大数据研发计划”。该计划目标是改进现有些人们从海量和复杂数据中获取知识能力,从而加速美国在科学与工程领域创造步伐,增强国家安全,转变现有教学和学习方式。“大数据战略”上升为美国最高国策对数据占有和控制,做为在陆权、海权、空权之外另一个国家关键能力。大数据浪潮大数据与乔布斯癌症治疗沃尔玛啤酒与纸尿布沃尔玛蛋挞与飓风用具关系谷歌流感预测第12页13中国大数据市场分析1-年中国大数据市场规模2各行业大数据市场规模计世资讯预测,政府、互联网、电信、金融大数据市场规模较大,四个行业将占据二分之一市场份额。因为各个行业都存在大数据应用需求,潜在市场空间非常可观。计世资讯认为,是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例产生。年-20,将迎来大数据市场飞速发展。计世资讯预测,年中国大数据市场规模将到达4.7亿元,20大数据市场将迎来增速为138.3%飞跃,到20,整个市场规模迫近百亿。第13页大数据商业价值行业数据处理方式价值银行/金融贷款、保险、发卡等多业务数据集成份析,市场评定新产品风险评定股票等投资组合趋势分析增加市场份额提升客户忠诚度提升整体收入降低金融风险医疗共享电子病历及医疗统计,帮助快速诊疗穿戴式设备远程医疗改进诊疗质量加紧诊疗速度互联网在线广告投放商品评分、排名社交网络自动匹配搜索结果优化提升网络用户忠诚度改进社交网络体验向目标用户提供有针对性商品与服务政府/公共事业智能城市信息网络集成天气、地理、水电煤气等公共数据搜集、研究公共安全信息集中处理、智能分析愈加好地对外提供公共服务舆情分析准确预判安全威胁媒体/娱乐收视率统计热点信息统计、分析创造更多联合、交叉销售商机准确评定广告效用零售基于用户位置信息准确促销社交网络购置行为分析促进客户购置热情顺应客户购置行为习惯第14页2022/9/715一、大数据相关概念二、大数据分析三、大数据应用经典案例三、大数据可靠性四、大数据与贝叶斯方法汇报内容第15页2022/9/716分析技术:数据处理:自然语言处理技术统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存放;分布式文件系统等计算结果展现:云计算;标签云;关系图等相关技术存放结构化数据海量数据查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存放不利于检索、查询和存放半结构化数据转换为结构化存放按照非结构化存放处理方案:Hadoop(MapReduce技术)流计算(twitterstorm和yahoo!S4)二、大数据分析第16页二、大数据分析

AnalyticVisualizations(可视化分析)

DataMiningAlgorithms(数据挖掘算法)

PredictiveAnalyticCapabilities(预测性分析能力)

SemanticEngines(语义引擎)

DataQualityandMasterDataManagement(数据质量和数据管理)

第17页二、大数据分析-可视化分析

AnalyticVisualizations(可视化分析)

不论是对数据分析教授还是普通用户,数据可视化是数据分析工具最基本要求。可视化能够直观展示数据,让数据自己说话,让观众听到结果。第18页二、大数据分析-数据挖掘算法

DataMiningAlgorithms(数据挖掘算法)

可视化是给人看,数据挖掘就是给机器看。集群、分割、孤立点分析还有其它算法让我们深入数据内部,挖掘价值。这些算法不但要处理大数据量,也要处理大数据速度。

第19页二、大数据分析-预测性分析能力

PredictiveAnalyticCapabilities(预测性分析能力)

数据挖掘能够让分析员更加好了解数据,而预测性分析能够让分析员依据可视化分析和数据挖掘结果做出一些预测性判断。第20页二、大数据分析-语义引擎

SemanticEngines(语义引擎)

我们知道因为非结构化数据多样性带来了数据分析新挑战,我们需要一系列工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。第21页二、大数据分析-数据质量和数据管理

DataQualityandMasterDataManagement(数据质量和数据管理)数据质量和数据管理是一些管理方面最正确实践。经过标准化流程和工具对数据进行处理能够确保一个预先定义好高质量分析结果。第22页2022/9/723一、大数据相关概念二、大数据分析三、大数据应用经典案例三、大数据可靠性四、大数据与贝叶斯方法汇报内容第23页2022/9/724三、大数据应用经典案例-流感预测全球每年约10%~15%人群会患上流感,受感染人群约5000万人,死亡人数约50万。这可不是个小数字。假如我们能够尽早提前预测到流感即将暴发,无疑将使全球公众都将受益:政府和医疗机构提前拿出应对办法,就能挽救大量生命。,谷歌推出了其著名流感趋势网站(http://www.谷歌.org/flutrends)。该网站假定前提是:假如用户患上了流感,则他们会搜索更多同流感相关信息。如此一来,假如对任何一个国家或地域相关流感搜索量进行统计,就能很好推断出某个国家或地域是否正暴发流感。年,谷歌在甲型H1N1流感暴发之前,用“谷歌流感趋势”(GFT)模型成功预测了流感在美国境内传输。谷歌对应数据,同美国疾病控制与预防中心(CDC)等政府机构所统计数据非常靠近(97%)。在一些情况下,谷歌甚至能够比CDC提前一周预测出哪些地域将暴发流感。第24页2022/9/725全球每星期会有数以百万计用户在网上搜索健康信息。正如您所预料那样,在流感季节,与流感相关搜索会显著增多;到了过敏季节,与过敏相关搜索会显著上升;而到了夏季,与晒伤相关搜索又会大幅增加。一些搜索字词非常有利于了解流感疫情。Google流感趋势会依据汇总Google搜索数据,近乎实时地对全球当前流感疫情进行估测。搜索流感相关主题人数与实际患有流感症状人数之间存在着亲密关系。当然,并非每个搜索“流感”人都真患有流感,但将与流感相关搜索查询汇总到一起时,便能够找到一个模式。将统计查询数量与传统流感监测系统数据进行了对比,结果发觉许多搜索查询在流感季节确实会显著增多。经过对这些搜索查询出现次数进行统计,便能够估测出世界上不一样国家和地域流感传输情况。Detectinginfluenzaepidemicsusingsearchenginequerydata,Nature

457,1012-1014(19February)三、大数据应用经典案例-流感预测第25页2022/9/726卡耐基梅隆大学JiweiLi和康乃尔大学ClaireCardie,成功利用Twitter预测了早期流感暴发。他们方式与Google类似。首先,从Twitter数据流中过滤包含与“流感”相关,并带有位置标签tweet;然后,在地图上标注这些tweet位置分布,以及随时间产生改变。同时,还制作了流感动态改变模型。新模型中,流感包含4个阶段:无传染阶段、暴发阶段、稳定阶段以及衰退阶段。另外,采取了全新算法,试图尽可能快得发觉不一样时期转换节点。实际上,Li和Cardie在

年6月至

年6月间,已经利用100万美国人360万条tweet,验证了该方法有效性。为了检验他们预测是否成真,Li和Cardie将他们分析与CDC进行对比。他们说,“我们确信,流感相关tweet与CDC提供流感疾病案例数目,呈显著相关。”三、大数据应用经典案例-流感预测第26页2022/9/727日本国内有一个网站,你只要打开这个网站用自己Twitter账号登录,就能够在短时间内经过数万条Twitter找出可能感冒人,并经过过去感冒情况和今日感冒情况进行分析(以及统计当前发烧以及嗓子痛患者数量),另外该程序还会结合气温和湿度改变来预测未来感冒流行情况,并制作一个“易感冒日历”。当前,这类服务正在日本陆续展开。经过这个服务器分析,大家就能够知道在自己身边到底有多少人有感冒症状,并提前做好预防准备。日本国立感染症研究所将会把全国约

5000个医疗诊所流感患者进行统计并公布数据。经过对比,研究所得出实际统计数字和网站上预测结果基本是一致,那么为何大数据结果会很准呢?首先是因为经过网络信息分析技术有所进步,已经能够经过各种各样留言自动搜索到相关数据,并自动分类。就像Google现在所使用技术,就是利用服务器分析与流感关系十分亲密十几个单词进行统计。另一个就是大数据所特有功效。在流感最严重时候,天天会有成千上万条Tweets公布,即便有一些误差,但经过数据分析也能分析出数据精准度。以往,公共机构在公布流感情报时候最少要延迟一周,在有些偏远地域立杆信息也并不确切,而现在,经过网络能够有效填补这些缺憾。三、大数据应用经典案例-流感预测第27页2022/9/728亚马逊“预测式发货”新专利,能够经过对用户数据分析,在他们还没有下单前,提前发出包裹。这项技术能够缩短发货时间,从而降低消费者前往实体店冲动。(因为在下单到收获之间时间延迟可能会降低人们购物意愿,造成他们放弃网上购物)亚马逊依据之前订单和其它原因,预测用户购物习惯,从而在他们实际下单前就将包裹发出。依据该专利文件,即使包裹会提前从亚马逊发出,但在用户正式下单前,这些包裹会暂存在快递企业转运中心或者卡车里。亚马逊为了决定要运输那些货物,可能会参考以前订单、商品搜索统计、愿望清单、购物车、甚至包含用户鼠标在某件商品上停留时间。三、大数据应用经典案例-亚马逊“预测式发货”第28页2022/9/72911月奥巴马大选连任成功胜利果实也被归功于大数据,因为他竞选团体对选民行为、支持偏向进行了数据搜集,并进行了大规模与深入数据挖掘。在这次大选中,奥巴马竞选阵营高级助理们决定将参考得到数据分析结果来制订下一步竞选方案,从而取得选民支持。三、大数据应用经典案例-奥巴马选举第29页2022/9/730三、大数据应用经典案例-“老鼠仓”早在,上交所曾经利用“大数据”设置“捕鼠器”构想,设定一定指标预警,当相关指标到达某个预警点时,监控系统会自动报警。深交所“大数据”监控系统,设置200多个指标用于监控预计,一旦出现股价偏离大盘走势,将利用大数据查探异动背后机构或投资人。马乐案,监管系统发觉有三个账户交易特点和当初博时精选基金高度重合,从交易统计上能够看到,持股时间最长不过一两个月,大多是三四天、四五天。第30页2022/9/731三、大数据应用经典案例-阿里“水文模型”阿里“水文模型”是按照小微企业类型、级别等分别统计一个阿里系客户相关“水文数据”库。如过往每到一个时点,该店铺销售会进入旺季,销售额就会增加,同时没到这个时段,该客户对外投放额度就会上升,结合这些水文数据,系统能够判断出该店铺融资需求;结合该店铺以往资金支出数据及同类店铺资金支用数据,能够判断出该店铺资金需求额度。第31页2022/9/732三、大数据应用经典案例-啤酒与尿布全球零售业巨头沃尔玛在对消费者购物行为分析时发觉,男性用户在购置婴儿尿片时,经常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起促销伎俩。没想到这个举措竟然使尿布和啤酒销量都大幅增加了。如今,“啤酒+尿布”数据分析结果早已成了大数据技术应用经典案例,被人津津乐道。第32页2022/9/733三、大数据应用经典案例-数据新闻让英国撤军10月23日《卫报》利用维基解密数据做了一篇“数据新闻”。将伊拉克战争中全部人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出窗口则有详细说明:伤亡人数、时间,造成伤亡详细原因。密布红点多达39万,显得格外触目惊心。一经刊出马上引发朝野震动,推进英国最终做出撤出驻伊拉克军队决定。第33页2022/9/734三、大数据应用经典案例-乔布斯癌症治疗乔布斯是世界上第一个对本身全部DNA和肿瘤DNA进行排序人。为此,他支付了高达几十万美元费用。他得到不是样本,而是包含整个基因数据文档。医生按照全部基因按需下药,最终这种方式帮助乔布斯延长了好几年生命。第34页2022/9/735三、大数据应用经典案例

-微软大数据成功预测奥斯卡21项大奖,微软纽约研究院经济学家大卫罗斯柴尔德(DavidRothschild)利用大数据成功预测24个奥斯卡奖项中19个,成为人们津津乐道话题。年罗斯柴尔德再接再厉,成功预测第86届奥斯卡金像奖颁奖仪式24个奖项中21个,继续向人们展示当代科技神奇魔力。第35页2022/9/736一、大数据相关概念二、大数据分析三、大数据应用经典案例四、大数据可靠性五、大数据与贝叶斯方法汇报内容第36页2022/9/737四、大数据可靠性大数据思维相关关系能够替换因果关系吗?大数据思维下能够直接用调研结果来指导实践吗?第37页2022/9/738四、大数据可靠性-谷歌流感预测在-三年间,谷歌流感模型预测出现严重偏差:一直在高估流感事态。其中最严重偏差出现在1月,谷歌产品预计结果是CDC汇总实际结果2倍。第38页2022/9/739四、大数据分析可靠性-谷歌流感预测谷歌目标是估算禽流感在整个美国发病率。数据起源是自用户使用搜索引擎检索统计,即谷歌用搜索关键字网民行为来预测整个国家人们患病可能性。Q1:有禽流感症状人都会使用谷歌搜索关键字吗?Q2:用谷歌搜索关键字人都有禽流感症状吗?第39页2022/9/740四、大数据可靠性-谷歌流感预测谷歌模型失败原因谷歌模型是基于关键字和发病率关系来进行预测。大数据思维重视相关性(A和B同时发生),却忽略了因果关系(A造成B发生)分析。伴随流感发展,媒体不停增加对流感报道,引来越来越多人重视,也就有对应一部分人会经过谷歌来搜索流感关键词,不过这些人并不一定得了流感。1A造成B2B造成A3C造成A和B4A和B互为因果5小样本引发巧合A和B关系第40页2022/9/741四、大数据可靠性-被辞退市场调研部员工,我国某著名电视机生产企业因为一次市场调查结果,辞退了市场调研部大量员工第41页2022/9/742四、大数据可靠性-被辞退市场调研部员工为调查该企业电视机品牌市场拥有率,该企业排除市场研究部两组员工,调查消费者会选择电视机品牌。Q:为何一样抽样方法结果差异这么大?

愿意购置不愿购置A组36%64%B组16%84%第42页2022/9/743四、大数据可靠性-被辞退市场调研部员工Q:为何一样抽样方法结果差异这么大?原因:1A组调查员在问询过程中均戴着有该企业logo领带2在问题选项中,该企业名字排在众多品牌第一位第43页2022/9/744四、大数据可靠性“大数据,大偏差”科学技术老实态度严密操作第44页2022/9/745一、大数据相关概念二、大数据分析三、大数据应用经典案例四、大数据可靠性五、大数据与贝叶斯方法汇报内容第45页

假设掷出一枚硬币,正面朝上概率是50%,假如连续99次投掷硬币都是正面朝上落地,那么下一次投掷硬币正面朝上落地概率是多少?这是Taleb在《黑天鹅》一书中给出一个假想问题。在Taleb书中,受过正统教育约翰博士给出了教科书教给我们标准回答,下一次投掷硬币正面朝上落地概率依然为50%,因为下一次硬币朝向与之前投掷结果无关。而教育背景没有那么光鲜胖托尼则认为下一次投掷硬币正面朝上概率为99%。孰对孰错?每个人都不妨给出自己判断。而假如一定要为自己答案下一万块钱赌注话,可能我就会和Taleb一样,更倾向于和不是那么教条胖托尼保持一致,即更倾向于相信下一次硬币正面朝上几率为99%,更倾向于相信我之前相关正面朝上落地概率是50%假设是错误。五、大数据与贝叶斯方法第46页

近几年“大数据”成为热词后,诸如“贝叶斯算法”这么统计学名词也随之在IT领域热起来。所谓贝叶斯方法源于托马斯·贝叶斯(ThomasBayes)生前为处理一个“逆概”问题写一篇文章。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球概率是多大”。而一个自然而然问题是反过来:“假如我们事先并不知道袋子里面黑白球百分比,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来球颜色之后,那么我们能够就此对袋子里面黑白球百分比作出什么样推测呢?”。这个问题,就是所谓逆概问题。

五、大数据与贝叶斯方法第47页

实际上,贝叶斯当初论文只是对这个问题一个直接求解尝试,并不清楚他当初是不是已经意识到这里面包含着深刻思想。然而以后,贝叶斯方法席卷了概率论,并将应用延伸到各个问题领域,全部需要作出概率预测地方都能够见到贝叶斯方法影子,尤其地,贝叶斯是机器学习关键方法之一。这背后深刻原因在于,现实世界本身就是不确定,人类观察能力是有不足,我们日常所观察到只是事物表面上结果,沿用刚才那个袋子里面取球比喻,我们往往只能知道从里面取出来球是什么颜色,而并不能直接看到袋子里面实际情况。这个时候,我们就需要做一个猜测,所谓猜测,当然就是不确定,但也绝对不是两眼一抹黑瞎蒙。五、大数据与贝叶斯方法第48页

即使,人们在谈大数据时往往都会谈及利用Hadoop等新兴技术对海量数据处理等技术问题,也会谈及Facebook、Google等企业所处理PB级别数据问题。不过,大数据关键问题在于预测。电子商务网站经过数据预测用户是否会购置推荐产品;信贷企业经过数据预测借款人是否会违约;执法部门用大数据预测特定地点发生犯罪可能性;交通部门利用数据预测交通流量。不过,预测不是大数据时代才有新问题,它是人类本能一部分。五、大数据与贝叶斯方法第49页

不过,与科学研究中以求真为目标构建模型不一样,大数据时代模型构建将愈加以务实为目标,即遵照统计学家GeorgeE.P.Box观点“本质而言,全部模型都是错误,只是有些模型更有用”。大数据时代很多模型都是为了指导商业决议而设,而商业决议通常会影响决议者利益。所以,一个模型是否正确不是最主要,主要是决议者对这个模型有多大把握,决议者能否从这个模型中赢利。所以,大数据时代中最为关键应该是基于数据模型能否说服决议者据此进行决议,而且帮助决议者改进决议赚取对应利润。五、大数据与贝叶斯方法第50页

艾赛亚·柏林(IsaishBerlin)曾经援引古希腊诗人残简“狐狸多知而刺猬有一大知”将知识分子分为狐狸和刺猬两类。刺猬用一个宏大概念解释全部现象,如约翰博士普通;狐狸知道很多事情,用多元化甚至相互矛盾视角对待问题,狐狸也愿意包容新证据以使得自己模型与之相适应,如胖托尼普通。Tetlock等人研究表明,在现实预测中,狐狸表现要优于刺猬。在大数据时代,人们能够接触越来越多信息,这些信息能否修订决议者已经有观念,对决议者决议产生影响,这是大数据能否发挥价值关键所在。五、大数据与贝叶斯方法第51页很多人都知道亚当斯密(AdamSmith)在《国富论》中所描述市场中“看不见手”。在市场中,没有些人掌握相关生产和消费全局信息,不过人们经过市场交易对供需行为作出反应,从而逐步更新价格,进而到达平衡。ThomasBayes与亚当斯密同时代且同在苏格兰接收教育,他贝叶斯定理(Bayesian'sTheorem)也和亚当斯密“看不见手”有相通之处。贝叶斯理论允许每个人拥有相关世界先验信念,胖托尼可能最初认为硬币正面朝上概率是50%,而当他看到了连续99次硬币正面朝上落地,则他不停利用数据修改其信念。五、大数据与贝叶斯方法第52页

英国哲学家艾赛亚·柏林,把一句古希腊谚语“狐狸多技巧,刺猬仅一招”发挥成关于两种类型思想家之差异深刻比喻:一类是追求一元论思想家,他们力

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论