大数据的产生与发展史_第1页
大数据的产生与发展史_第2页
大数据的产生与发展史_第3页
大数据的产生与发展史_第4页
大数据的产生与发展史_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据的产生、发展

谈起大数据,我们的第一反应也许是互联网、各种关于数据搜集的软件以及中国政府、专家谈及的大数据运用。比如,在研究一个社会问题中,关于数据方面,就会说“运用大数据技术,我们很容易得到这个结果”......

那么什么是大数据?大数据的运用又是什么?关于大数据的发展又是怎么样的?在下面的内容里,会将大数据的起源,兴盛做详细的讲述,希望每个同学在这个过程中真正的理解数据。

小数据之历史

数据本无大小,但运用数据立场却分出大小,是谓大数据。数据表示的是过去,但表达的是未来,所以观察数据需要有历史观。当今美国的数据文化渗透在社会各个方面,呈现出高效,简洁,以及秩序。这一切最早可以追溯到这个国家建立之初的数据分析要求,谓之初数时代。至此,在历史的长河中一幅波澜壮阔的宏伟画卷惊艳了世界......初数时代:奠定共和克服民主的劣势:用数据分权参众两院权利分衡:众议院按人口比参议院每州两名第一次人口普查:仅询问家几人、几男几女、几黑几白、几大几小,完全的“点人头”。但在黑人问题上将

3∕5”写入宪法,承认种族不平等。

第二次人口普查:学者建议收集“出生率、性别、年龄、婚姻状况、健康、职业、寿命”但最终没通过国会谈论。1830年:统计每个家庭的残疾人数。1840年:统计文盲、白痴、精神病患者数量以及各种牲畜的数量,农作物的产量。1850年:普查对象由家庭细化到个人。1860年:全国工厂、农场、学校、教堂的情况,教师、学生、雇员的多少都一一列入普查范围1880年:普查全面改革,扩大为人口、出生死亡率、农业、社会、工业等五个部分。......美国成为世界上最早定期(10年)开展人口普查的国家,并因此开创了现代意义上的人口普查制度。初数时代:奠定共和

有数初成:共和反哺数据文化

1.人口普查从政治领域不断扩张,蔓延政策制定,后是社会生活。

1794年,在美国党政之争初现端倪时,民间就出现了批判的声音,主张通过“事实”和“数据”来营造共识、消除党争。其中当时的教育家诺亚·韦伯斯特和耶鲁大学校长德怀特,他们主张:如果事实是制定政策的基础、知识能够在决策者之间营造共识,那么系统性收集数据的工作,就应该由政府亲自来完成。

最终在志同道合者的呼吁之下,最终促使人口普查在19世纪逐渐推进到政策制定领域,在这个过程中,数据开始从政治精英走向平民大众。

2.数学教育的普及,数据意识,数据文化逐步形成。

美国的建国者认为,共和国的目标不是愚民,而是培养有智识的公民。华盛顿、富兰克林和杰斐逊便是其中的杰出代表。华盛顿的第一份工作是弗吉尼亚州的土地测量员,深知数据对于认识客观世界的重要性,曾组织了美国的第一次农业调查。杰斐逊也曾做过土地测量员,除了是一名政治家还研究密码学、测量学和考古学。在这样一批建国者的推动下,数学教育很快在这个新生的国家普及。

3.改革货币体系,统一了重量和测量单位。

1831年,法国的史学家、政治家托克维尔在《论美国的民主》中写到“美国人已经习惯了精确的计算”,“他们喜欢秩序井然,没有秩序,事业就不能发达。他们特别重视信誉,信誉是生意健康发展的基础。他们的大脑已经习惯于精确的计算,按常规办事也在他们的头脑中扎根。同一时期,英国哲学家托马斯·汉密尔顿在《美国人及其作风》中总结“我认为,在这群不断猜测、估算、预期和计算的美国人当中,算数就像是一种与生俱来的本能。”

比如在1825年,费城的一名医生统计了7077名新生儿的重量,并制作了一张重量分布表,发给新生儿的母亲,以方便她们对比掌握自己孩子的情况。初数时代:奠定共和

从1787年到19世纪30年代,这一阶段认为是美国数据历史的初数时代,这是个孕育的时代,可谓是有数初成。在这个时代,数据好比涟漪,静静在历史长河上静静地泛起波纹,把千千万万普通人卷进它的晕圈,冲刷,洗涤,浸泡,使其成为具有数据意识的公民个体。内战战时时期期::终终结结奴奴隶隶制制的的灯灯塔塔用数数据据远远征征::谢谢尔尔曼曼将将军军的的“向大大海海进进军军”主动动切切断断自自己己后后方方补补给给,,带带领领全全体体部部队队全全力力突突进进、、穿穿越越整整个个佐佐治治亚州州。。他他试试图图以数数据据为为“航标标”,根根据据农场场、、牲牲畜畜、、集集市市、、车车站站等等重重要资源源在在各各地地的的分分布布,精精心心计计算算,,确定定最最佳佳的的行行军军路路线线和在在各各地地的的停留留时时间间,,沿沿着着这这条条线线路路,,部部队队在在当当地地完完成成补补给给,,遭遭遇遇敌敌方方最最少少的的阻击击。。这这被被后后世世历历史史学学家家认认为为整整个个南南北北战战争争中中“最为为大大胆胆、、最最为为关关键的的一一次次行行动动”,是是战战争争后后期期重重要要的的转转折折点点,,也也被被称称为为“毁灭灭之之路路”。向大大海海进进军军兵家家与与“向海海洋洋进进军军”自古古中中国国多多良良将将,,也也有有运运用用数数据据的的经经典典案案例例。。孙孙膑膑减减灶灶,,破破庞庞涓涓于于马马陵陵;;虞虞诩诩疑疑兵兵,,平平羌羌军军于于西西凉凉;;林林彪彪临临战战,,细细查查歼歼敌敌缴缴获获......但较之谢谢尔曼以以数据行行军千里里,决胜胜沙场,,均有不不及。这正是因因为谢尔尔曼有数数据可用用,他人人给他提提供了大大量数据据。这种种“有数据可可用”,源于美美国建国国之后就就开始的的、长期期的、周周期的努努力以及及强大的的制度保保障。有有没有这这种制度化的的数据体体系,才是近近代美国国将军和和中国将将军在数数据使用用方面拉拉开差距距的根本本原因。。数据不仅仅仅应该该是一种种计算、、科技符符号,更更应该是是文化符符号。爆发:镀镀金时代代的崛起起世纪巅峰峰:大数数据驱动动的创新新1870美国历史史上出现现第一件件用于数数据处理理工作的的机械设设备——西顿制表表机。可可以同步步查阅各各张问卷卷上相应应的数据据,大大大方便了了制表工工作。1890年,年轻轻的霍尔尔瑞斯打打开了数数据自动动化处理理的大门;在他他的基础础上,IBM随之开启启了一个个打孔卡卡片的新新时代;1951年,人口口普查产产生的大大数据又又促成了了第一台台商用计计算机的诞生......这些成就就,最终终引领美美国在全全世界率率先迈入入了信息息时代。抽样时代代:统计计革命的的福祉最初的数数据调查查主要的的目标是是追求被被调查群群体的“大”,当时大大家都相相信,只只有更大大,才能能更准。。但随着着时间推推移这种种方法的的效率较低低以及费费用大的的缺点的的暴露,,人们开开始寻求求新的调调查方法法。抽样时代代:统计计革命的的福祉1895年,有学学者提出出抽样的的观点,,认为只只要方法法得当,,就可以以从总体当中中抽出一一部分有有代表性性的个体体,通过过研究部部分个体体的特点点,从而而推断出出整体的的属性,类似中中国人所所说的“一斑窥豹豹”、“一叶知秋秋”。抽样调查查很快便便被证实实实际可可用性。。盖洛普普在1936~2012年19次总统大大选预测测中,成成功预测测17次轰动全全球。和《乱世世佳人》》共舞1936年在《乱乱世佳人人》开拍拍之前,,好莱坞坞对这本本畅销小小说看法法不一,,甚至一一度有流流拍的趋趋势。原原因是在在好莱坞坞出品的的以南北北战争为为题材的的电影全全部亏本本,没有有任何一一部赚钱钱。为了知道道这部小小说在美美国民众众的流行行程度((虽然他他们大概概估计已已有200~300万),好好莱坞的的电话打打到了盖盖洛普的的公司,,用数据据证明《《乱世佳佳人》到到底有多多流行。。一周之之后,他他告诉对对方,此此书非常常流行,,每10个受访者者中,就就有8个表示听听说过这这本书。1937年1月,盖洛洛普非常常肯定的的告诉制制片人《《乱世佳人人》已经经成为美美国有史史以来最最流行的的小说,,有1400万美国人人读过,,其流行行程度仅仅次于《《圣经》》。但在电影影时长、、是否分分为上下下两集、、黑色还还是彩色色,再到到演员选选取、广广告设计计,制片片人、剧剧组、发发行商吵吵成一团团。特别别是制片片人选定定英国人人费雯··丽饰演演女主角角后,引引起了更更大的争争议。因因为涉及及美国独独立,黑黑奴解放放等重大大历史事事件,部部分南方方人认为为请外国国人有失失国格。。制片人人委托盖盖洛普调调查争议议问题的的方方面面面。通通过两年年的调查查,结果果表明,,大部分分人不反反对它分分为上下下两集;;60%的观众想想看彩色色电影;;35%的受访者者对女主主角的人人选表示示满意,,远远高高于不满满意的比比率(16%)。拍摄方在重重大问题的的决策中几几乎全部听听取了盖洛洛普的意见见。最后,盖洛洛普给片方方的结论是是,这部电电影将有5650万观众,其其人数之多多,将创有有史以来的的电影之最最。但对于于这个数据据却没有一一个人当真真。最后,通过过4轮上线,《《乱世佳人人》一共售售出了5997万张电影票票,票房毛毛收入为3400万美元,而而1940年美国的人人口普查结结果为1.3亿人口,也也就是说,,全国近一半半的人观看看了这部电电影。正如如正如了盖盖洛普预测测的那样,,这部影片片成为美国国历史上迄迄今为止最最成功的电电影。电影获得了了1940年最佳影片片,最佳女女主角等十十项奥斯卡卡大奖,这这部小说也也因为注重重史实,获获得1937年的普利策策小说奖。。盖洛普成功功的法宝就就是“科学抽样”,他没有盲盲目地大面面积调查,,而是根据据民众的人人口特点,,确定家庭主妇、、工人、农农民、老人人、中年人人、年轻人人等各色人群在在样本中应应该占有的的份额,再确定电话访问,,邮件访问问,街头访访问等各种调查方方式所占的的比例。由于样本本找的准,,所以能以以“小”见“大”。抽样时代::统计革命命的福祉通过美国波波澜壮阔的的的数据文文化发展,,我们对传传统的数据据(小数据据)有了一一定的认识识。一个数数据治国的的理念需要要几十年甚甚至是几百百年的发展展但对数据据的使用并并不如此。。中国现在正正处于数据据化浪潮之之中,何去去何从,关关键在于对对大数据的的利用。大数据据=传统的小数数据+现代的大记记录(源于测量量)((源于记录录)大数据的崛崛起每个国家都都在追求一一条自己的的道路,这这条道路,,根植于这个国家人人民的文化化中。开放放的经济、、开放的社社会和开放放的政府,是是人类社会会之所以能能够进步最最深厚、最最强大的基基础。——奥巴马,在联联合国大会的的演讲,2014.09开放时代:内内开放的历程程内开放也就是是国家内部的“人、财、物、、信息”对社会开放。这关系到公公民的自由、、权利,也是政府管理社社会、调控市市场、服务经经济的发展的有效手段。。在数据的时时代里,数据将成为重重要的生产资料料和创新资源源,内开放的程程度,也将决定一个国国家的发展动动力,一个社社会的创新的活力。开放时代:内内开放的历程程内开放1.01960年代信息自由运动动数据承载知情情权内开放2.01980年代代环保运动数据制衡企业业,数据公开开成为政府管管理手段内开放3.02000时代代美国社会经历历的内开放三三部曲数据开放运动动数据服务经济济、创造就业业,推动技术术进步LEHD项目:开放数数据的使用权权LEHD(工作单位和和家庭住址的的纵向动态系系统)工作职位数据据个人数据工作单位数据据通过整合,实实现了以下目目标:•首次把个人人住址和个人人单位地址联联系系在一起起•可以查询同同一街区内有有多少雇员上上班,为科学学估算白日人人口打下了基基础•可以追踪每每个公司的雇雇员数量几流流动来源于州政府府的劳工部门门•行业、类别别•公司职工数数量•公司地址来源于州政府府的劳工部门门•失业保险•社会保险•报税记录主要来源于人人口普查局和和社会保险局局•年龄、性别别、种族•个人住址LEHD项目的数据来来源和三级政政府的数据整整合框架从2006年起,普查局局为LEHD开发了一个基基于地图的互互动式界面面——OnTheMap,无偿提供给给大众使用。。只要有一根根网线,无论论你在世界的的哪一个角落落,也无论你你是哪国人士士,甚至无需需注册,你都都可以随时登登陆,查询这这些数据。LEDH的真正强大之之初,还在于于其数据分析的粒粒度,它可以按地地区、邮编、、选区、人口口普查的片区区等各层单位位对数据进行行层层下钻,甚至连一个个居民街区的的人口情况都都能分析出来来。本街区工作人人员来源的方方向和距离位位置除了这些分析析,LEHD系统还有一一个最大的的特点,即即提供以时间为跨跨度的纵向向数据分析析,这也是该该系统被称称为“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论