大数据数据分析新理念朱老师市公开课获奖课件_第1页
大数据数据分析新理念朱老师市公开课获奖课件_第2页
大数据数据分析新理念朱老师市公开课获奖课件_第3页
大数据数据分析新理念朱老师市公开课获奖课件_第4页
大数据数据分析新理念朱老师市公开课获奖课件_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据时代与大数据

——数据分析新理念

厦门大学数据挖掘研究中心厦门大学经济学院统计系朱建平博士、专家、博士生导师xmjpzhu@163.com第1页第1页大数据时代与大数据

——数据分析新理念

第一部分:大数据与大数据时代一、大数据产生背景二、国内发呈现实状况三、大数据概念界定第二部分:数据分析新理念四、如何理解大数据和分析大数据

五、大数据对统计学科和统计研究工作影响

第2页第2页一、大数据产生背景1955年信息公开1965年摩尔定律1973年最小数据集1980年原则数据接口1988年普适计算数据驱动1955年,约翰•摩斯提出《自由信息法》草案,几经周折,直到1965年才被参议院投票通过,直到第二年7月4日才被美国总统签字通过。摩尔定律:同一个面积集成电路上可容纳晶体管数目,一到两年将增长一倍,亦即计算机硬件处理速度和存储能力将提升一倍。最小数据集概念起源于美国医疗领域,指代国家管理层面针对某个业务管理领域强制搜集数据指标。一些领域最小数据集甚至被上升到立法高度。数据在不同信息管理系统之间共享也使数据接口标准化越来越得到强调。第3页第3页返回主机型计算阶段(MainframeComputing)个人型计算阶段(PersonalComputing)普适计算阶段(UbiquitousComputing)第4页第4页二、国内发呈现实状况近年来,对大数据研究和应用不但引起了我国自然科学和人文社会科学界广泛注重,也受到我国中央政府高度关注:这些是大数据产业主要构成部分,与大数据产业发展密切相关。《“十二五”国家战略性新兴产业发展规划》明确提出支持海量数据存储、处理技术研发与产业化《物联网“十二五”发展规划》提出将信息处理技术列为四项关键技术创新工程之一第5页第5页2月国家统计局召开以大数据为主题工作会议3月26日科研所又举办了“大数据在政府统计工作中应用研究”课题研究专家征询会3月4日国家统计局科研所重点讨论布署了“大数据在政府统计中应用”研究工作12月国家统计局在上海开展了大数据应用调研活动11月国家统计局总统计师鲜祖德会见美国华裔大数据专家时,提出国家统计局十分注重大数据在统计中应用,并成立了课题组研究如何通过对大数据处理推动统计办法制度改革,改进政府统计工作我国国家统计局科研所于8月就召开了大数据应用研究座谈会,提出了在大数据时代利用当代信息技术建立统计云架构研究目的。4月11日,国家统计局总统计师鲜祖德带领大数据课题组赴百度公司调研,就大数据在政府统计中应用及相关合作事宜,与百度公司相关领导和专家进行了进一步交流5月2日国家统计局科研所青年学术沙龙进一步研讨大数据应用8月6日,国家统计局总统计师鲜祖德主持召开了“大数据在政府统计中摸索与应用研究”课题汇报座谈会10月28日-29日,“第十七次全国统计科学讨论会”在浙江省杭州市召开。主题是:大数据背景下统计。11月19日,国家统计局与阿里、百度等11家公司签署了大数据战略合作框架协议。第6页第6页11月19日下午,国家统计局与上海钢联电子商务股份有限公司、山东卓创资讯集团有限公司、58同城信息技术有限公司、天云融创数据科技(北京)有限公司、中国联合网络通信有限公司、天脉聚源(北京)传媒科技有限公司、百度在线网络技术(北京)有限公司、阿里巴巴(中国)有限公司、纽海信息技术(上海)有限公司、昆明泛亚有色金属交易所股份有限公司和南京擎天科技有限公司共11家公司在京签署了大数据战略合作框架协议,共同推动大数据在政府统计中应用,不断增强政府统计科学性和及时性。第7页第7页《大数据在政府统计中摸索与应用》10月1日出版第8页第8页2月25日,国家统计局局长马建堂赴北京市中关村,考察中关村国家自主创新示范区、中关村数海大数据交易平台和京东商城。他说,统计部门要孜孜不倦推动大数据在政府统计中应用,不断加大与各类公司在大数据应用中合作力度,努力打造政府统计数据起源第二轨,使统计数据愈加真实准确,为社会提供愈加优质统计服务。第9页第9页3月22日,国家社科基金重大项目《大数据与统计学理论发展研究》开题研讨会在厦门大学举办。中国统计学会副会长兼秘书长、国家统计局统计科学研究所所长潘璠作为子课题五《大数据下统计办法实际应用摸索》责任人,简介了大数据在政府统计中研究进展及相关应用动态。第10页第10页4月4日早晨,马建堂在浙江省副省长朱从玖陪同下,来到阿里巴巴集团,对集团电子商务业务进行调研。听取了阿里巴巴集团近年来业务发展情况和大数据应用情况汇报,进一步理解了天猫和淘宝网两个网上零售交易平台运营模式、商家规模、交易体量、发展速度和大数据业务,与阿里巴巴相关责任人探讨了利用网络平台日常交易产生大数据完善贸易统计设想。第11页第11页5月8日,国家统计局局长马建堂赴上海调研大数据在统计工作中应用。马建堂强调,统计部门要顺势而为,以愈加积极开放心态拥抱大数据时代,以大数据利用为引擎,助力进一步提升统计数据搜集能力、完善统计制度办法、加强经济形势分析、提升统计数据质量,愈加好地服务经济社会发展。第12页第12页5月20日,是北京入夏以来最热一天。下午2点多,国家统计局局长马建堂一行来到了位于上地十街百度公司调研大数据生产及应用情况。第13页第13页7月9日下午,科研所所长潘璠、数管中心副司级干部李金宽等一行4人到访中国联通公司,与联通研究院、集团客户事业部等部门责任人就大数据合作事宜进行进一步座谈交流。第14页第14页8月22日,国家统计局统计科研所所长潘璠一行,在深圳市统计局总统计师胡卫东等陪同下,分别到访总部设在深圳顺丰速运有限公司和阿里巴巴一达通公司服务有限公司,与公司相关责任人就大数据合作事宜进行进一步沟通。第15页第15页9月27-28日第十五次全国中青年统计科学研讨会日前在天津财经大学举办,来自全国统计专家、学者、中青年统计科研人员、统计工作者及大专院校师生,以“大数据统计展望”为主题进行了广泛而进一步交流。徐一帆向大会致辞,国家统计局副局长、中国统计学会副会长李强作了“全面推动和深化统计改革”专项汇报,总统计师鲜祖德主持了会议揭幕式。第16页第16页国家统计局9月29日召开“大数据与统计建模”视频汇报会,来自全国统计建模大赛5支获奖代表队就各自利用大数据进行统计建模论文结果进行了主题汇报。国家统计局副局长、全国统计建模大赛组委会主任委员张为民要求国家统计局各相关专业司、各省统计局、国家统计局各调查总队要充足注重大数据时代为统计系统带来机遇和挑战,进一步研究大数据在统计工作当中应用,奋力推动统计事业改革发展。国家统计局副局长徐一帆、许宪春、李强,党组纪检组长高建华,总统计师鲜祖德,总经济师李晓超一同出席了本次汇报会。第17页第17页9月30日,国家统计局在京举办大数据应用汇报会,与6家公司签署大数据战略合作框架协议。国家统计局局长马建堂作主要发言。他强调,统计部门将携手合作公司共同开发利用大数据,共同推动大数据产业化,积极构建由结构化数据和大数据为基础起源当代化政府统计,奋力抢占大数据开发应用制高点,生产更多、更加好、更有价值统计产品,为国家宏观调控、人民生活改进、社会福祉提升提供坚实数据支撑。

国家统计局与上海航运交易所、北京易观网络信息征询有限公司、北京搜房网络技术有限公司、北京数海科技有限公司、浪潮集团有限公司、深圳市腾讯计算机系统有限公司共6家公司签署合作协议。第18页第18页厦门大学数据挖掘研究中心于6月6日向国家统计局统计科学研究所提交《厦门大学数据挖掘研究中心关于合作成立大数据试验室提议》,倡议联合国家统计局统计科学研究所和台湾辅仁大学商学研究所成立“厦门大学数据挖掘研究中心大数据试验室”。10月17日正式举办了揭牌典礼。该试验中心将联合厦门沸腾网络科技有限公司,共同推动数据挖掘和大数据研究与应用。第19页第19页由中国国家统计局和联合国统计司联合主办“大数据和官方统计”国际会议10月28日在京揭幕。国家统计局局长马建堂出席会议并致辞,联合国统计司司长斯特芬﹒施万斯特,联合国大数据全球工作小组主席、澳大利亚统计局副局长特雷弗﹒萨顿也分别在揭幕式上致辞。国家统计局副局长谢鸿光主持揭幕式,副局长李强做主旨发言。这次会议讨论主要内容包括:大数据和国际统计发展;手机、全球定位系统和其它跟踪装置;卫星影像和其它地理空间信息;Twitter和其它社交媒体;网络交易和扫描数据;大数据起源共性及隐私问题;发展中国家引入创新;未来之路——大数据应用。第20页第20页

来自联合国统计司、联合国全球脉动行动、联合国欧洲经济委员会、联合国亚太经社会、联合国亚太统计研究所、欧盟统计局、海湾阿拉伯国家合作委员会统计中心、国际货币基金组织、国际电信联盟、世界银行、万国邮政联盟等11个国际组织,以及澳大利亚、孟加拉国、加拿大、哥伦比亚、丹麦、埃及、德国、印度、印尼、爱尔兰、意大利、日本、马来西亚、墨西哥、摩洛哥、荷兰、阿曼、巴基斯坦、菲律宾、韩国、新加坡、坦桑尼亚、泰国、阿拉伯联合酋长国、美国、越南和中国等27个国家近120位代表参与研讨会。第21页第21页国家统计局局长马建堂为经济发展新常态提供愈加优质统计保障——元旦献辞

()研究应用大数据迈出实质性步伐,在价格统计、贸经统计、建设领域统计、交通运送统计和经济监测分析应用中取得初步结果。()继续深化重点领域统计改革,不断巩固和拓展统计生产方式变革结果,加快利用大数据、云计算奋力打造数据生产新兴之轨,大力推动依法统计,进一步开发利用三经普资料,全面启动第三次全国农业普查,认真做好全国1%人口抽样调查,扎实开展各项常规统计调查,持之以恒扎实统计业务基础和基层基础,果断打造廉洁统计,为党和政府以及社会各界提供愈加优质统计服务。第22页第22页国内各地制定云计算“十二五”规划云计算、物联网园区中国各地制定或公布了云计算、物联网等产业规划;这些工程初始着眼点在房地产,政绩工程居多,大数据作为关键内容端,使得政绩工程变为使用工程。

云计算、物联网、社交化媒体、GIS为大数据提供了丰富数据起源。因此大数据中包括每个用户身份、地点、时间、喜好、厌恶、社会关系等等大量信息。伴随数据挖掘和分析技术发展,我们即将步入基于大数据智能化时代。云计算、物联网从政绩工程变成实用工程第23页第23页

广东省政府于2月26日印发了《广东省经济和信息化委员会主要职责内设机构和人员编制要求》。《要求》明确了广东省经济和信息化委员会16项职责。依据职责,广东省经济和信息化委员会设21个内设机构,其中包括成立广东省大数据管理局。其详细职责是:研究拟订并组织实行大数据战略、规划和政策办法,引导和推动大数据研究和应用工作;组织制定大数据搜集、管理、开放、应用等原则规范;推动形成全社会大数据形成机制建立和开发应用;承担公司情况综合工作,负责公司数据搜集和存储;组织编制电子政务建设规划并组织实行;组织协调政务信息资源共享;组织协调省级重大电子政务项目建设,组织协调网上办事大厅等电子政务一站式服务建设;负责统筹政务信息网络系统、政务数据中心建设、管理;统筹协调信息安全保障体系建设;承担信息安全等级保护、应急协调和数字认证相关工作。第24页第24页.10.13福建省人民政府《关于支持大数据产业重点园区加快发展十条办法告知》(闽政〔〕52号)各市、县(区)人民政府,平潭综合试验区管委会,省人民政府各部门、各直属机构,各大公司,各高等院校:为推动数字福建(长乐)产业园、中国国际信息技术(福建)产业园(下列简称园区)加快建设成为全省大数据产业重点园区和“数字福建”建设主要承载基地,现提出下列办法:第25页第25页一、完善园区发展规划二、引进哺育产业龙头三、推动资源汇聚开发四、建设大数据创新平台五、加强人才引进培养六、做好园区用地保障七、确保园区用电需求八、强化园区网络支撑九、实行财税优惠政策十、提升安全保障能力本告知拟定相关优惠政策自印发之日起施行。园区所在市、县政府要积极靠前服务,积极创新园区运作模式、资本运作模式、产业协作模式,及时为入园公司处理详细问题,为园区发展营造良好环境。省直相关部门要按照职责分工,加强指导和服务,大力支持园区发展,确保赋予入园公司各项优惠政策落实到位。第26页第26页第27页第27页三、大数据概念界定我们查阅了大量关于大数据方面资料,对大数据概念定义众说纷纭,对大数据理解决于定义者观点和背景。比较有代表性定义主要有下列几种。维基百科给出定义是,大数据指是所涉及资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助公司经营决策更积极目的资讯。大数据科学家JohnRauser提出一个简朴定义是,大数据指任何超过了一台计算机处理能力数据。第28页第28页

美国征询公司麦肯锡汇报是这样定义,大数据是指无法在一定期间内用老式数据库软件工具对其进行抓取、管理和处理数据集合。

Gartner公司MervAdrian()认为,大数据超出了惯用硬件环境和软件工具在可接受时间内为其用户搜集、管理和处理数据能力。

IDC(InternationalDataCorporation,)对大数据概念描述为:大数据是一个看起来似乎来路不明大动态过程;但是事实上,大数据并不是一个新生事物,即使他确确实实正在走向主流并引起广泛注意;大数据并不是一个实体,而是一个横跨诸多IT边界动态活动。第29页第29页

尚有一些学者如格雷布林克(Grobelink.M)()、Forrester分析师布赖恩·霍普金斯(BrianHopkins)、鲍里斯·埃韦尔松(BorisEvelson)()和Oracle(甲骨文)刘念真()等虽未给出大数据详细定义,但是他们概括了大数据特点。格雷布林克()认为大数据含有三个特点,即多样性(Variety)、大量性(Volume)、高速性(Velocity),又称3V特点。布赖恩·霍普金斯(BrianHopkins)、鲍里斯·埃韦尔松(BorisEvelson)()认为,除了格雷布林克给出三个特性外,大数据还含有易变性(Variability)特点,即4V特点。刘念真则认为大数据除了Grobelink.M给出特点外,还含有真实性(Veracity)和价值性(Value),即五V特点。第30页第30页大数据科学研究还刚才起步,既然是研究,我们就要了解其内在涵义。这些对大数据概念表示方式即使不同,但从各自角度描述出了对大数据了解。从表面看我们能够从两个角度来理解,假如把“大数据”当作是形容词,它描述是大数据时代数据特点;假如把“大数据”当作是名词,它表达是我们科学研究对象。第31页第31页1、“大数据时代”定义格雷布林克(Grobelink.M)在《纽约时报》2月一篇专栏中所称,“大数据时代”已经来临,在商业、经济及其它领域中,管理者决议越来越依托数据分析,而不是依托经验和直觉。“大数据”概念之因此被炒得如火如荼,是由于大数据时代已经到来。理解大数据,必须首先理解大数据时代背景,这样就有必须澄清大数据时代含义。第32页第32页

我们可以这样来定义大数据时代,大数据时代是建立在对互联网、物联网等渠道广泛大量数据资源收集基础上数据存储、价值提炼、智能处理和分发信息时代。在这个时代,可以致力于让人们能够从几乎任何数据中获得可转换为推动人们生活方式变化有价值知识。第33页第33页广泛性计算机技术不但增进自然科学和人文社会科学各个领域发展,并且全面融入了人们社会生活中人们在不同领域采集到数据量之大,达到了前所未有程度,数据产生、存放和处理方式发生了革命性改变人们工作和生活基本上都能够用数字化表示,在一定程度上改变了人们工作和生活方式第34页第34页第35页第35页2、“大数据”定义我们认为大数据定义之因此众说纷纭,没有形成统一定义。主要是因为大数据如其名一样,所涉内容太“大”,大家看它角度不同,于是出现了仁者见仁,智者见智局面。在了解大数据历史沿革和大数据所处时代背景后,我们就能够深入充分了解大数据内涵。

这里我们需要提及是,大数据也是数据,统计学应当随时地关注大数据分析,哪里有数据,哪里就有统计分析。因此,鉴定“大数据”应当在既有科学技术基础上引入统计学思想。第36页第36页

我们能够这样来定义“大数据”,大数据指那些超出老式数据系统处理能力、超越典型统计思想研究范围、不借用网络无法用主流软件工具及技术进行单机分析复杂数据集合。对于这一数据集合,在一定条件下和合理时间内,我们能够通过当代计算机技术和创新统计办法,有目的地进行设计、获取、管理、分析,揭示隐藏在其中有价值模式和知识。第37页第37页半结构化数据结构化数据非结构化数据我们认为大数据基本特性能够表达在下列四个方面1.大量性2.多样性

最小基本单位是Byte,所有单位:Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB。按照进率1024(2十次方)第38页第38页大数据规模巨大,数据在不断更新改变,这些有价值信息也许转瞬即逝,因此,在大数据时代,对数据接受和处理思想都需要转变,如何通过强大机器算法更快速地完毕数据价值“提纯”成为当前大数据背景下亟待处理难题。3.价值性

处理时效性高,由于大数据有价值信息存在时间短,要求能快速有效地提取大量复杂数据中有价值信息。在如此海量数据面前,处理数据效率就是公司生命。4.高速性第39页第39页四、如何理解大数据和分析大数据

维克多(VikorMayer-Schǒnberger)在其《大数据时代》一书中提到老式数据分析思想应作三大转变:一是转变抽样思想;二是转变数据测量思想;三是不再探求难以捉摸因果关系。毫无疑问,上述三个转变均与统计研究工作息息相关,从统计研究工作角度如何理解?第40页第40页1、转变抽样调查工作思想

大数据时代,我们面正确数据样本就是过去资料总和,样本就是总体,通过对所有与事物相关数据进行分析,既有助于理解总体,又有助于理解局部。总来讲,老式统计抽样调查办法有下列几种方面不足能够在大数据时代得到改进。(1)抽样框不稳定,随机取样困难。(2)事先设定调查目的,会限制调查内容和范围。(3)样本量有限,抽样结果经不起细分。(4)纠偏成本高,可塑性弱。第41页第41页2、转变对数据准确性要求在大数据时代,由于数据起源广泛和数据处理技术不断进步,数据不准确性是允许,我们应当接受纷繁芜杂各类数据,不应一味追求数据准确性,以免因小失大。(1)大数据时代,数据规模大,数据不准确性在所难免,盲目追求数据准确性不可取。(2)大数据时代,数据不准确性不但不会破坏总体信息,尚有助于理解总体。大数据时代,越来越多数据提供越来越多信息,也会让人们越来越理解总体真实情况。(3)大数据时代,允许不准确性是针对大数据,而不是统一原则。大数据不准确性是偶然产生,而不是为了不准确性而制造不准确。第42页第42页3、转变数据关系分析重点在大数据时代,分析数据不再探求难以琢磨因果关系,转而关注事物相关关系。需要注意是,大数据时代事物之间大数据相关分析与传统统计学相关分析并不完全相同,主要表现在以下几个方面。(1)分析思绪不同。传统统计分析是一个“先假设,后关系”分析思绪。大数据关系分析往往是直接计算现象之间相依性,是既关联又关系。(2)关系形式不同。大数据时代,现象关系很复杂,不但可能是线性关系,更可能是非线性函数关系。更普通情况是,可能知道现象之间相依程度,但并不清楚关系形式。譬如半结构化数据变量和非结构化数据变量之间可能存在某种关联关系,但没法知道变量之间关系形式。(3)关系目标不同。大数据处理是流式数据,因为数据规模不停改变,变量间因果关系含有时效性,往往存在“此一时,彼一时”情况,探寻因果关系往往有点得不偿失。第43页第43

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论