




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据时代与大数据
——数据分析的新理念
厦门大学数据挖掘研究中心厦门大学经济学院统计系朱建平博士、教授、博士生导师:///xmjpzhu@163编辑课件大数据时代与大数据
——数据分析的新理念
第一局部:大数据与大数据时代一、大数据产生的背景二、国内开展现状三、大数据概念的界定第二局部:数据分析的新理念四、如何理解大数据和分析大数据五、大数据对统计学科和统计研究工作的影响编辑课件一、大数据产生的背景1955年信息公开1965年摩尔定律1973年最小数据集1980年标准数据接口1988年普适计算2000年数据驱动1955年,约翰•摩斯提出?自由信息法?草案,几经周折,直到1965年才被参议院投票通过,直到次年7月4日才被美国总统签字通过。摩尔定律:同一个面积集成电路上可容纳的晶体管数目,一到两年将增加一倍,亦即计算机硬件的处理速度和存储能力将提升一倍。最小数据集的概念起源于美国医疗领域,指代国家的管理层面针对某个业务管理领域强制搜集的数据指标。一些领域的最小数据集甚至被上升到立法高度。数据在不同信息管理系统之间的共享也使数据接口的标准化越来越得到强调。编辑课件返回主机型计算阶段〔MainframeComputing〕个人型计算阶段〔PersonalComputing〕普适计算阶段〔UbiquitousComputing〕编辑课件二、国内开展现状近年来,对大数据的研究和应用不仅引起了我国自然科学和人文社会科学界的广泛重视,也受到我国中央政府的高度关注:这些是大数据产业的重要组成局部,与大数据产业开展密切相关。?“十二五〞国家战略性新兴产业开展规划?明确提出支持海量数据存储、处理技术的研发与产业化?物联网“十二五〞开展规划?提出将信息处理技术列为四项关键技术创新工程之一编辑课件2021年2月国家统计局召开的以大数据为主题的工作会议2021年3月26日科研所又举办了“大数据在政府统计工作中的应用研究〞课题研究专家咨询会2021年3月4日国家统计局科研所重点讨论部署了“大数据在政府统计中的应用〞的研究工作2021年12月国家统计局在上海开展了大数据应用的调研活动2021年11月国家统计局总统计师鲜祖德会见美国华裔大数据专家时,提出国家统计局十分重视大数据在统计中的应用,并成立了课题组研究如何通过对大数据处理推进统计方法制度改革,改进政府统计工作我国国家统计局科研所于2021年8月就召开了大数据应用研究座谈会,提出了在大数据时代运用现代信息技术建立统计云架构的研究目标。2021年4月11日,国家统计局总统计师鲜祖德率领大数据课题组赴百度公司调研,就大数据在政府统计中的应用及相关合作事宜,与百度公司有关领导和专家进行了深入交流2021年5月2日国家统计局科研所青年学术沙龙深入研讨大数据应用2021年8月6日,国家统计局总统计师鲜祖德主持召开了“大数据在政府统计中的探索与应用研究〞课题报告座谈会2021年10月28日-29日,“第十七次全国统计科学讨论会〞在浙江省杭州市召开。主题是:大数据背景下的统计。2021年11月19日,国家统计局与阿里、百度等11家企业签署了大数据战略合作框架协议。编辑课件2021年11月19日下午,国家统计局与上海钢联电子商务股份、山东卓创资讯集团、58同城信息技术、天云融创数据科技〔北京〕、中国联合网络通信、天脉聚源〔北京〕传媒科技、百度在线网络技术〔北京〕、阿里巴巴〔中国〕、纽海信息技术〔上海〕、昆明泛亚有色金属交易所股份和南京擎天科技共11家企业在京签订了大数据战略合作框架协议,共同推进大数据在政府统计中的应用,不断增强政府统计的科学性和及时性。编辑课件?大数据在政府统计中的探索与应用?2021年10月1日出版编辑课件2021年2月25日,国家统计局局长马建堂赴北京市中关村,考察中关村国家自主创新示范区、中关村数海大数据交易平台和京东商城。他说,统计部门要孜孜不倦推动大数据在政府统计中应用,不断加大与各类企业在大数据应用中合作力度,努力打造政府统计数据来源第二轨,使统计数据更加真实准确,为社会提供更加优质统计效劳。编辑课件2021年3月22日,国家社科基金重大工程?大数据与统计学理论的开展研究?开题研讨会在厦门大学举行。中国统计学会副会长兼秘书长、国家统计局统计科学研究所所长潘璠作为子课题五?大数据下的统计方法实际应用探索?的负责人,介绍了大数据在政府统计中的研究进展及相关应用动态。编辑课件2021年4月4日上午,马建堂在浙江省副省长朱从玖的陪同下,来到阿里巴巴集团,对集团的电子商务业务进行调研。听取了阿里巴巴集团近年来业务开展状况和大数据应用情况的报告,深入了解了天猫和淘宝网两个网上零售交易平台的运营模式、商家规模、交易体量、开展速度和大数据业务,与阿里巴巴有关负责人探讨了利用网络平台日常交易产生的大数据完善贸易统计的设想。编辑课件2021年5月8日,国家统计局局长马建堂赴上海调研大数据在统计工作中的应用。马建堂强调,统计部门要顺势而为,以更加积极开放的心态拥抱大数据时代,以大数据利用为引擎,助力进一步提升统计数据搜集能力、完善统计制度方法、加强经济形势分析、提高统计数据质量,更好地效劳经济社会开展。编辑课件2021年5月20日,是北京入夏以来最热的一天。下午2点多,国家统计局局长马建堂一行来到了位于上地十街的百度公司调研大数据生产及应用情况。编辑课件2021年7月9日下午,科研所所长潘璠、数管中心副司级干部李金宽等一行4人到访中国联通公司,与联通研究院、集团客户事业部等部门负责人就大数据合作事宜进行深入座谈交流。编辑课件2021年8月22日,国家统计局统计科研所所长潘璠一行,在深圳市统计局总统计师胡卫东等的陪同下,分别到访总部设在深圳的顺丰速运和阿里巴巴一达通企业效劳,与企业相关负责人就大数据合作事宜进行深入沟通。编辑课件2021年9月27-28日第十五次全国中青年统计科学研讨会日前在天津财经大学举行,来自全国的统计专家、学者、中青年统计科研人员、统计工作者及大专院校师生,以“大数据的统计展望〞为主题进行了广泛而深入的交流。徐一帆向大会致辞,国家统计局副局长、中国统计学会副会长李强作了“全面推进和深化统计改革〞的专题报告,总统计师鲜祖德主持了会议开幕式。编辑课件国家统计局2021年9月29日召开“大数据与统计建模〞视频报告会,来自全国统计建模大赛的5支获奖代表队就各自利用大数据进行统计建模的论文成果进行了主题汇报。国家统计局副局长、全国统计建模大赛组委会主任委员张为民要求国家统计局各有关专业司、各省统计局、国家统计局各调查总队要充分重视大数据时代为统计系统带来的机遇和挑战,深入研究大数据在统计工作当中的应用,奋力推进统计事业改革开展。国家统计局副局长徐一帆、许宪春、李强,党组纪检组长高建华,总统计师鲜祖德,总经济师李晓超一同出席了此次报告会。编辑课件2021年9月30日,国家统计局在京举行大数据应用报告会,与6家企业签署大数据战略合作框架协议。国家统计局局长马建堂作重要讲话。他强调,统计部门将携手合作企业共同开发利用大数据,共同推进大数据产业化,积极构建由结构化数据和大数据为根底来源的现代化政府统计,奋力抢占大数据开发应用制高点,生产更多、更好、更有价值的统计产品,为国家宏观调控、人民生活改善、社会福祉提升提供坚实数据支撑。国家统计局与上海航运交易所、北京易观网络信息咨询、北京搜房网络技术、北京数海科技、浪潮集团、深圳市腾讯计算机系统共6家企业签署合作协议。编辑课件厦门大学数据挖掘研究中心于2021年6月6日向国家统计局统计科学研究所提交?厦门大学数据挖掘研究中心关于合作成立大数据实验室的建议?,建议联合国家统计局统计科学研究所和台湾辅仁大学商学研究所成立“厦门大学数据挖掘研究中心大数据实验室〞。2021年10月17日正式举行了揭牌仪式。该实验中心将联合厦门沸腾网络科技,共同推动数据挖掘和大数据研究与应用。编辑课件由中国国家统计局和联合国统计司联合主办的“大数据和官方统计〞国际会议2021年10月28日在京开幕。国家统计局局长马建堂出席会议并致辞,联合国统计司司长斯特芬﹒施万斯特,联合国大数据全球工作小组主席、澳大利亚统计局副局长特雷弗﹒萨顿也分别在开幕式上致辞。国家统计局副局长谢鸿光主持开幕式,副局长李强做主旨发言。这次会议讨论的主要内容包括:大数据和国际统计开展;、全球定位系统和其他跟踪装置;卫星影像和其他地理空间信息;Twitter和其他社交媒体;网络交易和扫描数据;大数据来源的共性及隐私问题;开展中国家引入创新;未来之路——大数据的应用。编辑课件
来自联合国统计司、联合国全球脉动行动、联合国欧洲经济委员会、联合国亚太经社会、联合国亚太统计研究所、欧盟统计局、海湾阿拉伯国家合作委员会统计中心、国际货币基金组织、国际电信联盟、世界银行、万国邮政联盟等11个国际组织,以及澳大利亚、孟加拉国、加拿大、哥伦比亚、丹麦、埃及、德国、印度、印尼、爱尔兰、意大利、日本、马来西亚、墨西哥、摩洛哥、荷兰、阿曼、巴基斯坦、菲律宾、韩国、新加坡、坦桑尼亚、泰国、阿拉伯联合酋长国、美国、越南和中国等27个国家的近120位代表参加研讨会。编辑课件国家统计局局长马建堂为经济开展新常态提供更加优质的统计保障——2021年元旦献辞
(2021)研究应用大数据迈出实质性步伐,在价格统计、贸经统计、建设领域统计、交通运输统计和经济监测分析应用中取得初步成果。(2021)继续深化重点领域统计改革,不断稳固和拓展统计生产方式变革成果,加快利用大数据、云计算奋力打造数据生产新兴之轨,大力推进依法统计,深入开发利用三经普资料,全面启动第三次全国农业普查,认真做好全国1%人口抽样调查,扎实开展各项常规统计调查,持之以恒夯实统计业务根底和基层根底,坚决打造廉洁统计,为党和政府以及社会各界提供更加优质统计效劳。编辑课件国内各地制定云计算“十二五〞规划云计算、物联网园区中国各地制定或公布了云计算、物联网等产业规划;这些工程的初始着眼点在房地产,政绩工程居多,大数据作为核心内容端,使得政绩工程变为使用工程。
云计算、物联网、社交化媒体、GIS为大数据提供了丰富的数据来源。因此大数据中包括的每个用户的身份、地点、时间、喜好、厌恶、社会关系等等大量的信息。伴随数据挖掘和分析的技术开展,我们即将步入基于大数据的智能化时代。云计算、物联网从政绩工程变成实用工程编辑课件广东省政府于2月26日印发了?广东省经济和信息化委员会主要职责内设机构和人员编制规定?。?规定?明确了广东省经济和信息化委员会16项职责。根据职责,广东省经济和信息化委员会设21个内设机构,其中包括成立广东省大数据管理局。其具体职责是:研究拟订并组织实施大数据战略、规划和政策措施,引导和推动大数据研究和应用工作;组织制定大数据收集、管理、开放、应用等标准标准;推动形成全社会大数据形成机制的建立和开发应用;承担企业情况综合工作,负责企业数据收集和存储;组织编制电子政务建设规划并组织实施;组织协调政务信息资源共享;组织协调省级重大电子政务工程建设,组织协调网上办事大厅等电子政务一站式效劳建设;负责统筹政务信息网络系统、政务数据中心的建设、管理;统筹协调信息平安保障体系建设;承担信息平安等级保护、应急协调和数字认证相关工作。编辑课件2021.10.13福建省人民政府?关于支持大数据产业重点园区加快开展十条措施的通知?〔闽政〔2021〕52号〕各市、县〔区〕人民政府,平潭综合实验区管委会,省人民政府各部门、各直属机构,各大企业,各高等院校:为推动数字福建〔长乐〕产业园、中国国际信息技术〔福建〕产业园〔以下简称园区〕加快建设成为全省大数据产业重点园区和“数字福建〞建设的重要承载基地,现提出如下措施:编辑课件一、完善园区开展规划二、引进培育产业龙头三、推动资源会聚开发四、建设大数据创新平台五、加强人才引进培养六、做好园区用地保障七、确保园区用电需求八、强化园区网络支撑九、实施财税优惠政策十、提高平安保障能力本通知确定的相关优惠政策自印发之日起施行。园区所在市、县政府要主动靠前效劳,积极创新园区运作模式、资本运作模式、产业协作模式,及时为入园企业解决具体问题,为园区开展营造良好环境。省直有关部门要按照职责分工,加强指导和效劳,大力支持园区开展,确保赋予入园企业的各项优惠政策落实到位。编辑课件统计学是一门古老的学科,已经有三百多年的历史,在自然科学和人文社会科学的发展中起到了举足轻重的作用统计学又是一门生命力及其旺盛的学科,它海纳百川又博采众长她随着各门具体学科的发展不断壮大自己毫不例外,大数据时代的到来,给统计学科带来了发展壮大机会的同时,也使得统计学科面临着重大的挑战。怎样深刻地认识和把握这一发展契机,怎样更好地理解和应对这一重大挑战,这就迫使我们需要澄清大数据的概念、明确大数据的特征;重新审视统计的工作过程、提出新的思想理念编辑课件三、大数据概念的界定我们查阅了大量的关于大数据方面的资料,对大数据概念的定义众说纷纭,对大数据的理解决于定义者的观点和背景。比较有代表性的定义主要有以下几种。维基百科给出的定义是,大数据指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内到达撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据科学家JohnRauser提出一个简单的定义是,大数据指任何超过了一台计算机处理能力的数据。编辑课件美国咨询公司麦肯锡的报告是这样定义的,大数据是指无法在一定时间内用传统数据库软件工具对其进行抓取、管理和处理的数据集合。Gartner公司的MervAdrian〔2021〕认为,大数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力。IDC(InternationalDataCorporation,2021〕对大数据概念的描述为:大数据是一个看起来似乎来路不明的大的动态过程;但是实际上,大数据并不是一个新生事物,虽然他确确实实正在走向主流并引起广泛的注意;大数据并不是一个实体,而是一个横跨很多IT边界的动态活动。编辑课件还有一些学者如格雷布林克〔Grobelink.M〕〔2021〕、Forrester的分析师布赖恩·霍普金斯〔BrianHopkins〕、鲍里斯·埃韦尔松〔BorisEvelson〕〔2021〕和Oracle〔甲骨文〕的刘念真〔2021〕等虽未给出大数据的具体定义,但是他们概括了大数据的特点。格雷布林克〔2021〕认为大数据具有三个特点,即多样性〔Variety〕、大量性〔Volume〕、高速性〔Velocity〕,又称3V特点。布赖恩·霍普金斯〔BrianHopkins〕、鲍里斯·埃韦尔松〔BorisEvelson〕〔2021〕认为,除了格雷布林克给出的三个特性外,大数据还具有易变性〔Variability〕的特点,即4V特点。刘念真那么认为大数据除了Grobelink.M给出的特点外,还具有真实性〔Veracity〕和价值性〔Value〕,即五V特点。编辑课件大数据科学研究还刚刚起步,既然是研究,我们就要理解其的内在的涵义。这些对大数据概念的表达方式虽然不同,但从各自的角度描述出了对大数据的理解。从外表看我们可以从两个角度来理解,如果把“大数据〞看成是形容词,它描述的是大数据时代数据的特点;如果把“大数据〞看成是名词,它表达的是我们科学研究的对象。编辑课件1、“大数据时代〞的定义格雷布林克〔Grobelink.M〕在?纽约时报?2021年2月的一篇专栏中所称,“大数据时代〞已经降临,在商业、经济及其他领域中,管理者决策越来越依靠数据分析,而不是依靠经验和直觉。“大数据〞概念之所以被炒得如火如荼,是因为大数据时代已经到来。理解大数据,必须首先理解大数据的时代背景,这样就有必须澄清大数据时代的含义。编辑课件广泛性公开性动态性社会性大数据时代特点
我们可以这样来定义大数据时代,大数据时代是建立在对互联网、物联网等渠道广泛大量数据资源收集根底上的数据存储、价值提炼、智能处理和分发的信息时代。在这个时代,可以致力于让人们能够从几乎任何数据中获得可转换为推动人们生活方式变化的有价值的知识。编辑课件社会性世界范围的计算机联网,数据流通取代产品流通,将生产演变成服务,将工业劳动演变成信息劳动。产品不需要离开它的原始占有者就能够被交换,这类产品通过计算机网络可以大量复制和分配,其价值增加是通过知识实现实现这一价值的主要工具就是计算机软件。广泛性计算机技术不仅促进自然科学和人文社会科学各个领域的发展,而且全面融入了人们的社会生活中人们在不同领域采集到的数据量之大,达到了前所未有的程度,数据的产生、存储和处理方式发生了革命性的变化人们的工作和生活基本上都可以用数字化表示,在一定程度上改变了人们的工作和生活方式编辑课件公开性大数据时代展示了从信息公开运动到数据技术演化的多维画卷虽然考虑对于用户隐私的保护,但是大数据必然产生于一个开放的,公共的网络环境之中。一系列受到法律支持或社会公认的数据标准和规范这种公开性和公共性的实现取决于若干个网络开放平台或云服务动态性大数据是基于互联网的及时动态数据数据资料可以随时随地产生,数据资料的收集具有动态性数据存储技术、数据处理技术也随时更新,即处理数据的工具也具有动态性编辑课件2、“大数据〞的定义我们认为大数据定义之所以众说纷纭,没有形成统一的定义。主要是因为大数据如其名一样,所涉内容太“大〞,大家看它的角度不一样,于是出现了仁者见仁,智者见智的局面。在了解大数据的历史沿革和大数据所处的时代背景后,我们就可以进一步充分了解大数据的内涵。这里我们需要提及的是,大数据也是数据,统计学应该随时地关注大数据分析,哪里有数据,哪里就有统计分析。因此,鉴定“大数据〞应该在现有科学技术的根底上引入统计学的思想。编辑课件我们可以这样来定义“大数据〞,大数据指那些超过传统数据系统处理能力、超越经典统计思想研究范围、不借用网络无法用主流软件工具及技术进行单机分析的复杂数据的集合。对于这一数据集合,在一定的条件下和合理的时间内,我们可以通过现代计算机技术和创新统计方法,有目的地进行设计、获取、管理、分析,揭示隐藏在其中的有价值的模式和知识。大数据特点大量性多样性价值性高速性编辑课件半结构化数据结构化数据非结构化数据高度发达的网络技术承载数据资料的个人电脑、手机、平板电脑等数据资料的来源范围在不断拓展人类获得数据资料在不断更改数据的计量单位我们认为大数据的根本特征可以表达在以下四个方面1.大量性2.多样性最小的根本单位是Byte,所有单位:Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB。按照进率1024〔2的十次方〕编辑课件大数据规模巨大,数据在不断更新变化,这些有价值的信息可能转瞬即逝,因此,在大数据时代,对数据的接收和处理思想都需要转变,如何通过强大的机器算法更迅速地完成数据的价值“提纯〞成为目前大数据背景下亟待解决的难题。3.价值性
处理时效性高,因为大数据有价值信息存在时间短,要求能迅速有效地提取大量复杂数据中的有价值信息。在如此海量的数据面前,处理数据的效率就是企业的生命。4.高速性编辑课件四、如何理解大数据和分析大数据
维克多〔VikorMayer-Schǒnberger〕在其?大数据时代?一书中提到传统的数据分析思想应作三大转变:一是转变抽样思想;二是转变数据测量的思想;三是不再探求难以捉摸的因果关系。毫无疑问,上述三个转变均与统计研究工作息息相关,从统计研究工作角度如何理解?编辑课件1、转变抽样调查工作思想大数据时代,我们面对的数据样本就是过去资料的总和,样本就是总体,通过对所有与事物相关的数据进行分析,既有利于了解总体,又有利于了解局部。总的来讲,传统的统计抽样调查方法有以下几个方面的缺乏可以在大数据时代得到改进。〔1〕抽样框不稳定,随机取样困难。〔2〕事先设定调查目的,会限制调查的内容和范围。〔3〕样本量有限,抽样结果经不起细分。〔4〕纠偏本钱高,可塑性弱。编辑课件2、转变对数据精确性的要求在大数据时代,由于数据来源广泛和数据处理技术的不断进步,数据的不精确性是允许的,我们应该接受纷繁芜杂的各类数据,不应一味追求数据的精确性,以免因小失大。〔1〕大数据时代,数据规模大,数据不精确性在所难免,盲目追求数据的精确性不可取。〔2〕大数据时代,数据不精确性不仅不会破坏总体信息,还有利于了解总体。大数据时代,越来越多的数据提供越来越多的信息,也会让人们越来越了解总体真实情况。〔3〕大数据时代,允许不精确性是针对大数据,而不是统一标准。大数据的不精确性是偶然产生的,而不是为了不精确性而制造不精确。编辑课件3、转变数据关系分析的重点在大数据时代,分析数据不再探求难以琢磨的因果关系,转而关注事物的相关关系。需要注意的是,大数据时代事物之间大数据的相关分析与传统统计学相关分析并不完全相同,主要表现在以下几个方面。〔1〕分析思路不同。传统统计分析是一个“先假设,后关系〞的分析思路。大数据关系分析往往是直接计算现象之间的相依性,是既关联又关系。〔2〕关系形式不同。大数据时代,现象的关系很复杂,不仅可能是线性关系,更可能是非线性函数关系。更一般的情况是,可能知道现象之间相依的程度,但并不清楚关系的形式。譬如半结构化数据变量和非结构化数据变量之间可能存在某种关联关系,但没法知道变量之间关系的形式。〔3〕关系目的不同。大数据处理的是流
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物联网深度学习驱动的深大通系统性能提升-洞察阐释
- 数字技术创新对城市经济结构转型的推动作用
- 高端旅游景点定制服务行业深度调研及发展项目商业计划书
- 面向未来的组织变革策略-洞察阐释
- 江苏海洋大学《体育散打》2023-2024学年第二学期期末试卷
- 广东江门幼儿师范高等专科学校《数据结构与算法基础》2023-2024学年第二学期期末试卷
- 南京填空题目及答案
- 目标模式的题目及答案
- 山东建筑大学《口腔材料》2023-2024学年第二学期期末试卷
- 辽宁理工学院《理论力学C》2023-2024学年第二学期期末试卷
- 内功四经内功真经真本全书
- 2021年度中国一线城市出行平台调研报告
- 贵州省毕节市各县区乡镇行政村村庄村名明细居民村民委员会
- 幼儿园小班社会:《红绿灯》 课件
- isa-381g站用变接地保护测控装置技术使用说明书南网版v3
- 六年级劳动教育7.青椒炒肉丝(课件)
- 油气藏类型、典型的相图特征和识别实例
- 《议程设置理论》
- 取力器的设计设计说明书
- 10kv高压架空电线防护方案概述
- 铸造厂各岗位职责标准xls
评论
0/150
提交评论