大数据哪些事课件_第1页
大数据哪些事课件_第2页
大数据哪些事课件_第3页
大数据哪些事课件_第4页
大数据哪些事课件_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据那些事大数据那些事1目录

大数据时代1.背景历史、时代2.认知定义特点思维3.应用全方位大变革4.未来机遇挑战

5.思考正在发生的未来6.学习菜鸟进阶目录大数据1.背景2.认知3.应用4.未来5.思考6.学习22001年Gartner研究指出,现代信息社会的信息爆炸已经演变成了数据爆炸。2008年《Nature》杂志出版专刊“BigData”,分析了大量快速涌现数据给数据分析处理带来的巨大挑战。2011年《Science》推出关于数据处理的专刊“Dealingwithdata”,讨论了数据洪流(DataDeluge)所带来的挑战。5月麦肯锡全球研究院发布了《大数据:创新、竞争和生产力的下一个领域》研究报告。2012年3月奥巴马总统宣布美国政府投资逾2亿美元启动“大数据研究和发展计划(BDRDI)”。12月,维克托∙迈尔-舍恩伯格著作的《大数据时代:生活、工作与思维的大变革》。NO.1

背景—历史、时代2001年Gartner研究指出,现代信息社会的信息爆炸已经34

硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网NO.1

背景—历史、时代大数据时代到来的必然性:4硬件成本的降低NO.1背景—历史、时代大数据时代到来4NO.1

背景—历史、时代大数据时代真的来临了么?随着一系列标志性事件的发生和建立,人们越发感觉到大数据时代的力量。因此2013年被许多国外媒体和专家称为“大数据元年”。当今“大社会”,三分技术,七分数据,得数据者得天下。NO.1背景—历史、时代大数据时代真的来临了么?5麦肯锡全球研究院(2011)对大数据的定义是从数据集的大体量入手的:大数据是指那些规模大到传统的数据库软件工具已经无法采集、存储、管理和分析的数据集。百度百科对大数据的定义是:大数据(BigData),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。维克托∙迈尔-舍恩伯格(2012)在《大数据时代》一书中主要从价值大的角度来定义大数据,他认为大数据是当今社会所独有的一种新型的能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。NO.2

认知—定义、特点、思维大数据(BigData)的定义麦肯锡全球研究院(2011)对大数据的定义是从数据集的大体量6数据体量巨大。从TB级别跃升到PB级别。Volume大量存储量麦肯锡估计,全球企业2010年硬盘上存储了超过7EB的新数据,消费者在个人电脑等设备上存储了超过6EB的新数据。(相当于美国国会图书馆中存储数据的4000多倍)太字节,记作TB,1TB=1024GB;拍字节,记作PB,1PB=1024TB;艾字节,记作EB,1EB=1024PB;泽字节,记作ZB,1ZB=1024EB。。。。NO.2

认知—定义、特点、思维大数据的4V特点:Volume、Velocity、Variety、Value数据体量巨大。从TB级别跃升到PB级别。Volume大量7数据体量巨大。从TB级别跃升到PB级别。Volume大量存储量+计算量广州超算中心16000个运算节点312万个计算核心整体总计内存1.408PB12.4PB的硬盘阵列NO.2

认知—定义、特点、思维大数据的4V特点:Volume、Velocity、Variety、Value数据体量巨大。从TB级别跃升到PB级别。Volume大量8数据体量巨大。从TB级别跃升到PB级别。Volume大量Velocity高速处理速度快。1秒定律。这一点也是和传统的数据挖掘技术有着本质的不同。数据更新、增长速度快Facebook上每秒有4.1万张照片上传,2011年以发图1400亿张成为世界最大照片库。NO.2

认知—定义、特点、思维大数据的4V特点:Volume、Velocity、Variety、Value数据体量巨大。从TB级别跃升到PB级别。Volume大量9数据体量巨大。从TB级别跃升到PB级别。Volume大量Velocity高速处理速度快。1秒定律。这一点也是和传统的数据挖掘技术有着本质的不同。Variety多样数据类型繁多。不仅包括传统的关系数据类型,也包括以网页、音视频、文档等形式存在的未加工的、半结构化和非结构化的数据。NO.2

认知—定义、特点、思维大数据的4V特点:Volume、Velocity、Variety、Value数据体量巨大。从TB级别跃升到PB级别。Volume大量10数据体量巨大。从TB级别跃升到PB级别。Volume大量Velocity高速处理速度快。1秒定律。这一点也是和传统的数据挖掘技术有着本质的不同。Variety多样数据类型繁多。不仅包括传统的关系数据类型,也包括以网页、音视频、文档等形式存在的未加工的、半结构化和非结构化的数据。Value价值

价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。NO.2

认知—定义、特点、思维大数据的4V特点:Volume、Velocity、Variety、Value数据体量巨大。从TB级别跃升到PB级别。Volume大量11NO.2

认知—定义、特点、思维大数据的3个思维变革“更多”——不是随机样本,而是全体数据

当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。“更好”——不是因果关系,而是相关关系

知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。“更杂”——不是精确性,而是混杂性

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。NO.2认知—定义、特点、思维大数据的3个思维变革“更多12商业领域社会管理领域医疗保健领域教育领域大数据公共服务电子政务企业管理商业智能生活娱乐NO.3应用—全方位大变革情报收集气候天气总统选举天文宇宙生物医学商业社会管理领域医疗保健领域教育大数据公共电子企业商业生活N13&零售商电子商务NO.3应用—全方位大变革&零售商电子商务NO.3应用—全方位大变革14NO.3应用—全方位大变革预计2016年“百度大数据”上线对外付费试用NO.3应用—全方位大变革预计2016年“百度大数据”上15里昂市用大数据治堵里昂市开发了一套决策支持优化器,实时地报告交通的情况,并且来侦测拥堵的时间。NO.3应用—全方位大变革里昂市用大数据治堵里昂市开发了一套决策支持优化器,实时地报告16利用短信、微博、微信和搜索引擎,可以收集热点事件,挖掘舆情,还可以追踪造谣信息的源头。Farecast通过对于机票数据的趋势变化情况,提供票价预测的服务,准确度高达75%,到2012年为止,Farecast系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价。NO.3应用—全方位大变革利用短信、微博、微信和搜索引擎,可以收集热点事件,挖掘舆情,17NO.3应用—全方位大变革通过对全市的历史罪案以及出警纪录得出城市各种罪案高发区域,例如剁手区/掏包区/性侵区……等等,每天发布提醒,推送到市民的手机/平板等所有终端。我相信性侵区的流氓早晚会不堪重负而投案自首的。大数据在罪案预警的应用NO.3应用—全方位大变革通过对全市的历史罪案以及出警纪18

40天,36亿人次。这是2014年春运的总时间和总出行人数。在这场堪称人类历史上最大规模的短期迁徙中,人群从哪儿去了哪儿?哪些线路最热门?在以往,这些问题可能难以精确回答。但随着技术进步,通过应用“大数据”这一技术利器,人们已经接近“在迷宫中感受全局”地看见春运的全景。NO.3应用—全方位大变革大数据首次播报春运迁徙实况40天,36亿人次。这是2014年春运的总时19谷歌发现,某些搜索字词可以很好地标示流感疫情的现状。Google流感趋势使用了经过汇总的Google搜索数据库来测流感疫情。谷歌流感趋势项目NO.3应用—全方位大变革谷歌发现,某些搜索字词可以很好地标示流感疫情的现状。Go20奥巴马的数据团队对数以千万计的选民邮件进行了大数据挖掘,精确预测出了更可能拥护奥巴马的选民类型,并进行了有针对性的宣传,从而帮助奥巴马成为了美国历史上唯一一位在竞选经费处于劣势下实现连任的总统。大数据帮助奥巴马成功实现连任NO.3应用—全方位大变革奥巴马的数据团队对数以千万计的选民邮件进行了21通过大数据你可以知道:一个学生成绩不好是由于他因为周围环境而分心了吗?期末考试不及格是否说明学生未掌握学习内容,还是因为他请了很多病假的缘故?在加拿大,教育科技公司“渴望学习”(Desire2Learn)已经面向高等教育领域的学生,推出了基于过去的学习成绩数据预测并改善未来学习成绩的大数据服务项目。通过监控学生阅读电子化的课程材料、提交电子版的作业、通过在线与同学交流、完成考试与测验,就能让计算程序持续、系统地分析每个学生的教育数据。老师得到的不再是过去那种只展示学生分数与作业的结果,而是像阅读材料的时间长短等这样更为详细的重要信息。这样老师就能及时诊断问题的所在,提出改进的建议,并预测学生的期末考试成绩。NO.3应用—全方位大变革通过大数据你可以知道:22新华社新媒体中心联合数托邦创意分析工作室抓取了新浪微博上提及“爸爸去哪儿”45.5万条原创微博,并对36.7万独立原发作者用户(去除疑似水军账户)、1300余万条用户微博及近1亿的关系进行数据分析。结果发现:《爸爸去哪儿》不仅成为名副其实的“口碑王”,还使娱乐节目发生了很多微妙变化。

大爱在那儿!——《爸爸去哪儿》大数据解读NO.3应用—全方位大变革新华社新媒体中心联合数托邦创意分析工作室抓取了新浪微23粉丝性别比例:“爸爸粉”女性占到八成。难道是因为星爸太帅?当然,这与微博中女性用户占比较高和她们更爱分享转评的习惯也有关。用户年龄分布:覆盖适龄婚育群体,观众气质更显成熟。不少适龄青年发微博称,“看到某某,我也好想结婚,想有个这样的儿子/女儿。”地区偏好排行:《爸爸去哪儿》的观众明显向GDP高地聚集。对湘派娱乐节目免疫力极强的京、沪、苏、蜀等地罕见上榜。《爸爸去哪儿》偏好度前十省份中,有5个GDP十强省份,涵盖3个直辖市。这是否能说明,一部分“先富起来”的人,对亲子关系有更深的焦虑和更多的期待?NO.3应用—全方位大变革粉丝性别比例:“爸爸粉”女性占到八成。难道是因为星爸太帅?当24赞助商潜在赞助商明星同类节目竞争者节目组观众大数据解读可能的受益者满足了自己“八卦”的需求。对这个节目有了深入的了解。从《爸爸去哪儿》的成功中可以学到什么?本次赞助是否成功?成功在哪里?为以后广告的投放提供了经验。了解了自己及孩子在观众心中的“热度”,为下一步转型及孩子未来的规划提供参考。根据之前的数据分析,大胆推出了低成本同名电影并大获成功!第二季的拍摄紧锣密鼓地进行着……为决策提供支持。若自己的目标客户与该节目的观众一致,可以考虑下一季的赞助。NO.3应用—全方位大变革赞助商潜在赞助商明星同类节目竞争者节目组观众大数据解读可能的25赞助商热度:主冠名赞助商强势冒出,在几乎没有社交媒体营销配合下,微博热度强劲增长。英菲尼迪从第三期开始广告植入,话题增量立竿见影。思念水饺配合“爸爸吃神马”等互动促销,参与度有所增加。只是不知,三大赞助商的投入是否与这一结果完全契合?明星关注度:数据来自于每期节目播出后一周内5对父子的原发微博提及量(含昵称)。张亮父子低调亮相,关注度逐期上升,成功实现实现“逆袭”。NO.3应用—全方位大变革赞助商热度:主冠名赞助商强势冒出,在几乎没有社交媒体营销配合26机遇大数据技术促进国家和社会发展大数据蓝海成为企业竞争的新焦点大数据时代呼唤创新型人才挑战大数据技术的运用仍有困难大数据给信息安全带来新挑战NO.4未来—机遇与挑战机遇大数据技术促进国家和社会发展挑战大数据技术的运用仍有困难27大数据技术的运用前景是十分光明的。当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。NO.4未来—机遇与挑战机遇——大数据技术促进国家和社会发展大数据技术的运用前景是十分光明的。当前,我国28大数据所能带来的巨大商业价值,被认为将引领一场足以与20世纪计算机革命匹敌的巨大变革。大数据正在对每个领域都造成影响,包括商业、经济等领域。大数据正在促生新的蓝海,催生新的经济增长点,正在成为企业竞争的新焦点。在今天的大数据时代,商业的生态环境在不经意间发生了巨大的变化:网民和消费者的界限正在变得模糊,无处不在的智能终端,随时在线的网络传输,互动频繁的社交网络让以往只是网页浏览者的网民的面孔从模糊变得清晰,对于企业来说,他们第一次有机会进行大规模的精准化的消费者行为研究:作为保持着持续变革欲望的企业,主动地拥抱这种变化,从战略到战术层而开始自我的蜕变和进化将会让他们更加适应这个新的时代,大数据蓝海成为未来竞争的制高点。NO.4未来—机遇与挑战机遇——大数据蓝海成为企业竞争的新焦点大数据所能带来的巨大商业价值,被认为将引领29盖特纳咨询公司预测大数据将为全球带440万个IT新岗位和上千万个非IT岗位。麦肯锡公司预测美国到2018年需要深度数据分析人才44万——49万,缺口14万——19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。中国是人才大国,但能理解与应用大数据的创新人才更是稀缺资源。NO.4未来—机遇与挑战机遇——大数据时代呼唤创新型人才盖特纳咨询公司预测大数据将为全球带440万个IT新岗30数据收集要对来自网络包括物联网和机构信息系统的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,还可与历史数据对照,多角度验证数据的全面性和可信性。数据存储要达到低成本、低能耗、高可靠性目标,要用到冗余配置、分布化和云计算技术,存储时对数据进行分类,通过过滤和去重,减少存储量,并加入便于检索的标签。数据处理大数据的复杂性使得难以用传统的方法描述与度量,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态及可能模棱两可的数据中综合信息,并导出可理解的内容。结果的可视化呈现

使结果更直观以便于洞察。目前,尽管计算机智能化有了很大进步,但还只能针对小规模、有结构或类结构的数据进行分析,谈不上深层次的数据挖掘,现有的数据挖掘算法在不同行业中难以通用。目前,大数据技术的运用仍存在一些困难与挑战,体现在大数据挖掘的四个环节中。NO.4未来—机遇与挑战挑战——大数据技术的运用仍有困难数据收集要对来自网络包括物联网和机构信息系统的数据附上时31大量数据的集中存储增加了其泄露的风险;一些敏感数据的所有权和使用权并没有清晰界定。复杂的数据存储在一起,可能造成企业安全管理不合规;安全防护手段更新升级慢,存在漏洞黑客可收集更多有用信息,大数据分析让攻击更精准;大数据为黑客发起攻击提供了更多的机会加大隐私泄露风险对现有存储和安防措施提出挑战被运用到攻击手段中NO.4未来—机遇与挑战挑战——大数据给信息安全带来新挑战大量数据的集中存储增加了其泄露的风险;复杂的数据存储在一起,32“棱镜门”引爆大数据时代争议斯诺登的爆料引起一片哗然,根据他提供的资料,被卷入“棱镜门”事件的公司包括微软、雅虎、谷歌、苹果、Facebook等9大IT业巨头。在“棱镜门”事件开始发酵之后,这些公司先是赶紧出面否认与美国政府的监视项目进行过合作,并相继发表声明,呼吁政府采取更透明态度,以证明他们的“清白”。事情的起因是美国中情局前职员斯诺登向媒体爆料,过去6年间,美国的情报部门通过一个代号为“棱镜”的项目,从多家知名互联网公司获取电子邮件、在线聊天内容、照片、文档、视频等网络私人数据,跟踪用户一举一动。他说,自己只需要坐在办公桌前,动动指头,敲敲键盘,就能了解很多人的私密信息。NO.4未来—机遇与挑战“棱镜门”引爆大数据时代争议斯诺登的爆料引起一片哗然33一方面我们通过对大量用户数据的分析,公司、企业、政府都可以更好的了解用户行为、消费习惯的等等,从而可以提供更好的服务。但是另外一方面,这又不可避免的对用户的隐私构成威胁、挑战。很多人已经意识到,在数据的应用方面,相关法律法规的制定变得越来越重要。作为用户,需要明确界定自己在数据的使用方面具有什么权力和义务;作为企业和政府,需要逐渐的定位清楚,在多大程度上可以并且用什么样的方式来使用用户的数据。在现有的互联网结构下,我们所有的网络行为对于服务提供商来说都是透明的。人们既想借助互联网平台与别人交流,又想自己不被窥探,这是完全不可能的。网络隐私安全将是未来一个巨大的问题。NO.4未来—机遇与挑战一方面我们通过对大量用户数据的分析,公司、企34NO.5思考—正在发生的未来大数据的基础信条是正确的么?因为每一个数据点都可以被捕捉到,所以可以彻底淘汰过去那种抽样统计的方法;数据分析可以生成惊人准确的结果不用再寻找现象背后的原因,我们只需要知道两者之间有统计相关性就行了不再需要科学的或者统计的模型,”理论被终结了”。“N=所有”,以及采样偏差无关紧要,这些前提在绝大多数的实际情况下都是不成立的。当数据里的假像远远超过真相的时候,还持有“数据足够大的时候,就可以自己说出结论了”这种观点就显得过于天真了。如果简单的忽略掉那些反面的数据,比如Target的怀孕预测算法,那么我们很容易就会过高的估计算法的精确度如当我们处在一个变化的世界中(例如流感趋势预测所遇到的那样),或者是我们自己就想要改变这个环境,必须要探索事物的原因NO.5思考—正在发生的未来大数据的基础信条是正确的么?35NO.5思考—正在发生的未来人的作用—是预测未来OR创造未来?大数据改变了我们的生活,他能优化、提高、高效化并最终捕捉住利益,那直觉、信阳、不确定性和创意还能扮演什么角色呢?大数据促进了人类社会的巨大进步,但是进步的源泉是什么呢?……?大数据提供的不是最终答案,只是参考答案预测未来最好的办法就是创造未来NO.5思考—正在发生的未来人的作用—是预测未来OR创造36THEENDTHEEND37大数据那些事大数据那些事38目录

大数据时代1.背景历史、时代2.认知定义特点思维3.应用全方位大变革4.未来机遇挑战

5.思考正在发生的未来6.学习菜鸟进阶目录大数据1.背景2.认知3.应用4.未来5.思考6.学习392001年Gartner研究指出,现代信息社会的信息爆炸已经演变成了数据爆炸。2008年《Nature》杂志出版专刊“BigData”,分析了大量快速涌现数据给数据分析处理带来的巨大挑战。2011年《Science》推出关于数据处理的专刊“Dealingwithdata”,讨论了数据洪流(DataDeluge)所带来的挑战。5月麦肯锡全球研究院发布了《大数据:创新、竞争和生产力的下一个领域》研究报告。2012年3月奥巴马总统宣布美国政府投资逾2亿美元启动“大数据研究和发展计划(BDRDI)”。12月,维克托∙迈尔-舍恩伯格著作的《大数据时代:生活、工作与思维的大变革》。NO.1

背景—历史、时代2001年Gartner研究指出,现代信息社会的信息爆炸已经4041

硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网NO.1

背景—历史、时代大数据时代到来的必然性:4硬件成本的降低NO.1背景—历史、时代大数据时代到来41NO.1

背景—历史、时代大数据时代真的来临了么?随着一系列标志性事件的发生和建立,人们越发感觉到大数据时代的力量。因此2013年被许多国外媒体和专家称为“大数据元年”。当今“大社会”,三分技术,七分数据,得数据者得天下。NO.1背景—历史、时代大数据时代真的来临了么?42麦肯锡全球研究院(2011)对大数据的定义是从数据集的大体量入手的:大数据是指那些规模大到传统的数据库软件工具已经无法采集、存储、管理和分析的数据集。百度百科对大数据的定义是:大数据(BigData),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。维克托∙迈尔-舍恩伯格(2012)在《大数据时代》一书中主要从价值大的角度来定义大数据,他认为大数据是当今社会所独有的一种新型的能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。NO.2

认知—定义、特点、思维大数据(BigData)的定义麦肯锡全球研究院(2011)对大数据的定义是从数据集的大体量43数据体量巨大。从TB级别跃升到PB级别。Volume大量存储量麦肯锡估计,全球企业2010年硬盘上存储了超过7EB的新数据,消费者在个人电脑等设备上存储了超过6EB的新数据。(相当于美国国会图书馆中存储数据的4000多倍)太字节,记作TB,1TB=1024GB;拍字节,记作PB,1PB=1024TB;艾字节,记作EB,1EB=1024PB;泽字节,记作ZB,1ZB=1024EB。。。。NO.2

认知—定义、特点、思维大数据的4V特点:Volume、Velocity、Variety、Value数据体量巨大。从TB级别跃升到PB级别。Volume大量44数据体量巨大。从TB级别跃升到PB级别。Volume大量存储量+计算量广州超算中心16000个运算节点312万个计算核心整体总计内存1.408PB12.4PB的硬盘阵列NO.2

认知—定义、特点、思维大数据的4V特点:Volume、Velocity、Variety、Value数据体量巨大。从TB级别跃升到PB级别。Volume大量45数据体量巨大。从TB级别跃升到PB级别。Volume大量Velocity高速处理速度快。1秒定律。这一点也是和传统的数据挖掘技术有着本质的不同。数据更新、增长速度快Facebook上每秒有4.1万张照片上传,2011年以发图1400亿张成为世界最大照片库。NO.2

认知—定义、特点、思维大数据的4V特点:Volume、Velocity、Variety、Value数据体量巨大。从TB级别跃升到PB级别。Volume大量46数据体量巨大。从TB级别跃升到PB级别。Volume大量Velocity高速处理速度快。1秒定律。这一点也是和传统的数据挖掘技术有着本质的不同。Variety多样数据类型繁多。不仅包括传统的关系数据类型,也包括以网页、音视频、文档等形式存在的未加工的、半结构化和非结构化的数据。NO.2

认知—定义、特点、思维大数据的4V特点:Volume、Velocity、Variety、Value数据体量巨大。从TB级别跃升到PB级别。Volume大量47数据体量巨大。从TB级别跃升到PB级别。Volume大量Velocity高速处理速度快。1秒定律。这一点也是和传统的数据挖掘技术有着本质的不同。Variety多样数据类型繁多。不仅包括传统的关系数据类型,也包括以网页、音视频、文档等形式存在的未加工的、半结构化和非结构化的数据。Value价值

价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。NO.2

认知—定义、特点、思维大数据的4V特点:Volume、Velocity、Variety、Value数据体量巨大。从TB级别跃升到PB级别。Volume大量48NO.2

认知—定义、特点、思维大数据的3个思维变革“更多”——不是随机样本,而是全体数据

当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。“更好”——不是因果关系,而是相关关系

知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。“更杂”——不是精确性,而是混杂性

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。NO.2认知—定义、特点、思维大数据的3个思维变革“更多49商业领域社会管理领域医疗保健领域教育领域大数据公共服务电子政务企业管理商业智能生活娱乐NO.3应用—全方位大变革情报收集气候天气总统选举天文宇宙生物医学商业社会管理领域医疗保健领域教育大数据公共电子企业商业生活N50&零售商电子商务NO.3应用—全方位大变革&零售商电子商务NO.3应用—全方位大变革51NO.3应用—全方位大变革预计2016年“百度大数据”上线对外付费试用NO.3应用—全方位大变革预计2016年“百度大数据”上52里昂市用大数据治堵里昂市开发了一套决策支持优化器,实时地报告交通的情况,并且来侦测拥堵的时间。NO.3应用—全方位大变革里昂市用大数据治堵里昂市开发了一套决策支持优化器,实时地报告53利用短信、微博、微信和搜索引擎,可以收集热点事件,挖掘舆情,还可以追踪造谣信息的源头。Farecast通过对于机票数据的趋势变化情况,提供票价预测的服务,准确度高达75%,到2012年为止,Farecast系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价。NO.3应用—全方位大变革利用短信、微博、微信和搜索引擎,可以收集热点事件,挖掘舆情,54NO.3应用—全方位大变革通过对全市的历史罪案以及出警纪录得出城市各种罪案高发区域,例如剁手区/掏包区/性侵区……等等,每天发布提醒,推送到市民的手机/平板等所有终端。我相信性侵区的流氓早晚会不堪重负而投案自首的。大数据在罪案预警的应用NO.3应用—全方位大变革通过对全市的历史罪案以及出警纪55

40天,36亿人次。这是2014年春运的总时间和总出行人数。在这场堪称人类历史上最大规模的短期迁徙中,人群从哪儿去了哪儿?哪些线路最热门?在以往,这些问题可能难以精确回答。但随着技术进步,通过应用“大数据”这一技术利器,人们已经接近“在迷宫中感受全局”地看见春运的全景。NO.3应用—全方位大变革大数据首次播报春运迁徙实况40天,36亿人次。这是2014年春运的总时56谷歌发现,某些搜索字词可以很好地标示流感疫情的现状。Google流感趋势使用了经过汇总的Google搜索数据库来测流感疫情。谷歌流感趋势项目NO.3应用—全方位大变革谷歌发现,某些搜索字词可以很好地标示流感疫情的现状。Go57奥巴马的数据团队对数以千万计的选民邮件进行了大数据挖掘,精确预测出了更可能拥护奥巴马的选民类型,并进行了有针对性的宣传,从而帮助奥巴马成为了美国历史上唯一一位在竞选经费处于劣势下实现连任的总统。大数据帮助奥巴马成功实现连任NO.3应用—全方位大变革奥巴马的数据团队对数以千万计的选民邮件进行了58通过大数据你可以知道:一个学生成绩不好是由于他因为周围环境而分心了吗?期末考试不及格是否说明学生未掌握学习内容,还是因为他请了很多病假的缘故?在加拿大,教育科技公司“渴望学习”(Desire2Learn)已经面向高等教育领域的学生,推出了基于过去的学习成绩数据预测并改善未来学习成绩的大数据服务项目。通过监控学生阅读电子化的课程材料、提交电子版的作业、通过在线与同学交流、完成考试与测验,就能让计算程序持续、系统地分析每个学生的教育数据。老师得到的不再是过去那种只展示学生分数与作业的结果,而是像阅读材料的时间长短等这样更为详细的重要信息。这样老师就能及时诊断问题的所在,提出改进的建议,并预测学生的期末考试成绩。NO.3应用—全方位大变革通过大数据你可以知道:59新华社新媒体中心联合数托邦创意分析工作室抓取了新浪微博上提及“爸爸去哪儿”45.5万条原创微博,并对36.7万独立原发作者用户(去除疑似水军账户)、1300余万条用户微博及近1亿的关系进行数据分析。结果发现:《爸爸去哪儿》不仅成为名副其实的“口碑王”,还使娱乐节目发生了很多微妙变化。

大爱在那儿!——《爸爸去哪儿》大数据解读NO.3应用—全方位大变革新华社新媒体中心联合数托邦创意分析工作室抓取了新浪微60粉丝性别比例:“爸爸粉”女性占到八成。难道是因为星爸太帅?当然,这与微博中女性用户占比较高和她们更爱分享转评的习惯也有关。用户年龄分布:覆盖适龄婚育群体,观众气质更显成熟。不少适龄青年发微博称,“看到某某,我也好想结婚,想有个这样的儿子/女儿。”地区偏好排行:《爸爸去哪儿》的观众明显向GDP高地聚集。对湘派娱乐节目免疫力极强的京、沪、苏、蜀等地罕见上榜。《爸爸去哪儿》偏好度前十省份中,有5个GDP十强省份,涵盖3个直辖市。这是否能说明,一部分“先富起来”的人,对亲子关系有更深的焦虑和更多的期待?NO.3应用—全方位大变革粉丝性别比例:“爸爸粉”女性占到八成。难道是因为星爸太帅?当61赞助商潜在赞助商明星同类节目竞争者节目组观众大数据解读可能的受益者满足了自己“八卦”的需求。对这个节目有了深入的了解。从《爸爸去哪儿》的成功中可以学到什么?本次赞助是否成功?成功在哪里?为以后广告的投放提供了经验。了解了自己及孩子在观众心中的“热度”,为下一步转型及孩子未来的规划提供参考。根据之前的数据分析,大胆推出了低成本同名电影并大获成功!第二季的拍摄紧锣密鼓地进行着……为决策提供支持。若自己的目标客户与该节目的观众一致,可以考虑下一季的赞助。NO.3应用—全方位大变革赞助商潜在赞助商明星同类节目竞争者节目组观众大数据解读可能的62赞助商热度:主冠名赞助商强势冒出,在几乎没有社交媒体营销配合下,微博热度强劲增长。英菲尼迪从第三期开始广告植入,话题增量立竿见影。思念水饺配合“爸爸吃神马”等互动促销,参与度有所增加。只是不知,三大赞助商的投入是否与这一结果完全契合?明星关注度:数据来自于每期节目播出后一周内5对父子的原发微博提及量(含昵称)。张亮父子低调亮相,关注度逐期上升,成功实现实现“逆袭”。NO.3应用—全方位大变革赞助商热度:主冠名赞助商强势冒出,在几乎没有社交媒体营销配合63机遇大数据技术促进国家和社会发展大数据蓝海成为企业竞争的新焦点大数据时代呼唤创新型人才挑战大数据技术的运用仍有困难大数据给信息安全带来新挑战NO.4未来—机遇与挑战机遇大数据技术促进国家和社会发展挑战大数据技术的运用仍有困难64大数据技术的运用前景是十分光明的。当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。NO.4未来—机遇与挑战机遇——大数据技术促进国家和社会发展大数据技术的运用前景是十分光明的。当前,我国65大数据所能带来的巨大商业价值,被认为将引领一场足以与20世纪计算机革命匹敌的巨大变革。大数据正在对每个领域都造成影响,包括商业、经济等领域。大数据正在促生新的蓝海,催生新的经济增长点,正在成为企业竞争的新焦点。在今天的大数据时代,商业的生态环境在不经意间发生了巨大的变化:网民和消费者的界限正在变得模糊,无处不在的智能终端,随时在线的网络传输,互动频繁的社交网络让以往只是网页浏览者的网民的面孔从模糊变得清晰,对于企业来说,他们第一次有机会进行大规模的精准化的消费者行为研究:作为保持着持续变革欲望的企业,主动地拥抱这种变化,从战略到战术层而开始自我的蜕变和进化将会让他们更加适应这个新的时代,大数据蓝海成为未来竞争的制高点。NO.4未来—机遇与挑战机遇——大数据蓝海成为企业竞争的新焦点大数据所能带来的巨大商业价值,被认为将引领66盖特纳咨询公司预测大数据将为全球带440万个IT新岗位和上千万个非IT岗位。麦肯锡公司预测美国到2018年需要深度数据分析人才44万——49万,缺口14万——19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。中国是人才大国,但能理解与应用大数据的创新人才更是稀缺资源。NO.4未来—机遇与挑战机遇——大数据时代呼唤创新型人才盖特纳咨询公司预测大数据将为全球带440万个IT新岗67数据收集要对来自网络包括物联网和机构信息系统的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,还可与历史数据对照,多角度验证数据的全面性和可信性。数据存储要达到低成本、低能耗、高可靠性目标,要用到冗余配置、分布化和云计算技术,存储时对数据进行分类,通过过滤和去重,减少存储量,并加入便于检索的标签。数据处理大数据的复杂性使得难以用传统的方法描述与度量,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态及可能模棱两可的数据中综合信息,并导出可理解的内容。结果的可视化呈现

使结果更直观以便于洞察。目前,尽管计算机智能化有了很大进步,但还只能针对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论