大数据导论PPT5.教案_第1页
大数据导论PPT5.教案_第2页
大数据导论PPT5.教案_第3页
大数据导论PPT5.教案_第4页
大数据导论PPT5.教案_第5页
已阅读5页,还剩112页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE《大数据导论》课程教案(讲稿)适用专业:计算机、软件工程二○二一年九月第3页《大数据导论》教案首页课程名称大数据导论课程编号学分3课程类型□通识课□专业基础课□专业主干课□专业选修课任课教师职称教学层次■本科□专科授课对象计算机/软件系(专业)年级班教学周数15周学时总数45学时学时分配课堂讲授30学时实验实践15学时教材名称大数据导论教材作者李昆仑、熊婷出版社清华大学出版社出版时间2021参考资料《大数据导论》,周苏主编,清华大学出版社,2016年《大数据导论》,孟宪伟,许桂秋主编,人民邮电出版社,2019年《大数据导论》,林子雨主编,人民邮电出版社,2020年教研室主任意见教研室主任签字:年月日《大数据导论》教案课程名称大数据导论授课时间第周,星期,节(年月日)课次1授课方式□理论课□实验课□其他课时2授课题目大数据概述主要内容:本章主要从各个角度介绍大数据的相关概念,第一章节介绍了大数据的时代背景,第二章节具体介绍大数据的定义、大数据所包含的技术,第三章节介绍了大数据的结构类型以及大数据的未来发展。目的与要求:通过本次课的学习,让学生掌握大数据的概念,理解什么是大数据,大数据包含哪些技术,通过学习让学生掌握大数据的结构类型以及未来大数据的发展趋势,及未来发展的主要领域。重点与难点:重点:大数据的定义、大数据所包含的技术以及大数据的结构类型。难点:大数据所包含的技术、大数据的结构类型教具(多媒体、模型、图表等):多媒体教学,有配套的教学课件,机房实践相结合《大数据导论》教案教学内容教学方法时间分配1.1大数据时代1.2大数据的概念1.3大数据的特征1.4发展大数据的意义多媒体教学与机房实践相结合2个课时课堂设问:1.你是怎样理解人类社会已经进入了大数据时代?2.用一个例子说明什么是大数据?3.分析下大数据的特点有哪些?教学内容小结:本次课主要介绍大数据与大数据时代给我们带来的影响,通过前面的导读案例让学生初步理解什么是大数据,以及大数据的应用,后面详细介绍了大数据的相关概念,大数据的结构类型以及大数据未来的发展方向。让学生通过学习掌握大数据及大数据的相关理论知识,达到我们的教学目标。复习思考题或作业题:什么是大数据?大数据技术的意义何在?大数据的结构类型有哪些?大数据的发展前景如何?大数据的特点有哪些?大数据对我们时代的影响体现在哪些方面?教学后记(此项内容在课程结束后填写):通过本章的学习,要求学生掌握本章所讲述的一些基本概念,掌握大数据的结构类型以及未来的发展趋势。第11页《大数据导论》讲稿第1章大数据概述1.1大数据时代近年来,伴随着云计算、大数据、物联网、人工智能等信息技术的快速发展和传统产业数字化的转型,数据量呈现几何级增长。到2020年底,全球数据规模达40ZB。如果你对这些数字仍然感到难以把控的话,接下来一组名为“互联网上一天”的数据可以清晰地告诉你,一天之内,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量),人类计量数据量的单位也从TB级别上升到PB、EB乃至ZB级别。毫无疑问,大数据时代已经来临。从2006到在2021年,大数据在IT行业、医疗、民生、金融、学术等多个领域中炙手可热,行业领导人也对其保持着高度的重视,关注其能够带来的科学价值和社会价值。第三次科学技术革命的蓬勃发展,为大数据时代的到来奠定了良好基础。互联网的普及、信息技术的发展、云计算的成熟、遍布的智能终端等,无时无刻不记录着人类产生的“数据足迹”,每个人都在毫无意识地成为数据的提供者。如今的数据已经不单单是信息技术及科学研究领域人员的专有名词,冠有量词属性的“大数据”早已成为一种引人注目的新思潮,成为人们认识事物、分析事物、探索新发现及追求创新的新范畴。1.2大数据的概念通过对大量文献资料追踪溯源,发现“大数据”这个词出现的最早时间在1980年的美国,著名的未来学家托夫勒在其所著的《第三次浪潮》中,将大数据热情地称颂为“第三次浪潮的华彩乐章”。在2008年9月,《自然》杂志推出了名为“大数据”的封面专栏。2009年开始,“大数据”才成为互联网技术行业中的热门词汇,被世人推崇讨论。目前,尽管大数据的发展已有几十年的时间,但仍没有一个统一、完整、科学的定义。1.2.1狭义的大数据所谓大数据,狭义上可以定义为:用现有的一般技术难以管理的大量数据的集合。早期,很多研究机构和学者对大数据的定义的时候一般是将其作为一种辅助工具或从其体量特征来进行定义。比如,高德纳(Gartner)咨询管理公司数据分析师MervAdrian认为,大数据是一种在正常的时间和空间范围内,常规的软件工具难以计算、提出相关数据分析的能力。作为大数据研究讨论先驱者的咨询公司麦肯锡,2011年在其大数据的研究报告《BigData:Thenextfrontierforinnovation,competitionandproductivi-ty》中根据大数据的数据规模来对其诠释,它给出的定义是:大数据指的是规模已经超出了传统的数据库软件工具收集、存储、管理和分析能力的数据集。需要指出的是,麦肯锡在其报告中同时强调,大数据并不能音译为超过某一个特定的数字,还是超过某一个特定的数据容量才能名义为大数据,大数据随着技术的不断进步,其数据集容量也会不断的增长,行业的不同也会使大数据的定义而不同。电子商务行业的巨人亚马逊的专业大数据专家JohnRauser对大数据的定义:大数据,指的是超过了一台计算机的设备、软件等处理能力的数据规模、资料信息海量的数据集。总的来说,对大数据的狭义理解,研究者大多从微观的视角出发,将大数据理解为当前的技术环境难以处理的一种数据集;而从宏观方面进行定义的,目前则还没有提出一种可量化的内涵理解,但多数都提出了对于大数据的宏观理解概念,需要保持着其在不同行业领域是不断更新、可持续发展的观念。1.2.2广义的大数据广义的大数据定义,主要是以对大数据进行分析管理,挖掘数据背后所蕴含的巨大价值为视角,给出大数据的概念。比如,维基百科对大数据给出的定义是:巨量数据,或称为大数据、大资料,指的是所涉及的数据量规模巨大到无法通过当前的技术软件和工具在一定的时间内进行截取、管理、处理,并整理成为需求者所需要的信息进行决策。被誉为“大数据时代的语言家”的维克托·迈尔-舍恩伯格、肯尼思·库克耶在其专著《大数据时代:生活、工作与思维的大变革》中对大数据的定义为:大数据是人们获得新的认知、创造新的价值源泉;大数据还未改变市场、组织机构,以及政府与公民关系服务。他还认为大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模的数据基础上是无法完成的。IBM组织对于大数据的定义则是从大数据的特征进行诠释,它认为大数据具有3V特征,即:数据量(Volume)、种类(Variety)和速度(Velocity),故大数据是指具有容量难以估计、种类难以计数且增长速度非常快的数据。国际数据公司(IDC)则在IBM的基础上,根据自己的研究,将3V发展为4V,其认为大数据具有四方面的特征:数据规模巨大(Volume)、数据的类型多种多样(Variety)、数据的体系纷繁复杂(Velocity)、数据的价值难以估测(Value)。所以IDC对大数据的定义为:大数据,指的是具有规模海量、类型多样、体系纷繁复杂并且需要超出典型的数据库软件进行管理且能够给使用者带来巨大价值的数据集。通过对关于大数据的定义进行梳理可以发现,大多研究机构和学者对大数据的定义的普遍从数据的规模量,以及对于数据的处理方式来进行定义的,且其数据的定义也多是从自身的研究视角出发,因此对于大数据的定义可谓是仁者见仁智者见智。本书在参照了学术领域及各个研究机构和行业的基础上,将大数据定义为:大数据是指在信息爆炸时代所产生的巨量数据或海量数据,并由此引发的一系列技术及认知观念的变革。它不仅仅是一种数据分析、管理以及处理方式,也是一种知识发现的逻辑,通过将事物量化成数据,对事物进行数据化研究分析。大数据的客观性、可靠性,既是一种认识事物的新途径,又是一种创新发现的新方法。1.3大数据的特征要确保数据的可用性,就要分析大数据的数据特征。当前,以IDC的4V特征(规模性(Volume)、多样性(Variety)、高速性(Velocity)、价值密度低(Value))四个方面来理解,大数据的特征表现为数据规模大(数据存储量大和增量大)、数据的种类多(数据来源多,数据格式多)、数据处理与流动速度快以及数据的价值密度低,因此,只有具备这些特征的数据才是大数据。从字面来看,“大数据”这个词可能会让人觉得只是容量非常大的数据集合而已。但容量只不过是大数据特征的一个方面,如果只拘泥于数据量,就无法深入理解当前围绕大数据所进行的讨论。因为“用现有的一般技术难以管理”这样的状况,并不仅仅是由于数据量增大这一个因素所造成的。IBM说:“可以用3个特征相结合来定义大数据:数量(Volume,或称容量)、种类(Variety,或称多样性)和速度(Velocity),或者就是简单的3V,即庞大容量、极快速度和种类丰富的数据。”如下图所示。按数量、种类和速度来定义大数据如图所示。1)Volume(数量)用现有技术无法管理的数据量,从现状来看,基本上是指从几十TB到几PB这样的数量级。当然,随着技术的进步,这个数值也会不断变化。如今,存储的数据数量正在急剧增长中,我们存储所有事物,包括:环境数据、财务数据、医疗数据、监控数据等。有关数据量的对话已从TB级别转向PB级别,并且不可避免地会转向ZB级别。可是,随着可供企业使用的数据量不断增长,可处理、理解和分析的数据的比例却不断下降。2)Variety(种类、多样性)随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括单击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。种类表示所有的数据类型。其中,爆发式增长的一些数据,如互联网上的文本数据、位置信息、传感器数据、视频等,用企业中主流的关系型数据库是很难存储的,它们都属于非结构化数据。当然,在这些数据中,有一些是过去就一直存在并保存下来的。和过去不同的是,除了存储,还需要对这些大数据进行分析,并从中获得有用的信息。例如监控摄像机中的视频数据。近年来,超市、便利店等零售企业几乎都配备了监控摄像机,最初目的是为了防范盗窃,但现在也出现了使用监控摄像机的视频数据来分析顾客购买行为的案例。例如,美国高级文具制造商万宝龙(Montblane)过去是凭经验和直觉来决定商品陈列布局的,现在尝试利用监控摄像头对顾客在店内的行为进行分析。通过分析监控摄像机的数据,将最想卖出去的商品移动到最容易吸引顾客目光的位置,使得销售额提高了20%。美国移动运营商T-Mobile也在其全美1000家店中安装了带视频分析功能的监控摄像机,可以统计来店人数,还可以追踪顾客在店内的行动路线、在展台前停留的时间,甚至是试用了哪一款手机、试用了多长时间等,对顾客在店内的购买行为进行分析。3)Velocity(速度)数据产生和更新的频率,也是衡量大数据的一个重要特征。就像我们收集和存储的数据量和种类发生了变化一样,生成和需要处理数据的速度也在变化。不要将速度的概念限定为与数据存储相关的增长速率,应动态地将此定义应用到数据,即数据流动的速度。有效处理大数据需要在数据变化的过程中对它的数量和种类执行分析,而不只是在它静止后执行分析。例如,遍布全国的便利店在24小时内产生的POS机数据,电商网站中由用户访问所产生的网站点击流数据,高峰时达到每秒近万条的微信短文,全国公路上安装的交通堵塞探测传感器和路面状况传感器(可检测结冰、积雪等路面状态)等,每天都在产生着庞大的数据。IBM在3V的基础上又归纳总结了第四个V一一Veracity(真实和准确)。“只有真实而准确的数据才能让对数据的管控和治理真正有意义。随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限性被打破,企业愈发需要有效的信息治理以确保其真实性及安全性。”IDC(互联网数据中心)说:“大数据是一个貌似不知道从哪里冒出来的大的动力。但是实际上,大数据并不是新生事物。然而,它确实正在进入主流,并得到重大关注,这是有原因的。廉价的存储、传感器和数据采集技术的快速发展、通过云和虚拟化存储设施增加的信息链路,以及创新软件和分析工具,正在驱动着大数据。大数据不是一个‘事物’,而是一个跨多个信息技术领域的动力/活动。大数据技术描述了新一代的技术和架构,其被设计用于:通过使用高速(Velocity)的采集、发现和/或分析,从超大容量(Volume)的多样(Variety)数据中经济地提取价值(Value)。”这个定义除了揭示大数据传统的3V基本特征,即Volume(大数据量)、Variety(多样性)和Velocity(高速),还增添了一个新特征:Value(价值)。大数据实现的主要价值可以基于下面3个评价准则中的1个或多个进行评判:它提供了更有用的信息吗?它改进了信息的精确性吗?它改进了响应的及时性吗?总之,大数据是个动态的定义,不同行业根据其应用的不同有着不同的理解,其衡量标准也在随着技术的进步而改变。1.4发展大数据的意义大数据作为一场科学技术又一次的飞跃,是在继互联网、云计算后的技术变革,其发展和应用,必将对社会的组织结构、国家的治理模式、企业的决策架构、商业的业务策略以及个人的生活方式等产生深远的影响。尽管未来的时代充满了变数,但有一点可以预测,即大数据对大数据应用行业的发展具有长远性的重要作用。从全球范围内目前大数据的发展的市场规模及其市场细分领域的行业现状来看,大数据逐步从概念研究进入了实际应用的转型时期,各国政府无一不加大该领域的扶持力度,争取占据战略领导高地。经济新常态下,我国工业化与信息化逐步进入转型升级的发展快车道。中央与地方政府对大数据从学术领域到产业发展都高度重视。党的“十三五”时期发展纲要中明确提出要拓展网络经济空间,实施“互联网+”行动计划,发展物联网技术和应用,发展分享经济,促进互联网和经济社会融合发展。实施国家大数据战略,推进数据资源开放共享的要求。此外,2015年国务院发布的《促进大数据发展行动纲要》(国发〔2015〕50号)文件中也明确提出要“建立标准规范体系,推进大数据产业标准体系建设,加快建立政府部门、事业单位等公共机构的数据标准和统计标准体系,推进数据采集、政府数据开放、指标口径、分类目录、交换接口、访问接口、数据质量、数据交易、技术产品、安全保密等关键共性标准的制定和实施。加快建立大数据市场交易标准体系。开展标准验证和应用试点示范,建立标准符合性评估体系,充分发挥标准在培育服务市场、提升服务能力、支撑行业管理等方面的作用。积极参与相关国际标准制定工作”的相关要求。从我国近些年发展大数据的态势来看,在地域分布方面,京津冀地区大数据的产业链条逐步健全,产业集聚效应开始大放异彩;在长三角地区,大数据的技术产业发展如火如荼,智慧城市、云计算等支撑力量异军突起。国家近几年连续出台大数据发展政策支持意见,提出将大数据作为重点扶持的新支柱产业,各省市积极开展大数据战略合作,积极引进大数据企业、互联网巨头等措施。大数据发展强势态势端倪显现,其发展意义也不再局限于大众所津津乐道的“啤酒和尿布”案例,通过数据挖掘、实现精准营销的方面。

《大数据导论》教案课程名称大数据导论授课时间第周,星期,节(年月日)课次2授课方式□理论课□实验课□其他课时3授课题目大数据时代的思维变革主要内容:本次课主要介绍大数据时代的大挑战、大数据时代的三个转变:(1)样本=总体,(2)接受数据的混杂性,(3)数据的相关关系。具体还讲述了小数据时代的随机采样,大数据的简单算法与小数据的复杂算法以及新的数据库的设计原则。目的与要求:通过本次课的学习,使学生掌握大数据时代的三个大转变,数据之间的相关关系,新的数据库的设计原则,了解小数据时代的随机采样方法,大数据的简单算法与小数据的复杂算法,关联物在预测中的作用以及如何通过因果关系了解世界。重点与难点:重点:大数据时代的三个大转变,数据之间的相关关系,新的数据库的设计原则,大数据的简单算法与小数据的复杂算法。难点:数据库的设计原则教具(多媒体、模型、图表等):多媒体教学,有配套的教学课件,机房实践相结合《大数据导论》教案教学内容教学方法时间分配2.1大数据及其本质2.2大数据与认识论2.3大数据时代的三大转变2.4数据将成为一种竞争优势多媒体教学与机房实践相结合3个课时课堂设问:亚马逊图书推荐系统成功的基础是什么?大数据时代人们分析信息、理解世界的三大转变是什么?你怎么理解“相关关系”和“因果关系”?教学内容小结:本章主要学习了大数据时代的三个大转变,新的数据库的设计原则以及数据之间的相关关系,通过学习了解小数据时代的随机采样方法,了解为什么要乐于接受数据的混杂性,了解了关联物在预测中的作用以及如何通过因果关系了解世界。复习思考题或作业题:为什么说大数据时代要接受数据的混杂性?简述大数据时代,为什么要“分析与某事物相关的所有数据,而不是依靠分析少量的样本数据”?什么是数据的因果关系?什么是数据的相关关系?教学后记(此项内容在课程结束后填写):本次课详细讲述了大数据时代的三个大转变,新的数据库的设计原则以及数据之间的相关关系,通过学习了解数据的因果关系和数据的相关关系等内容。让学生加深对大数据时代商业规则的理解。第20页《大数据导论》讲稿第2章大数据时代的思维变革【导读案例】亚马逊公司的“人与鼠标的战争”虽然亚马逊的故事大多数人都耳熟能详,但只有少数人知道它早期的书评内容最初是由人工完成的。当时,它聘请了一个由20多名书评家和编辑组成的团队,他们写书评、推荐新书,挑选非常有特色的新书标题放在亚马逊的网页上。这个团队创立了“亚马逊的声音”这个版块,成为当时公司皇冠上的一颗宝石,是其竞争优势的重要来源。亚马逊公司的创始人及总裁杰夫贝索斯决定尝试一个极富创造力的想法:根据客户个人以前的购物喜好,为其推荐相关的书籍。从一开始,亚马逊就从每一个客户那里收集了大量的数据。比如说,他们购买了什么书籍?哪些书他们只浏览却没有购买?他们浏览了多久?哪些书是他们一起购买的?客户的信息数据量非常大,所以亚马逊必须先用传统的方法对其进行处理,通过样本分析找到客户之间的相似性。但这些推荐信息是非常原始的。亚马逊的格雷格•林登很快就找到了一个解决方案。他意识到,推荐系统实际上并没有必要把顾客与其他顾客进行对比,它需要做的是找到产品之间的关联性。1998年,林登和他的同事申请了著名的“item-to-item”协同过滤技术的专利。方法的转变使技术发生了翻天覆地的变化。因为估算可以提前进行,所以推荐系统不仅快,而且适用于各种各样的产品。因此,当亚马逊跨界销售除书以外的其他商品时,也可以对电影或烤面包机这些产品进行推荐。由于系统中使用了所有的数据,推荐会更理想。林登做了一个关于评论家所创造的销售业绩和计算机生成内容所产生的销售业绩的对比测试,结果他发现通过数据推荐产品所增加的销售远远超过书评家的贡献。如今,据说亚马逊销售额的三分之一都来自于它的个性化推荐系统。有了它,亚马逊不仅使很多大型书店和音乐唱片商店歇业,而且当地数百个自认为有自己风格的书商也难免受转型之风的影响。2.1大数据及其本质在大数据时代,数据的本体论思想被提升到一种前所未有的高度。大数据哲学思想认为:数据不仅仅是一种衡量事物特征的符号和工具,而是世界的本源,世间的万事万物及其关系都可以用数来表示,用数据来量化一切。大数据时代的预言家舍恩伯格提出“有了大数据的帮助,人们不会再将世界看作是一连串人们认为或是自然或是社会现象的事件,人们会意识到本质上世界是由信息构成的。”惠勒也提出了“万物源于比特”的主张,这里的比特是一种基本粒子。它是一个抽象的二进制数字,因此在哲学思想的范围内。用以标识大数据,但并不是数据的规模,而是数据的本体论对传统本体论的一种批判,是对传统本体论的一种变革。“万物皆数”是大数据时代哲学领域本体论的基本主张。自数据被提升到本体论的高度后,人们也开始思考数据的本质问题,何为数据的本质?不同的哲学分支领域对此做出了不同的回答。学者们一致认为,数据作为一种信息表达方式,与物质的根本属性相同。2.2大数据与认识论人类的知识是随着时代的进步而不断更新的。过去由于认识技术和数据处理供给的现实,人们大多采取“化整为零”的方式,将研究的现象进行分割,通过研究各部分个体,进而找出事物发展的规律。在大数据时代下,通过大数据挖掘所产生的新兴的“大数据归纳法”,通过云计算等数据挖掘技术让“数据发声”,来探寻事物发展的规律和价值信息,利用新的数据规律对传统的因果规律进行补充等,对人们传统认识事物的方式发生了重大的变革。在数字化时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的数据。而“大数据”全在于发现和理解信息内容及信息与信息之间的关系。所以,在大数据时代,需要新的思维模式,人们的认识和思维也要随着时代的改变而改变。2.3大数据时代的三大转变在数字化时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的数据。而“大数据”全在于发现和理解信息内容及信息与信息之间的关系。实际上,大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法,这三个转变是相互联系和相互作用的。第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再是只依赖于随机采样。与局限在小数据范围相比,使用一切数据为我们带来了更高的精确性,也让我们看到了一些以前无法发现的细节—大数据让我们更清楚地看到了样本无法揭示的细节信息。第二个转变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。当我们测量事物的能力受限时,关注最重要的事情和获取最精确的结果是可取的。这种思维方式适用于掌握“小数据量”的情况,因为需要分析的数据很少,所以我们必须尽可能精准地量化我们的记录。但是,在这个大数据时代,很多时候,追求精确度已经变得不可行,甚至不受欢迎了。当我们拥有海量即时数据时,绝对的精准不再是我们追求的主要目标。拥有了大数据,我们不再需要对一个现象刨根究底,只要掌握大体的发展方向即可。当然,我们也不是完全放弃了精确度,只是不再沉迷于此。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。第三个转变即我们不再热衷于寻找因果关系。这是因前两个转变而促成的。在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系,这会给我们提供非常新颖且有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许多情况下,这种提醒的帮助已经足够大了。2.3.1大数据时代的全数据模式大数据时代的第一个转变,是要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。很长以来,因为记录、储存和分析数据的工具不够好,为了让分析变得简单,人们会把数据量缩减到最少,人们依据少量数据进行分析,而准确分析大量数据一直都是一种挑战。如今,信息技术的条件已经有了非常大的提高,虽然人类可以处理的数据依然是有限的,但是可以处理的数据量已经大大地增加,而且未来会越来越多。分析问题时是利用所有的数据还是仅仅采用一部分呢?最明智的自然是得到有关被分析事物的所有数据,但是当数量无比庞大时,这又不太现实。那如何选择样本呢?有人提出有目的地选择最具代表性的样本是最恰当的方法。1934年,波兰统计学家耶日·奈曼指出,这只会导致更多更大的漏洞。统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。虽然听起来很不可思议,但事实上,研究表明,当样本数量达到了某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。在商业领域,随机采样被用来监管商品质量。这使得监管商品质量和提升商品品质变得更容易,花费也更少。以前,全面的质量监管要求对生产出来的每个产品进行检查,而现在只需从一批商品中随机抽取部分样品进行检查就可以了。本质上来说,随机采样让大数据问题变得更加切实可行。同理,它将客户调查引进了零售行业,将焦点讨论引进了政治界,也将许多人文问题变成了社会科学问题。随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见,分析结果就会相去甚远。更糟糕的是,随机采样不适合考察子类别的情况。因为一旦继续细分,随机采样结果的错误率会大大增加。因此,当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了。在宏观领域起作用的方法在微观领域失去了作用。随机采样就像是模拟照片打印,远看很不错,但是一旦聚焦某个点,就会变得模糊不清。随机采样也需要严密的安排和执行。人们只能从采样数据中得出事先设计好的问题的结果。所以虽说随机采样是一条捷径,但它并不适用于一切情况。采样的目的是用最少的数据得到最多的信息,而当我们可以获得海量数据的时候,它就没有什么意义了。如今,计算和制表不再像过去一样困难。感应器、手机导航、网站点击和微信等被动地收集了大量数据,而计算机可以轻易地对这些数据进行处理。但是,数据处理技术己经发生了翻天覆地的改变,但我们的方法和思维却没有跟上这种改变。采样忽视细节考察的缺陷现在越来越难以被忽视了。在很多领域,从收集部分数据到收集尽可能多的数据的转变已经发生了。如果可能的话,我们会收集所有的数据,即“样本=总体”。“样本=总体”是指我们能对数据进行深度探讨。用采样的方法分析情况,正确率可达97%。对于某些事物来说,3%的错误率是可以接受的。但是你无法得到一些微观细节的信息,甚至还会失去对某些特定子类别进行进一步研究的能力。生活中有很多事情经常藏匿在细节之中,而采样分析法却无法捕捉到这些细节。2.3.2接受数据的混杂性大数据时代的第二个转变,是我们乐于接受数据的纷繁复杂,而不再一味追求其精确性。在越来越多的情况下,使用所有可获取的数据变得更为可能,但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。然而,重点是我们能够努力避免这些问题。我们从不认为这些问题是无法避免的,而且也正在学会接受它们。对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确。无论是确定天体的位置还是观测显微镜下物体的大小,为了使结果更加准确,很多科学家都致力于优化测量的工具。在采样的时候,对精确度的要求就更高更苛刻了。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。然而,在不断涌现的新情况里,允许不精确的出现已经成为一个亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。这样就不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。“大数据”通常用概率说话。我们可以在大量数据对计算机其他领域进步的重要性上看到类似的变化。我们都知道,如摩尔定律所预测的,过去一段时间里计算机的数据处理能力得到了很大的提高。摩尔定律认为,每块芯片上晶体管的数量每两年就会翻一倍。这使得电脑运行更快速了,存储空间更大了。大数据时代要求我们重新审视数据精确性的优劣。如果将传统的思维模式运用于数字化、网络化的21世纪,就有可能错过重要的信息。如今,我们已经生活在信息时代。我们掌握的数据库越来越全面,它包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。大数据不仅让我们不再期待精确性,也让我们无法实现精确性。然而,除了一开始会与我们的直觉相矛盾之外,接受数据的不精确和不完美,我们反而能够更好地进行预测,也能够更好地理解这个世界。互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。当一个人在网站上见到一个Facebook的“喜欢”按钮时,可以看到有多少其他人也在点击。当数量不多时,会显示像“63”这种精确的数字。当数量很大时,则只会显示近似值,比方说“4000”。这并不代表系统不知道正确的数据是多少,只是当数量规模变大的时候,确切的数量已经不那么重要了。如今,要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。传统的关系数据库是为小数据的时代设计的,所以能够也需要仔细策划。(在那个时代,人们遇到的问题无比清晰,数据库被设计用来有效地回答这些问题。)传统的数据库引擎要求数据高度精确和准确排列。数据不是单纯地被存储,它往往被划分为包含“域”(字段)的记录,每个域都包含了特定种类和特定长度的信息。预设场域显示的是数据的整齐排列。最普遍的数据库查询语言是结构化查询语言(SQL)。但是,这种数据存储和分析的方法越来越和现实相冲突。我们发现,不精确已经开始渗入数据库设计这个最不能容忍错误的领域。我们现在拥有各种各样、参差不齐的海量数据。很少有数据完全符合预先设定的数据种类。而且,我们想要数据回答的问题,也只有在我们收集和处理数据的过程中才全知道。这些现实条件导致了新的数据库设计的诞生。据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一个从未涉足的世界的窗户。我们怎么看待使用所有数据和使用部分数据的差别,以及我们怎样选择放松要求并取代严格的精确性,将会对我们与世界的沟通产生深刻的影响。随着大数据技术成为日常生活中的一部分,我们应该开始从一个比以前更大更全面的角度来理解事物,也就是说应该将“样本=总体”植入我们的思维中。2.3.3突出数据的相关性而不是因果性在传统观念下,人们总是致力于找到一切事情发生背后的原因。然而在很多时候,寻找数据间的关联并利用这种关联就足够了。这些思想上的重大转变导致了第三个变革,我们尝试着不再探求难以捉摸的因果关系,转而关注事物的相关关系。相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。当然,即使是很强的相关关系也不一定能解释每一种情况,比如两个事物看上去行为相似,但很有可能只是巧合。相关关系没有绝对,只有可能性。也就是说,不是亚马逊推荐的每本书都是顾客想买的书。但是,如果相关关系强,一个相关链接成功的概率是很高的。通过找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。如果A和B经常一起发生,我们只需要注意到B发生了.就可以预测A也发生了。这有助于我们捕捉可能和A一起发生的事情,即使我们不能直接测量或观察到A。更重要的是,它还可以帮助我们预测未来可能发生什么。当然,相关关系是无法预知未来的,他们只能预测可能发生的事情。但是,这已经极其珍贵了。在小数据时代,相关关系分析和因果分析都不容易,耗费巨大,都要从建立假设开始,然后进行实验——这个假设要么被证实要么被推翻。但是,由于两者都始于假设,这些分析就都有受偏见影响的可能,极易导致错误。与此同时,用来做相关关系分析的数据很难得到。另一方面,在小数据时代,由于计算机能力的不足,大部分相关关系分析仅限于寻求线性关系。而事实上,实际情况远比我们所想象的要复杂。经过复杂的分析,我们能够发现数据的“非线性关系”。大数据时代,专家们正在研发能发现并对比分析非线性关系的技术工具。一系列飞速发展的新技术和新软件也从多方面提高了相关关系分析工具发现非因果关系的能力。这些新的分析工具和思路为我们展现了一系列新的视野被有用的预测,我们看到了很多以前不曾注意到的联系,还掌握了以前无法理解的复杂技术和社会动态。但最重要的是,通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好地了解了这个世界。传统情况下,人类是通过因果关系了解世界的。首先,我们的直接愿望就是了解因果关系。即使无因果联系存在,我们也还是会假定其存在。研究证明,这只是我们的认知方式,与每个人的文化背景、生长环境以及教育水平无关。当我们看到两件事情接连发生的封候,我们会习惯性地从因果关系的角度来看待它们。卡尼曼指出,平时生活中,由于惰性,我们很少慢条斯理地思考问题,所以快速思维模式就占据了上风。因此,我们会经常臆想出一些因果关系,最终导致了对世界的错误理解。父母经常告诉孩子,天冷时不戴帽子和手套就会感冒。然而,事实上,感冒和穿戴之间却没有直接的联系。有时,我们在某个餐馆用餐后生病了的话,我们就会自然而然地觉得这是餐馆食物的问题,以后可能就不再去这家餐馆了。事实上,我们肚子痛也许是因为其他的传染途径。2.4将数据变成一种竞争优势数十年来,人们对“信息技术”的关注一直偏重其中的“技术”部分,首席信息官(CIO)的职责就是购买和管理服务器、存储设备和网络。而如今,信息以及对信息的分析、存储和预测的能力,正成为一种竞争优势。大数据将“信息技术”的焦点从“技术”转变为“信息”,如图2-2所示。图2-2大数据将“信息技术”的焦点从“技术”转变为“信息”过去20年是信息技术的时代,接下来的20年的主题仍会是信息技术。哪些企业能够更快地处理数据,他们就能够远远超越竞争对手。正如“大数据创新空间曲线”的创始人和首席技术官安德鲁•罗杰斯所言,“你分析数据的速度越快,它的预测价值就越大”。企业如今正在渐渐远离批量处理数据的方式(即先存储数据,之后再慢慢进行分析处理)而转向实时分析数据来获取竞争优势。对于高管们而言,好消息是:来自大数据的信息优势不再只属于谷歌、亚马逊之类的大企业。Hadoop之类的开源技术让其他企业可以拥有同样的优势。无论是老牌财富100强企业还是新兴初创公司,都能够以合理的价格利用大数据来获得竞争优势。《大数据导论》教案课程名称大数据导论授课时间第周,星期,节(年月日)课次3授课方式□理论课□实验课□其他课时6授课题目大数据的采集与存储主要内容:本次课主要介绍大数据的采集与大数据的存储技术,采集方法:(1)系统日志的采集方法,(2)网页数据的采集方法,(3)其他数据采集方法。具体还讲述大数据的存储管理系统,包括文件系统、分布式文件系统、数据库系统以及云存储。目的与要求:通过本次课的学习,使学生掌握大数据的相关采集方法和大数据的存储技术,熟悉大数据的各种采集方法的具体应用,了解各种大数据存储管理系统,掌握云存储的概念,云存储的体系架构以及相关技术。重点与难点:重点:大数据采集方法和大数据的存储技术,大数据存储管理系统,云存储的概念,体系架构以及相关技术。难点:大数据存储管理系统,云存储的体系架构和相关技术。教具(多媒体、模型、图表等):多媒体教学,有配套的教学课件,机房实践相结合《大数据导论》教案教学内容教学方法时间分配3.1数据的概念和分类3.2大数据环境下的数据来源3.3常用的数据采集方法3.4大数据时代的存储管理系统多媒体教学与机房实践相结合6个课时课堂设问:1.大数据的来源有哪些?2.简述常用的数据采集方法?3.非关系型存储系统有哪些,它们的特点是什么?教学内容小结:本章主要学习了大数据的采集与大数据的存储技术,具体的采集方法包括:(1)系统日志的采集方法,(2)网页数据的采集方法,(3)其他数据采集方法。具体还讲述大数据的存储管理系统,包括文件系统、分布式文件系统、数据库系统以及云存储。复习思考题或作业题:请具体描述云存储系统的结构模型。云存储服务系统的应用有哪些分类?并列举一些应用。简述云存储的特性。教学后记(此项内容在课程结束后填写):本次课详细讲述了大数据大数据的采集与大数据的存储技术,大数据的存储管理系统,包括文件系统、分布式文件系统、数据库系统以及云存储。通过学习了解数据的采集与存储等内容。让学生加深对大数据相关技术的了解。第33页《大数据导论》讲稿第3章大数据的采集与存储3.1数据的概念和分类人们无时无刻不在产生着各种各样的数据。当你在电脑前打开搜索引擎,搜索自己想看的电影的时候,你在产生搜索数据;当你在医院里就诊,医生给你开出处方的时候,你在产生医疗数据;当你阅读一本书,遇到精彩的地方情不自禁地把精彩段落摘抄下来的时候,你在产生阅读数据。与此同时,在现今的互联网时代,人们时刻也在消费着周围的人或事物提供给人们的数据。数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,是可识别的、抽象的符号。数据和信息是两个不同的概念,信息是较为宏观的概念,它由数据的有序排列组合而成,传达给读者某个概念方法等,而数据则是构成信息的基本单位,离散的数据没有任何实用价值。在大数据时代,数据也被人们称为“未来的石油”。大数据的主要数据类型包括结构化、半结构化和非结构化数据,如图3-2所示,非结构化数据越来越成为大数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年约增长60%。在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始很容易地被利用起来。在各行各业的不断创新下,大数据会逐步为人类创造更多的价值。图3-2大数据的主要数据类型3.2大数据环境下的数据来源随着传感器、智能穿戴和社交技术的飞速发展,数据的组织形式变得越来越复杂、除了包含传统的关系型数据库中的数据之外,大数据的数据格式还包括非结构化的社交网络数据、监控产生的视频音频数据、传感器数据、交通数据、互联网文本数据等各种复杂的数据。3.2.1传统商业数据传统的商业数据结构相对比较简单,以结构化数据为主,数据主要来源于企业ERP系统、各种POS终端及网上支付系统等业务系统的数据,传统商业是主要的数据来源。世界上最大的零售商沃尔玛公司每小时收集到2.5PB数据,存储的数据量是美国国会图书馆的167倍。沃尔玛公司详细记录了消费者的购买清单、消费额、购买日期、购买当天天气和气温,通过对消费者的购物行为等结构化数据进行分析,发现商品关联,并优化商品陈列。沃尔玛公司不仅采集这些传统商业数据,还将数据采集的触角伸入社交网络。当用户在社交网络上谈论某些产品或者表达某些喜好时,这些数据都会被沃尔玛公司记录下来并加以利用。Amazon公司拥有全球零售业最先进的数字化仓库,通过对数据的采集、整理和分析,可以优化产品、开展精确营销和快速出货。另外,Amazon公司的Kindle电子书积累了上千万本图书的数据,并完整记录着读者们对图书的标记和笔记,若对这些数据加以分析,Amazon公司就能从中得知哪类读者对哪些内容感兴趣,从而给读者做出准确的图书推荐。3.2.2互联网数据这里的互联网数据是指网络空间交互过程中产生的大量数据,包括通信记录及QQ、微信、微博等社交媒体产生的数据,其数据复杂且难以被利用。互联网数据具有大量化、多样化、快速化等特点。①大量化;在信息化时代背景下,网络空间数据增长迅猛,数据集合规模已实现了从GB级别到PB级别的飞跃,目前,互联网产生的数据则需要通过ZB表示。②多样化;互联网数据的类型多样化,包括结构化数据、半结构化数据和非结构化数据。③快速化。互联网数据一般以数据流形式快速产生,且具有动态变化的特征,其时效性要求用户必须准确掌握互联网数据流,以便更好地利用这些数据。互联网是大数据信息的主要来源,能够采集什么样的信息、采集到多少信息及哪些类型的信息,直接影响着大数据应用功能最终效果的发挥。信息数据采集需要考虑采集量、采集速度、采集范围和采集类型,信息数据采集速度可以达到秒级甚至还能更快;采集范围涉及微博、论坛、博客,新闻网、电商网站、分类网站等各种网页;采集类型包括文本、数据、URL、图片、视频、音频等。3.2.3物联网数据物联网指在计算机互联网的基础上,利用射频识别、传感器、红外感应器、无线数据通信等技术,构造一个覆盖世界上万事万物的TheInternetofThings,也就是“实现物物相连的互联网络”。其内涵包含两个方面:一是物联网的核心和基础仍是互联网,是在互联网基础之上延伸和扩展的一种网络;二是其用户端延伸和扩展到了任何物品与物品之间。物联网的定义:通过射频识别(RadioFrequencyIDentification,RFID)装置、传感器、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网相连接,以进行信息交换和通信,从而实现智慧化识别、定位、跟踪、监控和管理的一种网络体系。物联网数据是除了人和服务器之外,在射频识别、物品、设备、传感器等节点产生的大量数据,包括射频识别装置、音频采集器、视频采集器、传感器、全球定位设备、办公设备、家用设备和生产设备等产生的数据。物联网数据的主要特点有:数据量更大、传输速率更高、数据更加多样化以及对数据真实性的要求更高。3.3常用的数据采集方法数据采集(DAQ)又称为“数据获取”或“数据收集”,是指从传感器和其他待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到上位机中进行分析、处理。数据采集主要是对现实世界进行采样,以便产生可供计算机处理的数据的过程。针对不同种类的数据来源,数据采集方式也不尽相同。针对内部数据,可以采用查询数据库的方式获取到所需要的数据。针对互联网数据,采集数据的主要途径是通过互联网搜索引擎或者爬虫工具等,通过输入搜索关键字或者采取一定的抓取规则来获取所需要的数据信息。针对市场调研数据,如果是互联网问卷调查只需要进行查询或者执行数据库导出操作。3.3.1系统日志的采集方法很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Facebook公司的Scribe、Hadoop平台的Chukwa、Cloudera公司的Flume等。这些工具均采用分布式架构,能满足每秒数百兆的日志数据采集和传输需求。1.ScribeScribe是Facebook公司开源的日志收集系统,在Facebook公司内部已经得到大量的应用。Scribe可以从各种日志源上收集日志,存储到一个中央存储系统(网络文件系统或分布式文件系统等),以便于进行集中的统计分析处理。Scribe为日志的“分布式收集,统一处理”提供了一个可扩展的、高容错的方案。Scribe架构如图3-3所示。图3-3Scribe架构2.ChukwaChukwa提供了一种对大数据量日志类数据的采集、存储、分析和展示的全套解决方案和框架。在数据生命周期的各个阶段,Chukwa能够提供近乎完美的解决方案。Chukwa可以用于监控大规模(2000个以上节点,每天产生数据量在TB级别)Hadoop集群的整体运行情况并对它们的日志进行分析。Chukwa结构如图3-4所示。图3-4Chukwa架构Chukwa中主要有3种角色,分别为:Adapter,Agent,Collector。下面对Chukwa中各角色的功能进行简单介绍。①适配器(ChukwaAdapter)适配器是直接采集数据的接口和工具。每种类型的数据对应一个Adapter,目前包括的数据类型有命令行输出、log文件和HttpSender等。同时用户也可以自己实现一个Adapter来满足需求。②代理(ChukwaAgent)Agent给Adapter提供各种服务,包括启动和关闭Adapter,将Adapter收集的数据通过HTTP传递给Collector,并定期记录Adapter状态,以便Adapter出现故障后能迅速恢复。一个Agent可以管理多个Adapter。③收集器(ChukwaCollector)它负责对多个数据源发来的数据进行合并,并定时写入集群。因为Hadoop集群擅长处理少量的大文件,而对大量小文件的处理则不是它的强项。针对这一点,Collector可以将数据先进行部分合并,再写入集群,防止大量小文件的写入。④多路分配器(ChukwaDemux)它利用MapReduce对数据进行分类、排序和去重。⑤存储系统Chukwa采用了HDFS作为存储系统。HDFS的设计初衷是支持大文件存储和小并发高速写的应用场景,而日志系统的特点恰好相反,它需要支持高并发低速率的写和大量小文件的存储,因此Chukwa框架使用多个部件,使HDFS满足日志系统的需求。⑥数据展示Chukwa不是一个实时错误监控系统,但它能够展示集群中作业运行的时间、占用的CPU及故障节点等整个集群的性能变化,能够帮助集群管理者监控和解决问题。3.FlumeFlume是Cloudera公司提供的分布式、可靠和高可用的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写道各种数据接受方(可定制)的能力。Flume可以被看作是一个管道式的日志数据处理系统,其中数据流由事件(Event)贯穿始终。Event是Flume的基本数据单位,它包含日志数据并且携带消息头,其中日志数据由字节数组组成,这些Event由外部数据源生成。Flume运行的核心是Agent。Flume以Agent为最小的独立运行单位,一个Agent就是一个JVM。在实际日志系统中,Flume由多个Agent串行或并行组成,完成不同日志数据的分析。每个Agent是一个完整的数据收集工具,并包含3个核心组件,但一个Agent可以包含多个Source、Channel或Sink。Flume的核心结构,如图3-5所示。图3-5Flume的核心结构Source是数据的收集端,负责将数据采集后进行特殊的格式化,将数据封装到事件(Event)中,然后将事件推入Channel中。Flume提供了很多内置的Source类型,支持Avro、Log4j、Syslog、Unix终端输出和HttpPost等不同格式的数据源,可以让应用程序同已有的Source直接打交道。如果内置的Source无法满足需求,用户可自定义Source。Channel是连接Source和Sink的组件,人们可以将它看作一个数据的缓冲区,它可以将事件暂存到内存中,也可以持久化存储到本地磁盘上,直到Sink处理完该事件。Channel支持将数据存在内存、JDBC、File等其他持久化存储系统中。Sink从Channel中取出事件,然后将数据发送到别处(可以是文件系统、数据库、HDFS,也可以是其他Agent的Source)。在日志数据较少时,它可以将数据存储在文件系统中,并且设定一定的时间间隔定时保存数据。Flume使用事务性的方式保证传送事件整个过程的可靠性。Sink必须在事件被存入Channel后,或者已经被传达到下一个目的地,才能把事件从Channel中删除掉,这里的目的地包括下一个Agent、HDFS等。这样数据流里的事件无论是在一个Agent里还是在多个Agent之间流转,都能保证可靠,因此以上的事务性保证了事件被成功存储起来。例如,Flume支持在本地保存一份文件Channel作为备份,当Channel将事件存在内存队列里时,虽然处理速度快,但丢失的话无法恢复,这时可以将备份的数据进行恢复使用。3.3.2网页数据的采集方法网络数据采集称为“网页抓屏”“数据挖掘”或“网络收割”,通过“网络爬虫”程序实现。网络爬虫一般是先“爬”到对应的网页上,再把需要的信息“铲”下来。网络爬虫(Crawler)作为搜索引擎的基础构件之一是搜索引擎的数据来源。网络爬虫的性能直接决定了系统的及时更新程度和内容的丰富程度,直接影响着整个搜索引擎的效果。下面从几个方面对网络爬虫进行介绍。(1)网络爬虫的重要组成模块网络爬虫可以获取互联网中网页的内容。它需要从网页中抽取用户需要的属性内容,并对抽取出的数据进行处理,转换成适应需求的格式存储下来,供后续使用。网络爬虫采集和处理数据包括如下3个重要模块。①采集模块:负责从互联网上抓取网页,并抽取需要的数据,包括网页内容抽取和网页中链接的抽取。②数据处理模块:对采集模块获取的数据进行处理,包括对网页内容的格式转换和链接的过滤。③数据模块:经过处理的数据可以分为3类。第一类是SiteURL,即需要抓取数据的网站URL信息;第二类是SpiderURL,即已经抓取过数据的网页URL;第三类是Content,即经过抽取的网页内容。网络爬虫通过上述3个模块获取网页中用户需要的内容。它从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的特定停止条件。(2)网络爬虫的基本工作流程网络爬虫的基本工作流程,如图3-6所示。具体步骤如下所述。①从SiteURL中抽取一个或多个目标链接写入URL队列,作为爬虫抓取信息的起点。②爬虫的网页分析模块从URL队列中读取链接。③从Internet中获取该链接的网页信息。④从网页内容中抽取所需属性的内容值。⑤将获取的网页内容值写入数据库的Content,并将此URL存入SpiderURL。⑥从当前网页中抽取新的网页链接。⑦从数据库中读取已经抓取过内容的网页地址,即SpiderURL中的链接地址。⑧将抽取出的URL和已经抓取过的URL进行比较,以过滤URL。⑨如果该网页地址没有被抓取过,则将该地址写入SiteURL;如果该地址已经被抓取过,则放弃存储此网页链接。图3-6网络爬虫的基本工作流程(3)爬虫的网页抓取策略网络爬虫从网站首页获取网页内容和链接信息后,会根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复执行上述过程,直至达到爬虫程序满足某一条件时才停止。因此,待抓取URL队列是爬虫很重要的一部分。待抓取URL队列中的URL以何种顺序排列是一个很重要的问题,因为涉及先抓取哪个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫作抓取策略。网络爬虫的性能高低关键在于网络爬虫的抓取策略,即网络爬虫在获取到URL之后在待抓取URL中应该采用什么策略进行抓取。常见的抓取策略有深度优先策略、宽度优先策略、反向链接数策略、OPIC策略、大站优先策略等。3.4大数据时代的存储管理系统在计算机中,目前已经被广泛使用的存储管理系统有普通的文件系统、键-值数据库和关系型数据库。在大数据时代,普通PC的存储容量已经无法满足大数据需求,需要进行存储技术的变革,人们采用分布式平台来存储大数据。3.4.1文件系统文件系统是操作系统用于明确存储设备(常见的是磁盘,也有基于NandFlash的固态硬盘)或分区上的文件的方法和数据结构;即在存储设备上组织文件的方法。操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称文件系统。文件系统由三部分组成:文件系统的接口,对对象操纵和管理的软件集合,对象及属性。从系统角度来看,文件系统是对文件存储设备的空间进行组织和分配,负责文件存储并对存入的文件进行保护和检索的系统。具体地说,它负责为用户建立文件,存入、读出、修改、转储文件,控制文件的存取,当用户不再使用时撤销文件等。DOS、Windows、OS/2、Macintosh和Unix-based操作系统都有文件系统。在此系统中,文件被放置在分等级的(树状)结构中的某一处。文件被放进目录(Windows中的文件夹)或子目录。文件系统是软件系统的一部分,它的存在使应用可以方便地使用抽象命名的数据对象和大小可变的空间。3.4.2分布式文件系统分布式文件系统(DistributedFileSystem,DFS)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点(可简单的理解为一台计算机)相连,或是若干不同的逻辑磁盘分区或卷标组合在一起而形成的完整的有层次的文件系统。DFS为分布在网络上任意位置的资源提供一个逻辑上的树形文件系统结构,从而使用户访问分布在网络上的共享文件更加简便。分布式文件系统比普通文件系统更为复杂,例如,使文件系统能够容忍节点故障且不丢失任何数据,就是一个很大的挑战。3.4.3数据库系统数据库(DataBase)顾名思义就是存放数据的仓库,数据库是存在于计算机中,以一定的方式存放数据的仓库。严格意义上来讲,数据库是长期储存在计算机内、有组织的、可共享的大量数据的集合。数据库家族如图3-11所示。图3-11数据库家族3.4.4云存储随着Internet技术的快速推进,数据量急剧增长,对存储系统提出了更高的要求——更大存储容量、更强的性能、更高的安全性级别、进一步智能化等,传统的存储区域网络(StorageAreaNetwork,SAN)或网络附属存储(NetworkAttachedStorage,NAS)技术面对PB级甚至EB级海量数据,存在容量、性能、扩展性和费用上的瓶颈,已经无法满足新形势下数据存储要求。因此,为了应对不断变大的存储容量、不断加入的新型存储设备、不断扩展的存储系统规模,云存储作为一种全新的解决方案被提出。(1)云存储的概念及特性云存储是一种网上在线存储的模式,即把数据存放在由第三方托管的多台虚拟服务器中,而非专属的服务器上。托管(Hosting)公司营运大型的数据中心,需要数据存储托管的人向数据中心购买或租赁存储空间来满足数据存储的需求;数据中心营运商根据客户的需求,在后端准备存储虚拟化的资源,并将其以存储资源池(StoragePool)的方式提供给客户,客户便可自行使用此存储资源池来存放文件或对象。实际上,这些资源可能被分布在众多的服务器主机上。从技术角度来说,云存储是指通过集群技术、网络技术或分布式技术等技术,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一种技术。以大化小,化整为零的思想是云存储技术的设计思想。从功能需求来看,云存储系统相比于传统的单一的存储功能来说,功能更加开放化和多元化;从数据管理上看,云存储需要处理的数据类型更多、数据量更大。总体来说,云存储有以下特性:①可靠性云存储采取将多个小文件分为多个副本的存储模式来实现数据的冗余存储,数据存放在多个不同的结点上,任意其他的结点发生数据故障时,云存储系统将会自动将数据备份到新的存储结点上,保证数据的完整性和可靠性。②安全性云存储服务商往往资金雄厚,因而有大量专业技术人员的日常管理和维护,从而保障云存储系统运行安全。通过严格的权限管理,运用数据加密、加密传输、防篡改、防攻击、实时监测等技术,降低了病毒和网络黑客入侵破坏的风险,确保数据不会丢失,为用户提供安全可靠的数据存储环境。③管理方便因为大部分的数据都迁移到了云存储上之后,所有的数据的升级维护任务则由云存储服务提供商来完成,这样管理起来更加方便,同时也大大地降低了企业存储系统上的运营维护成本。④可扩展性云存储服务具有强大的可扩展性,当企业的发展加速以后,如果发觉公司现有的存储空间不足,就会考虑扩宽存储服务器的容量来满足现有业务的存储需求,而云存储服务的特性就可以很方便地在原有基础上扩展服务空间,满足需求。扩展存储需求意味着用户的成本提高,云存储提供商的复杂性增加,不仅要为存储本身提供可扩展性(功能扩展),而且必须为存储带宽提供可扩展性(负载扩展)。(2)云存储系统的结构模型与传统的存储设备相比,云存储系统不仅仅是一个硬件,而且是一个由网络设备、存储设备、服务器、应用软件、公用访问接口、接入网和客户端程序等多个部分组成的复杂系统。各部分以存储设备为核心,通过应用软件来对外提供数据存储和业务访问服务。云存储系统的结构模型由存储层、基础管理层、应用接口层和访问层组成,如图3-12所示。图3-12云储存系统的结构模型《大数据导论》教案课程名称大数据导论授课时间第周,星期,节(年月日)课次4授课方式□理论课□实验课□其他课时6授课题目数据可视化主要内容:本节主要讲大数据的可视化,从大数据的发展背景、数据的可变性,大数据的依存环境;具体介绍数据与可视化的关系、数据如何以图形的形式来表示、数据可视化的方法、工具以及实时可视化。目的与要求:通过本次课的学习,要求学生掌握本章所讲述的一些基本概念:数据可视化、数据可视化图表、实时可视化,掌握数据可视化的主要形式及其特点,通过对数据可视化内容的学习,掌握数据可视化工具的使用,以及实时可视化的概念。重点与难点:重点:数据可视化、数据可视化的主要形式及其特点,数据可视化图表、数据可视化工具、实时可视化。难点:数据可视化工具,实时可视化教具(多媒体、模型、图表等):多媒体教学,有配套的教学课件,机房实践相结合《大数据导论》教案教学内容教学方法时间分配4.1数据可视化概述4.1.1什么是数据可视化4.1.2数据可视化的分类4.2数据可视化图表4.3数据可视化工具4.4实时可视化多媒体教学与机房实践相结合6个课时课堂设问:数据与可视化的关系?发展大数据可视化,传统的数据或信息的表示方式是否还有意义?请简述你的看法?教学内容小结:本次课主要介绍数据与可视化的关系,数据如何用图形来表示,并在此基础上讲解一些典型的大数据可视化实例。复习思考题或作业题:什么是数据可视化?数据可视化系统的主要目的是什么?请结合相关文献资料,简述数据可视化的7个数据类型是什么?简述数据可视化的常用工具有哪些?教学后记(此项内容在课程结束后填写):通过本章的学习,学生掌握了本章所讲述的一些基本概念:数据的可视化、南丁格尔极区图。通过对数据可视化的学习,掌握数据可视化的数据类型和数据可视化的基本任务,以及数据可视化的方法。第60页《大数据导论》讲稿第4章数据可视化【导读案例】南丁格尔“极区图”弗洛伦斯·南丁格尔(1820年5月12日~1910年8月13日,图2-1)是世界上第一个真正意义上的女护士,被誉为现代护理业之母,5.12国际护士节就是为了纪念她,这一天是南丁格尔的生日。除了在医学和护理界的辉煌成就,实际上,南丁格尔还是一名优秀的统计学家。南丁格尔生活的时代各个医院的统计资料非常不精确,也不一致,她认为医学统计资料有助于改进医疗护理的方法和措施。于是,在她编著的各类书籍、报告等材料中使用了大量的统计图表,其中最为著名的就是极区图(PolarAreaChart),也叫南丁格尔玫瑰图(如下图所示)。南丁格尔发现,战斗中阵亡的士兵数量少于因为受伤却缺乏治疗的士兵。为了挽救更多的士兵,她画了这张《东部军队(战士)死亡原因示意图》(1858年)。这张图描述了1854年4月~1856年3月期间士兵死亡情况,右图是1854年4月~1855年3月,左图是1855年4月~1856年3月,用蓝、红、黑三种颜色表示三种不同的情况,蓝色代表可预防和可缓解的疾病治疗不及时造成的死亡、红色代表战场阵亡、黑色代表其他死亡原因。图表个扇区角度相同,用半径及扇区面积来表示死亡人数,可以清晰的看出每个月因各种原因死亡的人数。显然,1854~1855年,因医疗条件而造成的死亡人数远远大于战死沙场的人数,这种情况直到1856年初才得到缓解。南丁格尔的这张图表以及其他图表“生动有力的说明了在战地开展医疗救护和促进伤兵医疗工作的必要性,打动了当局者,增加了战地医院,改善了军队医院的条件,为挽救士兵生命做出了巨大贡献”。4.1数据可视化概述可视化的历史非常古老,在古代天文学家绘制的星象图,音乐家古老的乐谱,都可以把他们归结为可视化。可视化通常被理解为一个生成图形图像的过程。更深刻的认识是可视化是一个认知的过程,即形成某种事物的感知图像,强化人们的认知理解。正是基于这一点,人们可以认为可视化的终极目标是对事物规律的洞悉,而非所绘制的可视化结果本身。一般意义下可视化的定义:可视化是一种使复杂信息能够容易和快速被人理解的手段,是一种聚焦在信息重要特征的信息压缩,是可以放大人类感知的图形化表示方法。在大数据时代,可视化日益受到重视并得到越来越广泛的应用。可视化可以应用到简单问题,也可以应用到复杂系统状态表示问题。人们可以从可视化的表示中发现新的线索、新的关联、新的结构、新的知识,促进人机系统的结合,促进科学决策。而数据可视化,是指将数据以图形、图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化表现是指将晦涩难懂的数据以一种更为友好的形式,如图形图像等进行表现。数据可视化表现的目的是让用户通过实际感触,在互动中与数据交流,进而理解数据,最终理解数据背后蕴含的知识、规律。作为可视化表现的基础,数据可视化技术并不是简简单单的把一个数据表格变成一个数据视图,如折线图、饼状图、直方图等,数据可视化技术是把复杂的、不直观的、不清晰而难以理解的事物变得通俗易懂且一目了然,以便于传播、交流和沟通,以及进一步的相应研究。4.2可视化图表统计图表是使用最早的可视化图形,已经具有数百年的发展历史,逐渐形成了一套成熟的方法,比较符合人类的感知和认知,因而得到了大量的使用。当然,数据可视化不仅是统计图表,本质上,任何能够借助于图形的方式展示事物原理、规律、逻辑的方法都叫数据可视化。常见的统计图表包括散点图、气泡图、折线图、柱状图、雷达图等。下面详细介绍几种常见的图表类型。(1)散点图。散点图又称散点分布图,是因变量随自变量而变化的大致趋势图。散点图主要用于解释数据之间的规律,发现各变量之间的关系,适用于存在大量数据点的情况。散点图有一定的局限,即数据量小的时候会比较混乱。散点图的数据点是在直角坐标系平面上,以一个变量为横坐标,另一变量为纵坐标,利用散点(坐标点)的分布形态反映变量统计关系的一种图形。它的特点是能直观表现出影响因素和预测对象之间的总体关系趋势;能通过直观醒目的图形方式,反映变量间的形态变化关系情况,以便于来模拟变量之间的关系。例如,统计时间与股票和基金的投资关系散点图如图4-3所示,从图上可以直观的看出投资时间越长,股票和基金的回报率也越大。图4-3统计时间与股票和基金的投资关系散点图(2)气泡图。气泡图是散点图的变种,用气泡代替散点图的数值点,面积大小代表数值大小。气泡图用来展示各类别占比,适用于了解数据的分布情况。气泡图的缺陷是如果分类过多,扇形就会太小,而无法展现图表。例如,全国物流网点单票成本/收入分布情况气泡图,如图4-4所示。物流网点总利润除了和单票利润有关,还和体量(即收件量)有关,这里用散点的面积大小表示收件量。图4-4全国物流网点单票成本/收入分布情况气泡图(3)折线图。折线图用来观察数据随时间变化的趋势,适用于有序的类别。折线图的缺点是无序的类别无法展示数据特点。例如,西南各地年均降水量分布折线图,如图4-5所示。图4-5西南各地年均降水量分布折线图(4)柱形图。柱形图用于展现类别之间的关系,适用于对比、分类数据。其局限是分类过多则无法展示数据特点。例如,某地蒸发量、降水量与径流量柱形图,如图4-6所示。图4-6某地蒸发量、降水量与径流量柱形图(5)热力图。热力图可以体现数据在空间上的变化规律。例如,某商场客流分布热力图,如图4-7所示,可进行客流分析。不同区域、不同时段人群密度都直观可见,实时的热力图还可以监控人群流向,为商家经营提供准确的数据支撑。图4-7某商场客流分布热力图(6)雷达图雷达图将多个分类的数据量映射到坐标轴上,用于对比某项目不同属性的特点,其优点是可用于了解同类别不同属性的综合情况,以及比较不同类别的相同属性差异。其局限是分类过多或变量过多时,图中的显示会比较混乱。例如,某初中两个班知识点得分率的分析雷达图,如图4-8所示。图4-8某初中两个班知识点得分率的分析雷达图除了上述常见的图表以外,数据可视化还可以使用其他图表,具体如下:①漏斗图。漏斗图适用于业务流程比较规范、周期长、环节多的流程分析,通过漏斗各环节业务数据的比较,能够直观地发现和说明问题所在。②树图。树图是一种流行的、利用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论