大数据技术及其在现代教育领域中的应用 计算机科学和技术专业_第1页
大数据技术及其在现代教育领域中的应用 计算机科学和技术专业_第2页
大数据技术及其在现代教育领域中的应用 计算机科学和技术专业_第3页
大数据技术及其在现代教育领域中的应用 计算机科学和技术专业_第4页
大数据技术及其在现代教育领域中的应用 计算机科学和技术专业_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据技术及其在现代教育领域大数据技术及其在现代教育领域中的应用中的应用计算机科学与技术系计算机科学与技术系提纲什么是“数据”?什么是“数据库”?什么是“大数据”?大数据处理的工具与手段大数据技术在现代教育领域中的潜在应用结语1、什么是、什么是“数据数据” 日程生活中,数据和信息经常混为一谈。日程生活中,数据和信息经常混为一谈。 “数据是对事实、概念或指令的一种特殊表达形式,数据是对事实、概念或指令的一种特殊表达形式,这种特殊的表达形式可以用人工的方式或者用自动这种特殊的表达形式可以用人工的方式或者用自动化的装置进行通信、翻译、转换或进行加工处理化的装置进行通信、翻译、转换或进行加工处理”。-

2、ISO 信息是对信息是对“人人”有用的数据,可以影响人们的行为有用的数据,可以影响人们的行为和决策。和决策。 信息处理的本质是数据处理,数据处理的目标是或信息处理的本质是数据处理,数据处理的目标是或的有用的信息。的有用的信息。 -上述解释来自国际标准化组织的相关定义上述解释来自国际标准化组织的相关定义2、什么是、什么是“数据库数据库”数据多了,怎么办?好雨知时节!好雨知时节! 数据库技术产生了!始于上个世界数据库技术产生了!始于上个世界60年代中期年代中期 需求分析需求分析 数据怎样规范表示?数据怎样规范表示? 涉及哪些软件?涉及哪些软件? 涉及哪些硬件?涉及哪些硬件? 数据如何输入?数据如何

3、输入? 结果如何输出?结果如何输出? 如何解决数据的访问冲突问题?如何解决数据的访问冲突问题? 如何从大量的数据中发现一写潜在的应用规律?如何从大量的数据中发现一写潜在的应用规律? 基本概念 数据库(DB):接受统一管理的相关数据的集合。 数据库管理系统(DBMS):数据库系统中管理数据的软件系统,它是数据库系统中的核心组成部分,对数据库的一切操作,包括定义、查询、更新以及各种控制,都是通过DBMS进行。如甲骨文 数据库系统(DBS):实现有组织地、动态地存储大量关联数据,方便多用户访问,由计算机软件、硬件和数据资源组成的系统。 数据库技术:研究数据库的结构、存取、管理和使用的软件学科。 软件

4、软件硬件硬件 + 数据本身数据本身3 3 、什么是、什么是 “ “大数据大数据”? “大数据” 概念的诞生2008年9月4日自然(Nature)刊登了一个名为“Big Data”的专辑2009年7月OReilly Media出版社出版了一本名为“Beautiful Data”的书2009年10月微软为纪念Jim Gray,出版了“第四范式数据密集的科学发现(The Fourth ParadigmData Intensive Scientific Discovery)” “大数据” 概念的诞生2011年2月11日:Science刊登了一个 名为Dealing with Data的专辑,联合Sci

5、ence:Signaling、Science:Translational Medicine和Science Careers推出相关专题, 讨论数据对科学研究的重要性同一天,在美国很受欢迎的智力竞答“危险边缘(Jeopardy)”电视节目中,IBM的“沃森”系统以绝对优势战胜两名人类顶级选手。和14年前的“深蓝”(战胜加里加里卡斯帕罗夫卡斯帕罗夫)相比,“沃森”除具有超群的计算能力外,更拥有超大规模的数据以及数据处理能力. “大数据” 概念的诞生2012年3月29日,美国总统科技政策办公室OSTP(Office of Science and Technology Policy)宣布了每年投资两亿

6、美元的“大数据研究计划”(Big Data R&D Initiative)同一天,我国科技部发布的“十二五国家科技计划信息技术领域2013年度备选项目征集指南”把大数据研究列在首位. “大数据” 概念的诞生“大数据”主要讨论的是与科学发现有关的数据“大数据”很好地概括了当前数据管理领域问题的重要性和多样性数据问题在研究和应用上空前的深度和广度“大数据”成为一个时髦的术语(Buzzword),成为工业界与学术界共同关注的热点“大数据”是个合适的umbrella,较广的覆盖面应用驱动,将IT的重点转移到数据方面,超越传 统数据库的理念.与大数据相关的几个热点问题非结构化数据: 数据特点云计算与大数

7、据: 处理平台Hadoop 与大数据: 主流的处理工具 1、非结构化数据(结构化数据)=非结构化数据什么是结构化的数据?结构化数据结构化数据 任何一列的数据不可以再细分任何一列的数据不可以再细分 任何一列的数据都有相同的数据类型任何一列的数据都有相同的数据类型结构化数据很多.p 人力资源管理p 库存管理p 门诊挂号p 工资管理p 物流管理p 户籍管理p 各种票务管理p 印象:目前的数据管理技术和手段已经很完善了!印象:目前的数据管理技术和手段已经很完善了!现实:数据库管理技术确实在一些领域得到了完美的应用!现实:数据库管理技术确实在一些领域得到了完美的应用! 数据库的三大成就关系模型p E.F

8、.Codd(数据库领域第二个图灵奖获得者)事务处理p Jim Gray(数据库领域第三个图灵奖获得者)查询优化p 结构化(模式和实例分离)p 关系数据库理论(关系代数)p 物理存储(索引/统计)孔子登东山而小鲁,登泰山而小天下孔子登东山而小鲁,登泰山而小天下.非结构化数据更多.非结构化数据的实例:非结构化数据的实例:文本、图片、网页、图像、音频、视频等等。文本、图片、网页、图像、音频、视频等等。这里的这里的“多多”,包括数据量,包括数据量“巨大巨大”和种类和种类“繁杂繁杂”!( (结构化数据结构化数据)=)=非结构化数据非结构化数据数据量数据量“巨大巨大”种类种类“繁杂繁杂”!多媒体文件的基本

9、要素:文字、声音、图像。多媒体文件的基本要素:文字、声音、图像。多媒体效果的组成过程:音频文件、视频文件、文字文多媒体效果的组成过程:音频文件、视频文件、文字文件(字幕),按照一定时间节点的合成。件(字幕),按照一定时间节点的合成。更为科学的统计规律更为科学的统计规律世界上的数据80%是非结构化数据二/八定律 两个世界(two universals). 数据库世界. 非数据库世界.29大数据的评估指标大数据的评估指标11、数据规模可观、数据规模可观(入门标准入门标准)大数据最基本的要求当然是数据规模大,但很难给出一个绝大数据最基本的要求当然是数据规模大,但很难给出一个绝对的数字标准来确定大小,

10、而只能用一些模糊的感觉来相对对的数字标准来确定大小,而只能用一些模糊的感觉来相对比较。例如,一个公司在年度预算中有了专门的,显著的数比较。例如,一个公司在年度预算中有了专门的,显著的数据存储和分析预算(例如,总预算的据存储和分析预算(例如,总预算的3-5%),有了独立的数),有了独立的数据处理和分析部门,有了比较完整的数据存储,安全和保密据处理和分析部门,有了比较完整的数据存储,安全和保密政策与管理流程,有了高度依赖数据分析结果的商业模式,政策与管理流程,有了高度依赖数据分析结果的商业模式,那么,可以说这个公司面临着利用大数据的机会或挑战了。那么,可以说这个公司面临着利用大数据的机会或挑战了。

11、1 谢谢 文:看得见的未来文:看得见的未来十谈大数据时代十谈大数据时代(http:/www.china- 网络业一个常见现象就是随着数据量的增加,用户行为所产生的数据间的关系越来网络业一个常见现象就是随着数据量的增加,用户行为所产生的数据间的关系越来越不清晰,越来越难以捉摸,越来越相互孤立,也就是所谓的数据碎片化。这种碎越不清晰,越来越难以捉摸,越来越相互孤立,也就是所谓的数据碎片化。这种碎片化主要来自两个方面:一是网站结构碎片化,逻辑混乱化,各种产品与服务之间片化主要来自两个方面:一是网站结构碎片化,逻辑混乱化,各种产品与服务之间相互孤立化,因而导致数据之间关系断裂,关联度很低。例如,明明是

12、同一个用户相互孤立化,因而导致数据之间关系断裂,关联度很低。例如,明明是同一个用户在一个网站上使用了十种不同的产品和服务,但由于其中五种无需注册使用,其他在一个网站上使用了十种不同的产品和服务,但由于其中五种无需注册使用,其他五种又需要分别注册使用,结果这十种网络行为的数据无法整合在一起,或者需要五种又需要分别注册使用,结果这十种网络行为的数据无法整合在一起,或者需要通过种种技术手段和工具进行高成本的数据整合,以至于入不敷出。这也就减少了通过种种技术手段和工具进行高成本的数据整合,以至于入不敷出。这也就减少了数据的含金量,降低了数据的可挖掘度,使得无论数据量如何大,结构如何复杂,数据的含金量,

13、降低了数据的可挖掘度,使得无论数据量如何大,结构如何复杂,也形成不了大数据。反之,如果一个也形成不了大数据。反之,如果一个WEB2.0时代的开放平台,架构清晰,逻辑分时代的开放平台,架构清晰,逻辑分明,用户与用户,用户与用户行为,行为与行为之间都具有确定的关联性,那么这明,用户与用户,用户与用户行为,行为与行为之间都具有确定的关联性,那么这样的数据就具有极高的含金量,极高的分析挖掘价值,也就可以形成大数据样的数据就具有极高的含金量,极高的分析挖掘价值,也就可以形成大数据结论结论 “大数据”技术不能简单的认为是大的“数据”和大的“数据库技术”。 严格意义上讲,技术本质上大数据技术和数据库技术是两

14、个完全不同的技术体系! 为什么呢?334、大数据处理的工具与手段、大数据处理的工具与手段34第一阶段:简单数字资源的产生和丰富第一阶段:简单数字资源的产生和丰富数字资源的产生和积累过程(数据库技术应运而生)可数字资源的产生和积累过程(数据库技术应运而生)可以理解成对应资本主义自由贸易的初级阶段以理解成对应资本主义自由贸易的初级阶段第二阶段:规范化数字资源的大规模集成应用第二阶段:规范化数字资源的大规模集成应用大规模结构化数字资源的管理与信息分析与提取,可以大规模结构化数字资源的管理与信息分析与提取,可以理解成跨国公司的形成过程理解成跨国公司的形成过程第三阶段:网络环境下异构数字资源的增值应用第

15、三阶段:网络环境下异构数字资源的增值应用网络环境下结构化和非结构化数字资源共存的情况下,网络环境下结构化和非结构化数字资源共存的情况下,如何实现增值应用,可以理解成资本运作的高级阶段。如何实现增值应用,可以理解成资本运作的高级阶段。 大数据产生的历史背景大数据产生的历史背景35 “生命的本质在于物质的组织形式,而不在于物质的自身” 人工生命之父克里斯兰顿(Chris Langton). 物品的生产与流通到资本的产生与流通,映射到数字资源的生产和管理到数字资源的增值与再生数据之间的泛在互联数据之间的泛在互联需要什么样的工具与手段?p因为数据规模大,需要大容量的存储因为数据规模大,需要大容量的存储

16、p因为数据结构复杂,需要高性能的计算能力因为数据结构复杂,需要高性能的计算能力p因为异构的数据之间关联度强,需要跨平台的协同因为异构的数据之间关联度强,需要跨平台的协同处理能力处理能力方法论和工具方法论和工具方法论:MapReduce工具:HadoopHadoop史前2003: GFS (Google文件系统)论文发表p Sanjay Ghemawat, Howard Gobioff , Shun-Tak Leung: The Google file system. SOSP 2003: 29-432004: MapReduce论文发表p Jeffrey Dean, Sanjay Ghemaw

17、at: MapReduce: Simplified Data Processing on Large Clusters. OSDI 2004: 137-1502006: BigTable论文发表p Fay Chang, Jeffrey Dean, Sanjay Ghemawat, et al: Bigtable: A Distributed Storage System for Structured Data. OSDI 2006: 205-218Hadoop诞生2004年:Doug Cutting和Michael J. Cafarella根据Google Lab论文实施,取名Hadoop。

18、Cloudera公司,Hadoop商用版(Apache开源版)2005秋天 : Hadoop 由Apache作为 Lucene的子项 目Nutch的一部分正式引入。 2006年3月:Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入 Hadoop 的项目中2006.1 2008: Web-scale Hadoop! (Yahoo!)Hadoop诞生的背景用户对大数据存储、管理和分析需求迫切传统数据库对非结构化数据几乎无能为力利用传统数据库来对大数据进行处理时, 会面临很多难以解决的问题。p 软、硬件平台的要求高,成本压力p 成本和收益不匹配的充分发掘和利用非结构化数据背后的商业 价值,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论