版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、云计算与大数据处理原理唐四薪云计算与大数据处理原理唐四薪课程介绍课程名:云计算与大数据处理原理学时:48学时(讲授32学时+上机16学时)课程性质:必修考试:闭卷 ,第20周课程介绍课程名:云计算与大数据处理原理国家战略规划:深化大数据、人工智能等研发应用,培育新一代信息技术、高端装备、生物医药、新能源汽车、新材料等新兴产业集群,壮大数字经济。摘自国务院2019年政府工作报告 为什么要学习大数据技术国家战略规划:深化大数据、人工智能等研发应用,培育新一代信息为什么要学习大数据技术2017年:教育部批准100多所高校同时增设 数据科学与大数据技术专业数据科学:科学研究的第四范式实验理论计算机模拟
2、数据为什么要学习大数据技术2017年:教育部批准100多所高校同第一章:大数据简介主讲教师:唐四薪大数据分析实用教程基于Python实现第一章:大数据简介主讲教师:唐四薪大数据分析实用教程基于目录1.1大数据的来源1.2大数据的定义1.3大数据的特点1.4大数据处理的过程第一章 大数据概述目录1.1大数据的来源1.2大数据的定义1.3大数据的特点1什么是大数据什么是大数据(Big Data)数据基本知识大数据定义用4V描述大数据特征大数据是任何超过了一台计算机处理能力的数据量亚马逊的定义GBTBPBEBZB相对量大数据就是数据量大到无法用一台计算机处理和存储的数据什么是什么是大数据(Big D
3、ata)数据基本知识大数据定义1.1大数据的来源搜索引擎数据1电商交易数据2社交网络数据3物联网传感器数据4网站日志数据5传统互联网移动互联网物联网1.1大数据的来源搜索引擎数据1电商交易数据2社交网络数据31. 搜索引擎数据 搜索引擎是大家最为熟悉的大数据系统,百度在简洁的用户界面下面隐藏着世界上最大规模的大数据系统。百度每天的搜索次数 50亿次1. 搜索引擎数据 搜索引擎是大家最为熟悉的大数据系统百度热门搜索搜索引擎大数据的应用Top K问题百度热门搜索搜索引擎大数据的应用Top K问题2. 电商交易数据淘宝、京东等电商平台每天会产生大量交易数据电商大数据的应用交叉销售、商品推荐商品比价2
4、. 电商交易数据淘宝、京东等电商平台每天会产生大量交易数据百度迁徙 百度迁徙是2014年百度利用其位置服务(Location Based Service ,LBS)所获得的数据,将人们在春节期间位置移动情况用可视化的方法显示在屏幕上如图所示。3. 物联网、传感器数据物联网设备(无线传感器、RFID)会产生大量数据,如GPS位置数据、温度数据等。百度迁徙 百度迁徙是2014年百度利用其位置服务4. 社交网络数据社交网络:QQ、微信、抖音、微博Facebook 、MSN社交网络来源:移动设备、电脑社交网络大数据的应用:好友推荐、节目推荐等4. 社交网络数据社交网络:5. 网站日志数据大型网站的日志
5、文件每天会记录大量的访问数据网站日志大数据的应用计数统计:如PV(Page View),每个页面访问次数去重统计:比如独立 IP 数,独立用户数等Top N统计:比如某天检索量最大的关键词日志文件实时收集框架Flume5. 网站日志数据大型网站的日志文件每天会记录大量的访问数据6. 行业大数据行业大数据:金融、医疗、保险、交通、气象、制造、基因分析6. 行业大数据行业大数据:金融、医疗、保险、交通、气象、制什么是大数据数据基本知识大数据定义用4V描述大数据特征大数据的来源传统互联网、移动互联网、物联网计算机、移动终端设备、传感器什么是数据基本知识大数据定义用4V描述大数据特征大数据的来源麦肯锡
6、的定义:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。维基百科的定义:大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。Gartner的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。1.1.1 大数据的定义麦肯锡的定义:大数据指的是大小超出常规的数据库工具获取、存储什么是大数据数据基本知识大数据定义用4V描述大数据特征1。大数据的5个特征数据体量巨大(Volume)数据类型繁多(Variety)价值密度低 (value)处理速度快(Velocity)大数据从TB级别跃升到PB
7、级别;数据体量巨大。网络日志、视频、图片、地理位置信息等等价值密度低,商业价值高。1.1.2大数据的特点数据应具有真实性(Veracity)什么是数据基本知识大数据定义用4V描述大数据特征1。大数据的1. 数据体量巨大(Volume) 数据量巨大:数据体量巨大是大数据的显著特征,其数据量目前为PB级或ZB级增量大:数据的产生非常快,每天都在生成巨量的数据1. 数据体量巨大(Volume) 数据量巨大:数据体量巨大2. Variety 数据的来源多样:搜索引擎、社交网络、电商数据、物联网传感器数据的种类多样:结构化数据、半结构化数据、非结构化数据2. Variety 数据的来源多样:搜索引擎、社
8、交网络、电数据的种类结构化数据:关系型数据库中的二维表半结构化数据:HTML、XML、JSON、日志文件非结构化数据:文档类型数据、网页、社交网络数据、多媒体数据等。数据的种类结构化数据:关系型数据库中的二维表结构化数据结构化数据:基于关系型数据库的数据,例:学号姓名班级号课程号成绩201601001张明160103100290201601002李四160205402195结构化数据结构化数据:基于关系型数据库的数据,例:学号姓名班半结构化数据半结构化数据就是介于完全结构化数据和完全无结构化的数据之间的数据。生活中我们常见的半结构化数据XML文档Json文档日志文件,如点击流(Click-st
9、ream Data)XML文档Json文档半结构化数据半结构化数据就是介于完全结构化数据和完全无结构化非结构化数据非结构化数据是指纯文本类数据,没有标准格式,无法直接解析出相应的值。此类数据不易收集和管理,且难以直接查询和分析。常见的非结构化数据文本文件:文字处理、电子表格、演示文稿即时消息(如QQ 、微博、微信中消息)富文本文档(Rich Text Format , RTF)媒体:MP3、数码照片、音频文件、视频文件。网页文件。常见的非结构化数据非结构化数据非结构化数据是指纯文本类数据,没有标准格式,无法3. Velocity处理速度快:快速增长的数据量要求数据处理的速度也要相应地提升数据的
10、价值会随着时间而迅速降低:利用数据进行决策必须要能够快速分析数据要求实时分析,如:内存数据库技术Redis3. Velocity处理速度快:快速增长的数据量要求数据处4. Value价值密度低,商业价值高以超市购物小票数据为例,单张小票几乎没用,但把大量的小票集合在一起,能发现商品的销售关联性4. Value价值密度低,商业价值高5. Veracity数据应具有真实性(veracity):数据的重要性在于对决策的支持,数据的规模并不能决定其能否为决策提供帮助,数据的真实性和质量才是获得真知的最重要因素。在数据分析时应进行数据清理,过滤掉垃圾数据。5. Veracity数据应具有真实性(vera
11、city):1.1.4大数据处理的过程大数据从数据源经过分析挖掘到最终获得价值一般需要经过4个阶段。大数据处理流程图数据采集数据预处理数据存储分析和挖掘网络爬虫日志采集传感器RFID射频技术数据抽取数据清洗特征选择数据标准化HDFSNoSQLRDBMS等方法数据分析数据挖掘机器学习统计学等方法1.1.4大数据处理的过程大数据从数据源经过分析挖掘到最终大数据技术的内容大数据平台的部署和运维 (Hadoop安装和使用)大数据编程 (MapReduce并行编程框架)大数据分析 (数据挖掘、统计学方法)大数据技术的内容大数据专业对应的典型工作岗位大数据专业对应的典型工作岗位大数据与传统数据的对比传统数据大数据数据规模规模小,以MB、GB为处理单位规模大,以TB、PB为处理单位数据生成速率每小时,每天更加迅速数据结构类型单一的结构化数据多样化数据源集中的数据源分散的数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论