![第一章 大数据开篇_第1页](http://file4.renrendoc.com/view11/M02/2D/29/wKhkGWX66J-AdvRvAABz7Akh1Do307.jpg)
![第一章 大数据开篇_第2页](http://file4.renrendoc.com/view11/M02/2D/29/wKhkGWX66J-AdvRvAABz7Akh1Do3072.jpg)
![第一章 大数据开篇_第3页](http://file4.renrendoc.com/view11/M02/2D/29/wKhkGWX66J-AdvRvAABz7Akh1Do3073.jpg)
![第一章 大数据开篇_第4页](http://file4.renrendoc.com/view11/M02/2D/29/wKhkGWX66J-AdvRvAABz7Akh1Do3074.jpg)
![第一章 大数据开篇_第5页](http://file4.renrendoc.com/view11/M02/2D/29/wKhkGWX66J-AdvRvAABz7Akh1Do3075.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章大数据开篇1分布式技术大数据课程导论2目录数据是事实或观察的结果是对客观事物的逻辑归纳是用于表示客观事物的未经加工的原始素材数据的产生对客观事物的计量和记录产生数据数据存储单位1Byte=8bit1K(千)=1024Byte1MB(兆)=1024K1G(吉)=1024M1T(太)=1024G1P(拍)=1024T1E(艾)=1024P1Z(泽)=1024E1Y(尧)=1024Z1B(布)=1024Y1N(诺)=1024B1D(刀)=1024N大数据课程导论大数据概念大数据课程导论大数据概念大数据(bigdata)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据时代
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,其称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”央视《大数据时代》纪录片
国内首部大数据产业题材纪录片,节目细致而生动地讲述了大数据技术在政府治理、民生服务、数据安全、工业转型、未来生活等方面给我们带来的改变和影响。大数据课程导论大数据概念大数据场景下海量数据如何存储的问题海量数据如何计算的问题大数据课程导论数据是客观事实或观察的结果通过计量和记录客观事件而产生数据科技发展迈向了大数据时代大数据时代技术方面的挑战:存储、计算大数据概念大数据课程导论大数据的特点(5V特征)VarietyValueVelocity低价值密度速度快采集数据量大存储数据量大计算数据量大TB、PB级别起步信息海量但是价值密度低深度复杂的挖掘分析需要机器学习参与数据增长速度快获取数据速度快数据处理速度快VolumeVeracity种类、来源多样化数据体量大数据的质量种类:结构化、半结构化、非结构化来源:日志文本、图片、音频、视频数据的准确性数据的可信赖度电商领域精准广告位、个性化推荐、大数据杀熟传媒领域精准营销、猜你喜欢、交互推荐金融领域信用评估、风险管控、客户细分、精细化营销大数据课程导论大数据应用场景交通领域拥堵预测、智能红绿灯、导航最优规划电信领域基站选址优化、舆情监控、客户用户画像安防领域犯罪预防、天网监控医疗领域智慧医疗、疾病预防、病源追踪大数据课程导论大数据应用场景大数据课程导论大数据业务分析基本步骤数据展现明确分析目的和思路报告撰写数据收集数据处理数据分析Step1:明确分析目的和思路目的是整个分析流程的起点:
为数据的收集、处理及分析提供清晰的指引方向思路是使分析框架体系化:
先分析什么,后分析什么,使各分析点之间具有逻辑联系
保证分析维度的完整性,分析结果的有效性以及正确性数据分析方法论:营销管理相关理论用户行为理论、PEST分析法、5W2H分析法等大数据课程导论大数据业务分析基本步骤大数据课程导论大数据业务分析基本步骤大数据课程导论大数据业务分析基本步骤Step2:数据收集数据从无到有的过程
比如传感器收集气象数据、埋点收集用户行为数据数据传输搬运的过程
比如采集数据库数据到数据分析平台大数据课程导论大数据业务分析基本步骤业务数据日志数据爬虫数据RDBMS服务器、应用日志爬虫数据库互联网公开数据行业、政府网站Step3:数据处理对收集到的数据进行加工整理,形成适合数据分析的样式
主要包括数据清洗、数据转化、数据提取、数据计算保证数据的一致性和有效性大数据课程导论大数据业务分析基本步骤Step4:数据分析用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程需要掌握各种数据分析方法,还要熟悉数据分析软件的操作数据挖掘本质是一种高级的数据分析方法
数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式和规律。大数据课程导论大数据业务分析基本步骤Step5:数据展现分析结果直观展示,人类是视觉动物数据是通过表格和图形的方式来呈现,用图表说话大数据课程导论大数据业务分析基本步骤Step6:报告撰写数据分析报告是对整个数据分析过程的一个总结与呈现把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考需要有明确的结论,最好有建议或解决方案大数据课程导论大数据业务分析基本步骤分析步骤的核心:一切围绕着数据通俗描述:数据从哪里来、数据到哪里去核心步骤:采集、处理、分析、应用大数据业务分析基本步骤大数据课程导论大数据部门组织架构1分布式技术大数据课程导论2科学技术的发展推动下
应用和系统架构的变迁:单机单一架构迈向多机分布式架构
分布式技术为什么需要分布式技术数据大爆炸,海量数据处理场景面临问题
分布式技术为什么需要分布式技术如何存储?如何计算?单机存储有瓶颈多台机器分布式存储单机计算能力有限多台机器分布式计算分布式系统是一个硬件或软件组件分布在不同的网络计算机上彼此之间仅仅通过消息传递进行通信和协调的系统一群互相独立计算机集合共同对外提供服务对于系统的用户来说,就像是一台计算机在提供服务样分布式技术分布式系统概述分布式、集群是不同的概念口语中经常混淆二者
分布式技术分布式(Distributed)、集群(Cluster)分布式集群多台机器每台机器上部署不同组件多台机器每台集群部署相同组件分布式、集群的共同点是:多台机器因此口语中混淆两者概念的时候都是相对于单机来说的
分布式技术分布式(Distributed)、集群(Cluster)将负载(工作任务)进行平衡、分摊到多个操作单元上进行运行解决了单个无法处理所有任务,多个一起处理的问题分布式技术负载均衡(LoadBalance)当活动的服务或应用意外终止时,快速启用冗余或备用的服务器、系统、硬件或者网络接替它们工作故障转移系统也称之为容错系统,所谓容错指的是可以容忍错误的发生故障转移的核心是设置备份出现故障时主备切换主备切换的前提是数据状态保持一致分布式技术故障转移(FailOver
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度物流公司司机劳动合同规范版
- 2025年中国皮蛋行业发展策略、发展环境及前景研究分析报告
- 2024年12月江苏镇江市文化广电产业集团所属事业单位公开招聘3人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 心理健康高三梦想课件
- 微生物-球菌课件
- 内科学疾病概要-支气管扩张课件
- Unit 7 Lets go to the museum Lesson 3 【知识精研】KET剑桥英语
- 美团骑手劳动合同(全新修订版)及福利待遇协议-@-1
- 《LCD显示技术》课件
- 《食品的色泽》课件
- 2024年全国小学生英语竞赛初赛(低年级组)试题及参考答案
- 建筑业10项新技术概述
- 医院电梯引导服务方案
- 岭南膏方规范
- 怀孕期间体重管理课件
- 2023黑龙江气象局所属事业单位招聘毕业生5名笔试参考题库(共500题)答案详解版
- 杭州市失业人员登记表
- 生物实验报告表
- 世界老年人跌倒的预防和管理指南解读及跌倒应急处理-
- 湿地环境生态工程
- GB/T 7251.2-2023低压成套开关设备和控制设备第2部分:成套电力开关和控制设备
评论
0/150
提交评论