版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录7.1以匠心致创新7.27.3应用场景应用实例:天猫大数据大数据相关知识7.3大数据相关知识目标1、大数据的特征2、大数据关键技术3、大数据与云计算、物联网的关系重点1、大数据的特征2、大数据与云计算、物联网的关系难点无1、大数据的特征大数据的价值1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销2)做小而美模式的中小微企业可以利用大数据做服务转型3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值什么是大数据?大家比较认可关于大数据的4个“V”,或者说是大数据的4个特点,包含4个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。1、大数据的特征数据量大从1986年到2010年的20多年时间里,全球的数据量增长了100倍。人类社会产生的数据一直都在以每年50%的速度增长,预计到2020年,全球将总共拥有35ZB的数据量,与2010年相比,数据量将增长到近30倍。数据存储单位之间的换算关系单位换算关系Byte(字节)1Byte=8bitKB(Kilobyte,千字节)1KB=1024ByteMB(Megabyte,兆字节)1MB=1024KBGB(Gigabyte,吉字节)1GB=1024MBTB(Trillionbyte,太字节)1TB=1024GBPB(Petabyte,拍字节)1PB=1024TBEB(Exabyte,艾字节)1EB=1024PBZB(Zettabyte,泽字节)1ZB=1024EB1、大数据的特征大数据存储方式(1)分布式系统:分布式系统包含多个自主的处理单元,通过计算机网络互连来协作完成分配的任务,其分而治之的策略能够更好的处理大规模数据问题。(2)NoSQL数据库:关系型的数据库无法满足海量数据的管理需求,无法满足数据高并发的需求、高可扩展性和高可用性的功能太低。而NoSQL数据库则具有很大的优势,可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力。(3)云数据库:云数据库是基于云计算技术发展的一种共享基础架构的方法,是部署和虚拟化在云计算环境中的数据库。云数据库并非一种全新的数据库技术,而只是以服务的方式提供数据库功能。1、大数据的特征大数据的数据来源众多,科学研究、企业应用和Web应用等都在源源不断地产生数据,大数据的数据类型丰富,包括结构化和非结构化数据。数据种类繁多结构化数据:占10%左右,主要指存储在关系数据库中的数据非结构化数据:占90%左右,种类繁多,包括邮件、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息、网络日志等。存储在非关系型数据库(NotOnlySQL,NoSQL)中。1、大数据的特征处理速度快大数据时代的数据增长速度快,处理速度也快,时效性要求高。很多应用都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践。因此,数据处理和分析的速度通常要达到秒级响应。价值密度低在大数据时代,很多有价值的信息都是分散在海量数据中的。例如:小区监控视频,如果没有意外事件发生,连续不断产生的数据都是没有任何价值的,当发生偷盗等意外情况时,也只有记录了事件过程的那一小段视频是有价值的。假设一个电子商务网站想通过微博数据进行有针对性的营销,为了实现这个目的,就必须构建能存储和分析新浪微博数据的大数据平台,使之能根据用户的微博内容进行有针对性的需求趋势预测。愿景很美好,但现实代价很大,需要耗费几百万构建大数据团队和平台,而最终的利润增加额可能会比投入低许多。大数据技术:伴随着大数据的采集、预处理、存储、分析和应用的相关技术,是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。其技术框架如图所示。2、大数据关键技术2、大数据关键技术大数据计算模式大数据计算模式解决问题功能批处理计算针对大规模数据的批量处理MapReduce、Spark等流计算针对流数据的实时计算Strom、S4、Flume、Streams、Puma、DStream、SuperMario、银河流数据处理平台等图计算针对大规模图结构数据的处理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查询分析计算大规模数据的存储管理和查询分析Dremel、Hive、Cassandra、Impala等2、大数据关键技术大数据技术的不同层面及其功能如下表所示:技术层面功能数据采集与预处理利用ETL工具将分布的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;也可以利用日志采集工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析数据存储和管理利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据数据安全和隐私保护在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全2、大数据与云计算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44951-2024防弹材料及产品V50试验方法
- 2021年华夏航空分析报告48
- 人力资源管理(管理科学研究所课件)
- 羊水污染的健康宣教
- 同型胱氨酸尿症的临床护理
- 上颌窦癌的健康宣教
- 《数学应用问题专题》课件
- 胎动的健康宣教
- 孕期呼吸道过敏的健康宣教
- 孕期打嗝的健康宣教
- 【MOOC】信号与系统-南京邮电大学 中国大学慕课MOOC答案
- 大学美育(同济大学版)学习通超星期末考试答案章节答案2024年
- 中国重症患者肠外营养治疗临床实践专家共识(2024)解读
- 足三阴经周康梅
- MOOC 跨文化交际通识通论-扬州大学 中国大学慕课答案
- 10000中国普通人名大全
- 小区会所经营方案(开业投资分析)
- 加气混凝土砌块施工方法
- 销售冠军团队销售职场培训动态PPT
- AQL抽样检验表(标准版本20)
- 数独“六宫”练习题
评论
0/150
提交评论