版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
——大数据引领我们走向数据智能化时代大数据分析2021/5/91大数据的定义理解2021/5/92什么是大数据大数据时代的背景1大数据的定义理解大数据的“4V”特征2大数据的构成32021/5/93大数据时代的背景
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。2021/5/94全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…2021/5/95数据量增加TBPBZBEB根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临…大数据时代的背景2021/5/9620世纪90年代,数据仓库之父的BillInmon就经常提及BigData。2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念。大数据时代的背景2021/5/97体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长占总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。2021/5/98Value价值挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息.价值密度低,是大数据的一个典型特征.2021/5/992010年海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。一些研究人员采取了一种不同的做法:他们开始跟踪海地人所持手机内部的SIM卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述,此举帮助他们“准确地分析出了逾60万名海地人逃离太子港之后的目的地。”后来,当海地爆发霍乱疫情时,同一批研究人员再次通过追踪SIM卡把药品投放到正确的地点,阻止了疫情的蔓延。2021/5/910Variety多样性企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源.
文本/图片/视频等非结构化/半结构化数据能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.2021/5/911非结构化数据相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。2021/5/912Velocity速度1s是临界点.对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的.实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一.2021/5/913Volume数据量PB是大数据層次的临界点.KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB2021/5/914大数据不仅仅是“大”多大?PB级比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值2021/5/915指数型增长的海量数据所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1EB数据相当于美国国会图书馆中存储的数据的4000多倍。事实上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的90%的数据(比如手术过程中产生的几乎所有实时视频图像)。2021/5/916大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、评价数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。大数据的构成2021/5/917大数据的技术与应用2021/5/918大数据怎么用大数据技术要解决的问题1大数据的技术与应用大数据的相关技术2大数据的应用实例32021/5/919Volume海量的数据规模Variety多样的数据类型ValueVelocity快速的数据流转发现数据价值大数据技术要解决的问题2021/5/920软件是大数据的引擎和数据中心(DataCenter)
一样,软件是大数据的驱动力.软件改变世界!2021/5/921大数据生态:软件是引擎2021/5/922大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT领域新一代的技术与架构。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。大数据技术要解决的问题2021/5/923技术领域的挑战1、对现有数据库管理技术的挑战传统的数据库部署不能处理数TB级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。如何构建全球级的分布式数据库(Globally-DistributedDatabase),可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。2、经典数据库技术并没有考虑数据的多类别(variety)SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。3、实时性的技术挑战:一般而言,像数据仓库系统、BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。网络架构、数据中心、运维的挑战:技术架构的挑战:人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,我们的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。2021/5/924分析技术:数据处理:自然语言处理技术统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等一些相关技术存储结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)2021/5/925大数据的相关技术ETL数据众包(CrowdSouring)2021/5/926数据众包数据众包是一种新的数据采集方式,由企业方通过平台把数据采集任务外包给非特定的大众网络。2021/5/927大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理2021/5/928分布式文件系统分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。2021/5/929分布式文件系统Google文件系统(GoogleFileSystem,GFS)是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,将服务器故障视为正常现象,通过软件的方式自动容错,在保证系统可靠性和可用性的同时,大大减少了系统的成本。2021/5/930分布式文件系统GFS将整个系统分为三类角色:Client(客户端)、Master(主服务器)、ChunkServer(数据块服务器)。2021/5/931分布式文件系统Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。2021/5/932分布式文件系统一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。2021/5/933非关系型数据库NoSQL关系型数据库的局限性难以满足高并发读写的需求难以满足对海量数据高效率存储和访问的需求难以满足对数据库高可扩展性和高可用性的需求NoSQL=2021/5/934非关系型数据库NoSQLNoSQL数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。关系型数据库中的表都是存储一些格式化的数据结构,每个元组字段的组成都一样,即使不是每个元组都需要所有的字段,但数据库会为每个元组分配所有的字段。非关系型数据库以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销。2021/5/935非关系型数据库NoSQL2021/5/936非关系型数据库NoSQLBigtable的设计目的是可靠地处理PB级别的数据,并且能够部署到上千台机器上。Bigtable已经在超过60个Google的产品和项目上得到了应用,包括GoogleAnalytics、GoogleEarth等。2021/5/937非关系型数据库NoSQLBigtable是一个键值(key-value)映射。键有三维,分别是行键(rowkey)、列键(columnkey)和时间戳(timestamp),行键和列键都是字节串,时间戳是64位整型;而值是一个字节串。可以用(row:string,column:string,time:int64)→string来表示一条键值对记录。2021/5/938非关系型数据库NoSQLBigtable是一个键值(key-value)映射。键有三维,分别是行键(rowkey)、列键(columnkey)和时间戳(timestamp),行键和列键都是字节串,时间戳是64位整型;而值是一个字节串。可以用(row:string,column:string,time:int64)→string来表示一条键值对记录。2021/5/939非关系型数据库NoSQLDynamoDB是Amazon提供的共享式数据库云服务,可用性和扩展性都很好,性能也不错:读写访问中99.9%的响应时间都在300ms内。DynamoDB通过服务器把所有的数据存储在固态硬盘(SSD)上的三个不同的区域。如果有更高的传输需求,DynamoDB也可以在后台添加更多的服务器。2021/5/940非关系型数据库NoSQLAmazonDynamoDB把数据组织成表的形式,表中包含了项目(item),每个项目包含1个或多个属性。"ImageID"=1"Title"="flower""Tags"="flower","jasmine","white""Ratings"=3,4,2一个属性是一个“名称-值”对(name-valuepair),“名称”必须是一个字符串,“值”可以是一个字符串、数字、字符串集合或数字集合。下面是关于属性的一些实例:2021/5/941非关系型数据库NoSQLAmazonDynamoDB把数据组织成表的形式,表中包含了项目(item),每个项目包含1个或多个属性(Attibute)。项目由属性构成。必须指定一个属性作为主键,这个主键在DynamoDB表中唯一地标识一个项目。除了主键是必须的,其他项目属性是可选的。一个项目的属性没有顺序关系。某个项目中的属性和同一个表中的其他项目的属性也没有关系。项目被存储在表中,表中的所有项目都具有相同的主键机制(primarykeyscheme)。每个项目都具备一个唯一的主键值。2021/5/942非关系型数据库NoSQLAmazonDynamoDB把数据组织成表的形式,表中包含了项目(item),每个项目包含1个或多个属性(Attibute)。2021/5/943非关系型数据库NoSQLDynamoDB并没有DB的概念,目前单用户最多能创建256个Table,同时DynamoDB提供了11个API接口操作表和项目。2021/5/944非关系型数据库NoSQL2021/5/945非关系型数据库NoSQLHBase–HadoopDatabase,是一个分布式的、面向列的开源数据库,HBase在Hadoop之上提供了类似于Bigtable的能力,是Hadoop项目的子项目。Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与AmazonDynamo的完全分布式的架构于一身。Facebook于2008年将Cassandra开源,此后被Digg、Twitter等知名Web2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。2021/5/946非关系型数据库NoSQLMongoDB是一个基于分布式文件存储的数据库。由C++语言编写,是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,可以存储比较复杂的数据类型。它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。2021/5/947云计算和云存储云计算(cloudcomputing),是分布式计算技术的一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务。云计算是一种资源交付和使用模式,指通过网络获得应用所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。2021/5/948白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器。没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀。云计算和云存储2021/5/949云计算和云存储云存储是在云计算(cloudcomputing)概念上延伸和发展出来的一个新概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。2021/5/950实时流处理传统的分布式计算往往是先积累大量的数据,再进行数据拆分和聚合。而实时流处理则是让数据流动起来,数据从内存中流过,截取需要的数据,进行实时分析计算。2021/5/951实时流处理传统的分布式计算往往是先积累大量的数据,再进行数据拆分和聚合。而实时流处理则是让数据流动起来,数据从内存中流过,截取需要的数据,进行实时分析计算。2021/5/952大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理A/BTesting关联规则分析分类聚类遗传算法神经网络预测模型模式识别时间序列分析回归分析系统仿真机器学习优化空间分析社会网络分析自然语言分析MapReduceR语言2021/5/953A/BTestingA/B测试是可用性测试的一个方法,其核心为:同时实验两个元素或版本(A和B),确定哪个更好。注册按钮由绿色改成红色提高转化率34%人性化的表格提高11%的转化率。2021/5/954MapReduceMapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。它使编程人员在不了解分布式并行编程的情况下,能将自己的程序运行在分布式系统上。Map=映射Reduce=规约或化简2021/5/9552021/5/956MapReduce2021/5/957R语言R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R语言擅长在Hadoop分布式文件系统中存储的非结构化数据上的分析。R现在还可以运行在HBase这种非关系型的数据库以及面向列的分布式数据存储之上。2021/5/958大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理A/BTesting关联规则分析分类聚类遗传算法神经网络预测模型模式识别时间序列分析回归分析系统仿真机器学习优化空间分析社会网络分析自然语言分析MapReduceR语言标签云(TagCloud)聚类图(Clustergram)空间信息流(Spatialinformationflow)热图(Heatmap)2021/5/959标签云标签云(TagCloud)是一套相关的标签以及与此相应的权重。权值影响标签的字体大小、颜色或其他视觉效果。典型的标签云有30至150个标签,用以表示一个网站中的内容及其热门程度。标签通常是超链接,指向分类页面。2021/5/960标签云奥巴马布什克林顿林肯2021/5/961标签云2021/5/962聚类图聚类图(Clustergram)是指用图形方式展示聚类分析结果的技术,可以有助于判断簇数量不同时的聚类效果。2021/5/963空间信息流空间信息流(Spatialinformationflow)是展示信息空间状态的一种可视化技术。2021/5/964热图热图(Heatmap)是一项数据展示技术,将变量值用不同的颜色或高亮形式描绘出来。可以非常直观的呈现一些原本不易理解或表达的数据,比如密度、频率、温度等。2021/5/965热图2021/5/966机遇与挑战三2021/5/967大数据赋予我们洞察未来的能力机遇马云成功预测2008年经济危机“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间从询盘上推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。——《大数据时代》2021/5/968挑战诸多领域的问题亟待解决,最重要的是每个人的信息都被互联网所记录和保留了下来,并且进行加工和利用,为人所用,而这正是我们所担忧的信息安全隐患!更多的隐私、安全性问题:我们的隐私被二次利用了多少密码和账号是因为“社交网络”流出去的?2011年4月索尼的系统漏洞导致7700万用户资料失窃2011年4月,iOS被发现会按照时间顺序记录用户的位置坐标信息2011年CSDN密码泄露事件…眼下中国互联网热门的话题之一就是互联网实名制问题,我愿意相信这是个好事。毕竟我们如果明着亮出自己的身份,互联网才能对我们的隐私给予更好保护。2021/5/969大数据的营销案例一、未卜先知怀孕案例塔吉特:比父亲更早知道女儿怀孕曾经有一位男性顾
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 日本课件 人教版
- 爱护地球 课件
- 转化医学 课件
- 西京学院《装饰图案》2022-2023学年第一学期期末试卷
- 幼儿园小班音乐《北风爷爷别神气》课件
- 部编本拼音zcs课件
- 西华师范大学《中外新闻传播史》2021-2022学年第一学期期末试卷
- 西华师范大学《学科课程标准与教材研究》2023-2024学年第一学期期末试卷
- 混凝土原理课件
- 西华师范大学《数据库系统原理》2021-2022学年期末试卷
- 2023年永生花行业分析报告及未来五至十年行业发展报告
- 12、口腔科诊疗指南及技术操作规范
- 变电安装工施工详细要求培训
- 人居环境科学讲义
- 中国成人患者肠外肠内营养临床应用指南(2023版)
- 幼儿园大班音乐韵律游戏《朱迪警官破案记》
- 青岛版数学五四制小学三年级上册期末测试题及答案(共4套)
- 拖欠工程款起诉状
- 智慧交通车辆测速实验
- 单位消防安全管理应知应会参考题库300题(含答案)
- 初三化学上学期氧气-课件
评论
0/150
提交评论