大数据基础和行业应用讲义版(PPT-78页)课件_第1页
大数据基础和行业应用讲义版(PPT-78页)课件_第2页
大数据基础和行业应用讲义版(PPT-78页)课件_第3页
大数据基础和行业应用讲义版(PPT-78页)课件_第4页
大数据基础和行业应用讲义版(PPT-78页)课件_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据基础和行业应用大数据Big Data大数据的定义理解什么是大数据大数据时代的背景1大数据的定义理解大数据的“4V”特征2大数据的构成3大数据时代的背景 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。数据量增加TBPBZBEB根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020

2、年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临大数据时代的背景YBNBBB20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data。2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。大数据时代的背景体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长

3、占总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。大数据 = 海量数据 + 复杂类型的数据海量交易数据:

4、企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、评价数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。大数据的构成大数据的技术与应用大数据怎么用大数据技术要解决的问题1大数据的技术与应用大数据的相关技术2大数据的应用实例3Volume海量的数据规模Variety多样的

5、数据类型StreamsReal timeNear timeBatchTBPBEBStructuredUnstructuredSemi-structuredAll the aboveValueVelocity快速的数据流转发现数据价值大数据技术要解决的问题大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT 领域新一代的技术与架构。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相

6、融合。大数据技术要解决的问题技术领域的挑战传统的数据库部署不能处理数TB 级别的数据,也不能很好的支持高级别的数据分析,急速膨胀的数据体量即将超越传统数据库的管理能力。因此,需要构建全球级的分布式数据库,可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。经典数据库技术并没有考虑数据的多类别(variety),SQL在设计的一开始是没有考虑非结构化数据的。一般而言,像数据仓库、BI等,对处理时间的要求并不高。因此这类应用如果运行1、2天获得结果依然可行的。但大数据应用要求实时处理,这是其区别于传统数据仓库技术、BI技术的关键差别之一。数据采集数据储存与管理数据分析与挖掘计算结果展示大数

7、据的相关技术ETL数据众包(CrowdSouring)数据众包数据众包是一种新的数据采集方式,由企业方通过平台把数据采集任务外包给非特定的大众网络。数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理分布式文件系统分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统Google文件系统(Google File Syst

8、em,GFS)是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,将服务器故障视为正常现象,通过软件的方式自动容错,在保证系统可靠性和可用性的同时,大大减少了系统的成本。分布式文件系统Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。分布式文件系统一个HDFS集群是由

9、一个Namenode和一定数目的Datanodes组成。非关系型数据库NoSQL关系型数据库的局限性难以满足高并发读写的需求难以满足对海量数据高效率存储和访问的需求难以满足对数据库高可扩展性和高可用性的需求NoSQL=非关系型数据库NoSQLNoSQL 数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。关系型数据库中的表都是存储一些格式化的数据结构,每个元组字段的组成都一样,即使不是每个元组都需要所有的字段,但数据库会为每个元组分配所有的字段。非关系型数据库以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些

10、自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销。非关系型数据库NoSQL云计算和云存储云计算(cloud computing),是分布式计算技术的一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务。云计算是一种资源交付和使用模式,指通过网络获得应用所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。白云下面数据跑蓝蓝的天上白云飘如果数据是财

11、富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器。没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀。云计算和云存储云计算和云存储云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系

12、统。实时流处理传统的分布式计算往往是先积累大量的数据,再进行数据拆分和聚合。而实时流处理则是让数据流动起来,数据从内存中流过,截取需要的数据,进行实时分析计算。实时流处理传统的分布式计算往往是先积累大量的数据,再进行数据拆分和聚合。而实时流处理则是让数据流动起来,数据从内存中流过,截取需要的数据,进行实时分析计算。数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理A/B Testing关联规则分析分类聚类遗传算法神经网络预测模型

13、模式识别时间序列分析回归分析系统仿真机器学习优化空间分析社会网络分析自然语言分析MapReduceR语言A/B TestingA/B测试是可用性测试的一个方法,其核心为:同时实验两个元素或版本(A和B),确定哪个更好。注册按钮由绿色改成红色提高转化率34%人性化的表格提高11%的转化率。MapReduceMapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。它使编程人员在不了解分布式并行编程的情况下,能将自己的程序运行在分布式系统上。Map=映射Reduce=规约或化简MapReduceR语言R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图

14、、数据挖掘。R语言擅长在Hadoop分布式文件系统中存储的非结构化数据上的分析。R现在还可以运行在HBase这种非关系型的数据库以及面向列的分布式数据存储之上。数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理A/B Testing关联规则分析分类聚类遗传算法神经网络预测模型模式识别时间序列分析回归分析系统仿真机器学习优化空间分析社会网络分析自然语言分析MapReduceR语言标签云(Tag Cloud)聚类图(Clusterg

15、ram)空间信息流(Spatial information flow)热图(Heatmap)标签云标签云(Tag Cloud)是一套相关的标签以及与此相应的权重。权值影响标签的字体大小、颜色或其他视觉效果。典型的标签云有30至150个标签,用以表示一个网站中的内容及其热门程度。标签通常是超链接,指向分类页面。标签云奥巴马布什克林顿林肯聚类图聚类图(Clustergram)是指用图形方式展示聚类分析结果的技术,可以有助于判断簇数量不同时的聚类效果。空间信息流空间信息流(Spatial information flow)是展示信息空间状态的一种可视化技术。热图热图(Heatmap)是一项数据展示技

16、术,将变量值用不同的颜色或高亮形式描绘出来。可以非常直观的呈现一些原本不易理解或表达的数据,比如密度、频率、温度等。热图大数据的应用实例电商数据中心(一)HadoopHiveHBASE(NoSQL)指标体系TMSWMSERP交易DataXStorm报表体系报告体系运营体系监控体系UDFile移动端关系数据库与Hadoop混搭技术混搭、理念融合电商基本系统名称CMSFMSOMSPMSWMSTMSAMSSCMCRM44软件的功能:为了测试用户数据业务的QOE,得出用户上网的真实评价主动测试部分:用户主动上网行为的模拟(上传、下载和时延)打开网页的模拟(网站响应的时延、速度测试)对于软件的监控:流量

17、和使用时长的监控测试的地图展示北邮APP采集数据分析 我们的软件Anttest45手推车速度自行车速度小汽车速度火车速度飞机速度火箭速度冲浪速度网速评价指标我们的软件Anttest46要获得用户真正的QOE只有主动测试是远远不够的,还需要对用户的APP使用和上网情况,进行被动的监控,获取真实的数据,进行分析。我们的软件Anttest47测试的数据来源:主动测试的收集和被动监控的收集推广方式:各大android市场发布和北京各高校论坛推广测试用户: android市场下载使用者和校内友好用户数据的收集48校园大规模测试 时间: 2013.7.10- 2013.7.20 8days上午: 9:00

18、-11:30下午: 14:00-17:00晚上: 19:30-21:00搜集:主动测试的信息被动监控的信息3. 数据的收集49移动 (1746)联通 (2060)电信 (2094)3. 数据的收集50上传平均速度下载平均速度平均时延3. 数据的收集51CMCC 强度(dBm)CUCC 强度(dBm)CTCC 强度(dBm)3. 数据的收集52CMCCCUCCCTCCCMCCCUCCCTCC3. 数据的收集53移动联通电信数据联通性测试:时间:2013-10-15 2013-10-18(4 天)搜集:北邮校内的 数据联通率移动: 15,857联通: 3,713电信: 3,252WI-FI: 3,

19、061总计: 31,899说明:红色的点代表数据联通性出现问题,蓝色的点代表数据联通性正常3. 数据的收集54数据表数据条目主动测试数据25,420小区强度数据5,116,604数据联通性数据32,851APP流量数据26,433,4893. 数据的收集目前为止,Mysql数据库大小,超过10GB。当数据表超过1300百万条时Mysql计算均值,平均响应在30s左右555.2 大数据分析结果示例-1使用不同网络的人数对比,发现在使用我们软件的人数中,2G网络的用户还是占了一大部分呢,大概在50%左右。LTE手机上市还没有多久,也有LTE的手机在使用我们的软件565.2 大数据分析结果示例-2从

20、统计的总体流量来看,Wi-Fi的总流量远远超出了其他网络的用户流量数,上行统计达到1690.6GB,下行统计达到3031.9GB,图中1xRTT上行流量统计只有0.21GB。57使用移动网络2.45%0.06%42.18%42.47%12.84%分析发现,我们日常使用的移动网络,85%的用户数平均下载速度是在1KB/s-100KB/s区间,难怪用户经常抱怨网速不给力。5.2 大数据分析结果示例-358对于一天24小时,各个时间段的上行和下行流量对比。12:00左右会达到一个小高峰,但是不是很明显。每天20:00之后,使用Wi-Fi的流量持续,增长到23:00-24:00期间,达到最高峰。每天早

21、晨5:00-6:00是Wi-Fi流量使用的最低谷。5.2 大数据分析结果示例-459对于一天24小时,各个时间段的上行和下行流量对比。使用移动网络和Wi-Fi的流量图有着明显的区别,在8:00、10:00、13:00左右出现三个高峰,8:00左右是在上班的路上,在地铁和公交上的人会习惯性使用手机打发时间。10:00是工作开始后的第一个小时,13:00是在午休期间。5.2 大数据分析结果示例-560不同流量的人数分布,比如说有多少人用了1G,有多少人用了2G,等等只使用10M的有几人,能用到100M总流量的有几人,上G的又有几人。分为日均,周均和月均。使用移动网络,低流量用户还是占了绝大多数。5

22、.2 大数据分析结果示例-6615.2 大数据分析结果示例-762平均每个人每天上网时间的分布,看看多少用户每天用多少时间上网。每天使用网10分钟的有几人,一小时的有几人,3小时的有几人。绝大多数用户日均上网时间在2-15min和15min到2.5小时这两个段内。5.2 大数据分析结果示例-863App网络活跃度时间统计,比如日均上网使用了10分钟的app有多少,一小时的app有多少。5.2 大数据分析结果示例-964App日均消耗流量分布图,日均消耗1KB10KB的App有多少款,消耗10KB1MB的App有多少款。使用移动网络使用Wi-Fi网络43.62%39.93%10.96%3.19%

23、1.70%0.52%0.07%57.68%32.40%8.09%1.27%0.50%0.05%5.2 大数据分析结果示例-95.2 大数据分析结果示例-流量变化不同类型应用用户数量随时间变化横坐标是时间,纵坐标是用户数量不同类型应用用户之间的连接数随时间变化横坐标是时间,纵坐标是用户数量用户数量、连接数在一天内的变化与人的作息相似。不同类型应用用户平均度随时间变化横坐标是时间,纵坐标是用户平均度不同类型应用用户平均流量随时间变化横坐标是时间,纵坐标是用户平均流量不同类型的相互比较显示,Web用户平均连接数最大,Video Stream 用户的平均流量最大。Web用户的平均连接数在一天内不断变化

24、,并在2-5时达到最小。Video Stream 用户的用户平均流量在2-5时达到最大。653小时内使用两种应用的用户比例例如:使用Web的用户同时有58.3%使用了P2PD,51.6%使用了P2PS等。比较突出是既使用Web又使用Video应用的用户占了所有使用Video用户的90.1%。5.2 大数据分析结果示例- 社团结构-交叉用户66用户平均应用数横坐标是时间,每小时统计一次。纵坐标是用户平均使用应用数。可以看到用户在不同的一小时时间段内使用应用的平均数为1.3到1.65.2 大数据分析结果示例:社团结构-交叉用户67使用同种类型应用的用户之间的关联性横坐标为图中点的个数,代表网络中用

25、户的数量。纵坐标为模块度,代表了同种应用内部关联度与不同应用之间的关联度的差。随着用户数量的增加,模块度降低,表示越来越多的用户会同时使用不止一种应用。5.2 大数据分析结果示例:社团结构-连接紧密性68根据图的结构信息,判定节点的重要性。PageRank是google用来根据结构信息判定网页重要性的算法。入选2006年十大数据挖掘经典算法如果一个页面被多次引用,那么这个页面很可能是重要的。如果一个页面被重要的页面 引用,那么这个页面很可能 是重要的。一个页面的重要性被均分并 传递到它所引用的页面。 大图数据的概念运营商CDR 分析案例接通率Answer Service Rate (ASR &

26、 Adjusted ASR)完成的呼叫路由尝试(与供应商的表现)完成呼叫与呼叫尝试(客户满意度)盈亏分析计算由呼叫路由路径选择所引起的利润盈亏拨号后延迟 Post Dial Delay (PDD)Annoying delay until path through network selected近实时通话质量分析通话时长,抖动和丢包所有以上参数的历史趋势分析与预测70CDR 分析71近实时监控潜在的问题点CDR 分析72下钻寻找造成低接通率(ASR)的供应商实时将低接通率的供应商移出路由表操作员联系供应商修正错误(很多时候供应商并不知道发生问题)供应商接通率 按区域代码排序实时经分的应用-淘宝

27、双11交易情况现场直播重庆实时经营分析系统河北网格化分析系统(信令数据字段有(MC口信令):号码、lac、cell、进入时间、离开时间、imsi、imei)wlan精准分流:在用户进入wlan停留一定时长,进行订购营销或服务提醒宽带营销:实时获取小区当前用户,可群发短信提醒ICT应用:可对商户附近进行分析,旅游景区分析:可以分析景区的总人数,监控线路的人数等。集团客户真实性核查:结合经分系统其他数据,核查集团客户资料的真实性。安徽公司信令数据的利用方案机遇与挑战感谢聆听!(第14讲)考场作文开拓文路能力分解层次(网友来稿)江苏省镇江中学 陈乃香说明:本系列稿共24讲,20XX年1月6日开始在资

28、源上连载【要义解说】文章主旨确立以后,就应该恰当地分解层次,使几个层次构成一个有机的整体,形成一篇完整的文章。如何分解层次主要取决于表现主旨的需要。【策略解读】一般说来,记人叙事的文章常按时间顺序分解层次,写景状物的文章常按时间顺序、空间顺序分解层次;说明文根据说明对象的特点,可按时间顺序、空间顺序或逻辑顺序分解层次;议论文主要根据“提出问题分析问题解决问题”顺序来分解层次。当然,分解层次不是一层不变的固定模式,而应该富于变化。文章的层次,也常常有些外在的形式:1小标题式。即围绕话题把一篇文章划分为几个相对独立的部分,再给它们加上一个简洁、恰当的小标题。如世界改变了模样四个小标题:寿命变“长”

29、了、世界变“小”了、劳动变“轻”了、文明变“绿”了。 2序号式。序号式作文与小标题作文有相同的特点。序号可以是“一、二、三”,可以是“A、B、C”,也可以是“甲、乙、丙”从全文看,序号式干净、明快;但从题目上看,却看不出文章内容,只是标明了层次与部分。有时序号式作文,也适用于叙述性文章,为故事情节的展开,提供了明晰的层次。 3总分式。如高考佳作人生也是一张答卷。开头:“人生就是一张答卷。它上面有选择题、填空题、判断题和问答题,但它又不同于一般的答卷。一般的答卷用手来书写,人生的答卷却要用行动来书写。”主体部分每段首句分别为:选择题是对人生进行正确的取舍,填空题是充实自己的人生,判断题是表明自己

30、的人生态度,问答题是考验自己解决问题的能力。这份“试卷”设计得合理而且实在,每个人的人生都是不同的,这就意味着这份人生试卷的“答案是丰富多彩的”。分解层次,应追求作文美学的三个价值取向:一要匀称美。什么材料在前,什么材料在后,要合理安排;什么材料详写,什么材料略写,要通盘考虑。自然段是构成文章的基本单位,恰当划分自然段,自然就成为分解层次的基本要求。该分段处就分段,不要老是开头、正文、结尾“三段式”,这种老套的层次显得呆板。二要波澜美。文章内容应该有张有弛,有起有伏,如波如澜。只有这样才能使文章起伏错落,一波三折,吸引读者。三要圆合美。文章的开头与结尾要遥相照应,把开头描写的事物或提出的问题,

31、在结尾处用各种方式加以深化或回答,给人首尾圆合的感觉。【例文解剖】 话题:忙忙,不亦乐乎 忙,是人生中一个个步骤,每个人所忙的事务不同,但是不能是碌碌无为地白忙,要忙就忙得精彩,忙得不亦乐乎。 忙是问号。忙看似简单,但其中却大有学问。忙是人生中不可缺少的一部分,但是怎么才能忙出精彩,忙得不亦乐乎,却并不简单。人生如同一张地图,我们一直在自己的地图上行走,时不时我们眼前就出现一个十字路口,我们该向哪儿,面对那纵轴横轴相交的十字路口,我们该怎样选择?不急,静下心来分析一下,选择适合自己的坐标轴才是最重要的。忙就是如此,选择自己该忙的才能忙得有意义。忙是问号,这个问号一直提醒我们要忙得有意义,忙得不

32、亦乐乎。 忙是省略号。四季在有规律地进行着冷暖交替,大自然就一直按照这样的规律不停地忙,人们亦如此。为自己找一个目标,为目标而不停地忙,让这种忙一直忙下去。当目标已达成,那么再找一个目标,继续这样忙,就像省略号一样,毫无休止地忙下去,翻开历史的长卷,我们看到牛顿在忙着他的实验;爱迪生在忙着思考;徐霞客在忙着记载游玩;李时珍在忙着编写本草纲目。再看那位以笔为刀枪的充满着朝气与力量的文学泰斗鲁迅,他正忙着用他独有的刀和枪在不停地奋斗。忙是省略号,确定了一个目标那么就一直忙下去吧!这样的忙一定会忙出生命灵动的色彩。 忙是惊叹号。世界上的人都在忙着自己的事,大自然亦如此,小蜜蜂在忙,以蜂蜜为回报。那么人呢?居里夫人的忙,以放射性元素的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论