版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据基础和行业应用大数据BigData大数据的定义理解什么是大数据大数据时代的背景1大数据的定义理解大数据的“4V”特征2大数据的构成3大数据时代的背景
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。数据量增加TBPBZBEB根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临…大数据时代的背景YBNBBB20世纪90年代,数据仓库之父的BillInmon就经常提及BigData。2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念。大数据时代的背景体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长占总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、评价数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。大数据的构成大数据的技术与应用大数据怎么用大数据技术要解决的问题1大数据的技术与应用大数据的相关技术2大数据的应用实例3Volume海量的数据规模Variety多样的数据类型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的数据流转发现数据价值大数据技术要解决的问题大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT领域新一代的技术与架构。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。大数据技术要解决的问题技术领域的挑战传统的数据库部署不能处理数TB级别的数据,也不能很好的支持高级别的数据分析,急速膨胀的数据体量即将超越传统数据库的管理能力。因此,需要构建全球级的分布式数据库,可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。经典数据库技术并没有考虑数据的多类别(variety),SQL在设计的一开始是没有考虑非结构化数据的。一般而言,像数据仓库、BI等,对处理时间的要求并不高。因此这类应用如果运行1、2天获得结果依然可行的。但大数据应用要求实时处理,这是其区别于传统数据仓库技术、BI技术的关键差别之一。数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术ETL数据众包(CrowdSouring)数据众包数据众包是一种新的数据采集方式,由企业方通过平台把数据采集任务外包给非特定的大众网络。数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理分布式文件系统分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统Google文件系统(GoogleFileSystem,GFS)是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,将服务器故障视为正常现象,通过软件的方式自动容错,在保证系统可靠性和可用性的同时,大大减少了系统的成本。分布式文件系统Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。分布式文件系统一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。非关系型数据库NoSQL关系型数据库的局限性难以满足高并发读写的需求难以满足对海量数据高效率存储和访问的需求难以满足对数据库高可扩展性和高可用性的需求NoSQL=非关系型数据库NoSQLNoSQL数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。关系型数据库中的表都是存储一些格式化的数据结构,每个元组字段的组成都一样,即使不是每个元组都需要所有的字段,但数据库会为每个元组分配所有的字段。非关系型数据库以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销。非关系型数据库NoSQL云计算和云存储云计算(cloudcomputing),是分布式计算技术的一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务。云计算是一种资源交付和使用模式,指通过网络获得应用所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器。没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀。云计算和云存储云计算和云存储云存储是在云计算(cloudcomputing)概念上延伸和发展出来的一个新概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。实时流处理传统的分布式计算往往是先积累大量的数据,再进行数据拆分和聚合。而实时流处理则是让数据流动起来,数据从内存中流过,截取需要的数据,进行实时分析计算。实时流处理传统的分布式计算往往是先积累大量的数据,再进行数据拆分和聚合。而实时流处理则是让数据流动起来,数据从内存中流过,截取需要的数据,进行实时分析计算。数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理A/BTesting关联规则分析分类聚类遗传算法神经网络预测模型模式识别时间序列分析回归分析系统仿真机器学习优化空间分析社会网络分析自然语言分析MapReduceR语言A/BTestingA/B测试是可用性测试的一个方法,其核心为:同时实验两个元素或版本(A和B),确定哪个更好。注册按钮由绿色改成红色提高转化率34%人性化的表格提高11%的转化率。MapReduceMapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。它使编程人员在不了解分布式并行编程的情况下,能将自己的程序运行在分布式系统上。Map=映射Reduce=规约或化简MapReduceR语言R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R语言擅长在Hadoop分布式文件系统中存储的非结构化数据上的分析。R现在还可以运行在HBase这种非关系型的数据库以及面向列的分布式数据存储之上。数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理A/BTesting关联规则分析分类聚类遗传算法神经网络预测模型模式识别时间序列分析回归分析系统仿真机器学习优化空间分析社会网络分析自然语言分析MapReduceR语言标签云(TagCloud)聚类图(Clustergram)空间信息流(Spatialinformationflow)热图(Heatmap)标签云标签云(TagCloud)是一套相关的标签以及与此相应的权重。权值影响标签的字体大小、颜色或其他视觉效果。典型的标签云有30至150个标签,用以表示一个网站中的内容及其热门程度。标签通常是超链接,指向分类页面。标签云奥巴马布什克林顿林肯聚类图聚类图(Clustergram)是指用图形方式展示聚类分析结果的技术,可以有助于判断簇数量不同时的聚类效果。空间信息流空间信息流(Spatialinformationflow)是展示信息空间状态的一种可视化技术。热图热图(Heatmap)是一项数据展示技术,将变量值用不同的颜色或高亮形式描绘出来。可以非常直观的呈现一些原本不易理解或表达的数据,比如密度、频率、温度等。热图大数据的应用实例电商数据中心(一)HadoopHiveHBASE(NoSQL)指标体系TMSWMSERP交易…DataXStorm报表体系报告体系运营体系监控体系UDFile移动端关系数据库与Hadoop混搭技术混搭、理念融合电商基本系统名称CMSFMSOMSPMSWMSTMSAMSSCMCRM44软件的功能:为了测试用户数据业务的QOE,得出用户上网的真实评价主动测试部分:用户主动上网行为的模拟(上传、下载和时延)打开网页的模拟(网站响应的时延、速度测试)对于软件的监控:流量和使用时长的监控测试的地图展示北邮APP采集数据分析我们的软件Anttest45手推车速度自行车速度小汽车速度火车速度飞机速度火箭速度冲浪速度网速评价指标我们的软件Anttest46要获得用户真正的QOE只有主动测试是远远不够的,还需要对用户的APP使用和上网情况,进行被动的监控,获取真实的数据,进行分析。我们的软件Anttest47测试的数据来源:主动测试的收集和被动监控的收集推广方式:各大android市场发布和北京各高校论坛推广测试用户:android市场下载使用者和校内友好用户数据的收集48校园大规模测试
时间:2013.7.10-2013.7.208days上午:9:00-11:30下午:14:00-17:00晚上:19:30-21:00搜集:主动测试的信息被动监控的信息3.数据的收集49移动(1746)联通(2060)电信(2094)3.数据的收集50上传平均速度下载平均速度平均时延3.数据的收集51CMCC强度(dBm)CUCC强度(dBm)CTCC强度(dBm)3.数据的收集52CMCCCUCCCTCCCMCCCUCCCTCC3.数据的收集53移动联通电信数据联通性测试:时间:2013-10-15~2013-10-18(4天)搜集:北邮校内的数据联通率移动:15,857联通:3,713电信:3,252WI-FI:3,061总计:31,899说明:红色的点代表数据联通性出现问题,蓝色的点代表数据联通性正常3.数据的收集54数据表数据条目主动测试数据25,420小区强度数据5,116,604数据联通性数据32,851APP流量数据26,433,4893.数据的收集目前为止,Mysql数据库大小,超过10GB。当数据表超过1300百万条时Mysql计算均值,平均响应在30s左右555.2大数据分析结果示例-1使用不同网络的人数对比,发现在使用我们软件的人数中,2G网络的用户还是占了一大部分呢,大概在50%左右。LTE手机上市还没有多久,也有LTE的手机在使用我们的软件565.2大数据分析结果示例-2从统计的总体流量来看,Wi-Fi的总流量远远超出了其他网络的用户流量数,上行统计达到1690.6GB,下行统计达到3031.9GB,图中1xRTT上行流量统计只有0.21GB。57使用移动网络2.45%0.06%42.18%42.47%12.84%分析发现,我们日常使用的移动网络,85%的用户数平均下载速度是在1KB/s-100KB/s区间,难怪用户经常抱怨网速不给力。5.2大数据分析结果示例-358对于一天24小时,各个时间段的上行和下行流量对比。12:00左右会达到一个小高峰,但是不是很明显。每天20:00之后,使用Wi-Fi的流量持续,增长到23:00-24:00期间,达到最高峰。每天早晨5:00-6:00是Wi-Fi流量使用的最低谷。5.2大数据分析结果示例-459对于一天24小时,各个时间段的上行和下行流量对比。使用移动网络和Wi-Fi的流量图有着明显的区别,在8:00、10:00、13:00左右出现三个高峰,8:00左右是在上班的路上,在地铁和公交上的人会习惯性使用手机打发时间。10:00是工作开始后的第一个小时,13:00是在午休期间。5.2大数据分析结果示例-560不同流量的人数分布,比如说有多少人用了1G,有多少人用了2G,等等……只使用10M的有几人,能用到100M总流量的有几人,上G的又有几人。分为日均,周均和月均。使用移动网络,低流量用户还是占了绝大多数。5.2大数据分析结果示例-6615.2大数据分析结果示例-762平均每个人每天上网时间的分布,看看多少用户每天用多少时间上网。每天使用网10分钟的有几人,一小时的有几人,3小时的有几人。绝大多数用户日均上网时间在2-15min和15min到2.5小时这两个段内。5.2大数据分析结果示例-863App网络活跃度时间统计,比如日均上网使用了10分钟的app有多少,一小时的app有多少。5.2大数据分析结果示例-964App日均消耗流量分布图,日均消耗1KB~10KB的App有多少款,消耗10KB~1MB的App有多少款。使用移动网络使用Wi-Fi网络43.62%39.93%10.96%3.19%1.70%0.52%0.07%57.68%32.40%8.09%1.27%0.50%0.05%5.2大数据分析结果示例-95.2大数据分析结果示例-流量变化不同类型应用用户数量随时间变化横坐标是时间,纵坐标是用户数量不同类型应用用户之间的连接数随时间变化横坐标是时间,纵坐标是用户数量用户数量、连接数在一天内的变化与人的作息相似。不同类型应用用户平均度随时间变化横坐标是时间,纵坐标是用户平均度不同类型应用用户平均流量随时间变化横坐标是时间,纵坐标是用户平均流量不同类型的相互比较显示,Web用户平均连接数最大,VideoStream用户的平均流量最大。Web用户的平均连接数在一天内不断变化,并在2-5时达到最小。VideoStream用户的用户平均流量在2-5时达到最大。653小时内使用两种应用的用户比例例如:使用Web的用户同时有58.3%使用了P2PD,51.6%使用了P2PS等。比较突出是既使用Web又使用Video应用的用户占了所有使用Video用户的90.1%。5.2大数据分析结果示例-社团结构-交叉用户66用户平均应用数横坐标是时间,每小时统计一次。纵坐标是用户平均使用应用数。可以看到用户在不同的一小时时间段内使用应用的平均数为1.3到1.65.2大数据分析结果示例:社团结构-交叉用户67使用同种类型应用的用户之间的关联性横坐标为图中点的个数,代表网络中用户的数量。
纵坐标为模块度,代表了同种应用内部关联度与不同应用之
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 制定管理方式和工作计划方案
- 政府采购合同的产业合作项目案例分析
- 建筑装饰设计购销合同
- 建筑石子购销
- 信用社汽车贷款合同范例
- 果树幼苗采购合同范本
- 知识产权贯标咨询服务
- 门禁系统采购协议
- 家庭灭蟑螂服务协议
- 机械购销合同全文查阅
- 中药鉴定学智慧树知到答案2024年中国药科大学
- 重庆大学--数学模型--数学实验作业七
- CFG桩计算表格(2012新规范)
- 二年级数学兴趣小组活动记录全记录
- 中药硬膏管理规定、操作流程及评分标准(共3页)
- 单值移动极差图(空白表格)
- 电镀生产工序
- 塔城地区事业单位专业技术各等级岗位基本任职资格条件指导意见
- 初中语文课外古诗文董仲舒《春秋繁露》原文及翻译
- (完整)(电子商务软件研发及产业化建设项目)监理月报(201202)
- 旅游出行安全告知书
评论
0/150
提交评论