大数据及其典型应用_第1页
大数据及其典型应用_第2页
大数据及其典型应用_第3页
大数据及其典型应用_第4页
大数据及其典型应用_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息资源管理-扩展知识

大数据及其典型应用2023/1/132引子棱镜门波士顿马拉松爆炸案PredPol少数派报告2013大数据元年video一、大数据的相关概念二、国内外大数据分析的研究现状三、构建大数据分析平台四、公共安全领域大数据应用案例目录2023/1/133一、大数据的相关概念

2023/1/134数据管理技术发展历史数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该领域进入了一个新的发展阶段-5-194619511956196119701974197919912001200320082011第一台计算机ENIAC面世磁带+卡片人工管理磁盘被发明,进入文件管理时代网络型SQLE-RGE公司发明第一个网络模型数据库,但仅限于GE自己的主机1960年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生,数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数据库为主导提出关系模型SQL语言被发明关系型数据库ORACLE发布第一个商用SQL关系数据库,后续快速发展数据仓库数据仓库开始涌现,关系数据库开始全面普及且平台无关,进入成熟期2001年后,互联网迅速发展,数据量成倍递增,量变引起质变,开始对数据管理技术提出全新的要求1946年,电脑诞生,数据与应用紧密捆绑在文件中,彼此不分Hadoop成为Apache顶级项目,重点支持海量数据分布式管理和分布式计算GFS谷歌发表论文介绍分布式计算大数据发展背景全球信息化发展已步入大数据时代150亿个设备连接到互联网全球每秒钟发送290万封电子邮件每天有2.88万小时视频上传到YoutubeFacebook每日评论达32亿条,每天上传照片近3亿张,每月处理数据总量约130万TB2011年全球产生数据量1.8ZB,预计2020年将增长到35ZB大数据正迅速成为最值得关注的IT领域之一2011年5月,EMCWorld2011大会主题“云计算相遇大数据”,EMC除了一直倡导的云计算外,还抛出"大数据"(BigData)概念2011年6月底,IBM、麦肯锡等众多国外机构发布"大数据"相关研究报告,予以积极跟进2011年10月,Gartner认为2012年十大战略技术将包括"大数据"2011年11月底,IDC将"大数据"放入2012年信息通信产业十大预测之一-6-IDC全球数据量预测(1ZB

=1百万PB=10亿TB)Google网站Bigdata关键词搜索及新闻引用量什么是大数据123大数据的定义理解大数据的“4V”特征大数据的产生、增长2023/1/137“大数据”是如何产生的?facebook社交网络淘宝电子商务微博、Apps移动互联21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。

半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。2023/1/138大数据时代的爆炸增长想驾驭这庞大的数据,我们必须了解大数据的特征。地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!GBTBPBEBZB1GB

=2^30字节1TB=2^40字节1PB

=2^50字节1EB

=2^60字节1ZB=2^70字节2023/1/139大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。VolumeVelocityValueVariety2023/1/1310大数数据据的的构构成成大数数据据=海量量数数据据+复杂杂类类型型的的数数据据海量量交交易易数数据据::企业业内内部部的的经经营营交交易易信信息息主主要要包包括括联联机机交交易易数数据据和和联联机机分分析析数数据据,,是是结结构构化化的的、、通通过过关关系系数数据据库库进进行行管管理理和和访访问问的的静静态态、、历历史史数数据据。。通通过过这这些些数数据据,,我我们们能能了了解解过过去去发发生生了了什什么么。。大数数据据包包括括::交易易数数据据和和交交互互数数据据集集在在内内的的所所有有数数据据集集海量量交交互互数数据据::源于于Facebook、Twitter、LinkedIn及其其他他来来源源的的社社交交媒媒体体数数据据构构成成。。它它包包括括了了呼呼叫叫详详细细记记录录CDR、设设备备和和传传感感器器信信息息、、GPS和地地理理定定位位映映射射数数据据、、通通过过管管理理文文件件传传输输ManageFileTransfer协议议传传送送的的海海量量图图像像文文件件、、Web文本本和和点点击击流流数数据据、、科科学学信信息息、、电电子子邮邮件件等等等等。。可可以以告告诉诉我我们们未未来来会会发发生生什什么么。。海量量数数据据处处理理::大数数据据的的涌涌现现已已经经催催生生出出了了设设计计用用于于数数据据密密集集型型处处理理的的架架构构。。例例如如具具有有开开放放源源码码、、在在商商品品硬硬件件群群中中运运行行的的ApacheHadoop。2022/12/3111分析技术:数据处理:自自然语言处理理技术统计和分析::A/Btest;topN排行榜;地域域占比;文本本情感分析数据挖掘:关关联规则分析析;分类;聚聚类模型预测:预预测模型;机机器学习;建建模仿真大数据技术::数据采集:ETL工具数据存取:关关系数据库;;NoSQL;SQL等基础架构支持持:云存储;;分布式文件件系统等计算结果展现现:云计算;;标签云;关关系图等一些相关技术术存储结构化数据海量数据的查查询、统计、、更新等操作作效率低非结构化数据据图片、视频、、word、pdf、ppt等文件存储不利于检索、、查询和存储储半结构化数据据转换为结构化化存储按照非结构化化存储解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)数据采集数据储存数据管理数据分析与挖掘2022/12/31122022/12/3113大数据的市场场潜力利用GPS数据了解交通通状况智能电表应用用级家庭能源源监测2012年3月29日奥巴马政府府公布了”大数据研发计计划”。该计划的目目标是改进现现有人们从海海量和复杂的的数据中获取取知识的能力力,从而加速速美国在科学学与工程领域域发明的步伐伐,增强国家家安全,转变变现有的教学学和学习方式式。“大数据战略略”上升为美美国最高国策策对数据占有和和控制,做为为在陆权、海海权、空权之之外的另一种种国家核心能能力。大数据的浪潮谷歌搜索与流流感预测大数据与乔布布斯的癌症治治疗微博&投资沃尔玛的啤酒酒与纸尿布塔吉特预测少少女怀孕沃尔玛蛋挞与与飓风用品的的关系“魔毯”病人人的监控智慧城市&智能化交通谷歌翻译系统统理解大数据数据已经成为为可以与物质质资产和人力力资本相提并并论的重要的的生产要素——麦肯锡《大数据:下一个创新、、竞争和生产产力的前沿》二、国内外大大数据分析的的研究现状流感趋势预测测2022/12/31172022/12/3118全球每星期会会有数以百万万计的用户在在网上搜索健健康信息。正正如您所预料料的那样,在在流感季节,,与流感有关关的搜索会明明显增多;到到了过敏季节节,与过敏有有关的搜索会会显著上升;;而到了夏季季,与晒伤有有关的搜索又又会大幅增加加。某些搜索字词词非常有助于于了解流感疫疫情。Google流感趋势会根根据汇总的Google搜索数据,近近乎实时地对对全球当前的的流感疫情进进行估测。搜索流感相关关主题的人数数与实际患有有流感症状的的人数之间存存在着密切的的关系。当然然,并非每个个搜索“流感感”的人都真真的患有流感感,但将与流流感有关的搜搜索查询汇总总到一起时,,便可以找到到一种模式。。将统计的查查询数量与传传统流感监测测系统的数据据进行了对比比,结果发现现许多搜索查查询在流感季季节确实会明明显增多。通通过对这些搜搜索查询的出出现次数进行行统计,便可可以估测出世世界上不同国国家和地区的的流感传播情情况。Detectinginfluenzaepidemicsusingsearchenginequerydata,Nature457,1012-1014(19February2009)2022/12/3119上图显示了根根据历史查询询所得的美国国近几年的流流感估测结果果,以及这些些结果与官方方的流感监测测数据的对比比。从图中可可以看出,根根据与流感相相关的Google搜搜索查询所所得到的估测测结果,与以以往的流感疫疫情指示线非非常接近。当当然,过去的的表现并不能能保证以后的的结果一定准准确。2022/12/31202022/12/31212022/12/3122卡耐基基梅隆隆大学学的JiweiLi和和康乃乃尔大大学的的ClaireCardie,成成功利利用Twitter预预测测了早早期流流感爆爆发。。他们的的方式式与Google类类似。。首先先,从从Twitter数数据流流中过过滤包包含与与“流流感””相关关,并并带有有位置置标签签的tweet;;然后后,在在地图图上标标注这这些tweet的的位位置分分布,,以及及随时时间产产生的的变化化。同同时,,还制制作了了流感感的动动态变变化模模型。。新模模型中中,流流感包包括4个个阶阶段::无传传染阶阶段、、爆发发阶段段、稳稳定阶阶段以以及衰衰退阶阶段。。此外,,采用用了全全新的的算法法,试试图尽尽可能能快得得发现现不同同时期期的转转换节节点。。实际际上,,Li和和Cardie在在2008年年6月月至2010年年6月月间,,已经经利用用100万万美国国人的的360万万条tweet,,验验证了了该方方法的的有效效性。。为为了检检验他他们的的预测测是否否成真真,Li和和Cardie将将他们们的分分析与与CDC进进行对对比。。他们们说,,“我我们确确信,,流感感相关关tweet与与CDC提提供的的流感感疾病病案例例数目目,呈呈显著著相关关。””2022/12/31232022/12/3124日本国国内有有一个个网站站,你你只要要打开开这个个网站站用自自己的的Twitter账号登登录,,就可可以在在短时时间内内通过过数万万条Twitter找出可可能感感冒的的人,,并通通过过过去的的感冒冒情况况和今今日的的感冒冒情况况进行行分析析(以以及统统计目目前发发烧以以及嗓嗓子痛痛的患患者数数量)),另另外该该程序序还会会结合合气温温和湿湿度的的变化化来预预测将将来来感冒冒的流流行情情况,,并制制作一一个““易感感冒日日历””。目目前,,此类类服务务正在在日本本陆续续展开开。通通过这这个服服务器器的分分析,,大家家就能能够知知道在在自己己身边边到底底有多多少人人有感感冒的的症状状,并并提前前做好好预防防准备备。日本国国立感感染症症研究究所将将会把把全国国约5000个医疗诊诊所的流流感患者者进行统统计并发发布数据据。经过过对比,,研究所所得出的的实际统统计数字字和网站站上预测测的结果果基本是是一致的的,那么么为什么么大数据据的结果果会很准准呢?首先是因因为通过过网络信信息分析析的技术术有所进进步,已已经可以以通过各各种各样样的留言言自动搜搜索到相相关的数数据,并并自动分分类。就就像Google现在所使使用的技技术,就就是利用用服务器器分析与与流感关关系十分分密切的的十几个个单词进进行统计计。另一个就就是大数数据所特特有的功功能。在在流感最最严重的的时候,,每天会会有成千千上万条条Tweets发布,即即便有一一些误差差,但通通过数据据分析也也能分析析出数据据的精准准度。以往,公公共机构构在发布布流感情情报的时时候至少少要延迟迟一周,,在有些些偏远地地区的立立杆信息息也并不不确切,,而现在在,通过过网络能能够有效效弥补这这些缺憾憾。2022/12/31252022/12/3126淘宝的数数据化运营——实例分析分析流程程1.分析主题题确定及及数据指指标的选选择;2.数据仓库库数据提提取及清清洗;3.不相关指指标剔除除;4.用训练数数据建立立模型;;5.用测试数数据检验验模型;;6.预测新的的流失用用户,并并提取用用户名单单;7.制订挽留留策略::对圈定定的客户户进一步步进行分分群,然然后逐群群制订有针对对的挽留留策略。。比如有有的群组组是属于于夜间通通话多((和总体的均均值相比比)的客客户,那那么针对对他们的的挽留策策略可能能是推荐一些些夜间通通话优惠惠的资费费方案。。8.实施挽留留行动、、收集客客户反馈馈。9.评估挽留留效果::2022/12/3127三、构建建大数据据分析平平台四、公共共安全领领域大数数据应用用案例面向公共共安全领领域的大大数据分分析技术术平台数据挖掘掘DataMiner多维分析析BIBeans查询Discoverer数据仓库库管理(OEM)数据提取取WarehouseBuilder应用服务务器ApplicationServer/PortalDataBase人口数数据外部数据犯罪数据报表ReportsDataMiningOLAP数据转换换中央数据据仓库知识发现现信息展现现应用系统统源数据数据获取数据管理数据使用2022/12/3130刑侦的的犯罪罪预防防搜集犯犯罪的的信息息推断罪罪犯的的习惯惯预测罪罪案的的发生生非法出出入境境判别别海关走走私模模式的的分析析紧急事事件的的处理理人员的的紧急急疏散散资源的的紧急急调配配紧急状状态的的安全全管理理紧急事事件发发生的的预演演交通管管理公共安安全领领域基基于大大数据据的智智能分分析2022/12/3131信息的的来源源银行交交易历史资资料库库/知识识库公共信信息政府数数据库库Internet截获/监听听情报报通信情情报人工情情报2022/12/3132问题的的关键键大量的的信息息(有有关/无关关)是是分析析的基基础,,也是是分析析的障障碍事件的的信息息往往往是随随机获获得不确定定的因因素影影响分分析的的结果果分析的的速度度是关关键2022/12/3133飞速膨膨胀的的信息息多种学学科的的边缘缘结合合有限的的记忆忆和注注意范范围长时间间持续续的分分析工工作严重依依赖分分析人人员的的经验验如何用用计算算机系系统支支持复复杂海海量的的分析析过程程?限制……他们承承担了了大部部分负负担依靠分分析人人员2022/12/3134限制……分析人人员的的沉重重负担担依靠分分析人人员2022/12/3135当前的分析析需求从不同的来来源有效的的集成知识识和信息连续的知识识积累提供自动的的警告为分析人员员的查询提提供答案构造不同的的案件情节节假设2022/12/3136定性,定定量分析时间&频频率分析析Databases经验自由文本统一的知识识系统从不同信息息来源和格格式获取数数据2022/12/3137基本信息组织个人人工情报事件数据库银行交易其它数据源政府数据库库通信情报监听

反馈

人工情报询问检查模拟联结事件生成

Events:Meeting(What,Who,Where,When,Frequency)Travel(Who,How,Where,When,Length)Phonecall(Who,When,Length,Content,Frequency)Delivery(Who,When,How,Size,What,Frequent,Payment)Other(What,Who,When,Where)Crime(What,When,Where,Who,How)2022/12/3138典型应用1–刑事罪案自自动分析2022/12/3139参与分析的的数据罪犯–犯罪技技巧(爆爆炸-爆炸炸物制作,杀人方方式,动动机等等),属于于特定团伙伙和团伙中中的角色(计划者者,辅助助者,领领导者,执执行者/马仔等等等),户户籍地/暂暂住地,入入狱历史史团伙–成员,角色潜在目标–人群/公共机构构/商业机机构,他他们的位置置知识和经验验–这些因因素如何相相互作用––包括括外在的影影响和经验验(过去去发生的事事件)新的信息会会源源不断断…2022/12/3140模拟拟案案例例-西西西西里里,巴巴勒勒莫莫,4/4/03:“Corradi拘捕捕了了DonMarcello””(公共共信信息息)理解解信信息息Corradi是巴巴勒勒莫莫警警方方的的的的首首席席侦侦探探DonMarcello是Marcello家族族的的教教父父Marcello家族族具具有有很很强强的的报报复复性性巴勒勒莫莫警警方方很很可可能能遭遭到到报报复复文本本信信息息的的理理解解外部部数数据据访访问问外部部数数据据访访问问DataMining/先验验知知识识推理理,警警报报2022/12/3141新的的信信息息理解解信信息息Bob是Marcello家族族的的成成员员Bob是家家族族中中的的计计划划者者和和谈谈判判代代表表Marcello家族族的的势势力力只只限限于于巴巴勒勒莫莫谈判判代代表表到到外外面面的的地地区区寻寻找找家家族族内内没没有有的的炸炸弹弹专专家家炸弹弹制制造造和和使使用用是是Marcello家族族没没有有的的技技术术,Parsi地区区的的黑黑手手党党家家族族有有这这样样的的专专家家Per是Parsi地区区的的黑黑手手党党炸炸弹弹专专家家同时时间间服服刑刑的的罪罪犯犯经经常常会会一一起起合合作作犯犯案案Per和Bob有同同时时间间服服刑刑的的历历史史Marcello家族族有有可可能能以以炸炸弹弹攻攻击击的的方方式式报报复复DonMarcello的被被拘拘捕捕Bob有可可能能计计划划用用炸炸弹弹攻攻击击巴巴勒勒莫莫警警方方巴勒勒莫莫,4/4/03:“Corradi拘捕捕了了DonMarcello””(公共共信信息息)巴勒勒莫莫,5/5/03:“Bob在Parsi出现现”(警警方方通通报报)文本信息的理解外部数据访问外部数据访问外部数据访问DataMining/先验知识外部数据访问外部数据访问DataMining/先验知识DataMining/先验知识推理,警报外部数据访问2022/12/3142新的信息巴勒莫,4/4/03:“Corradi拘捕了DonMarcello”(公共信息)巴勒莫,5/5/03:“Bob在Parsi出现”(警方通报)罗马,5/5/03:“Fabrizzi将会29号在在巴勒莫法庭庭宣判DonMarcello"(公共信息)巴勒莫,7/5/03:“这个月巴勒莫莫会发生一些些事情”(警方情报)……有可能报复巴巴勒莫警方––可能是是一起炸弹攻攻击有可能针对Fabrizzi法官–可可能的攻击手手段,谋杀杀或是炸弹攻攻击基于时间的相关分析(所有的分析都是与时间高度相关的)2022/12/3143新的信息如果我们拘捕捕Per?炸弹攻击的威威胁会降低,但是不会会消失–Marcello家族的谈判代代表还知道其其他的炸弹专专家,等等等…如果我们同时时拘捕Per和Bob?推理,假设分析推理,假设分析2022/12/3144巴勒莫,4/4/03:“Corradi拘捕了DonMarcello”(公共信息)巴勒莫,5/5/03:“Bob在Parsi出现”(警方通报)罗马,5/5/03:“Fabrizzi将会29号在在巴勒莫法庭庭宣判DonMarcello"(公共信息)巴勒莫,7/5/03:“这个月巴勒莫莫会发生一些些事情”(警方情报)本月有事情(突发事件)在巴勒莫发生生Fabrizzi将在29日宣宣判DonMarcelloBob出现在Parsi密切注意相关人员的接触炸弹有可能在制造中(假设事件与Marcello家族有关-警告会在三个月内有效)可能的报复DonMarcello被囚禁DonMarcello被拘捕事件与冲突2022/12/3145系统的功能系统包含了先先验知识阅读自由结构构的文本并建建立事件事件被联系起起来,按照照逻辑,触触发原因,警警报,额额外事件的发发生,等等等结合自由文本理解解人像特征、指指纹特征自动动识别推理DataMining联结外部的信信息资源2022/12/3146在信息息的海海洋中中搜索索问题的的关键键在于于面临临不断断变化化的信信息和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论