版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息资源管理-扩展知识大数据及其典型应用2020-02-272引子棱镜门波士顿马马拉松爆爆炸案PredPol少数派报报告2013大数据元元年video一、大数数据的相相关概念念二、国内内外大数数据分析析的研究究现状三、构建建大数据据分析平平台四、公共共安全领领域大数数据应用用案例目录2020-02-273一、大数数据的相相关概念念2020-02-274数据管理理技术发展历历史数据管理理技术历历经人工工管理、文件管管理、数数据库管管理等时时代,大大数据技技术的出出现使该该领域进进入了一一个新的的发展阶阶段-5-1946195119561961197019741979199120012003200
2、82011第一台计计算机ENIAC面世磁带+卡片人工管理理磁盘被发发明,进进入文件件管理时时代网络型SQLE-RGE公司发明明第一个个网络模模型数据据库,但但仅限于于GE自己的主主机1960年代,IT系统规模模和复杂杂度变大大,数据据与应用用分离的的需求开开始产生生,数据据库技术术开始萌萌芽并蓬蓬勃发展展,并在在1990年后逐步步统一到到以关系系型数据据库为主主导IBME.F.Dodd提出关系系模型SQL语言被发发明关系型数据库ORACLE发布第一一个商用用SQL关系数据据库,后后续快速速发展数据仓库库数据仓库库开始涌涌现,关关系数据据库开始始全面普普及且平平台无关关,进入入成熟期期2001年
3、后,互互联网迅迅速发展展,数据据量成倍倍递增,量变引引起质变变,开始始对数据据管理技技术提出出全新的的要求1946年,电脑脑诞生,数据与与应用紧紧密捆绑绑在文件件中,彼彼此不分分Hadoop成为Apache顶级项目目,重点点支持海海量数据据分布式式管理和和分布式式计算GFS谷歌发表表论文介介绍分布布式计算算大数据发发展背景景全球信息息化发展展已步入入大数据据时代150亿个设备备连接到到互联网网全球每秒秒钟发送送290万封电子子邮件每天有2.88万小时视视频上传传到YoutubeFacebook每日评论论达32亿条,每每天上传传照片近近3亿张,每每月处理理数据总总量约130万TB2011年全球产
4、产生数据据量1.8ZB,预计2020年将增长长到35ZB大数据正正迅速成成为最值值得关注注的IT领域之一一2011年5月,EMCWorld2011大会主题题“云计计算相遇遇大数据据”,EMC除了一直直倡导的的云计算算外,还还抛出大数据(BigData)概念2011年6月底,IBM、麦肯锡锡等众多多国外机机构发布布大数据相关研究究报告,予以积积极跟进进2011年10月,Gartner认为2012年十大战战略技术术将包括括大数据2011年11月底,IDC将大数据放入2012年信息通通信产业业十大预预测之一一-6-IDC全球数据据量预测测(1ZB= 1百万PB= 10亿TB)Google网站Bigd
5、ata关键词搜搜索及新新闻引用用量什么是大数据123大数据的的定义理理解大数据的的“4V”特征大数据的的产生、增长2020-02-277“大数据据”是如如何产生生的?facebook社交网络淘宝电子商务微博、Apps移动互联21世纪是数数据信息息大发展展的时代代,移动动互联、社交网网络、电电子商务务等极大大拓展了了互联网网的边界界和应用用范围,各种数数据正在在迅速膨膨胀并变变大。互联网(社交、搜索、电商)、移动动互联网网(微博博)、物物联网(传感器器,智慧慧地球)、车联联网、GPS、医学影影像、安安全监控控、金融融(银行行、股市市、保险险)、电电信(通通话、短短信)都都在疯狂狂产生着着数据。半
6、个世纪纪以来,随着计计算机技技术全面面融入社社会生活活,信息息爆炸已已经积累累到了一一个开始始引发变变革的程程度。它它不仅使使世界充充斥着比比以往更更多的信信息,而而且其增增长速度度也在加加快。信信息爆炸炸的学科科如天文文学和基基因学,创造出出了“大大数据”这个概概念*。如今,这个概概念几乎乎应用到到了所有有人类智智力与发发展的领领域中。2020-02-278大数据时时代的爆爆炸增长长想驾驭这这庞大的的数据,我们必必须了解解大数据据的特征征。地球上至至今总共共的数据据量:在2006年,个人人用户才才刚刚迈迈进TB时代,全全球一共共新产生生了约180EB的数据;在2011年,这个个数字达达到了1
7、.8ZB。而有市场场研究机机构预测测:到2020年,整个个世界的的数据总总量将会会增长44倍,达到到35.2ZB(1ZB=10亿TB)!GBTBPBEBZB1GB= 230字节1TB=240字节1PB= 250字节1EB= 260字节1ZB=270字节2020-02-279大数据的的4V特征“大量化化(Volume)、多样化化(Variety)、快速化化(Velocity)、价值密密度低(Value)”就是是“大数数据”的的显著特特征,或或者说,只有具具备这些些特点的的数据,才是大大数据。VolumeVelocityValueVariety2020-02-2710大数据的的构成大数据=海量数据
8、据+复杂类型型的数据据海量交易易数据:企业内部部的经营营交易信信息主要要包括联联机交易易数据和和联机分分析数据据,是结结构化的的、通过过关系数数据库进进行管理理和访问问的静态态、历史史数据。通过这这些数据据,我们们能了解解过去发发生了什什么。大数据包包括:交易数据据和交互互数据集集在内的的所有数数据集海量交互互数据:源于Facebook、Twitter、LinkedIn及其他来来源的社社交媒体体数据构构成。它它包括了了呼叫详详细记录录CDR、设备和和传感器器信息、GPS和地理定定位映射射数据、通过管管理文件件传输ManageFileTransfer协议传送送的海量量图像文文件、Web文本和点点
9、击流数数据、科科学信息息、电子子邮件等等等。可可以告诉诉我们未未来会发发生什么么。海量数据据处理:大数据的的涌现已已经催生生出了设设计用于于数据密密集型处处理的架架构。例例如具有有开放源源码、在在商品硬硬件群中中运行的的ApacheHadoop。2020-02-2711分析技术术:数据处理理:自然然语言处处理技术术统计和分分析:A/Btest;top N排行榜;地域占占比;文文本情感感分析数据挖掘掘:关联联规则分分析;分分类;聚聚类模型预测测:预测测模型;机器学学习;建建模仿真真大数据技技术:数据采集集:ETL工具数据存取取:关系系数据库库;NoSQL;SQL等基础架构构支持:云存储储;分布布
10、式文件件系统等等计算结果果展现:云计算算;标签签云;关关系图等等一些相关关技术存储结构化数数据海量数据据的查询询、统计计、更新新等操作作效率低低非结构化化数据图片、视视频、word、pdf、ppt等文件存存储不利于检检索、查查询和存存储半结构化化数据转换为结结构化存存储按照非结结构化存存储解决方案案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)数据采集数据储存数据管理数据分析与挖掘2020-02-27122020-02-2713大数据的的市场潜潜力利用GPS数据了解解交通状状况智能电表表应用级级家庭能能源监测测2012年3月29日奥巴马马政府公
11、公布了”大数据研研发计划划”。该计划划的目标标是改进进现有人人们从海海量和复复杂的数数据中获获取知识识的能力力,从而而加速美美国在科科学与工工程领域域发明的的步伐,增强国国家安全全,转变变现有的的教学和和学习方方式。“大数据据战略”上升为为美国最最高国策策对数据占占有和控控制,做做为在陆陆权、海海权、空空权之外外的另一一种国家家核心能能力。大数据的浪浪潮谷歌搜索索与流感感预测大数据与与乔布斯斯的癌症症治疗微博&投资沃尔玛的的啤酒与与纸尿布布塔吉特预预测少女女怀孕沃尔玛蛋蛋挞与飓飓风用品品的关系系“魔毯”病人的的监控智慧城市市&智能化交交通谷歌翻译译系统理解大数数据数据已经经成为可可以与物物质资
12、产产和人力力资本相相提并论论的重要要的生产产要素麦肯锡大数据:下一个创创新、竞竞争和生生产力的的前沿二、国内内外大数数据分析析的研究究现状流感趋势势预测2020-02-27172020-02-2718全球每星星期会有有数以百百万计的的用户在在网上搜搜索健康康信息。正如您您所预料料的那样样,在流流感季节节,与流流感有关关的搜索索会明显显增多;到了过过敏季节节,与过过敏有关关的搜索索会显著著上升;而到了了夏季,与晒伤伤有关的的搜索又又会大幅幅增加。某些搜索索字词非非常有助助于了解解流感疫疫情。Google流感趋势势会根据据汇总的的Google搜索数据据,近乎乎实时地地对全球球当前的的流感疫疫情进行
13、行估测。搜索流感感相关主主题的人人数与实实际患有有流感症症状的人人数之间间存在着着密切的的关系。当然,并非每每个搜索索“流感感”的人人都真的的患有流流感,但但将与流流感有关关的搜索索查询汇汇总到一一起时,便可以以找到一一种模式式。将统统计的查查询数量量与传统统流感监监测系统统的数据据进行了了对比,结果发发现许多多搜索查查询在流流感季节节确实会会明显增增多。通通过对这这些搜索索查询的的出现次次数进行行统计,便可以以估测出出世界上上不同国国家和地地区的流流感传播播情况。Detectinginfluenza epidemicsusingsearchengine query data,Nature45
14、7, 1012-1014(19February2009)2020-02-2719上图显示示了根据据历史查查询所得得的美国国近几年年的流感感估测结结果,以以及这些些结果与与官方的的流感监监测数据据的对比比。从图图中可以以看出,根据与与流感相相关的Google 搜索索查询所所得到的的估测结结果,与与以往的的流感疫疫情指示示线非常常接近。当然,过去的的表现并并不能保保证以后后的结果果一定准准确。2020-02-27202020-02-27212020-02-2722卡耐基梅梅隆大学学的JiweiLi和和康乃尔尔大学的的 ClaireCardie,成功利利用Twitter 预测测了早期期流感爆爆发。他
15、们的方方式与Google 类似似。首先先,从Twitter数数据流中中过滤包包含与“流感”相关,并带有有位置标标签的tweet;然后,在地图图上标注注这些tweet的的位置置分布,以及随随时间产产生的变变化。同同时,还还制作了了流感的的动态变变化模型型。新模模型中,流感包包括4 个阶阶段:无无传染阶阶段、爆爆发阶段段、稳定定阶段以以及衰退退阶段。此外,采采用了全全新的算算法,试试图尽可可能快得得发现不不同时期期的转换换节点。实际上上,Li 和Cardie 在2008年年 6月月至2010年年 6月月间,已经利利用100万万美国国人的360 万条条 tweet ,验验证了该该方法的的有效性性。为
16、为了检验验他们的的预测是是否成真真,Li 和Cardie 将他他们的分分析与CDC 进行行对比。他们说说,“我我们确信信,流感感相关tweet与与CDC提提供的的流感疾疾病案例例数目,呈显著著相关。 ”2020-02-27232020-02-2724日本国内内有一个个网站,你只要要打开这这个网站站用自己己的Twitter账号登录录,就可可以在短短时间内内通过数数万条Twitter找出可能能感冒的的人,并并通过过过去的感感冒情况况和今日日的感冒冒情况进进行分析析(以及及统计目目前发烧烧以及嗓嗓子痛的的患者数数量),另外该该程序还还会结合合气温和和湿度的的变化来来预测将将来感感冒的流流行情况况,并
17、制制作一个个“易感感冒日历历”。目目前,此此类服务务正在日日本陆续续展开。通过这这个服务务器的分分析,大大家就能能够知道道在自己己身边到到底有多多少人有有感冒的的症状,并提前前做好预预防准备备。日本国立立感染症症研究所所将会把把全国约约5000个医疗诊诊所的流流感患者者进行统统计并发发布数据据。经过过对比,研究所所得出的的实际统统计数字字和网站站上预测测的结果果基本是是一致的的,那么么为什么么大数据据的结果果会很准准呢?首先是因因为通过过网络信信息分析析的技术术有所进进步,已已经可以以通过各各种各样样的留言言自动搜搜索到相相关的数数据,并并自动分分类。就就像Google现在所使使用的技技术,就
18、就是利用用服务器器分析与与流感关关系十分分密切的的十几个个单词进进行统计计。另一个就就是大数数据所特特有的功功能。在在流感最最严重的的时候,每天会会有成千千上万条条Tweets发布,即即便有一一些误差差,但通通过数据据分析也也能分析析出数据据的精准准度。以往,公公共机构构在发布布流感情情报的时时候至少少要延迟迟一周,在有些些偏远地地区的立立杆信息息也并不不确切,而现在在,通过过网络能能够有效效弥补这这些缺憾憾。2020-02-27252020-02-2726淘宝的数数据化运营实例分析分析流程程1.分析主题题确定及及数据指指标的选选择;2.数据仓库库数据提提取及清清洗;3.不相关指指标剔除除;4
19、.用训练数数据建立立模型;5.用测试数数据检验验模型;6.预测新的的流失用用户,并并提取用用户名单单;7.制订挽留留策略:对圈定定的客户户进一步步进行分分群,然然后逐群群制订有针对对的挽留留策略。比如有有的群组组是属于于夜间通通话多(和总体的均均值相比比)的客客户,那那么针对对他们的的挽留策策略可能能是推荐一些些夜间通通话优惠惠的资费费方案。8.实施挽留留行动、收集客客户反馈馈。9.评估挽留留效果:2020-02-2727三、构建建大数据据分析平平台四、公共共安全领领域大数数据应用用案例面向公共共安全领领域的大大数据分分析技术术平台数据挖掘掘Data Miner多维分析析BIBeans查询Di
20、scoverer数据仓库库管理(OEM)数据提取取WarehouseBuilder应用服务务器ApplicationServer/PortalDataBase人口数据外部数据犯罪数据报表ReportsData MiningOLAP数据转换换中央数据据仓库知识发现现信息展现现应用系统统源数据数据获取数据管理数据使用2020-02-2730刑侦的犯犯罪预防防搜集犯罪罪的信息息推断罪犯犯的习惯惯预测罪案案的发生生非法出入入境判别别海关走私私模式的的分析紧急事件件的处理理人员的紧紧急疏散散资源的紧紧急调配配紧急状态态的安全全管理紧急事件件发生的的预演交通管理理公共安全全领域基基于大数数据的智智能分析析
21、2020-02-2731信息的来来源银行交易易历史资料料库/知识库库公共信息息政府数据据库Internet截获/监监听情报报通信情报报人工情报报2020-02-2732问题的关关键大量的信信息(有有关/无无关)是是分析的的基础,也是分分析的障障碍事件的信信息往往往是随机机获得不确定的的因素影影响分析析的结果果分析的速速度是关关键2020-02-2733飞速膨胀胀的信息息多种学科科的边缘缘结合有限的记记忆和注注意范围围长时间持持续的分分析工作作严重依赖赖分析人人员的经经验如何用计计算机系系统支持持复杂海海量的分分析过程程 ?限制他们承担担了大部部分负担担依靠分析析人员2020-02-2734限制
22、分析人员员的沉重重负担依靠分析析人员2020-02-2735当前的分分析需求求从不同的的来源有有效的集集成知识识和信息息连续的知知识积累累提供自动动的警告告为分析人人员的查查询提供供答案构造不同同的案件件情节假假设2020-02-2736定性,定定量分分析时间& 频率率分析Databases经验自由文本本统一的知知识系统统从不同信信息来源源和格式式获取数数据2020-02-2737基本信息息 组织 个人人工情报报事件数据库银行交易易其它数据源政府数据据库通信情报报监听 反馈 人工情报报 询问 检查 模拟 联结事件生成成 Events:Meeting (What, Who, Where, Whe
23、n, Frequency)Travel (Who, How, Where, When, Length)Phone call (Who, When, Length, Content, Frequency)Delivery (Who, When, How, Size, What, Frequent, Payment)Other (What, Who, When, Where)Crime (What, When, Where, Who, How)2020-02-2738典型应用用 1刑事罪案案自动分分析2020-02-2739参与分析析的数据据罪犯 犯罪罪技巧(爆炸炸-爆炸炸物制作作,杀杀人方式式,
24、动动机等等等),属属于特特定团伙伙和团伙伙中的角角色(计划者者,辅辅助者, 领导导者,执执行者者/马仔仔等等),户户籍地/暂住地地,入入狱历史史团伙 成员员,角角色潜在目标标 人群群/公共共机构/商业机机构,他他们的的位置知识和经经验 这些些因素如如何相互互作用包包括外在在的影响响和经验验 (过过去发生生的事件件)新的信息息会源源源不断2020-02-2740模拟案例例- 西西西里,巴巴勒莫莫,4/4/03:“Corradi拘捕了DonMarcello”(公共信息息)理解信息息Corradi是巴勒莫莫警方的的的首席席侦探DonMarcello是Marcello家族的教教父Marcello家族具
25、有有很强的的报复性性巴勒莫警警方很可可能遭到到报复文本信息息的理解解外部数据据访问外部数据据访问Data Mining/先验知识识推理,警警报2020-02-2741新的信息息理解信息息Bob是Marcello家族的成成员Bob是家族中中的计划划者和谈谈判代表表Marcello家族的势势力只限限于巴勒勒莫谈判代表表到外面面的地区区寻找家家族内没没有的炸炸弹专家家炸弹制造造和使用用是Marcello家族没有有的技术术,Parsi地区的黑黑手党家家族有这这样的专专家Per是Parsi地区的黑黑手党炸炸弹专家家同时间服服刑的罪罪犯经常常会一起起合作犯犯案Per和Bob有同时间间服刑的的历史Marce
26、llo家族有可可能以炸炸弹攻击击的方式式报复DonMarcello的被拘捕捕Bob有可能计计划用炸炸弹攻击击巴勒莫莫警方巴勒莫, 4/4/03:“Corradi拘捕了DonMarcello”(公共信息息)巴勒莫, 5/5/03:“Bob在Parsi出现”(警方通通报)文本信息的理解外部数据访问外部数据访问外部数据访问Data Mining / 先验知识外部数据访问外部数据访问Data Mining / 先验知识Data Mining / 先验知识推理, 警报外部数据访问2020-02-2742新的信息息巴勒莫, 4/4/03:“Corradi拘捕了DonMarcello”(公共信息息)巴勒莫,
27、 5/5/03:“Bob在Parsi出现”(警方通通报)罗马,5/5/03 :“Fabrizzi将会29号在巴巴勒莫法法庭宣判判DonMarcello(公共信息息)巴勒莫, 7/5/03:“这个月巴巴勒莫会会发生一一些事情情”(警方情情报) 有可能报报复巴勒勒莫警方方 可可能是是一起炸炸弹攻击击有可能针针对Fabrizzi法官 可能能的攻击击手段, 谋杀杀或是炸炸弹攻击击基于时间的相关分析(所有的分析都是与时间高度相关的)2020-02-2743新的信息息如果我们们拘捕Per?炸弹攻击击的威胁胁会降低低,但但是不会会消失Marcello家族的谈谈判代表表还知道道其他的的炸弹专专家,等等等如果我
28、们们同时拘拘捕Per和Bob?推理, 假设分析推理, 假设分析2020-02-2744巴勒莫, 4/4/03:“Corradi拘捕了DonMarcello”(公共信息息)巴勒莫, 5/5/03:“Bob在Parsi出现”(警方通通报)罗马,5/5/03 :“Fabrizzi将会29号在巴巴勒莫法法庭宣判判DonMarcello(公共信息息)巴勒莫, 7/5/03:“这个月巴巴勒莫会会发生一一些事情情”(警方情情报)本月有事事情(突发事件件)在巴勒莫莫发生Fabrizzi将在29日宣判判DonMarcelloBob 出现在 Parsi密切注意相关人员的接触炸弹有可能在制造中(假设事件与 Marcello 家族有关 - 警告会在三个月内有效)可能的报复Don Marcello被囚禁Don Marcello被拘捕
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 餐饮安全培训内容摘要课件
- 急诊护理金点子汇报
- 中医脉相辩男女
- 《红楼梦》林黛玉人物性格深度分析
- 建筑业职业健康安全管理实务指南
- 金融数据安全风险预警-第1篇
- 小学科学自然探究教学案例汇编
- 我国的个人收入分配+高中政治统编版必修二
- 青年教师培养计划及效果评估报告
- 行政办公自动化提升方案与案例
- 6.1.3化学反应速率与反应限度(第3课时 化学反应的限度) 课件 高中化学新苏教版必修第二册(2022-2023学年)
- 2026届北京市清华大学附中数学高二上期末调研模拟试题含解析
- 2026年马年德育实践作业(图文版)
- 医院实习生安全培训课课件
- 四川省成都市武侯区西川中学2024-2025学年八上期末数学试卷(解析版)
- 2026年《必背60题》抖音本地生活BD经理高频面试题包含详细解答
- 土方回填工程质量控制施工方案
- 2025年湖南城建职业技术学院单招职业适应性测试题库附答案
- 2026贵州大数据产业集团有限公司第一次社会招聘考试题库新版
- 珠海高新区2025年下半年公开招聘公办中学事业编制教师备考题库及答案详解一套
- 2024人教版七年级数学上册全册教案
评论
0/150
提交评论