大数据及其典型应用_第1页
大数据及其典型应用_第2页
大数据及其典型应用_第3页
大数据及其典型应用_第4页
大数据及其典型应用_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息资源管理-扩展知识

大数据及其典型应用2023/2/32引子棱镜门波士顿马拉松爆炸案PredPol少数派报告2013大数据元年video一、大数据的相关概念二、国内外大数据分析的研究现状三、构建大数据分析平台四、公共安全领域大数据应用案例目录2023/2/33一、大数据的相关概念

2023/2/34数据管理技术发展历史数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该领域进入了一个新的发展阶段-5-194619511956196119701974197919912001200320082011第一台计算机ENIAC面世磁带+卡片人工管理磁盘被发明,进入文件管理时代网络型SQLE-RGE公司发明第一个网络模型数据库,但仅限于GE自己的主机1960年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生,数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数据库为主导IBME.F.Dodd提出关系模型SQL语言被发明关系型数据库ORACLE发布第一个商用SQL关系数据库,后续快速发展数据仓库数据仓库开始涌现,关系数据库开始全面普及且平台无关,进入成熟期2001年后,互联网迅速发展,数据量成倍递增,量变引起质变,开始对数据管理技术提出全新的要求1946年,电脑诞生,数据与应用紧密捆绑在文件中,彼此不分Hadoop成为Apache顶级项目,重点支持海量数据分布式管理和分布式计算GFS谷歌发表论文介绍分布式计算大数据发展背景全球信息化发展已步入大数据时代150亿个设备连接到互联网全球每秒钟发送290万封电子邮件每天有2.88万小时视频上传到YoutubeFacebook

每日评论达32亿条,每天上传照片近3亿张,每月处理数据总量约130万TB2011年全球产生数据量1.8ZB,预计2020年将增长到35ZB大数据正迅速成为最值得关注的IT领域之一2011年5月,EMCWorld2011大会主题“云计算相遇大数据”,EMC除了一直倡导的云计算外,还抛出"大数据"(BigData)概念2011年6月底,IBM、麦肯锡等众多国外机构发布"大数据"相关研究报告,予以积极跟进2011年10月,Gartner认为2012年十大战略技术将包括"大数据"2011年11月底,IDC将"大数据"放入2012年信息通信产业十大预测之一-6-IDC全球数据量预测(1ZB

=1百万PB=10亿TB)Google网站Bigdata关键词搜索及新闻引用量什么是大数据123大数据的定义理解大数据的“4V”特征大数据的产生、增长2023/2/37“大数据”是如何产生的?21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。

半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。2023/2/38大数据时代的爆炸增长想驾驭这庞大的数据,我们必须了解大数据的特征。地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1GB

=2^30字节1TB=2^40字节1PB

=2^50字节1EB

=2^60字节1ZB=2^70字节2023/2/39大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。VolumeVelocityValueVariety2023/2/310大数据的构成大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。2023/2/311分析技术:数据处理:自然语言处理技术统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等一些相关技术存储结构化数据海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)2023/2/3122023/2/313大数据的市场潜力利用GPS数据了解交通状况智能电表应用级家庭能源监测2012年3月29日奥巴马政府公布了”大数据研发计划”。该计划的目标是改进现有人们从海量和复杂的数据中获取知识的能力,从而加速美国在科学与工程领域发明的步伐,增强国家安全,转变现有的教学和学习方式。“大数据战略”上升为美国最高国策对数据占有和控制,做为在陆权、海权、空权之外的另一种国家核心能力。大数据的浪潮谷歌搜索与流感预测大数据与乔布斯的癌症治疗微博&投资沃尔玛的啤酒与纸尿布塔吉特预测少女怀孕沃尔玛蛋挞与飓风用品的关系“魔毯”病人的监控智慧城市&智能化交通谷歌翻译系统理解大数据数据已经成为可以与物质资产和人力资本相提并论的重要的生产要素

——麦肯锡《大数据:下一个创新、竞争和生产力的前沿》二、国内外大数据分析的研究现状

流感趋势预测

2023/2/317全球每年约10%~15%的人群会患上流感,受感染人群约5000万人,死亡人数约50万。这可不是个小数字。如果我们能够尽早提前预测到流感即将爆发,无疑将使全球公众都将受益:政府和医疗机构提前拿出应对措施,就能挽救大量生命。2008年,谷歌推出了其著名的流感趋势网站(/flutrends)。该网站假定的前提是:如果用户患上了流感,则他们会搜索更多同流感相关的信息。如此一来,如果对任何一个国家或地区有关流感的搜索量进行统计,就能较好推断出某个国家或地区是否正爆发流感。事实上,谷歌的这项统计数据被证实很有效。谷歌的相应数据,同美国疾病控制与预防中心(CDC)等政府机构所统计的数据非常接近(97%)。在某些情况下,谷歌甚至能够比CDC提前一周预测出哪些地区将爆发流感。2023/2/318全球每星期会有数以百万计的用户在网上搜索健康信息。正如您所预料的那样,在流感季节,与流感有关的搜索会明显增多;到了过敏季节,与过敏有关的搜索会显著上升;而到了夏季,与晒伤有关的搜索又会大幅增加。某些搜索字词非常有助于了解流感疫情。Google流感趋势会根据汇总的Google搜索数据,近乎实时地对全球当前的流感疫情进行估测。搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。当然,并非每个搜索“流感”的人都真的患有流感,但将与流感有关的搜索查询汇总到一起时,便可以找到一种模式。将统计的查询数量与传统流感监测系统的数据进行了对比,结果发现许多搜索查询在流感季节确实会明显增多。通过对这些搜索查询的出现次数进行统计,便可以估测出世界上不同国家和地区的流感传播情况。Detectinginfluenzaepidemicsusingsearchenginequerydata,Nature

457,1012-1014(19February2009)2023/2/319上图显示了根据历史查询所得的美国近几年的流感估测结果,以及这些结果与官方的流感监测数据的对比。从图中可以看出,根据与流感相关的Google搜索查询所得到的估测结果,与以往的流感疫情指示线非常接近。当然,过去的表现并不能保证以后的结果一定准确。2023/2/3202023/2/3212023/2/322卡耐基梅隆大学的JiweiLi和康乃尔大学的ClaireCardie,成功利用Twitter预测了早期流感爆发。他们的方式与Google类似。首先,从Twitter数据流中过滤包含与“流感”相关,并带有位置标签的tweet;然后,在地图上标注这些tweet的位置分布,以及随时间产生的变化。同时,还制作了流感的动态变化模型。新模型中,流感包括4个阶段:无传染阶段、爆发阶段、稳定阶段以及衰退阶段。此外,采用了全新的算法,试图尽可能快得发现不同时期的转换节点。实际上,Li和Cardie在2008年6月至2010年6月间,已经利用100万美国人的360万条tweet,验证了该方法的有效性。为了检验他们的预测是否成真,Li和Cardie将他们的分析与CDC进行对比。他们说,“我们确信,流感相关tweet与CDC提供的流感疾病案例数目,呈显著相关。”2023/2/3232023/2/324日本国内有一个网站,你只要打开这个网站用自己的Twitter账号登录,就可以在短时间内通过数万条Twitter找出可能感冒的人,并通过过去的感冒情况和今日的感冒情况进行分析(以及统计目前发烧以及嗓子痛的患者数量),另外该程序还会结合气温和湿度的变化来预测将来感冒的流行情况,并制作一个“易感冒日历”。目前,此类服务正在日本陆续展开。通过这个服务器的分析,大家就能够知道在自己身边到底有多少人有感冒的症状,并提前做好预防准备。日本国立感染症研究所将会把全国约

5000个医疗诊所的流感患者进行统计并发布数据。经过对比,研究所得出的实际统计数字和网站上预测的结果基本是一致的,那么为什么大数据的结果会很准呢?首先是因为通过网络信息分析的技术有所进步,已经可以通过各种各样的留言自动搜索到相关的数据,并自动分类。就像Google现在所使用的技术,就是利用服务器分析与流感关系十分密切的十几个单词进行统计。另一个就是大数据所特有的功能。在流感最严重的时候,每天会有成千上万条Tweets发布,即便有一些误差,但通过数据分析也能分析出数据的精准度。以往,公共机构在发布流感情报的时候至少要延迟一周,在有些偏远地区的立杆信息也并不确切,而现在,通过网络能够有效弥补这些缺憾。2023/2/3252023/2/326淘宝的数据化运营——实例分析分析流程1.分析主题确定及数据指标的选择;

2.数据仓库数据提取及清洗;

3.不相关指标剔除;

4.用训练数据建立模型;

5.用测试数据检验模型;

6.预测新的流失用户,并提取用户名单;7.制订挽留策略:对圈定的客户进一步进行分群,然后逐群制订有针对的挽留策略。比如有的群组是属于夜间通话多(和

总体的均值相比)的客户,那么针对他们的挽留策略可能是

推荐一些夜间通话优惠的资费方案。8.实施挽留行动、收集客户反馈。9.评估挽留效果:

2023/2/327三、构建大数据分析平台

四、公共安全领域大数据应用案例

面向公共安全领域的大数据分析技术平台数据挖掘DataMiner多维分析BIBeans查询Discoverer数据仓库管理(OEM)数据提取WarehouseBuilder应用服务器ApplicationServer/PortalDataBase人口

数据外部数据犯罪数据报表ReportsDataMiningOLAP数据转换中央数据仓库知识发现信息展现应用系统源数据数据获取数据管理数据使用2023/2/330刑侦的犯罪预防搜集犯罪的信息推断罪犯的习惯预测罪案的发生非法出入境判别海关走私模式的分析紧急事件的处理人员的紧急疏散资源的紧急调配紧急状态的安全管理紧急事件发生的预演交通管理公共安全领域基于大数据的智能分析2023/2/331信息的来源银行交易历史资料库/知识库公共信息政府数据库Internet截获/监听情报通信情报人工情报2023/2/332问题的关键大量的信息(有关/无关)是分析的基础,也是分析的障碍事件的信息往往是随机获得不确定的因素影响分析的结果分析的速度是关键2023/2/333飞速膨胀的信息多种学科的边缘结合有限的记忆和注意范围长时间持续的分析工作严重依赖分析人员的经验如何用计算机系统支持复杂海量的分析过程?限制…他们承担了大部分负担依靠分析人员2023/2/334限制…分析人员的沉重负担依靠分析人员2023/2/335当前的分析需求从不同的来源有效的集成知识和信息连续的知识积累提供自动的警告为分析人员的查询提供答案构造不同的案件情节假设2023/2/336定性,定量分析时间&频率分析Databases经验自由文本统一的知识系统从不同信息来源和格式获取数据2023/2/337基本信息

组织个人人工情报事件数据库银行交易其它数据源政府数据库通信情报监听

反馈

人工情报询问

检查模拟联结事件生成

Events:Meeting(What,Who,Where,When,Frequency)Travel(Who,How,Where,When,Length)Phonecall(Who,When,Length,Content,Frequency)Delivery(Who,When,How,Size,What,Frequent,Payment)Other(What,Who,When,Where)Crime(What,When,Where,Who,How)2023/2/338典型应用1–

刑事罪案自动分析2023/2/339参与分析的数据罪犯–犯罪技巧(爆炸-爆炸物制作,杀人方式,动机等等),属于特定团伙和团伙中的角色(计划者,辅助者,领导者,执行者/马仔等等),户籍地/暂住地,入狱历史团伙–成员,角色潜在目标–人群/公共机构/商业机构,他们的位置知识和经验–这些因素如何相互作用–包括外在的影响和经验(过去发生的事件)新的信息会源源不断…2023/2/340模拟案例-西西里,巴勒莫,4/4/03:“Corradi拘捕了

DonMarcello”(公共信息)理解信息Corradi

是巴勒莫警方的的首席侦探DonMarcello是Marcello家族的教父Marcello家族具有很强的报复性巴勒莫警方很可能遭到报复文本信息的理解外部数据访问外部数据访问DataMining/先验知识推理,警报2023/2/341新的信息理解信息Bob是Marcello家族的成员Bob是家族中的计划者和谈判代表Marcello家族的势力只限于巴勒莫谈判代表到外面的地区寻找家族内没有的炸弹专家炸弹制造和使用是Marcello家族没有的技术,Parsi

地区的黑手党家族有这样的专家Per是Parsi

地区的黑手党炸弹专家同时间服刑的罪犯经常会一起合作犯案Per和Bob有同时间服刑的历史Marcello家族有可能以炸弹攻击的方式报复DonMarcello的被拘捕Bob有可能计划用炸弹攻击巴勒莫警方巴勒莫,4/4/03:“Corradi

拘捕了

DonMarcello”(公共信息)巴勒莫,5/5/03:“Bob在

Parsi

出现”(警方通报)文本信息的理解外部数据访问外部数据访问外部数据访问DataMining/先验知识外部数据访问外部数据访问DataMining/先验知识DataMining/先验知识推理,警报外部数据访问2023/2/342新的信息巴勒莫,4/4/03:“Corradi

拘捕了

DonMarcello”(公共信息)巴勒莫,5/5/03:“Bob在

Parsi

出现”(警方通报)罗马,5/5/03:“Fabrizzi

将会29号在巴勒莫法庭宣判

DonMarcello"(公共信息)巴勒莫,7/5/03:“这个月巴勒莫会发生一些事情”(警方情报)

…有可能报复巴勒莫警方–可能是一起炸弹攻击有可能针对Fabrizzi

法官–可能的攻击手段,谋杀或是炸弹攻击基于时间的相关分析(所有的分析都是与时间高度相关的)2023/2/343新的信息如果我们拘捕Per?炸弹攻击的威胁会降低,但是不会消失–Marcello家族的谈判代表还知道其他的炸弹专家,等等…如果我们同时拘捕Per和Bob?推理,假设分析推理,假设分析2023/2/344巴勒莫,4/4/03:“Corradi

拘捕了

DonMarcello”(公共信息)巴勒莫,5/5/03:“Bob在

Parsi

出现”(警方通报)罗马,5/5/03:“Fabrizzi

将会29号在巴勒莫法庭宣判

DonMarcello"(公共信息)巴勒莫,7/5/03:“这个月巴勒莫会发生一些事情”(警方情报)本月有事情(突发事件)在巴勒莫发生Fabrizzi将在29日宣判DonMarcelloBob出现在Parsi密切注意相关人员的接触炸弹有可能在制造中(假设事件与Marcello家族有关-警告会在三个月内有效)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论