大数据前沿技术与应用场景_第1页
大数据前沿技术与应用场景_第2页
大数据前沿技术与应用场景_第3页
大数据前沿技术与应用场景_第4页
大数据前沿技术与应用场景_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据前沿技术与应用场景大数据前沿技术12大数据应用场景大数据的引擎软件变化世界软件是大数据的驱动力Hadoop十年大数据技术的关键历史进程202320232023202320232023GoogleFileSystemGoogleMapReduceGoogleBigTableHadoop开源HBase开源Hive2023MongoDB开源Spark开源202320232023Hadoop1.0(HDFS、MapReduce)Storm初版阿里巴巴RocketMQHadoop2.0(YARN)2023Apache

RocketMQ20232023Hadoop3.0Storm1.02023HBase1.02023ApacheSpark大数据常用的关键技术海量数据存储技术分布式文件系统,是Hadoop项目的关键子项目面对列的开源数据库,非常适合非构造化数据是非关系数据库中功能最丰富,最像关系型的拆分复制文件存储列式存储分区存储文档存储{"employees":[{"firstName":"Bill","lastName":"Gates"},{"firstName":"George","lastName":"Bush"}]}其他存储技术分布式索引技术,百亿级数据秒级查询。分布式消息队列,融峰缓冲的必备利器。ApacheRocketMQ是开源的、分布式的、消息和数据流平台生产者╱消费者模型生产者向1个或多种消息主题生产消息生产者和消费者彼此不懂得对方0或多种消费者可能对消息主题感爱好注册信息写入数据库发送注册邮件发送注册短信响应_____ms60ms50ms40ms注册信息写入数据库发送注册邮件发送注册短信60ms50ms40ms响应____ms异步处理将不必要的业务逻辑,进行异步处理,从而达成提速的目的。1501106560ms响应_____ms注册信息写入数据库发送注册邮件发送注册短信发送消息队列5ms异步读取应用解耦解除不同系统或模块之间的耦合。假如库存系统无法访问,则会造成处理失败,而影响下单。写入订单系统库存系统消息队列订阅虽然下单时库存系统不能正常使用,也不会影响正常下单。订单系统库存系统调用库存接口消息队列一般都内置了高效的通讯机制,可用在纯通讯场景。消息通讯融峰缓冲消息队列最常用的应用场景。在秒杀或团抢场景广泛应用。流量瞬间暴涨,引起服务故障。能够缓冲高压,灵活处理祈求。用户请求秒杀业务处理发送请求返回结果用户请求秒杀业务处理发送请求返回结果消息队列按需读取秒杀请求分布式索引技术,百亿级数据秒级查询。优点缺陷实时性高易用支持插件水平扩展事务性不强关联查询效率低数据计算处理技术分布式计并行算框架,适合时效性较低场景。一种通用的计算框架,适合时效性较高场景。流式计算框架,非常适合需实时计算的场景。RGGGRBOPPBORBPROsplitRGRBPBBPGGOPORRORGRBPBBPGGOPORROmapmapshuffleRRRRPPPGGGBBBOOOreduceRPGBO43333sort伪实时外部存储外部数据SpoutBoltTTTTTTT实时数据分析技术数据可视化技术大数据前沿技术12大数据应用场景商品零售大数据有一位爸爸怒气冲冲地跑到塔吉特卖场,质问为何将带有婴儿用具优惠券的广告邮件,寄送给他正在念高中的女儿?然而后来证明,他的女儿果真怀孕了。这名女孩搜寻商品的关键词,以及在社交网站所显露的行为轨迹,使沃尔玛捕获到了她的怀孕信息。模型发觉,许多孕妇在第2个妊娠期的开始会买许多大包装的无香味护手霜;在怀孕的最初20周大量购置补充钙、镁、锌的善存片之类的保健品。最终塔吉特选出了25种经典商品的消费数据构建了“怀孕预测指数”,经过这个指数,Target能够在很小的误差范围内预测到顾客的怀孕情况,所以Target就能早早地把孕妇优惠广告寄发给顾客。大数据+政治在筹备过程中,奥巴马背后的数据分析团队一直在搜集、存储和分析选民数据。在这次的大选中,奥巴马竞选阵营的高级助理们决定将参照这一团队所得出的数据分析成果来制定下一步的竞选方案。利用在竞选中可取得的选民行动、行为、支持偏向方面的大量数据。例如,在东海岸找到一位对女性群体具有相同号召力的名人,从而复制“克鲁尼效应”并为奥巴马筹集竞选资金。“Twitter的政治指数”提供了一种衡量社会化媒体平台的顾客怎样评价候选人的方式。奥巴马主动的情绪指数是59,而罗姆尼的只有53。证监会大数据回忆“老鼠仓”的查处过程,在马乐一案中,“大数据”首次介入。深交所此前经过“大数据”查出的可疑账户高达300个。实际上,早在2023年,上交所曾经有过利用“大数据”设置“捕鼠器”的设想。经过建立有关的模型,设定一定的指标预警,即有关指标达成某个预警点时监控系统会自动报警。而此次在马乐案中亮相的深交所的“大数据”监测系统,更是引起了广泛关注。深交全部几十人的监控室,设置了200多种指标用于监测估计,一旦出现股价偏离大盘走势,深交所利用大数据查探异动背后是哪些人或机构在参加。金融大数据阿里“水文模型”是按小微企业类目、级别等分别统计一种阿里系商户的有关“水文数据”库。如过往每到某个时点,该店铺销售会进入旺季,销售额就会增长,同步每在这个时段,该客户对外投放的额度就会上升,结合这些水文数据,系统能够判断出该店铺的融资需求;结合该店铺以往资金支用数据及同类店铺资金支用数据,能够判断出该店铺的资金需求额度。金融交易大数据量化交易,程序化交易,高频交易是大数据应用比较多的领域。全球2/3的股票交易量是由高频交易所发明的,参加者总收益每年高达80亿美元。其中,大数据算法被用来作出交易决定。目前,大多数股权交易都是经过大数据算法进行,这些算法越来越多地开始考虑社交媒体网络和新闻网站的信息来在几秒内做出买入和卖出的决定。当一种产品能够在多种交易所交易时,会形成不同的定价,在这当中,谁能够最快地捕获到同一种产品在不同交易所之间的明显价差,谁就能捕获到瞬间套利机会,技术成为了主要原因。制造业大数据在摩托车生产厂商哈雷·戴维森企业位于宾尼法尼亚州约克市新翻新的摩托车制造厂,软件不断的在统计着微小的制造数据,如喷漆室风扇的速度等等。当软件觉察风扇速度、温度、湿度或其他变量脱离要求数值,它就会自动调整机械。哈雷·戴维森同步还使用软件,还寻找制约企业每86秒完毕一台摩托车制造工作的瓶颈。近来,这家企业的管理者经过研究数据,觉得安装后挡泥板的时间过长。经过调整工厂配置,哈雷·戴维森提升了安装该配件的速度。美国某些纺织及化工生产商,根据从不同的百货企业POS机上搜集的产品销售速度信息,将原来的18周送货速度降低到3周,这对百货企业分销商来说,能以更快的速度拿到货品,降低仓储。对生产商来说,积攒的材料仓储也能降低诸多。医疗大数据google基于每天来自全球的30多亿条搜索指令设置了一种系统,这个系统在2023年甲流暴发之前就开始对美国各地域进行“流感预报”,并推出了“google流感趋势”服务。google在这项服务的产品简介中写道:搜索流感有关主题的人数与实际患有流感症状的人数之间存在着亲密的关系。虽然并非每个搜索“流感”的人都患有流感,但google发觉了某些检索词条的组合并用特定的数学模型对其进行分析后发觉,这些分析成果与老式流感监测系统监测成果的有关性高达97%。这也就表达,google企业能做出与疾控部门一样精确的传染源位置判断,而且在时间上提前了一到两周。能源大数据国际大石油企业一直都非常注重数据管理。如雪佛龙企业将5万台桌面系统与1800个企业站点连接,消除炼油、销售与运送“下游系统”中的反复流程和系统,每年节省5000万美元,过去4年已取得了净现值约为2亿美元的回报。精确预测太阳能和风能需要分析大量数据,涉及风速、云层等气象数据。丹麦风轮机制造商维斯塔斯(VestasWindSystems),经过在世界上最大的超级计算机上布署IBM大数据处理方案,得以经过分析涉及PB量级气象报告\潮汐相位、地理空间、卫星图像等构造化及非构造化的海量数据,优化风力涡轮机布局,有效提升风力涡轮机的性能,为客户提供精确和优化的风力涡轮机配置方案不但帮助客户降低每千瓦时的成本,而且提升了客户投资回报估计的精确度,同步它将业务顾客祈求的响应时间从几星期缩短到几小时。交通大数据UPS最新的大数据起源是安装在企业4.6万多辆卡车上的远程通信传感器,这些传感器能够传回车速、方向、刹车和动力性能等方面的数据。搜集到的数据流不但能阐明车辆的日常性能,还能帮助企业重新设计物流路线。大量的在线地图数据和优化算法,最终能帮助UPS实时地调配驾驶员的收货和配送路线。该系统为UPS降低了8500万英里的物流里程,由此节省了840万加仑的汽油。公安大数据大数据挖掘技术的底层技术最早是英国军情六处研发用来追踪恐怖分子的技术。中国大数据的概念其实源于最早公安部抓法轮功分子。大数据筛选犯罪团伙,与锁定的罪犯乘坐同一班列车,住同一酒店的两个人可能是同伙,过去,刑侦人员要证明这一点,需要经过把不同线索拼凑起来排查疑犯。

经过对越来越多数据的挖掘分析,某一片区域的犯罪率以及犯罪模式都将清楚可见。大数据能够帮助警方定位最易受到不法分子侵扰的区域,创建一张犯罪高发地域热点图和时间表。不但有利于警方精确分配警力,预防打击犯罪,也能帮助市民了解情况,提升警惕。文化传媒大数据与老式电视剧有别,《纸牌屋》是一部根据“大数据”制作的作品。制作方Netflix是美国最具影响力的影视网站之一,在美国本土有约2900万的订阅顾客。Netflix成功之处于于其强大的推荐系统Cinematch,该系统基于顾客视频点播的基础数据如评分、播放、快进、时间、地点、终端等,储存在数据库后经过数据分析,计算出顾客可能喜爱的影片,并为他提供定制化的推荐。Netflix公布的数据显示,顾客在Netflix上每天产生3000多万个行为,例如暂停、回放或者快进,同步,顾客每天还会给出400万个评分,以及300万次搜索祈求。Netflix遂决定用这些数据来制作一部电视剧,投资过亿美元制作出《纸牌屋》。Netflix发觉,其顾客中有诸多人仍在点播1991年BBC经典老片《纸牌屋》,这些观众中许多人喜欢大卫·芬奇,观众大多爱看奥斯卡得主凯文·史派西的电影,由此Netflix邀请大卫·芬奇为导演,凯文·史派西为主演翻拍了《纸牌屋》这一政治题材剧。2023年2月《纸牌屋》上线后,顾客数增长了300万,达成2920万。航空大数据Farecast已经拥有惊人的约2023亿条飞行数据统计。用来推测目前网页上的机票价格是否合理。作为一种商品,同一架飞机上每个座位的价格原来不应该有差别。但实际上,价格却千差万别,其中缘由只有航空企业自己清楚。

Farecast预测目前的机票价格在将来一段时间内会上涨还是下降。这个系统需要分析全部特定航线机票的销售价格并拟定票价与提前购置天数的关系。Farecast票价

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论