行业大数据技术架构介绍_第1页
行业大数据技术架构介绍_第2页
行业大数据技术架构介绍_第3页
行业大数据技术架构介绍_第4页
行业大数据技术架构介绍_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

行业大数据部署思路浅析大数据的特点理解大数据相关技术与应用什么是大大数据??海量数据据本身+处理方法法*大数据的的4V特征体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效*1、密不可可分的大大数据与与云计算算商业模式式驱动应用需求求驱动云计算本本身也是是大数据据的一种种业务模模式大数据是是落地的的云云计算的的模式是是业务模模式,本本质是数数据处理理技术。。数据是资资产,云云为数据据资产提提供存储储、访问问和计算算。当前云计计算更偏偏重海量量存储和和计算,,以及提提供的云云服务,,运行云云应用,,但是缺缺乏盘活活数据资资产的能能力,挖挖掘价值值性信息息和预测测性分析析,为国国家、企企业、个个人提供供决策和和服务,,是大数数据核心心议题,,也是云云计算的的最终方方向。*2、大数据据不仅仅仅是“大大”多大?至少PB级比大更重重要的是是数据的的复杂性性,有时时甚至大大数据中中的小数数据如一一条微博博就具有有颠覆性性的价值值*4、大数据据的应用用不仅仅仅是精准准营销通过用户户行为分分析实现现精准营营销是大大数据的的典型应应用,但但是大数数据在各各行各业业特别是是公共服服务领域域具有广广阔的应应用前景景消费行业业金融服务务食品安全全医疗卫生生军事交通环保保电子商务务气象*5、管理大大数据““易”理理解大数数据“难难”虽然大数数据是一一个重大大问题,,真正的的问题是是让大数数据更有有意义目前大数数据管理理多从架架构和并并行等方方面考虑虑,解决决高并发发数据存存取的性性能要求求及数据据存储的的横向扩扩展,但但对非结结构化数数据的内内容理解解仍缺乏乏实质性性的突破破和进展展,这是是实现大大数据资资源化、、知识化化、普适适化的核核心非结构化化海量信信息的智智能化处处理:自自然语言言理解、、多媒体体内容理理解、机机器学习习等挖掘内部部需求经过大数数据改造造的IT不再是一一个冷冰冰冰的系系统,而而变成了了推动业业务发展展,挖掘掘客户内内心需求求的真正正推动剂剂;大数数据将催催生更多多的应用用领域需需求。数据源内部结构构化数据据外部其他他渠道网络/应用日日志EDW(内外部部结构化化数据))用户基本本信息数据库Hadoop(内外部部非结构构化数据据)Hadoop/GPFSClusterMapReduce&Analytics网络日志志分析内容分析析交互数据据分析个体分析析用户购买买记录数数据库用户维修修记录数数据库内部非结结构化数数据社会化媒体数据生产、销售、服务、售后数据数据应用用仓库用户在线线浏览据据库用户安装装配送数数据库。。。。。。其他数据据集清洗整合用户数据清洗整合规则确定ETLDQ数据清洗、整合、转换开发清洗整合规则自动调度规则与标准制定用户信息归属规则确定用户数据使用权限与流程确定用户数据质量标准确定数据应用用/服务营销/关怀活动动自动化化管理商业智能能管理驾驶驶舱业务报表表专题分析析嵌入运营营系统的的大数据据应用信息可视视化工具具CRMSCMMESPLM平台化企企业,需需要大数数据架构构的支撑撑大数据时代的企业发展更高一层层数据层层面整合合企业内内外部*数据的再再利用::由于在信信息价值值链中的的特殊位位置,有有些公司司可能会会收集到到大量的的数据,,但他们们并不急急需使用用也不擅擅长再次次利用这这些数据据。例如如,移动动电话运运营商手手机用户户的位置置信息来来传输电电话信号号,这对对以他们们来说,,数据只只有狭窄窄的技术术用途。。但当它它被一些些发布个个性化位位置广告告服务和和促销活活动的公公司再次次利用时时,则变变得更有有价值。。大数据价价值链的的3大构成::数据本本身、技技能与思思维谷歌公司司三者兼兼具,在在刚开始始收集数数据的时时候就已已经有多多次使用用数据的的想法。。比方说说,它的的街景采采集车手手机全球球定位系系统数据据不光是是为了创创建谷歌歌地图,,也是为为了制成成全自动动汽车以以及谷歌歌眼镜等等与实景景交汇的的产品。。未来,企企业会依依靠洞悉悉数据中中的信息息更加了了解自己己,也更更加了解解客户。。《大数据时时代》传统行业业最终都都会转变变为大数数据行业业,无论论是金融融服务也也、医药药还是制制造业。。大数据的未来和机遇大数据相关技术分析技术术:数据处理理:自然然语言处处理技术术统计和分分析:A/Btest;topN排行榜;;地域占占比;文文本情感感分析数据挖掘掘:关联联规则分分析;分分类;聚聚类模型预测测:预测测模型;;机器学学习;建建模仿真真大数据技技术:数据采集集:ETL工具数据存取取:关系系数据库库;NoSQL;SQL等基础架构构支持::云存储储;分布布式文件件系统等等计算结果果展现::云计算算;标签签云;关关系图等等存储结构化数数据:海量数据据的查询询、统计计、更新新等操作作效率低低非结构化化数据图片、视视频、word、pdf、ppt等文件存存储不利于检检索、查查询和存存储半结构化化数据转换为结结构化存存储按照非结结构化存存储解决方案案:Hadoop(MapReduce技术)流计算((twitter的storm和yahoo!的S4)数据采集数据储存数据管理数据分析与挖掘什么是hadoop开源Apache项项目,灵灵感来源源于Google的MapReduce白白皮书和和Google文件系系(GFS),,Yahoo完成成了绝大大部分初初始设计计和开发发Hadoop核核心组组件包括括:-分布式式文件系系统-Map/Reduce––分布式式计算用Java编写写运行平台台:•Linux,,MacOS/X,Solaris,Windows•普通的的X86硬件平平台为什么hadoop很很重要非结构化化数据暴暴增:–估计未来来5年,企业业的数据据将增长长650%%,其中80%都是非结结构化数数据–比如FACEBOOK每天收集集100TB的数据,,Twitter会有每天产生生3500亿的tweets非结构化化的数据据同样蕴蕴藏巨大大价值需要新方方法利用用所有数数据进行行业务分分析–ApacheHadoop作为一个个分析存存储大量量数据的的关键数据平台台出现hadoop与与大数据据Hadoop是致力于于“大数数据”处处理的最最重要平平台之一一–能够轻松松扩展到到PB级别的数数据存储储,处理理规模–带有高度度容错能能力的并并行处理理架构–基于普通通的X86平台硬件件架构,,硬件成成本低廉廉–用内置格格式存储储/处理数据据–基于开源源项目,,拥有当当量的代代码来源源,并且且传统厂厂商也日日益重视视对其的的支持,,它已经经成为重重要的并并行处理理架构标标准之一一企业级Hadoop堆栈数据存储储与访问问方式大数据与与应用总总体设计计行业大数数据建设设思考1.思考的问问题使用当前前数据资资源建设设大数据据平台能能做什么么?实现以前前无法实实现的应应用需求求针对当前前业务状状况,为为什么需需要建设设大数据据平台改善现状状,为未未来发展展奠定基基础具备什么么样的条条件才能能建设大大数据平平台?硬件和网网络资源源具备了了吗?数据应用用业务需需求明确确了吗??已有业务迁移移到大数数据平台台可行吗吗?2.建设步骤骤分析当前前及未来来数据量量及数据据类型((不止是是原始数数据哦,,还有新新产生的的大数据据应用中中间及结结果数据据)明确大数数据应用用业务需需求(包包括已有有业务迁迁移和未未来面对对海量数数据进行行的以前前无法做做到的新新型业务务需求和和模式))根据需求求确定数数据存储储模式及及结构((与应用用相关))根据需求求确定大大数据应应用建设设技术路路线●批处处理模式式●●实实时访访问技术术●●流式式计算●●大规规模并行行计算●统计分分析●●OLAP分析●●数据挖挖掘●●智智能搜索索●。。。。搭建系统统运行及及监控

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论