企业大数据指南_第1页
企业大数据指南_第2页
企业大数据指南_第3页
企业大数据指南_第4页
企业大数据指南_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、企业Big Data指南 方案架构与案例研讨陈育杰 Eric Chen eric_chen 精诚集团 Etu 知意图 资深事业发展总监 精诚集团团BigData事业精诚集团团提供BigData解决方案案的独立立品牌在台北与与北京设设有研发发与专业业服务团团队我们关注注的不只只是技术术,更在在意挖掘掘BigData对企业的的商业价价值透过软硬硬件一体体的整合合,大幅幅简化化与优化企业处处理BigData的种种问问题精诚集团团BigData事业意图与关关联充满满的BigData世界Etu帮您具体体整合来来呈现大数据(Big Data)时代来临临StructuredDatabaseSpreadshe

2、etFile in record formatSemi-structuredXML DocsLogsClick-streamEquipment/ Device, RFID tagUnstructuredWeb PagesE-mailMultimediaInstant MessagesDocumentsBigDataPeopleDevicesSensors移动互联联网MobileInternet物联网InternetofThings4新量级、新处理理模式、新企业业智能BigData要解决的的问题Volume海量的数数据规模模Variety多样的数数据类型型StreamsReal timeNear

3、 timeBatchTBPBEBStructuredUnstructuredSemi-structuredAll the aboveValueVelocity快速的数数据流转转巨大的数数据价值值6SocialMediaMachine /SensorDOC/MediaWebClickstreamAppsCall LogLog什么是半半结构化化/非结构化化数据BigData带来的挑挑战不同“看”数据的方式需要更高性价比的数数据计算算与储存存方式不同的数数据管理理策略超越企业业现有IT的数据解解决能量量7不同“看”数据的方方式8可视:结结构化资资料15%未视:半半/非结构化化数据85%DB/DW主管

4、们看看的战情数位位仪表板板,其实实是残缺缺的10万 GB10万 TB需要更高高性价比比的数据据计算与与储存方方式9数据库数据仓库库计算更快快存储更省省85%半/非结构化的Log / Web page / Email / PDF / Image / Full-text / MS-Office file 10不同的数数据管理理策略当我们想想要扩充充时,才发觉:架构只能能scale-up,scale-out不易处理时间间过长,time-to-value受限成本过高高,cost-efficiency受限15%结构化的的DB/DW遗憾残缺每天几百百GB、 几TB的资料,且持续续成长中中储存Storing

5、在收数据据的同时时做必要要的前置置处理(pre-processing),并区分分数据处处理的优优先等级级(prioritizing)计算Processing如何有效的避避免因硬件毁毁坏所导导致的资资料损毁毁管理Managing如何从中中挖掘出出所关注注事件的的pattern或behavior分析Analyzing超越企业业现有IT的数据解解决能量量11大数据的的储存与与处理/运算大数据储存存大数据处处理数据分享享数据检索索数据分析数据展现分布式软软件架构构并行计算算框架分布式存存储横向扩容容(Scale-out)架构什么是大大数据处处理(Big DataProcessing)Word coun

6、tHarry Porter (哈利波特)432,442Lord Voldemort (佛地魔)134,209Dumbledore (邓不利多)72,982Severus Snape (石内圤)28,252.Logfile: 1.5TB /dayHit count812,490,299232,934,490198,283,00257,922,190.HitCountWord Count什么是大大数据处处理(Big DataProcessing)0- 15/Nov/2011:00:07:45GET/flower_store/product.screen?product_id=

7、FL-10/flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2Mozilla/5.0 (X11; U; Linux i686; en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centos Firefox/0 160416674- -15/Nov/2011:00:07:58GET /flower_store/product.screen?product_id=K9-BD-01HTTP/1.1http:/mystore./f

8、lower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2Mozilla/5.0 (X11; U; Linux i686; en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centos Firefox/0 18032431i7 -15/Nov/2011:00:08:26 GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1/flower_store/category.

9、screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2 Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0) Gecko/20070223 CentOS/0-0.1.el4.centosFirefox/01025 44638-IPActionTimeServerURL#.3rdpartypre-definedReportingFilterStringTruncationLogfile: 1.5TB /day什么是大大数据处处理(Big DataProce

10、ssing)RDR_SEND_TIMERDR_TAGSUBSCRIBER_IDPACKAGE_IDSERVICE_IDPROTOCOL_IDSKIPPED_SESSIONSSERVER_IPSERVER_PORTACCESS_STRINGINFO_STRINGCLIENT_IPCLIENT_PORTINITIATING_SIDEREPORT_TIMEMILLISEC_DURATIONPROTOCOL_SIGNATURZONE_IDFLAVOR_IDStart dateStart timeSession typeSource IPSource PortNAT IPNAT PortDest IPD

11、est PortProtocalOutputIDStart timeEnd timeSource IPSource PortDest IPDest PortProtocalUpstreamDownstreamURLJoin1.1TBper-day600GBper-day什么是大大数据处处理(Big DataProcessing)SequenceDe-Normalize0- 15/Nov/2011:00:07:45GET/flower_store/product.screen?product_id=FL-10/flower_store/category.screen?cat

12、egory_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2Mozilla/5.0 (X11; U; Linux i686; en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centos Firefox/0 160416674- -15/Nov/2011:00:07:58GET /flower_store/product.screen?product_id=K9-BD-01HTTP/1.1http:/mystore./flower_store/category.screen?category_i

13、d=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2Mozilla/5.0 (X11; U; Linux i686; en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centos Firefox/0 18032431i7 -15/Nov/2011:00:08:26 GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=

14、SD7SL1FF9ADFF2 Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0) Gecko/20070223 CentOS/0-0.1.el4.centosFirefox/01025 44638-ABCDXYZOPQADACXEventSequenceDiagramRDBdataEvent范例被浏览的的网页每笔网络络交易所所经历的的每个程程序或系系统.BigFlatFileforfull textsearch什么是大大数据处处理(Big DataProcessing)SignatureMeta Da

15、taMeta DataTagValueTagValueAppAppAppAppMediaExtractionFile Transformation什么是大大数据处处理(Big DataProcessing)String ConvertCountFilterString TruncateSortIndexingJoinSequenceExtractAggregateSocialMediaMachine&SensorDataMediaWebClickstreamMobileAppsCall LogSplunkBI/ReportingCustomizedSolutionsDatabase/Data

16、WarehouseEtu知意图的的大数据据解决方方案大数据储存存大数据处处理数据分享享数据检索索数据分析数据展现分布式软软件架构构并行计算算框架分布式存存储横向扩容容(Scale-out)架构大数据处处理的平平台解决决方案企业的资资料云硬件与软软件一体体/储存与运运算合一一BigData运算与储储存,单单一架构构解决EtuAppliance20传统并行行计算架架构并行计算算+分布式存存储运算储存传统储存存架构计算与存存储一体体,计算算向数据据靠拢,高效专专用存储储模式为程序员员屏蔽通通性、并并发、同同步与一一致性等等问题任务之间间无依赖赖(share-nothing),具有高高系统延延展性(s

17、cale-out)Hadoop的特性Hadoop不只是Hadoop21HIVEBigDataApplicationsPig!ZooKeeperSQLRAW关系数据据库vsHadoop关系数据库Hadoop资料量GB - TBTB - PB存取方式交互式与批次批次数据更新多次读写一次写, 多次读数据结构固定 schema无 schema资料一致性高 (ACID)低扩充性非线性线性连结关系系数据库库与Hadoop汇入与导导出数据据Sqoop查询与整整合Hive JDBCDriver (Java)Hive ODBCDriver (C+)Hive Add-inforExcel(by Microsoft

18、)Thrift(C/C+,Python, Perl, PHP)Hive简介由Facebook开发架构于Hadoop之上,设计用来来管理结结构化数数据的中中间件以MapReduce为执行环环境数据储存存于HDFS上Metadata储存于RDMBS中Hive的设计原原则采用类SQL语法扩充性 Types,Functions, Formats, Scripts性能与平平水扩展展能力兼兼具Hive SQL likeHadoop DatabaseDriver(compiler, optimizer,executor)metastoreData NodeData NodeData NodeData Nod

19、eHadoopClusterM/RM/RM/RM/RWebUICLIJDBCODBCCreateM/R JobSqoop SQLtoHadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreateMap TasksSqoop支援的RDMBSOracleNetezzaTeradataSQLServerMicrosoftPDWMySqlPostgre SQL传统的数数据处理理流程营运信息息新用户新订单新产品数据仓库库用户浏览日志大部份删除ETL部份资料探索式的的数据处处理流程程新用户新订单新产品广告效益益分析?促销活动动分析?电子报效效益分析析?用户浏览日志营

20、运信息息数据仓库库30StrictlyNDA-MicrosoftConfidentialData WarehouseSensorsDevicesWebLogCrawlersERPCRMLOBAPPsConnectors非结构化化数据源源S SRSSSASBIPlatformFamiliarEndUserToolsPowerViewExcelwith PowerPivotEmbeddedBIPredictive Analytics结构化数数据源Hadoop企业的Hadoop应用策略应用一: 参照照RDBMS中的数据据表RDBMSCustomersWebLogsProductsHDFS应用二:脱机

21、数据据分析RDBMSCustomersProductsHDFSSalesHistoryRDBMSHDFSSales2008Sales2009Sales2010Sales2008ODBC/JDBC应用三:历史数据据与在线线数据交交互运用用应用四:利用Hadoop进行数据据汇总RDBMSWebLogsHDFSWebLogSummary应用五:利用ODBC连结Excel& HiveExcel Hive Add-in在线资料 : MS SQL Server历史资料 : Hive其他应用用- EtuRecommender建构在EtuAppliance上的精准准推荐系系统EtuRecommenderRec

22、ommendationEngine商品/内容关联性分分析客户行为为相似性分分析客户海量量量浏览览数据客户交易数据据其他或第三方资资料推荐清单单其他应用用- EtuRecommender建构在EtuAppliance上的精准准推荐系系统WebServerUser DBProduct DBEtuRecommender商品浏览览日志用户数据据产品目录录推荐结果果API其他应用用- EtuRecommender建构在EtuAppliance上的精准准推荐系系统EtuRecommender精准推荐荐应用系系统个人化推推荐清单单个人化EDM个人化账账单百货零售流通银行连锁媒体虚拟通路路(在线)实体通路路(

23、线下)结账点击浏览搜寻交易购物车推荐清单单的运用用不光只是是在线服服务客户应用用案例需求上亿个影影像图文文件每个影像像图文件件大小约约1020K须集中管管理需满足图图档的实实时调阅阅与查询询现状以SANStorage来储存与与管理所所有的影影像图文文件每个影像像文件以以档案目目录方式式来管理理以数据库库来存放放每个图图像图文文件之特特征值(meta-data)与文件路路径,供使用者者查询与与搜索SANStorageDB应用程序序应用程序序应用程序序应用程序序其他应用用海量小图图档管理理其他应用海量小图图档管理理SANStorageDB应用程序序应用程序序应用程序序应用程序序大量的查查询与搜搜索

24、造成成SANStorage接口的效效能瓶颈颈,响应时间间太久数据库对对上亿条条数据以以上的查查询效能能不佳无法支持持全文搜搜索无法支撑撑大量的的关连性性计算与与分析传统Storage对储存巨巨量小档档案并不不合适每日新档档案的导导入响应应时间太太慢KeyMeta dataObjectFile IDFile name.导入EtuAppliance运用支巨巨量资料高平行读写和存存储之非关系系数据库库,来储存巨巨量小图图像图檔及其特征值值,一次打打通所有有效能瓶瓶颈利用内建分布布式文件件系统作为提供其高可靠性性的底层层存储支支持图像文件件及其特征值导入入应用程序序应用程序序应用程序序支持百亿笔资料之

25、之高平行查询其他应用海量小图图档管理理高可靠性性线性扩展展(scale-out),轻易快快速扩容容总持有成成本低高并发与与高吞吐吐率,处处理、查查询百亿亿条数据据没有问问题支持并行行计算框框架,可可满足巨巨量数据据全文搜搜索与进进阶数据据分析的的需求巨量存储储,提供供PB级以上储储存能立立运用支持持海量资料高平行读写和存存储之非关系系形数据据库,来来储存巨巨量小图图像文件及其特征值,一次打打通所有有效能瓶瓶颈利用内建分布布式文件件系统作提供其高可靠性性的底层层存储支支持SANStorageDB应用程序序应用程序序应用程序序其他应用海量小图图档管理理Hadoop平台竞争争要素HadoopDisruptionVectorsSource: GigaOMPro, 2012整合部署存取延展:公公有云等等级的运运算架构构可靠:电电信等级级的系统统质量效能:企企业等级级的创新新绩效EtuAppliance简介BigDataEnd-to-End Solution in aBox储存与运运算一体体,简化化与优化化的优势势机种:10分钟内可可部署100+节点资料撷取取能力1U胜过8UBigData运算处理理最适化化三种数据据温度的的整合:Hot/ Warm/ColdHotData在线结构构化数据据在线半/非结构化化数据Warm

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论