大数据方案与案例 课件_第1页
大数据方案与案例 课件_第2页
大数据方案与案例 课件_第3页
大数据方案与案例 课件_第4页
大数据方案与案例 课件_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据(大数据)时代来临StructuredDatabaseSpreadsheetFileinrecordformatSemi-structuredXMLDocsLogsClick-streamEquipment/Device,RFIDtagUnstructuredWebPagesE-mailMultimediaInstantMessagesDocuments大数据

PeopleDevicesSensors移动互联网Mobile

Internet物联网InternetofThings1新量级、新处理模式、新企业智能大数据(大数据)时代来临StructuredDatabase1大数据要解决的问题

Volume海量的数据规模Variety多样的数据类型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的数据流转巨大的数据价值大数据要解决的问题VolumeVarietyStream23SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog什么是半结构化/非结构化数据3SocialMediaMachine/SensorD3大数据

带来的挑战不同“看”数据的方式需要更高性价比的数据计算与储存方式不同的数据管理策略超越企业现有IT的数据解决能量4大数据带来的挑战不同“看”数据的方式44不同“看”数据的方式5可视:结构化资料15%未视:半/非结构化数据85%DB/DW主管们看的战情数位仪表板,其实是残缺的…不同“看”数据的方式5可视:结构化资料15%未视:半/非结510万

GB10万TB需要更高性价比的数据计算与储存方式6数据库数据仓库计算更快

存储更省10万10万需要更高性价比的数据计算与储存方式6数据库数据仓685%半/非结构化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile

7不同的数据管理策略当我们想要扩充时,才发觉:架构只能scale-up,

scale-out不易处理时间过长,

time-to-value受限成本过高,

cost-efficiency受限15%结构化的DB/DW遗憾残缺85%7不同的数据管理策略当我们想要扩充时,遗憾残缺7每天几百GB、几TB的资料,且持续成长中储存Storing

在收数据的同时做必要的前置处理(pre-processing),并区分数据处理的优先等级(prioritizing)计算Processing如何有效的避免因硬件毁坏所导致的资料损毁管理Managing如何从中挖掘出所关注事件的pattern或behavior分析Analyzing超越企业现有IT的数据解决能量8每天几百GB、几TB的资料,且持续成长中储存在收8大数据的储存与处理/运算大数据储存大数据处理数据分享数据检索数据分析数据展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out)架构大数据的储存与处理/运算大数据储存大数据处理数据分享数据检索9什么是大数据处理(大数据

Processing)WordcountHarryPorter

(哈利波特)432,442LordVoldemort

(佛地魔)134,209Dumbledore

(邓不利多)72,982SeverusSnape

(石内圤)28,252……...……………..Logfile:1.5TB/dayHitcount812,490,299232,934,490198,283,00257,922,190……………...…………HitCountWordCount什么是大数据处理(大数据Processing)Word10什么是大数据处理(大数据

Processing)0--[15/Nov/2011:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"http:///flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/2011:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/2011:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"http:///flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"102544638-IPActionTimeServerURL###……….………..……………….……..…….……….………..……………….……..…….3rdpartypre-definedReportingFilterStringTruncationLogfile:1.5TB/day什么是大数据处理(大数据Processing)177.211什么是大数据处理(大数据

Processing)RDR_SEND_TIMERDR_TAGSUBSCRIBER_IDPACKAGE_IDSERVICE_IDPROTOCOL_IDSKIPPED_SESSIONSSERVER_IPSERVER_PORTACCESS_STRINGINFO_STRINGCLIENT_IPCLIENT_PORTINITIATING_SIDEREPORT_TIMEMILLISEC_DURATIONPROTOCOL_SIGNATURZONE_IDFLAVOR_IDStartdateStarttimeSessiontypeSourceIPSourcePortNATIPNATPortDestIPDestPortProtocalOutputIDStarttimeEndtimeSourceIPSourcePortDestIPDestPortProtocalUpstreamDownstreamURLJoin1.1TBper-day600GBper-day什么是大数据处理(大数据Processing)RDR_S12什么是大数据处理(大数据

Processing)SequenceDe-Normalize0--[15/Nov/2011:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"http:///flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/2011:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/2011:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"http:///flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"102544638-ABCDXYZOPQADACXEventSequenceDiagramRDBdataEvent范例被浏览的网页每笔网络交易所经历的每个程序或系统…….BigFlatFileforfulltextsearch什么是大数据处理(大数据Processing)Seque13什么是大数据处理(大数据

Processing)SignatureMetaDataMetaDataTagValueTagValueAppAppAppAppMediaExtractionFileTransformation什么是大数据处理(大数据Processing)Signa14什么是大数据处理(大数据

Processing)StringConvertCountFilterStringTruncateSortIndexingJoinSequenceExtractAggregateSocialMediaMachine&SensorDataMediaWebClickstreamMobileAppsCallLogSplunkBI/ReportingCustomizedSolutionsDatabase/DataWarehouse什么是大数据处理(大数据Processing)Strin15Etu知意图的大数据解决方案大数据储存大数据处理数据分享数据检索数据分析数据展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out)架构大数据处理的平台解决方案企业的资料云

硬件与软件一体

/储存与运算合一大数据

运算与储存,单一架构解决EtuApplianceEtu知意图的大数据解决方案大数据储存大数据处理数据分享数据1617传统并行计算架构并行计算

+

分布式存储运算储存传统储存架构计算与存储一体,计算向数据靠拢,高效专用存储模式为程序员屏蔽通性、并发、同步与一致性等问题任务之间无依赖(share-nothing),具有高系统延展性(scale-out)Hadoop的特性17传统并行计算架构并行计算+分布式存储运算储存传统储存17Hadoop不只是Hadoop18HIVE大数据

ApplicationsPig!ZooKeeperSQLRAWHadoop不只是Hadoop18HIVE大数据App关系数据库vsHadoop关系数据库Hadoop资料量GB->TBTB->PB存取方式交互式与批次批次数据更新多次读写一次写,多次读数据结构固定schema无schema资料一致性高(ACID)低扩充性非线性线性关系数据库vsHadoop关系数据库Hadoop资料量G19连结关系数据库与Hadoop汇入与导出数据Sqoop查询与整合HiveJDBCDriver(Java)HiveODBCDriver(C++)HiveAdd-inforExcel(byMicrosoft)Thrift(C/C++,Python,Perl,PHP)连结关系数据库与Hadoop汇入与导出数据20Hive简介由Facebook开发架构于Hadoop之上,设计用来管理结构化数据的中间件以MapReduce为执行环境数据储存于HDFS上Metadata储存于RDMBS中Hive的设计原则采用类SQL语法扩充性–Types,Functions,Formats,Scripts性能与平水扩展能力兼具Hive简介由Facebook开发21Hive–SQLlikeHadoopDatabaseDriver(compiler,optimizer,executor)metastoreDataNodeDataNodeDataNodeDataNodeHadoopClusterM/RM/RM/RM/RWebUICLIJDBCODBCCreateM/RJobHive–SQLlikeHadoopDatabas22Sqoop–SQLtoHadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreateMapTasksSqoop–SQLtoHadoopJDBCJDBCJ23Sqoop支援的RDMBSOracleNetezzaTeradataSQLServerMicrosoftPDWMySqlPostgreSQLSqoop支援的RDMBSOracle24传统的数据处理流程营运信息新用户新订单新产品数据仓库用户浏览日志大部份删除ETL部份资料传统的数据处理流程营运信息新用户新订单新产品数据仓库用户浏览25探索式的数据处理流程新用户新订单新产品广告效益分析

?促销活动分析

?电子报效益分析

?用户浏览日志营运信息数据仓库探索式的数据处理流程新用户新订单新产品广告效益分析?用户浏2627StrictlyNDA-MicrosoftConfidentialDataWarehouseSensorsDevicesWebLogCrawlersERPCRMLOBAPPsConnectors非结构化数据源SSRSSSASBIPlatformFamiliarEndUserToolsPowerViewExcelwithPowerPivotEmbeddedBIPredictiveAnalytics结构化数据源Hadoop企业的Hadoop应用策略27StrictlyNDA-MicrosoftCon27应用一:参照RDBMS中的数据表RDBMSCustomersWebLogsProductsHDFS应用一:参照RDBMS中的数据表RDBMSCust28应用二:脱机数据分析RDBMSCustomersProductsHDFSSalesHistory应用二:脱机数据分析RDBMSCustomersProdRDBMSHDFSSales2008Sales2009Sales2010Sales2008ODBC/JDBC应用三:

历史数据与在线数据交互运用RDBMSHDFSSales2008Sales2009应用四:

利用Hadoop进行数据汇总

RDBMSWebLogsHDFSWebLogSummary应用四:利用Hadoop进行数据汇总RDBMSWe应用五:利用ODBC连结Excel&HiveExcelHiveAdd-in在线资料

:MSSQLServer历史资料

:Hive应用五:利用ODBC连结Excel&HiveEx其他应用-EtuRecommender

建构在EtuAppliance上的精准推荐系统EtuRecommenderRecommendationEngine商品/内容关联性分析客户行为相似性分析客户海量量浏览数据客户交易数据其他或第三方资料推荐清单其他应用-EtuRecommender

建构在Etu33其他应用-EtuRecommender

建构在EtuAppliance上的精准推荐系统WebServerUserDBProductDBEtuRecommender商品浏览日志用户数据产品目录推荐结果API其他应用-EtuRecommender

建构在Etu34其他应用-EtuRecommender

建构在EtuAppliance上的精准推荐系统EtuRecommender精准推荐应用系统个人化推荐清单个人化EDM个人化账单百货零售流通银行连锁媒体虚拟通路(在线)实体通路(线下)结账点击浏览搜寻交易购物车推荐清单的运用不光只是在线服务其他应用-EtuRecommender

建构在Etu35客户应用案例需求上亿个影像图文件每个影像图文件大小约10~20K须集中管理需满足图档的实时调阅与查询现状以SANStorage来储存与管理所有的影像图文件每个影像文件以档案目录方式来管理以数据库来存放每个图像图文件之特征值(meta-data)与文件路径,供使用者查询与搜索SANStorageDB应用程序应用程序应用程序应用程序其他应用

–海量小图档管理客户应用案例需求SANDB应用程序应用程序应用程序应用程序其36其他应用

–海量小图档管理SANStorageDB应用程序应用程序应用程序应用程序大量的查询与搜索造成SANStorage接口的效能瓶颈,响应时间太久数据库对上亿条数据以上的查询效能不佳无法支持全文搜索无法支撑大量的关连性计算与分析传统Storage对储存巨量小档案并不合适每日新档案的导入响应时间太慢其他应用–海量小图档管理SANDB应用程序应用程序应用程37KeyMetadataObjectFileIDFilename…….….….……….导入EtuAppliance运用支巨量资料高平行读写和存储之非关系数据库,来储存巨量小图像图檔及其特征值,一次打通所有效能瓶颈利用内建分布式文件系统作为提供其高可靠性的底层存储支持图像文件及其特征值导入应用程序应用程序应用程序支持百亿笔资料之高平行查询其他应用

–海量小图档管理KeyMetadataObjectFileIDFile38高可靠性线性扩展(scale-out),轻易快速扩容总持有成本低高并发与高吞吐率,处理、查询百亿条数据没有问题支持并行计算框架,可满足巨量数据全文搜索与进阶数据分析的需求巨量存储,提供PB级以上储存能立运用支持海量资料高平行读写和存储之非关系形数据库,来储存巨量小图像文件及其特征值,一次打通所有效能瓶颈利用内建分布式文件系统作提供其高可靠性的底层存储支持SANStorageDB应用程序应用程序应用程序其他应用

–海量小图档管理高可靠性高并发与高吞吐率,处理、查询百亿条数据没有问题运用支39Hadoop平台竞争要素HadoopDisruptionVectorsSource:GigaOMPro,2012整合部署存取Hadoop平台竞争要素HadoopDisruption40延展:公有云等级的运算架构可靠:电信等级的系统质量效能:企业等级的创新绩效EtuAppliance简介

大数据

End-to-EndSolutioninaBox储存与运算一体,简化与优化的优势机种:10分钟内可部署100+节点资料撷取能力1U胜过8U大数据

运算处理最适化延展:公有云等级的运算架构EtuAppliance简介

41三种数据温度的整合:Hot/Warm/ColdHotData在线结构化数据在线半/非结构化数据WarmData在线半/非结构化数据ColdData脱机资料Hadoop-basedSolutionSAN/NAS/Scale-outNASOLTPOLAP三种数据温度的整合:Hot/Warm/ColdHot4243软硬件整合

管理维运功能全自动化部署不停机扩充软硬件全面优化中央丛集系统管理中央丛集系统监控完整的高可用性设计EtuAppliance主要功能43软硬件整合管理维运功能EtuAppliance主要44MasternodeWorkernodeWorkernodeWorkernodeWorkernodeSwitch(1Gbabove)藉由WorkerNode容易扩充的能力可轻易满足数据量成长的需求最小package1台MasterNode+2台WorkerNodesEtuAppliance的部属44MasternodeWorkernodeWorkerEtuAppliance软件架构Katta/LuceneMahoutHBaseHiveQLMapReduceDataProcessingLibHDFSPigDataStoreLayerDataProcessingLayerFlumeApplicationLayer(bySYSTEX)MonitoringLogManagementAccountManagementConfigurationManagementSchedulerHighAvailabilitySearchAPIDataSourceHiveSqoopEtuOSforHadoop(bySYSTEX)EtuAppliance软件架构Katta/Lucene45总结关系数据库与Hadoop的连结是企业导入Hadoop的重要关键Sqoop及Hive提供企业延伸信息管理能力及于非结构化信息关系数据库与Hadoop皆为工具,更重要的是整体的解决方案精诚Etu团队是您整合SQL与Hadoop的最佳伙伴总结关系数据库与Hadoop的连结是企业导入Hadoo大数据(大数据)时代来临StructuredDatabaseSpreadsheetFileinrecordformatSemi-structuredXMLDocsLogsClick-streamEquipment/Device,RFIDtagUnstructuredWebPagesE-mailMultimediaInstantMessagesDocuments大数据

PeopleDevicesSensors移动互联网Mobile

Internet物联网InternetofThings47新量级、新处理模式、新企业智能大数据(大数据)时代来临StructuredDatabase47大数据要解决的问题

Volume海量的数据规模Variety多样的数据类型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的数据流转巨大的数据价值大数据要解决的问题VolumeVarietyStream4849SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog什么是半结构化/非结构化数据3SocialMediaMachine/SensorD49大数据

带来的挑战不同“看”数据的方式需要更高性价比的数据计算与储存方式不同的数据管理策略超越企业现有IT的数据解决能量50大数据带来的挑战不同“看”数据的方式450不同“看”数据的方式51可视:结构化资料15%未视:半/非结构化数据85%DB/DW主管们看的战情数位仪表板,其实是残缺的…不同“看”数据的方式5可视:结构化资料15%未视:半/非结5110万

GB10万TB需要更高性价比的数据计算与储存方式52数据库数据仓库计算更快

存储更省10万10万需要更高性价比的数据计算与储存方式6数据库数据仓5285%半/非结构化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile

53不同的数据管理策略当我们想要扩充时,才发觉:架构只能scale-up,

scale-out不易处理时间过长,

time-to-value受限成本过高,

cost-efficiency受限15%结构化的DB/DW遗憾残缺85%7不同的数据管理策略当我们想要扩充时,遗憾残缺53每天几百GB、几TB的资料,且持续成长中储存Storing

在收数据的同时做必要的前置处理(pre-processing),并区分数据处理的优先等级(prioritizing)计算Processing如何有效的避免因硬件毁坏所导致的资料损毁管理Managing如何从中挖掘出所关注事件的pattern或behavior分析Analyzing超越企业现有IT的数据解决能量54每天几百GB、几TB的资料,且持续成长中储存在收54大数据的储存与处理/运算大数据储存大数据处理数据分享数据检索数据分析数据展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out)架构大数据的储存与处理/运算大数据储存大数据处理数据分享数据检索55什么是大数据处理(大数据

Processing)WordcountHarryPorter

(哈利波特)432,442LordVoldemort

(佛地魔)134,209Dumbledore

(邓不利多)72,982SeverusSnape

(石内圤)28,252……...……………..Logfile:1.5TB/dayHitcount812,490,299232,934,490198,283,00257,922,190……………...…………HitCountWordCount什么是大数据处理(大数据Processing)Word56什么是大数据处理(大数据

Processing)0--[15/Nov/2011:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"http:///flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/2011:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/2011:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"http:///flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"102544638-IPActionTimeServerURL###……….………..……………….……..…….……….………..……………….……..…….3rdpartypre-definedReportingFilterStringTruncationLogfile:1.5TB/day什么是大数据处理(大数据Processing)177.257什么是大数据处理(大数据

Processing)RDR_SEND_TIMERDR_TAGSUBSCRIBER_IDPACKAGE_IDSERVICE_IDPROTOCOL_IDSKIPPED_SESSIONSSERVER_IPSERVER_PORTACCESS_STRINGINFO_STRINGCLIENT_IPCLIENT_PORTINITIATING_SIDEREPORT_TIMEMILLISEC_DURATIONPROTOCOL_SIGNATURZONE_IDFLAVOR_IDStartdateStarttimeSessiontypeSourceIPSourcePortNATIPNATPortDestIPDestPortProtocalOutputIDStarttimeEndtimeSourceIPSourcePortDestIPDestPortProtocalUpstreamDownstreamURLJoin1.1TBper-day600GBper-day什么是大数据处理(大数据Processing)RDR_S58什么是大数据处理(大数据

Processing)SequenceDe-Normalize0--[15/Nov/2011:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"http:///flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/2011:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/2011:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"http:///flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"102544638-ABCDXYZOPQADACXEventSequenceDiagramRDBdataEvent范例被浏览的网页每笔网络交易所经历的每个程序或系统…….BigFlatFileforfulltextsearch什么是大数据处理(大数据Processing)Seque59什么是大数据处理(大数据

Processing)SignatureMetaDataMetaDataTagValueTagValueAppAppAppAppMediaExtractionFileTransformation什么是大数据处理(大数据Processing)Signa60什么是大数据处理(大数据

Processing)StringConvertCountFilterStringTruncateSortIndexingJoinSequenceExtractAggregateSocialMediaMachine&SensorDataMediaWebClickstreamMobileAppsCallLogSplunkBI/ReportingCustomizedSolutionsDatabase/DataWarehouse什么是大数据处理(大数据Processing)Strin61Etu知意图的大数据解决方案大数据储存大数据处理数据分享数据检索数据分析数据展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out)架构大数据处理的平台解决方案企业的资料云

硬件与软件一体

/储存与运算合一大数据

运算与储存,单一架构解决EtuApplianceEtu知意图的大数据解决方案大数据储存大数据处理数据分享数据6263传统并行计算架构并行计算

+

分布式存储运算储存传统储存架构计算与存储一体,计算向数据靠拢,高效专用存储模式为程序员屏蔽通性、并发、同步与一致性等问题任务之间无依赖(share-nothing),具有高系统延展性(scale-out)Hadoop的特性17传统并行计算架构并行计算+分布式存储运算储存传统储存63Hadoop不只是Hadoop64HIVE大数据

ApplicationsPig!ZooKeeperSQLRAWHadoop不只是Hadoop18HIVE大数据App关系数据库vsHadoop关系数据库Hadoop资料量GB->TBTB->PB存取方式交互式与批次批次数据更新多次读写一次写,多次读数据结构固定schema无schema资料一致性高(ACID)低扩充性非线性线性关系数据库vsHadoop关系数据库Hadoop资料量G65连结关系数据库与Hadoop汇入与导出数据Sqoop查询与整合HiveJDBCDriver(Java)HiveODBCDriver(C++)HiveAdd-inforExcel(byMicrosoft)Thrift(C/C++,Python,Perl,PHP)连结关系数据库与Hadoop汇入与导出数据66Hive简介由Facebook开发架构于Hadoop之上,设计用来管理结构化数据的中间件以MapReduce为执行环境数据储存于HDFS上Metadata储存于RDMBS中Hive的设计原则采用类SQL语法扩充性–Types,Functions,Formats,Scripts性能与平水扩展能力兼具Hive简介由Facebook开发67Hive–SQLlikeHadoopDatabaseDriver(compiler,optimizer,executor)metastoreDataNodeDataNodeDataNodeDataNodeHadoopClusterM/RM/RM/RM/RWebUICLIJDBCODBCCreateM/RJobHive–SQLlikeHadoopDatabas68Sqoop–SQLtoHadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreateMapTasksSqoop–SQLtoHadoopJDBCJDBCJ69Sqoop支援的RDMBSOracleNetezzaTeradataSQLServerMicrosoftPDWMySqlPostgreSQLSqoop支援的RDMBSOracle70传统的数据处理流程营运信息新用户新订单新产品数据仓库用户浏览日志大部份删除ETL部份资料传统的数据处理流程营运信息新用户新订单新产品数据仓库用户浏览71探索式的数据处理流程新用户新订单新产品广告效益分析

?促销活动分析

?电子报效益分析

?用户浏览日志营运信息数据仓库探索式的数据处理流程新用户新订单新产品广告效益分析?用户浏7273StrictlyNDA-MicrosoftConfidentialDataWarehouseSensorsDevicesWebLogCrawlersERPCRMLOBAPPsConnectors非结构化数据源SSRSSSASBIPlatformFamiliarEndUserToolsPowerViewExcelwithPowerPivotEmbeddedBIPredictiveAnalytics结构化数据源Hadoop企业的Hadoop应用策略27StrictlyNDA-MicrosoftCon73应用一:参照RDBMS中的数据表RDBMSCustomersWebLogsProductsHDFS应用一:参照RDBMS中的数据表RDBMSCust74应用二:脱机数据分析RDBMSCustomersProductsHDFSSalesHistory应用二:脱机数据分析RDBMSCustomersProdRDBMSHDFSSales2008Sales2009Sales2010Sales2008ODBC/JDBC应用三:

历史数据与在线数据交互运用RDBMSHDFSSales2008Sales2009应用四:

利用Hadoop进行数据汇总

RDBMSWebLogsHDFSWebLogSummary应用四:利用Hadoop进行数据汇总RDBMSWe应用五:利用ODBC连结Excel&HiveExcelHiveAdd-in在线资料

:MSSQLServer历史资料

:Hive应用五:利用ODBC连结Excel&HiveEx其他应用-EtuRecommender

建构在EtuAppliance上的精准推荐系统EtuRecommenderRecommendationEngine商品/内容关联性分析客户行为相似性分析客户海量量浏览数据客户交易数据其他或第三方资料推荐清单其他应用-EtuRecommender

建构在Etu79其他应用-EtuRecommender

建构在EtuAppliance上的精准推荐系统WebServerUserDBProductDBEtuRecommender商品浏览日志用户数据产品目录推荐结果API其他应用-EtuRecommender

建构在Etu80其他应用-EtuRecommender

建构在EtuAppliance上的精准推荐系统EtuRecommender精准推荐应用系统个人化推荐清单个人化EDM个人化账单百货零售流通银行连锁媒体虚拟通路(在线)实体通路(线下)结账点击浏览搜寻交易购物车推荐清单的运用不光只是在线服务其他应用-EtuRecommender

建构在Etu81客户应用案例需求上亿个影像图文件每个影像图文件大小约10~20K须集中管理需满足图档的实时调阅与查询现状以SANStorage来储存与管理所有的影像图文件每个影像文件以档案目录方式来管理以数据库来存放每个图像图文件之特征值(meta-data)与文件路径,供使用者查询与搜索SANStorageDB应用程序应用程序应用程序应用程序其他应用

–海量小图档管理客户应用案例需求SANDB应用程序应用程序应用程序应用程序其82其他应用

–海量小图档管理SANStorageDB应用程序应用程序

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论