方案架构与案例研讨课件_第1页
方案架构与案例研讨课件_第2页
方案架构与案例研讨课件_第3页
方案架构与案例研讨课件_第4页
方案架构与案例研讨课件_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、方案架构与案例研讨方案架构与案例研讨精诚集团提供 Big Data 解决方案的独立品牌在台北与北京设有研发与专业服务团队我们关注的不只是技术,更在意挖掘 Big Data 对企业的商业价值透过软硬件一体的整合,大幅简化与优化企业处理 Big Data 的种种问题精诚集团提供 Big Data 解决方案的独立品牌意图与关联充满的 Big Data 世界Etu 帮您具体整合来呈现意图与关联充满的 Big Data 世界大数据(Big Data)时代来临StructuredDatabaseSpreadsheetFile in record formatSemi-structuredXML DocsL

2、ogsClick-streamEquipment/ Device, RFID tagUnstructuredWeb PagesE-mailMultimediaInstant MessagesDocumentsBig Data PeopleDevicesSensors移动互联网Mobile Internet物联网Internet of Things4新量级、新处理模式、新企业智能大数据(Big Data)时代来临StructuredSemBig Data 要解决的问题 Volume海量的数据规模Variety多样的数据类型StreamsReal timeNear timeBatchTBPBEBS

3、tructuredUnstructuredSemi-structuredAll the aboveValueVelocity快速的数据流转巨大的数据价值Big Data 要解决的问题 VolumeVarietyS6Social MediaMachine / SensorDOC / MediaWeb ClickstreamAppsCall LogLog什么是半结构化/非结构化数据6Social MediaMachine / SensorDBig Data 带来的挑战不同“看”数据的方式需要更高性价比的数据计算与储存方式不同的数据管理策略超越企业现有 IT 的数据解决能量Big Data 带来的挑

4、战不同“看”数据的方式不同“看”数据的方式8可视:结构化资料 15%未视:半/非结构化数据 85%DB/DW主管们看的战情数位仪表板,其实是残缺的不同“看”数据的方式8可视:结构化资料 15%未视:半/非结10万 GB10万 TB需要更高性价比的数据计算与储存方式9数据库数据仓库计算更快 存储更省10万10万需要更高性价比的数据计算与储存方式9数据库数据仓85%半/非结构化的Log / Web page / Email / PDF / Image / Full-text / MS-Office file 不同的数据管理策略当我们想要扩充时,才发觉:架构只能 scale-up, scale-ou

5、t 不易处理时间过长, time-to-value 受限成本过高, cost-efficiency 受限15% 结构化的 DB/DW遗憾残缺85%不同的数据管理策略当我们想要扩充时,遗憾残缺每天几百 GB、 几 TB 的资料,且持续成长中储存Storing 在收数据的同时做必要的前置处理 (pre-processing),并区分数据处理的优先等级 (prioritizing)计算Processing如何有效的避免因硬件毁坏所导致的资料损毁管理Managing如何从中挖掘出所关注事件的 pattern 或 behavior分析Analyzing超越企业现有 IT 的数据解决能量11每天几百 GB

6、、 几 TB 的资料,且持续成长中储存 在收大数据的储存与处理/运算大数据储存大数据处理数据分享数据检索数据分析数据展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out) 架构大数据的储存与处理/运算大数据储存大数据处理数据分享数据检索什么是大数据处理 (Big Data Processing)abc/category.screen?category_id=PLANTS&JSESSIONID=S1FF9ADFF2amazon/gp/product/B005OCFGTO/ref=s9_simh_gw_p14_d0_g74_i5?pf_rd_m=ATVPDKIKX0DER&pf_r

7、d_s=center-2&pf_rd_r=1YN4ES7ZEV17ZRKA858X&pf_rd_t=101&pf_rd_p=4631&pf_rd_i=507846books.tw/exep/prod/china/chinafile.php?item=CN10816425books.tw/exep/prod/china/chinafile.php?item=CN10759096news.yahoo/feds-issue-warning-unconven-sperm-donor-140811851.htmlLog file : 1.5TB / dayHit CountWord Count 什么是大

8、数据处理 (Big Data Processing)什么是大数据处理 (Big Data Processing)abc/category.screen?category_id=PLANTS&JSESSIONID=S1FF9ADFF2amazon/gp/product/B005OCFGTO/ref=s9_simh_gw_p14_d0_g74_i5?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=1YN4ES7ZEV17ZRKA858X&pf_rd_t=101&pf_rd_p=4631&pf_rd_i=507846books.tw/exep/prod/

9、china/chinafile.php?item=CN10816425books.tw/exep/prod/china/chinafile.php?item=CN10759096news.yahoo/feds-issue-warning-unconven-sperm-donor-140811851.htmlmystore.splunk/flower_store/cart.do?action=purchase&itemId=EST-13&JSESSIONID=SD7SL1FF9ADFFtech.qq/a/20191221/000094.htm24h.pchome.tw/?m=index&f=vi

10、ew&p=24hour&s=nlifeshopping.pchome.tw/?mod=store&func=style_show&SR_NO=DEAO450 - - 15/Nov/2019:00:07:45 GET /flower_store/product.screen?product_id=FL- 10http:/mystore.splunk/flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2 Mozilla/5.0 (X11; U; Linux i686; en-US; rv:0) Gecko

11、/20190223 CentOS/0-0.1.el4.centos Firefox/0 1604 16674 - - 15/Nov/2019:00:07:58 GET /flower_store/product.screen?product_id=K9-BD-01 HTTP/1.1 mystore.splunk/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2 Mozilla/5.0 (X11; U; Linux i686; en-US; rv:0) Gecko/20190223 CentOS/

12、0-0.1.el4.centos Firefox/0 1803 2431i7 - - 15/Nov/2019:00:08:26 GET /flower_store/product.screen?product_id=FL-DSH-01 HTTP/1 http:/mystore.splunk/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2 Mozilla/5.0 (X11; U; Linux i686; en-US; rv:0) Gecko/20190223 CentOS/0-0.1.el4.c

13、entos Firefox/0 1025 44638 -3rd partypre-defined ReportingFilterString Truncation Log file : 1.5TB / day什么是大数据处理 (Big Data Processing)什么是大数据处理 (Big Data Processing)Join1.1 TB per-day600 GB per-day什么是大数据处理 (Big Data Processing)什么是大数据处理 (Big Data Processing)SequenceDe-Normalize0 - - 15/Nov/2019:00:07:

14、45 GET /flower_store/product.screen?product_id=FL- 10http:/mystore.splunk/flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2 Mozilla/5.0 (X11; U; Linux i686; en-US; rv:0) Gecko/20190223 CentOS/0-0.1.el4.centos Firefox/0 1604 16674 - - 15/Nov/2019:00:07:58 GET /flower_store/pro

15、duct.screen?product_id=K9-BD-01 HTTP/1.1 mystore.splunk/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2 Mozilla/5.0 (X11; U; Linux i686; en-US; rv:0) Gecko/20190223 CentOS/0-0.1.el4.centos Firefox/0 1803 2431i7 - - 15/Nov/2019:00:08:26 GET /flower_store/product.screen?prod

16、uct_id=FL-DSH-01 HTTP/1 http:/mystore.splunk/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2 Mozilla/5.0 (X11; U; Linux i686; en-US; rv:0) Gecko/20190223 CentOS/0-0.1.el4.centos Firefox/0 1025 44638 -ABCDXYZOPQADACXEvent Sequence DiagramRDB dataEvent 范例被浏览的网页每笔网络交易所经历的每个程序

17、或系统.Big Flat Filefor full text search什么是大数据处理 (Big Data Processing)什么是大数据处理 (Big Data Processing)SignatureMeta DataMeta DataTag ValueTag ValueAppAppAppAppMedia ExtractionFile Transformation什么是大数据处理 (Big Data Processing)什么是大数据处理 (Big Data Processing)String ConvertCountFilterString TruncateSortIndexin

18、gJoinSequenceExtractAggregateSocial MediaMachine&Sensor DataMediaWeb ClickstreamMobile AppsCall LogSplunkBI/ ReportingCustomizedSolutionsDatabase /Data Warehouse什么是大数据处理 (Big Data Processing)Etu知意图的大数据解决方案大数据储存大数据处理数据分享数据检索数据分析数据展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out) 架构大数据处理的平台解决方案企业的资料云 硬件与软件一体 / 储存与运

19、算合一Big Data 运算与储存,单一架构解决Etu ApplianceEtu知意图的大数据解决方案大数据储存大数据处理数据分享数据20传统并行计算架构并行计算 + 分布式存储运算储存传统储存架构计算与存储一体,计算向数据靠拢,高效专用存储模式为程序员屏蔽通性、并发、同步与一致性等问题任务之间无依赖(share-nothing),具有高系统延展性 (scale-out)Hadoop 的特性20传统并行计算架构并行计算 + 分布式存储运算储存传统储存Hadoop 不只是 HadoopHIVEBig Data ApplicationsPig!ZooKeeperSQLRAWHadoop 不只是 H

20、adoopHIVEBig Data 关系数据库 vs Hadoop关系数据库 vs Hadoop连结关系数据库与 Hadoop汇入与导出数据Sqoop查询与整合Hive JDBC Driver (Java)Hive ODBC Driver (C+)Hive Add-in for Excel (by Microsoft)Thrift (C/C+, Python, Perl, PHP)23连结关系数据库与 Hadoop汇入与导出数据23Hive 简介由 Facebook 开发架构于 Hadoop 之上, 设计用来管理结构化数据的中间件以 MapReduce 为执行环境数据储存于HDFS上Metad

21、ata 储存于RDMBS中Hive的设计原则采用类SQL语法扩充性 Types, Functions, Formats, Scripts性能与平水扩展能力兼具Hive 简介由 Facebook 开发Hive SQL like Hadoop DatabaseDriver(compiler, optimizer, executor)metastoreData NodeData NodeData NodeData NodeHadoop ClusterM/RM/RM/RM/RWeb UICLIJDBCODBCCreate M/R JobHive SQL like Hadoop DatabasSqoop

22、 SQL to HadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreate Map TasksSqoop SQL to HadoopJDBCJDBCJSqoop 支援的 RDMBSOracleNetezzaTeradataSQL ServerMicrosoft PDWMySqlPostgre SQLSqoop 支援的 RDMBSOracle传统的数据处理流程营运信息新用户新订单新产品数据仓库用户浏览日志大部份删除ETL部份资料传统的数据处理流程营运信息新用户新订单新产品数据仓库用户浏览探索式的数据处理流程新用户新订单新产品广告效益分析 ?促销活动分析

23、 ?电子报效益分析 ?用户浏览日志营运信息数据仓库29探索式的数据处理流程新用户新订单新产品广告效益分析 ?用户浏30Strictly NDA - Microsoft ConfidentialData WarehouseSensorsDevicesWeb LogCrawlersERPCRMLOBAPPsConnectors非结构化数据源S S RS SSASBI PlatformFamiliar End User ToolsPowerViewExcel with PowerPivotEmbedded BIPredictive Analytics结构化数据源Hadoop企业的 Hadoop 应用

24、策略3030Strictly NDA - Microsoft Con应用一 : 参照 RDBMS 中的数据表 RDBMSCustomersWebLogsProductsHDFS应用一 : 参照 RDBMS 中的数据表 RDBMSCust应用二 : 脱机数据分析RDBMSCustomersProductsHDFSSales History应用二 : 脱机数据分析RDBMSCustomersProdRDBMSHDFSSales 2019 Sales 2009 Sales 2019Sales 2019 ODBC/JDBC应用三 : 历史数据与在线数据交互运用RDBMSHDFSSales 2019 S

25、ales 2009应用四 : 利用 Hadoop 进行数据汇总 RDBMSWebLogsHDFSWebLog Summary应用四 : 利用 Hadoop 进行数据汇总 RDBMSWe应用五: 利用 ODBC 连结 Excel & HiveExcel Hive Add-in在线资料 : MS SQL Server历史资料 : Hive应用五: 利用 ODBC 连结 Excel & HiveEx其他应用 - Etu Recommender建构在 Etu Appliance 上的精准推荐系统Etu RecommenderRecommendation Engine商品/内容关联性分析客户行为相似性分

26、析客户海量量浏览数据客户交易数据其他或第三方资料推荐清单其他应用 - Etu Recommender建构在 Etu其他应用 - Etu Recommender建构在 Etu Appliance 上的精准推荐系统Web ServerUser DBProduct DBEtu Recommender商品浏览日志用户数据产品目录推荐结果API其他应用 - Etu Recommender建构在 Etu其他应用 - Etu Recommender建构在 Etu Appliance 上的精准推荐系统Etu Recommender精准推荐应用系统个人化推荐清单个人化EDM个人化账单百货零售流通银行连锁媒体虚拟

27、通路 (在线)实体通路 (线下)结账点击浏览搜寻交易购物车推荐清单的运用不光只是在线服务其他应用 - Etu Recommender建构在 Etu客户应用案例需求上亿个影像图文件每个影像图文件大小约1020K须集中管理需满足图档的实时调阅与查询现状以SAN Storage来储存与管理所有的影像图文件每个影像文件以档案目录方式来管理以数据库来存放每个图像图文件之特征值 (meta-data)与文件路径, 供使用者查询与搜索SANStorageDB应用程序应用程序应用程序应用程序其他应用 海量小图档管理客户应用案例需求SANDB应用程序应用程序应用程序应用程序其其他应用 海量小图档管理SANSto

28、rageDB应用程序应用程序应用程序应用程序大量的查询与搜索造成SAN Storage接口的效能瓶颈, 响应时间太久数据库对上亿条数据以上的查询效能不佳无法支持全文搜索无法支撑大量的关连性计算与分析传统Storage对储存巨量小档案并不合适每日新档案的导入响应时间太慢其他应用 海量小图档管理SANDB应用程序应用程序应用程导入Etu Appliance运用支巨量资料高平行读写和存储之非关系数据库,来储存巨量小图像图檔及其特征值,一次打通所有效能瓶颈利用内建分布式文件系统作为提供其高可靠性的底层存储支持图像文件及其特征值导入应用程序应用程序应用程序支持百亿笔资料之高平行查询其他应用 海量小图档管

29、理导入Etu Appliance运用支巨量资料高平行读写和存储高可靠性线性扩展(scale-out),轻易快速扩容总持有成本低高并发与高吞吐率,处理、查询百亿条数据没有问题支持并行计算框架,可满足巨量数据全文搜索与进阶数据分析的需求巨量存储,提供PB级以上储存能立运用支持海量资料高平行读写和存储之非关系形数据库,来储存巨量小图像文件及其特征值,一次打通所有效能瓶颈利用内建分布式文件系统作提供其高可靠性的底层存储支持SANStorageDB应用程序应用程序应用程序其他应用 海量小图档管理高可靠性高并发与高吞吐率,处理、查询百亿条数据没有问题运用支Hadoop 平台竞争要素Hadoop Disru

30、ption VectorsSource: GigaOM Pro, 2019整合部署存取Hadoop 平台竞争要素Hadoop Disruption延展:公有云等级的运算架构可靠:电信等级的系统质量效能:企业等级的创新绩效Etu Appliance 简介Big Data End-to-End Solution in a Box储存与运算一体,简化与优化的优势机种:10 分钟内可部署 100+ 节点资料撷取能力 1U 胜过 8UBig Data 运算处理最适化延展:公有云等级的运算架构Etu Appliance 简介三种数据温度的整合:Hot / Warm / ColdHot Data在线结构化数据在线半/非结构化数据Warm Data在线半/非结构化数据Cold Data脱机资料Had

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论