版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数字化企业转型大数据解决方案Gartner:未来十大战略技术趋势数字化转型有很多环节需要演进移动网络数据无处不在生产设备前端应用供应链终端设备大数据的定义 大数据不仅仅是指数据本身,还包括一系列用来收集、管理、挖掘、分析海量信息并解决复杂问题的技术:According to IDC “Big data refers not only to data itself but also to a set of technologies designed to collect, manage, mine, andanalyze large collections of information to s
2、olve complex problems.”IDCAt a recent Big Data and High Performance Computing Summit in Boston hosted by Amazon Web Services (AWS), data scientist John Rauser mentioned a simple definition: 任何大到一台计算机处理不过来的数据就是大数据,Any amount of data thats too big to be handled by one computer. Some says thats too sim
3、plistic. Others say its spot on.Amazon Web Services (AWS) “Big data” 是指数据集合的尺寸超过典型数据库软件工具的捕捉、存储、管理和分析能力。refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. MGI also says and proves strong evidence that big data can play a sig
4、nificant economic role to the benefit not only of private commerce but also of national economies and their citizens. Data can create significant value for the world economy, enhancing the productivity and competitiveness of companies and the public sector and creating substantial economic surplus f
5、or consumers.McKinsey Global InstituteFoundation Research and Analytics Team我们所面对的世界非结构化数据90%,202040 ZB多结构化数据Variety:文字/图片/视频/文档Petabytes海量信息Volume:传统存储/计算无法处理速度VELOCITY:快速及时有效的分析+ORGANIZE + ANALYZE价值VALUE:单条信息并无太大价值,但庞大的数据量蕴含巨大财富Acquire/AccessProcessDecide大数据的四大特征4个”V” 五大功能Big DataPCPOSSmart PhoneC
6、ellularphoneGPSICtagSmart materSensorSNSAV数据源用自动算法代替支持人工决策:复杂的数据分析可以大大优化决策流程、降低风险、挖掘潜在价值新业务模式的创新: 产品、服务客户群分类和精细化服务:通过产品、服务的裁剪,为不同客户群提供更为精细的服务增加透明度:所有应用和客户都可以在第一时间内访问到需要的数据,可以产生巨大价值大数据的价值优势Hadoop是一个分布式存储和分析数据的容错框架典型配置:2个万兆交换机+3节点以上节点需要大量本地存储,通常用C220,C240,S3260 一般不用虚拟化对内存和网络有一定要求什么是Hadoop?发展方向支持SQL交互式
7、查询支持基于图像的分析流计算机器学习/深度学习大数据未来发展趋势基于Lamda框架的部署(批处理层,加速层). 通过Hadoop搭建data lake/data hub利用NoSQL来实现交互式工作和实时分析 新一代应用:推荐引擎,个性化服务,处理优化,恶意攻击侦测,分析 通过分担处理需求来扩展传统的eDW系统(ETL卸载,数据预处理,历史数据预处理)增强传统分析平台来提供更优的预期能力利用Hadoop和NoSQL替代传统应用(主机, RISC迁移)常见大数据部署场景大数据应用场景9Media/EntertainmentViewers / advertising effectivenessCo
8、mmunicationsLocation-based advertising Education &ResearchExperiment sensor analysisConsumer Packaged GoodsSentiment analysis of whats hot, problemsHealth CarePatient sensors, monitoring, EHRsQuality of careLife SciencesClinical trialsGenomicsHigh Technology / Industrial Mfg.Mfg qualityWarranty anal
9、ysis Oil & GasDrilling exploration sensor analysisFinancialServicesRisk & portfolio analysis New productsAutomotiveProduct launchDynamic value chainMonitoring RetailConsumer sentimentOptimized marketingLaw Enforcement & DefenseThreat analysis - social media monitoring, photo analysisTravel &Transpor
10、tationSensor analysis for optimal traffic flowsCustomer sentimentUtilitiesSmart Meter analysis for network capacity,On-line Services / Social MediaPeople & career matchingWeb-site optimization来自客户的诉求10 传统制造业 设立新的战略数据部 高等教育 开设大数据专业 能源行业 构建智慧运维系统 政府交通 建立智能交通分析系统Industry Landscape is Changing 金融服务 数据总线
11、/数据湖(Data Hub/Data Lake)各个行业的现状和痛点实体零售收到电商的巨大冲击,亟需转型和谋求更高效的经营手段,大数据分析是方向之一实体零售也在开始做自营电商,现在电商和零售的界限也越来越模糊品牌在大型电商上赚钱的不多,买流量太贵,所以有部分倾向于自己建立渠道全渠道营销是所有零售商都在考虑的事情,甚至早下重金,例如百联集团和家化集团实体零售的数据量偏少,有些甚至为零,如何获得数据是头等大事,特别是外部数据零售和电商都需要商品销售预测、选品规划、营销触发的功能工业4.0刚刚起步,应用模式还在摸索中,核心是CPS(Cyber-physics systems)需要有强大的大数据平台为
12、将来大数据处理的场景做准备需要有好的算法模型做数据挖掘大型电商都有自主的大数据研发团队,靠自己的力量建立大数据平台同零售业类似,电商也需要销售预测和选品规划的功能模块如何有效地对用户进行精准营销如何获得外部数据资源以获得更加精准的用户画像需要更多的流量零售业制造业电商建立在大数据之上的模块市场方面的应用ERP方面的应用工业方面的应用管理模块的切换智能营销客户分析追踪的影响商业洞察全渠道营销进销存管理生产管理商业智能物流管控电子商务订单/商品预测用户需求订单信息产品开发工艺规划生产制造订单/商品预测市场营销领域大数据举例第三阶段:应用第二阶段:数据管理&客户分析第一阶段:数据收集 & 整合实时感
13、知DSPBusiness Intelligence 模块消费者洞察市场细分跨平台分析消费者画像跨媒体跟踪分析Online和offline数据收集传播统一的数据存储管理DMP 平台DMPDMPBig Data Financial Services Fidelity National Information Services (FIS)利用大数据监测信用卡欺诈 他们销售基于ParAccel大数据的信用卡风险管理和诈骗监测系统作为信用卡诈骗的新的方法,信用卡运行系统可以根据这一系统实时接受或拒绝信用卡交易According to ParAccel: “With PADB, FIS can engag
14、e in two-way conversations with its data to optimize detection for its customers, while minimizing impact on legitimate clients.”大数据在金融服务行业的优势Foundation Research and Analytics Team金融风险管理满足银监会、巴塞尔协议的风险管理要求及时有效的交易风险分析消费行为分析、实时促销和积分管 理交易的实时监控金融产品创新提升客户体验Transwarp Data Hub架构图最完整的SQL支持99%的SQL 2003支持,唯一支持
15、PL/SQL的引擎(98%),唯一支持ACID分布式事务的SQL引擎;定位数据仓库和数据集市市场,可用于补充或替代Oracle、DB2等分析用数据库。高效内存/SSD计算第一个支持SSD的基于Hadoop的高效计算引擎,可比硬盘快一个数量级;可用于建立各种数据集市,对接多种主流报表工具。最完整的分布式机器学习算法库支持最全(超过50余种)的分布式统计算法和机器学习算法,同时整合超过5000个R语言算法包。适合金融业风险控制、反欺诈、文本分析、精准营销等应用。支持最完整SQL和索引的NoSQL数据库支持SQL2003、索引、全文索引,支持图数据库和图算法,支持非结构化数据存储支持高并发查询最健壮
16、和功能丰富的流处理框架支持真正的Exactly Once语义支持所有组件的高可用(HA)支持流式SQL和流式机器学习Transwarp ProprietaryApache ProjectsTranswarp Manager资源管理 YARN(内置Transwarp Extension)优化存储 HDFS(内置Transwarp Erasure Code)批处理框架MapReduce2协作服务Zookeeper全文搜索Optimized Elastic SearchDiscover数据挖掘机器学习InceptorPL/SQL引擎交互分析、图计算Stream流处理引擎HyperbaseNoSQL数
17、据库综合搜索Guardian安全管控实时同步Data Alive消息队列Kafka日志采集Flume数据集成Sqoop数据集成Data IntegrationSQL开发辅助Waterdrop可视化挖掘Midas交互工具HUE交互分析Zeppelin工作流Oozie内置交互工具Build-in Interactive ToolsFusion Distributed Execution Engine 分布式执行引擎Association Mining关联/推荐Classification分类算法Clustering聚类算法Sequential Analysis时序分析Regression回归算法D
18、eep Learning深度机器学习DimensionReduction主成分分析Statistics统计算法R Runtime Library R语言动态运行库Belief Network信念网络Graph 图计算Sampling采样算法Discriminate Analysis判别分析Reinforcement 增强学习Decision Methods决策方法Factor Analysis因子分析Genetic 遗传算法Java/Scala Interfaces Rapidminer Graphical IDERstudio IDEHubble Core算法计算接口Graph engine
19、图计算引擎Customized Plugins自定义插件Transwarp Connector SQL Interfaces to connect data sourcesIndustry Templates行业模板Feature Eng特征工程StreamInceptorHyperbaseSQL Interface Transwarp Discover Toolkits精准营销欺诈检测文本挖掘实时推荐信用风险流失预警客户精分异常行为识别智能维护系统Transwarp Discover 机器学习工具民生银行持卡人行为分析训练数据采样民生银行2012年的0409半年的交易流水,一共大约2亿条记录
20、,506万个独立持卡人,数据大小约80G。并行360度用户画像在2分钟内完成对506万独立持卡人的画像消费频繁度消费水平美食爱好旅游爱好体育爱好电子爱好IT爱好年轻活力男性女性商人开车一族电话达人差旅人士典型案例: 推荐引擎Recommendation system for Jinjiang TravelBuilt upon Inceptor & R 数据挖掘:商机热圈Interactive R data mining using Inceptor全国机动车缉查布控大数据平台案例大数据平台: 什么最重要 ?As big data solutions become mainstream pred
21、ictable performance will become a table stakeCores, IO and NW BW bandwidth, IOPS性能Storage capacity demands will grow quickly, so capacity planning for today and future growth is criticalRaw capacity, RAID, replication, retention容量Deployments will grow to hundreds to thousands of servers and terabyte
22、s to petabytes the fabric must be able to support the scalingNetwork bandwidth and scaling扩展Reducing TCO is important. Lower CapEx by using optimal infrastructure and software platforms, Lower OpEx by automation$/performance, capacityTCOIT will need to quickly, and cost-effectively scale resources a
23、s business users demandAutomation, management and monitoring管理SingleConnect: LAN, SAN and ManagementUCS 6200 and 6300 Series Fabric Internments,Installed in pairs, active-active.UCS Manager is embedded Support for direct connectivity to Fabric Interconnects or through Nexus 2000 Series Fabric Extend
24、ersPre-tested and pre-validated configurationFabric-based infrastructure integrates computing, networking, and storage resourcesDesigned for high performance and availabilityCisco UCS Integrated Infrastructure for Big DataTopology ProvisioningMonitoringMaintenanceGrowth22HSph-Hadoop Sort per HourThi
25、s provides a normalized value of how much data is generated, sorted, and validated in one hour for the scale factor (divide by 30 for a 30TB run). This is the performance of the system under test. Higher HSph is betterPrice/HSph: Price per Performance This divides the total cost of the System under
26、test (inclusive of hardware, software, license cost, and 3 year 24x7x4 support) along with discount and divide by Performance (above HSpH). Lower price/performance is better*As of 10-Juy-2016. Visit for latest results TPC Express Benchmark HS: Industrys first standard for benchmarking big data syste
27、msto provide the industry with verifiable performance, price-performance and availability metrics of hardware and software systems dealing with Big Data业界标准指标测试结果 TPC Members高性能Optimized for fast query execution and unmatched data loading弹性扩展在统一管理平台下可以支持高达上万个节点高可用性无论管理平面还是数据平面都采用全冗余的架构设计统一网络:Unified
28、 Networking数据、管理、KVM、Image快速部署通过独特的Service Profile技术实现快速部署统一管理:Unified Management计算、网络和I/O的统一管理系统安装和微码分发广泛的合作伙伴Oracle、EMC、MAPR、ParAccel、ClouderaUCS For Big Data的优势TDH on Cisco UCS practice25*Other names and brands may be claimed as the property of others.*其测试指标采用TPC-DS评判标准,其提升幅度相对于原有的系统产品和性能信息1在性能检测
29、过程中涉及的软件及工作负载可能只对CISCO UCS C240 M4的性能进行了优化。性能测试使用特定的计算机系统、组件、软件、操作系统和功能进行测量。对这些因素的任何更改可能导致不同的结果。如欲了解更多信息,请访问 。2星环信息科技不对TPC-DS性能指标评测或网站的设计或实施工作承担任何管理或审核责任。3.此产品中依赖于处理器和平台的优化仅适用于cisco UCS C240 M4平台。4 TPC* 基准测试名称TPC-DS*是TPC标准性能评估机构的注册商标。Better performance, Better choice星环TDH 4.6v大数据平台在cisco C240 M4平台性能
30、再创佳绩,性能有2.6倍提升*星环TDH 4.6v首次4个节点的思科服务器上实现11小时内完成10TB数据的性能测试星环TDH在cisco UCS 总容量80TB数据空间下完成了60TB数据搜索星环TDH平台全面支持cisco FI service profile和无状态计算功能26*Other names and brands may be claimed as the property of others.*其测试指标采用TPC-DS评判标准,其提升幅度相对于原有的系统产品和性能信息1在性能检测过程中涉及的软件及工作负载可能只对CISCO UCS C240 M4的性能进行了优化。性能测试使用特定的计算机系统、组件、软件、操作系统和功能进行测量。对这些因素的任何更改可能导致不同的结果。如欲了解更多信息,请访问 。2星环信息科技不对TPC-DS性能指标评测或网站的设计或实施工作承担任何管理或审核责任。3.此产品中依赖于处理器和平台的优化仅适用于cisco UCS C240 M4平台。4 TPC* 基准测试名称TPC-DS*是TPC标准性能评估机构的注册商标。System scaling27借力cisco的UCS服务器和高速网络,测试实现了数据翻10倍,但计算不会增加10倍的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年范文脚手架合同
- 施工分包合同范本
- 个人贷款还款协议文本
- 有关知识产权担保协议
- 城市管道燃气特许经营权协议
- 房产赠与合同说明
- 商品转让协议书2024年版
- 旅行社与旅游策划公司合作合同
- 下岗协议书范本
- 简单楼房出租合同
- 人教A版高中数学必修第一册《指数函数》评课稿
- 肾内科医疗教学计划
- 中班科学活动勺子里的哈哈镜
- 道路绿化施工图设计说明
- 《合并同类项》赛课一等奖教学创新课件
- 降低库存实施成果报告存货原因、对策实施与效果确认
- 特别的人歌词
- 围场满族蒙古族自治县鑫科矿业物资有限公司朝阳湾叶腊石矿地下开采项目建设项目环境影响评价报告书
- 劳动关系协调员测试题库及答案
- 秦朝的法律制度
- GB/T 38661-2020电动汽车用电池管理系统技术条件
评论
0/150
提交评论