大数据与大数据技术_第1页
大数据与大数据技术_第2页
大数据与大数据技术_第3页
大数据与大数据技术_第4页
大数据与大数据技术_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

量变到质变

大数据与大数据技术虞强

2016.10议程公司简介大数据与大数据技术大数据技术应用

大数据案例分享问题讨论Advanced

Analytic

Service

All

Rights

Reserved

20162公司简介公司概况&发展历史主要客户&大数据产品AdvancedAnalyticServiceAllRightsReserved20163新加坡上海北京公司概况青岛雅加达专注于分析预测与行业应用的的大数据公司深圳业务1业务2业务3提供基于大数据技术的预测性分析及商务智能解决方案大数据平台、数据集成与准备工具、开源开发技术自助式分析工具、数据可视化工具提供全球顶尖的大数据软件产品300+

技术服务人员端到端的大数据平台数据集成、数据挖掘与预测性分析、高级分析企业级大数据仓库、企业绩效管理、商务智能大数据SaaS应用和DaaS服务基于云平台的软件即服务大数据应用为企业提供全面的数据服务

发展历史数据仓库绩效管理高级分析数据可视化看板管理商务智能2.0至今2005200720112002大数据技术大数据应用分析预测数据挖掘数据即服务数据集市

14年来,我们与数俱进汽车制造·电子产品及家电·快消零售·医药与生命科学·航空与物流·高科技制造业·金融及其他主要客户云以H

a

d

o

o

p为核心的大数据产品系列数据集成与准备SQLonHadoopTexthere流计算机器学习开源开发技术数据挖掘以H

a

d

o

o

p为核心的大数据产品大数据软件产品Statistica数据可视化Vortex数据创新经验融合拥有多元化的数据科学家团队和十余年的数据分析经验。经十余年自主开发的IP打造数据行业领先的技术优势。

追踪吸收和引进行业内最先进的技术,产品和应用经验。世界顶尖数据技术公司在中国地区的首选合作伙伴。在一大批竞争行业(汽车、制药、快消、家电、物流等)内拥有深厚的客户基础和众多行业成功案例。追求行业业务能力和技术能力的融合以及企业系统架构与解决业务问题间的平衡,具有扎实的项目实施能力。HEADLINE

竞争优势AdvancedAnalyticServiceAllRightsReserved20169大数据与大数据技术Hadoop技术的发展物联网应用需要将Hadoop变为一个高性能的分析平台需要Hadoop不光能存储数据,更要能够处理计算数据SQL分析挖掘预测图形化数据分析智能搜索时间、用户、地理位置、事件等标签辅助技术:Kafka,

HBase,Cassandra,

Accumulo基于大数据技术的数据分析处理Hadoop核心层数据准备技术更迭过快开源产品成熟度开发效率与现有架构的关系运维与安全大数据技术的顾虑?大数据平台计算框架传统数仓功能非结构化流式挖掘分析软件架构(举例)DATA

PLATFORM(HDFS)灵活数据准备SQL

inHadoop数据挖掘与预测S

Q

L(ODBC、JDBC、、。NET)API:Java,

C/++,Python前端应用报表外部应用下游系统管理控制台(CloudEra、Talend、KNIME)数据安全以及认证(Portal集成)用工具取代代码作坊MapReducePerformance(runsondisk)OneClickSparkPerformance(runsin-memory&ondisk)20XFaster同时处理实时与批次流式处理批次处理转换清洗治理转换清洗治理推荐引擎SparkStreaming/KafkaSpark数据库,文件,批次数据实时,流数据HDFS文件数据流输出基于用户数据理解地模型预测图形化数据准备挖掘运用SparkMlib等进行计算结果回写入Impala或者HIVE非结构化数据为存储的新型SQL

基于落地HDFS的文件或HBASE进行SQL建表解析提供工业MPP级别查询性能

线性可扩展标准JDBC

SQL界面,直连BO,Tableau,Qlikview,MSTR等报表工具技术方案:特点小结基于开源系统的成熟商用插件方案部署简便提高开发效率降低实施风险基于内存的计算性能优异

全部基于唯一Hadoop集群内,统一存储统一计算减少数据传输迁移的同步问题维护便捷:一套集群,维护简单扩展性:无限扩展线性提升

便捷的开发及报表展现工具

图形化ETL,数据挖掘开发

便捷报表展现分析工具建模过程100%用户参与

IT基础架构与用户数据准备、探查、分析、预测分离Advanced

Analytic

Service

All

Rights

Reserved

201619大数据团队组织建设数据与业务的结合大数据开发团队技术平台支持业务人员咨询团队大数据管理员内部团队与专业伙伴紧密合作Evan数据科学家AdvancedAnalyticServiceAllRightsReserved201621大数据技术应用InternetofCustomers

andInternetofThingsIoTInvisibledevicesandWearabledevicesTrillionsofnetworkednodesLowbandwidthlast-mileconnection100kBit/secMostlyaddressedbylocalschemesMachine-centricSensing-focusTrillionsofcomputer-enableddeviceswhicharepartoftheIoTGlobaladdressingUser-centricCommunication-focusIoCLaptops/tablets/smartphonesBillionsofnetworkeddevicesHigh-bandwidthaccessCable:10Mbs+Fiber:50-100Mbs6+billionpeople1.5billionusenetUS:4.3devicesperadultBigDataonIoTPredictiveMaintenancethatenableyoutochangeyourbusiness…HadoopMachineLearningQueryandreportingIoT解决方案CommandandControlYouhavedevicesonthenetworkedge…PlantFloorThingsSupplyChainThingsBackOfficeThingsBasicSensorsIntelligentDevicesthatprovideyoudata…SQLDatabasesBlobStorageTableStorageExternalStorageDocumentDBthatyouunderstand,applyrules,modelsandmore…CommandandControlEventHub(ServiceBus)

本质是基于“信息物理系统”实现“智能化…”二、工业4.0时代的智能制造IoT的本质二、工业4.0时代的智能制造IoT--智能工厂BigDataonIoC360CustomerProfileMicro-SegmentationCustomerLifetimeValueNextBestActionCustomerSentimentCampaignOptimizationChurnMarketBasketAnalysis关联分析行动创建客户档案识别共同关键词CRM账户信息及客户特征EDW交易历史社交媒体关键字整合数据并载入hadoop连接至文本挖掘应用将数据库连接至EDW连接至flatfileSalesLift

20%60%100%n%购买周期趋势购买家庭信息购买人口特征通过API与CRM相连连接至flatfile连接至flatfile删除重复客户载入Hadoop在用户ID间连接数据第一阶段识别人口微簇客户画像

删除重复客户在用户ID间连接数据识别共同关键字创建客户档案数据流引擎人口分布客户倾向HADOOP集群/YARN关联分析行动数据库分析查询可视化报表分析工具及应用HDFS/NFS低延迟查询集成服务器BI服务器数据库集群/服务器社交媒体链接数据库链接文本分割链接API链接固定文本链接文本分割链接消费心理第一阶段HDFSAPI数据混合与浓缩集成引擎ACTIAN分析平台CRM账户信息及客户特征EDW交易历史社交媒体关键字购买周期趋势购买家庭信息购买人口特征客户画像参考架构360度客户视图Advanced

Analytic

Service

All

Rights

Reserved

201631案例分享车联网大数据应用项目背景围绕车辆全生命周期,数据驱动的车联网与跨行业融合,可衍生出多样的商业模式与创新服务;基于丰富的车联数据、多样的服务平台,可对行业、社会热点展开洞见分析,同时挖掘更多的商业价值,拓展新的业务车辆全生命周期CarFullLifeCycle车辆防盗,财产保护

PropertyProtection保险车联网

TelematicsInsurance车内LBS服务

In-CarLBS车载4G热点

Onboard4GWIFI预测性保养提醒

ProactiveReminder汽车延保

ExtendedWarranty预测性维修提醒

ProactiveReminder远程在线升级

OTAUpgrade车队管理

FleetMgmt.汽车共享

CarSharing车况分析报告

AssessReport二手车联合鉴定

UnitedAssessment消费者画像

UserPortrait新车销售线索

SalesLeeds客制化服务

Customization产品规划

Planning设计研发

R&D生产制造Production市场营销

Marketing售后保障AfterSales持续改进KeepImprove新车销售CarSales试驾TestDrive金融Finance维修Repair车生活In-CarLife保险Insurance保养

Maintain租赁Leasing二手车UsedCar安吉星大数据项目目标与当前的问题目标:主数据(数据质量)的升级主题模型落地,保持数据一致性提高运维的灵活性应用数据缓存的改造用空间换时间的方法保护后台核心应用的正常运行企业经营分析的改造提高运营速度和质量,降低数据开发成本新业务的支持驾驶行为分析燃油分析二手车评估车况鉴定报告问题:缺少数据主题重复开发和浪费成本数据质量不可控数据缺少管控BI开发成本高,周期长缺少业务分析平台车辆数据采集能力有限业务数据无法有效支持大数据平台逻辑架构报表/可视化数据集成区批量数据处理实时消息队列数据湖泊区机器学习区NoSQL区流计算区数据暂存区数据仓库区主题分析区MobileDAAPVehicleLVDSTrafficProbeHA/HBOVDACR其它数据源其它数据源系统管理数据管理搜索引擎区数据交换区数据源车辆行驶日志车辆行驶日志急加速、加速日志车载系统日志实时数据计算36驾驶行为评分37第1步:建模变量的选择从所有变量中,选取建模选定的变量

第2步:衍生建模变量计算基于TP类别的变量,进行用户驾驶风险的初步计算第3步:用户出险概率计算基于第2步计算结果,结合HAHB类别变量,进行用户出险概率的计算第4步:驾驶风险评分计算将出险概率,转化为对应的驾驶风险评分第5步:驾驶行为评分计算将驾驶风险评分,转化为对应的驾驶行为评分驾驶行为评分—阈值计算通过机器学习算法,实时的将所有用户数据代入驾驶风险概率模型,动态计算相关阈值Setresponsevariable=uncomfortablemaneuverSetpredictorvariable=acceleration,speed,turnsCalculatethescore38驾驶行为评分用车轨迹--用户画像When何时Where何地Who是谁What做什么上班族Commuter商务人士BizMan家庭主妇Housewife夜晚活动族NightOwls用车轨迹–交叉销售售后维修保养机会点OpportunitiesforA/SMaintenance新车销售机会点OpportunitiesforNewCarSalesMaintenanceOpportunities车况报告车况报告Advanced

Analytic

Service

All

Rights

Reserved

201644案例分享智能生产预测项目背景项目背景随着业务的不断发展,生产线不断扩张,不同生产线、不同机台、不同工序所产生的玻璃面板坏点数量参差不起,良品率总体呈现下降趋势。为了提高玻璃面板的良品率,不断优化工艺流程,提升产品质量,决定建立数据分析平台,来预测坏点产生跟生产流程上的哪些因素有关,来做有正对性的改进。项目实施收集生产Glass过程当中所有相关的因子信息,通过Dataflow工具对品质异常的玻璃数据进行regression、correlation挖掘算法分析,计算各因子与产品异常之间的影响关系。同时针对正常品质玻璃也做因子分析,计算得出正常品质下各因子的正常范围值,从而可以快速判定超出范围的为异常值。品质异常因子分析抽取源系统数据并通过数据的业务逻辑进行数据关联进行数据准备,然后通过数据挖掘算法进行correlation、regression两类数据挖掘,并将挖掘结果写到HDFS文件系统中。通过针对defect_count、recipe、TC_C1_EV因子,经过regression算法,从测试数据中挖掘出defect_count预测数据数据分析过程通过针对不同Product_ID下,defect_count因子和TC_PRESSS、TC_IP1_PRESS、TC_IP2_PRESS,车台温度等因子,经过correlation算法,从测试数据中挖掘出相关性数据注:挖掘数据位于测试中转机I:\To_Andy\correlation.txt、I:\To_Andy\regression.txt关联预测准确度(越靠近中线,预测偏差越小)线性回归分析异常点部分需要进一步分析分析结果基于目前的数据,从correlation挖掘结果数据中可以看到如下结果例如TA546A5ABC00这款产品,较其他产品,defect_count和TC_PRESS等压力参数因子的相关性更低,跟车台温度相关性较高例如TB546A6ABC00这款产品,较其他产品,defect_count和TC_PRESS等压力参数因子的相关性更高,说明压力参数对这款产品的defect数量有较大影响;其中TC_IP2_PRESS因子的较其他因子的影响更大基于目前的数据,由regression模型通过参数因子预测defect数量,比对原来的数量,可以看到如下结果当原defect_count较大时,预测的defect_count也较大。可以看出模型预测趋势与实际情况吻合随着数据和因子数量的增加,模型会更加稳定和成熟。那时将新的参数因子数据传递给模型,作出更加准确的预测Advanced

Analytic

Service

All

Rights

Reserved

201651案例分享传统数仓转大数据项目背景使用传统的标准数仓建模,分ODS、DW、DM及DMAETL主要通过存储过程实现存储过程数据加工较多的使用临时表、中间表使用传统交易型DBMSORACLE作为数据仓库平台前端通过刷CUBE提升报表查询速度支撑报表数量:目前150左右每日增量更新时长:1:00-12:50存在的问题数据冗余比较严重临时表、中间表使用过多,对内存及磁盘IO压力较大层与层之间调度依赖严格数据加工性能不足数据查询性能不足高并发查询性能下降严重并发的计算架构54SQL(JDBC/ODBC/.Net)JAVA/C/…

API加载入分布式存储SQLonHadoop加载入SQLinHadoopSourceCDHCluster+HadoopETL分布式内存数据整合数据抽取CDHNodes(Cloudera’sdistributiongincludingApacheHadoop)HadoopETLrunsnativelyoneverynodeSQLonHadoopSQLonHadoop基于标准SQL或者API界面输出新架构解决的问题数据冗余比较严重临时表、中间表使用过多,对内存及磁盘IO压力较大层与层之间调度依赖严格数据加工性能不足数据查询性能不足高并发查询性能下降严重Dataflow流式加工数据,只将结果集回写数据库,大大避免减少数据冗余Dataflow中流式加工数据,可以不用临时表,节约大量磁盘IODataflow作业中直接实现业务逻辑,各报表相对独立无依赖Dataflow流式并行加工数据,且可通过扩展节点线性提升性能Impala特有向量计算技术及采用分布式并行计算架构Impala向量计算、列存储、并行计算等技术完美支持高并发查询结果比较现状增量更新每日更新1万左右保单号增量数据数据加工耗时近12小时出报表需耗时近16小时现状全量更新现在已经不能完整执行一年多前数据加工耗时近20天还未结束(失去业务意义,且数据量不停

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论