大数据与大数据技术介绍_第1页
大数据与大数据技术介绍_第2页
大数据与大数据技术介绍_第3页
大数据与大数据技术介绍_第4页
大数据与大数据技术介绍_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、量变到质变 大数据与大数据技术虞强 .10第1页议程企业介绍大数据与大数据技术大数据技术应用 大数据案例分享问题讨论 Advanced Analytic Service All Rights Reserved 2第2页企业介绍企业概况&发展历史主要客户&大数据产品Advanced Analytic Service All Rights Reserved 3第3页新加坡上海北京企业概况青岛雅加达专注于分析预测与行业应用大数据企业深圳业务1业务2业务3提供基于大数据技术预测性分析及商务智能处理方案大数据平台、数据集成与准备工具、开源开发技术自助式分析工具、数据可视化工具提供全球顶尖大数据软件产品3

2、00+ 技术服务人员端到端大数据平台数据集成、数据挖掘与预测性分析、高级分析企业级大数据仓库、企业绩效管理、商务智能大数据SaaS应用和DaaS服务基于云平台软件即服务大数据应用为企业提供全方面数据服务 第4页发展历史数据仓库绩效管理高级分析数据可视化看板管理商务智能2.0至今大数据技术大数据应用分析预测数据挖掘数据即服务数据集市 来,我们与数俱进第5页汽车制造 电子产品及家电 快消零售 医药与生命科学 航空与物流 高科技制造业 金融及其它主要客户第6页云以 H a d o o p 为关键大数据产品系列数据集成与准备SQL on HadoopText here流计算机器学习开源开发技术数据挖掘

3、以 H a d o o p为关键大数据产品大数据软件产品Statistica 数据可视化Vortex第7页数据创新经验融合拥有多元化数据科学家团体和十余年数据分析经验。经十余年自主开发IP打造数据行业领先技术优势。追踪吸收和引进行业内最先进技术,产品和应用经验。世界顶尖数据技术企业在中国地域首选合作搭档。在一大批竞争行业(汽车、制药、快消、家电、物流等)内拥有深厚客户基础和众多行业成功案例。追求行业业务能力和技术能力融合以及企业系统架构与处理业务问题间平衡,含有扎实项目实施能力。HEADLINE 竞争优势第8页Advanced Analytic Service All Rights Reser

4、ved 9大数据与大数据技术第9页Hadoop技术发展物联网应用需要将Hadoop变为一个高性能分析平台需要Hadoop不光能存放数据,更要能够处理计算数据第10页SQL 分析挖掘预测图形化数据分析智能搜索时间、用户、地理位置、事件 等标签辅助技术:Kafka, HBase, Cassandra, Accumulo基于大数据技术数据分析处理Hadoop 关键层数据准备第11页技术更迭过快开源产品成熟度开发效率与现有架构关系运维与安全大数据技术顾虑?第12页大数据平台计算框架传统数仓功效非结构化流式挖掘分析第13页软件架构 (举例)DATA PLATFORM(HDFS)灵活数据准备SQL in

5、Hadoop数据挖掘与预测S Q L(ODBC、JDBC、。NET)API:Java, C/+, Python前端应用报表外部应用下游系统管理控制台 (CloudEra、Talend、KNIME)数据安全以及认证(Portal集成)第14页用工具取代代码作坊MapReducePerformance(runs on disk)OneClickSparkPerformance(runs in-memory &on disk)20XFaster第15页同时处理实时与批次流式处理批次处理转换清洗治理转换清洗治理推荐引擎Spark Streaming/KafkaSpark数据库,文件,批次数据实时,流数

6、据HDFS文件数据流输出第16页基于用户数据了解地模型预测图形化数据准备挖掘利用Spark Mlib 等进行计算 结果回写入Impala或者HIVE第17页非结构化数据为存放新型SQL 基于落地HDFS文件或HBASE进行SQL建表解析 提供工业MPP级别查询性能 线性可扩展 标准JDBC SQL界面,直连BO,Tableau ,Qlikview, MSTR等报表工具第18页技术方案:特点小结 基于开源系统成熟商用插件方案部署简便提高开发效率降低实施风险基于内存计算 性能优异 全部基于唯一Hadoop集群内,统一存储统一计算降低数据传输迁移同步问题维护便捷:一套集群,维护简单扩展性:无限扩展

7、线性提升 便捷开发及报表展现工具 图形化 ETL,数据挖掘开发 便捷报表展现分析工具 建模过程100% 用户参与 IT基础架构与用户数据准备、探查、分析、预测分离Advanced Analytic Service All Rights Reserved 19第19页大数据团体组织建设数据与业务结合大数据开发团体技术平台支持业务人员咨询团体大数据管理员内部团体与专业搭档紧密合作Evan数据科学家第20页Advanced Analytic Service All Rights Reserved 21大数据技术应用第21页Internet of Customers and Internet of T

8、hingsIoTInvisible devices and Wearable devicesTrillions of networked nodesLow bandwidth last-mile connection100kBit/secMostly addressed by local schemesMachine-centricSensing-focusTrillions of computer-enabled devices which are part of the IoTGlobal addressingUser-centricCommunication-focusIoCLaptop

9、s / tablets / smartphones Billions of networked devicesHigh-bandwidth accessCable: 10Mbs+Fiber: 50-100Mbs6+billion people1.5 billion use netUS: 4.3 devices per adult第22页Big Data on IoT第23页Predictive Maintenancethat enable you to change your businessHadoopMachine LearningQuery and reportingIoT 处理方案Co

10、mmand and ControlYou have devices on the network edgePlant FloorThingsSupply ChainThingsBack OfficeThingsBasic SensorsIntelligent Devicesthat provide you dataSQL DatabasesBlob StorageTable StorageExternal StorageDocumentDBthat you understand, apply rules, models and moreCommand andControlEvent Hub (

11、Service Bus)第24页 本质是基于“信息物理系统”实现“智能化”二、工业4.0时代智能制造IoT 本质 第25页二、工业4.0时代智能制造IoT-智能工厂第26页Big Data on IoC360 Customer ProfileMicro-SegmentationCustomer Lifetime ValueNext Best ActionCustomer Sentiment Campaign OptimizationChurnMarket Basket Analysis第27页关联分析行动创建客户档案识别共同关键词CRM账户信息及客户特征EDW交易历史社交媒体关键字整合数据并载

12、入hadoop连接至文本挖掘应用将数据库连接至EDW连接至flat fileSales Lift 20%60%100%n%购置周期趋势购置家庭信息购置人口特征经过API与CRM相连连接至flat file连接至flat file删除重复客户载入Hadoop在用户ID间连接数据第一阶段识他人口微簇客户画像第28页 删除重复客户在用户ID间连接数据识别共同关键字创建客户档案数据流引擎人口分布客户倾向HADOOP 集群/YARN关联分析行动数据库分析查询可视化报表分析工具及应用HDFS/NFS低延迟查询集成服务器BI服务器数据库集群/服务器社交媒体链接数据库链接文本分割链接API链接固定文本链接文本

13、分割链接消费神理第一阶段HDFS API数据混合与浓缩集成引擎ACTIAN分析平台CRM账户信息及客户特征EDW交易历史社交媒体关键字购置周期趋势购置家庭信息购置人口特征客户画像参考架构第29页360度客户视图第30页Advanced Analytic Service All Rights Reserved 31案例分享车联网大数据应用第31页项目背景围绕车辆全生命周期,数据驱动车联网与跨行业融合,可衍生出多样商业模式与创新服务;基于丰富车联数据、多样服务平台,可对行业、社会热点展开洞见分析,同时挖掘更多商业价值,拓展新业务车辆全生命周期Car Full Life Cycle车辆防盗,财产保护

14、Property Protection保险车联网Telematics Insurance车内LBS服务In-Car LBS车载4G热点Onboard 4G WIFI预测性保养提醒Proactive Reminder汽车延保Extended Warranty预测性维修提醒Proactive Reminder远程在线升级OTA Upgrade车队管理Fleet Mgmt.汽车共享Car Sharing车况分析汇报Assess Report二手车联合判定United Assessment消费者画像User Portrait新车销售线索Sales Leeds客制化服务Customization产品规划

15、Planning设计研发R&D生产制造Production市场营销Marketing售后保障After Sales连续改进Keep Improve新车销售Car Sales试驾Test Drive金融Finance维修Repair车生活In-Car Life保险Insurance保养Maintain租赁Leasing二手车Used Car第32页安吉星大数据项目目标与当前问题目标:主数据(数据质量)升级主题模型落地,保持数据一致性提升运维灵活性应用数据缓存改造用空间换时间方法保护后台关键应用正常运行企业经营分析改造提升运行速度和质量,降低数据开发成本新业务支持驾驶行为分析燃油分析二手车评定车况

16、判定汇报问题:缺乏数据主题重复开发和浪费成本数据质量不可控数据缺乏管控BI 开发成本高,周期长缺乏业务分析平台车辆数据采集能力有限业务数据无法有效支持第33页大数据平台逻辑架构报表/可视化数据集成区批量数据处理实时消息队列数据湖泊区机器学习区NoSQL区流计算区数据暂存区数据仓库区主题分析区MobileDAAPVehicleLVDSTraffic ProbeHA/HBOVDACR其它数据源其它数据源系统管理数据管理搜索引擎区数据交换区数据源第34页车辆行驶日志车辆行驶日志急加速、加速日志车载系统日志第35页实时数据计算36第36页驾驶行为评分37第1步:建模变量选择从全部变量中,选取建模选定变

17、量第2步:衍生建模变量计算基于TP类别变量,进行用户驾驶风险初步计算第3步:用户出险概率计算基于第2步计算结果,结合HAHB类别变量,进行用户出险概率计算第4步:驾驶风险评分计算将出险概率,转化为对应驾驶风险评分第5步:驾驶行为评分计算将驾驶风险评分,转化为对应驾驶行为评分第37页驾驶行为评分阈值计算经过机器学习算法,实时将全部用户数据代入驾驶风险概率模型,动态计算相关阈值Set response variable = uncomfortable maneuverSet predictor variable = acceleration, speed, turnsCalculate the s

18、core38第38页驾驶行为评分第39页用车轨迹-用户画像When 何时Where 何地Who 是谁What 做什么上班族Commuter商务人士Biz Man家庭主妇Housewife夜晚活动族Night Owls第40页用车轨迹 交叉销售售后维修保养机会点Opportunities for A/S Maintenance 新车销售机会点Opportunities for New Car SalesMaintenance Opportunities 第41页车况汇报第42页车况汇报第43页Advanced Analytic Service All Rights Reserved 44案例分享

19、智能生产预测第44页项目背景项目背景伴随业务不停发展,生产线不停扩张,不一样生产线、不一样机台、不一样工序所产生玻璃面板坏点数量参差不起,良品率总体展现下降趋势。为了提升玻璃面板良品率,不停优化工艺流程,提升产品质量,决定建立数据分析平台,来预测坏点产生跟生产流程上哪些原因相关,来做有正对性改进。项目实施搜集生产Glass过程当中全部相关因子信息,经过Dataflow工具对品质异常玻璃数据进行regression、correlation挖掘算法分析,计算各因子与产品异常之间影响关系。同时针对正常品质玻璃也做因子分析,计算得出正常品质下各因子正常范围值,从而能够快速判定超出范围为异常值。第45页

20、品质异常因子分析抽取源系统数据并经过数据业务逻辑进行数据关联进行数据准备,然后经过数据挖掘算法进行correlation、regression两类数据挖掘,并将挖掘结果写到HDFS文件系统中。第46页经过针对defect_count、recipe、TC_C1_EV因子,经过regression算法,从测试数据中挖掘出defect_count预测数据数据分析过程经过针对不一样Product_ID下,defect_count因子和TC_PRESSS、TC_IP1_PRESS、TC_IP2_PRESS,车台温度等因子,经过correlation算法,从测试数据中挖掘出相关性数据注:挖掘数据位于测试中

21、转机I:To_Andycorrelation.txt 、I:To_Andyregression.txt第47页关联预测准确度(越靠近中线,预测偏差越小)第48页线性回归分析异常点部分需要深入分析第49页分析结果基于目前的数据,从correlation挖掘结果数据中可以看到如下结果例如TA546A5ABC00这款产品,较其他产品,defect_count和TC_PRESS等压力参数因子的相关性更低,跟车台温度相关性较高例如TB546A6ABC00这款产品,较其他产品,defect_count和TC_PRESS等压力参数因子的相关性更高,说明压力参数对这款产品的defect数量有较大影响;其中TC

22、_IP2_PRESS因子的较其他因子的影响更大基于目前的数据,由regression模型通过参数因子预测defect数量,比对原来的数量,可以看到如下结果当原defect_count较大时,预测的defect_count也较大。可以看出模型预测趋势与实际情况吻合随着数据和因子数量的增加,模型会更加稳定和成熟。那时将新的参数因子数据传递给模型,作出更加准确的预测第50页Advanced Analytic Service All Rights Reserved 51案例分享传统数仓转大数据第51页项目背景使用传统标准数仓建模,分ODS、DW、DM及DMAETL主要经过存放过程实现存放过程数据加工较多使用暂时表、中间表使用传统交易型DBMS ORACLE作为数据仓库平台前端经过刷CUBE提升报表查询速度支撑报表数量:当前150左右每日增量更新时长:1:0012:50第52页存在问题数据冗余比较严重暂时表、中间表使用过多,对内存及磁盘IO压力较大层与层之间调度依赖严格数据加工性能不足数据查询性能不足高并发查询性能下降严重第53页并发计算架构54SQL(JDBC/ODBC/.Net)JAVA/C/ API 加载入分布式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论