版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于大数据技术与思路的介绍关于大数据技术与思路的介绍1从大数据思维谈起从大数据思维谈起2功能的价值VS数据的价值功能的价值数据的价值产品或服务静态的被动的价值递减的动态的主动的价值递增的创新与发现传统与经验用户使用中留下了实用的信息痕迹产生了数据,能告诉我们,每一个客户的消费倾向,他们想要什么,喜欢什么,每个人的需求有哪些区别,哪些又可以被集合到一起来进行分类。功能的价值VS数据的价值功能的价值数据的价值产品静态的被动的3大数据思维重要特征是相关性思维一些看起来不相关的东西,其实它们有其内在相关性。大数据没有必要找到原因,不需要证明这个事件和那个事件之间有一个必然,不需要找到先后关联发生的一个因果规律。传统的思维方式习惯于“因果”大数据的思维是“相关性”思维往往只能够想到“前应后果”“多因一果”“一因多果”。数据的分析按照我们既定的目标进行,一切以业务驱动为主。大数据思维重要特征是相关性思维一些看起来不相关的东西,其实它4从“人找信息”到“信息找人”人找信息信息找人从人找信息到信息找人,是交互时代的一个转变,也是智能时代的要求,你需要什么信息,企业和机器提前知道,而且主动给你提供你所需要的信息。从“人找信息”到“信息找人”人找信息信息找人从人找信息到信息5大数据应用需要大数据技术大数据应用需要大数据技术6需要具备海量存储的能力磁盘阵列分布式存储海量历史数据事务数据容量可扩展单位存储成本低适用于海量存储容量扩展有限单位存储成本高适用于关键交易系统需要具备海量存储的能力磁盘阵列分布式存储海量历史数据事务数据7需要兼容全类别格式的数据关系型数据文本数据二进制数据大数据平台需要兼容全类别格式的数据关系型数据文本数据二进制数据大数据平8需要具备分布式处理能力计算节点大规模计算和处理任务计算任务拆分随着节点数的增加,其处理能力线性提升。需要具备分布式处理能力计算节点大规模计算和处理任务计算任务拆9需要支持开放式的数据结构Key-ValueJSon索引向量空间矩阵邻接表关系模型GIS大数据技术需要支持开放式的数据结构Key-ValueJSon索引向量空10需要具备多种数据处理的技术数据检索(精确、模糊)数据统计流式处理内存计算批量处理图计算机器学习自然语言识别大数据技术需要具备多种数据处理的技术数据检索数据统计流式处理内存计算批11Hadoop技术是支撑大数据的最佳实践Hadoop技术是支撑大数据的最佳实践12从Apache软件基金会讲起专门为运作一个开源软件项目的Apache的团体提供支持的非盈利性组织。这个开源软件项目就是Apache项目。Apache软件基金会荣获了著名IT杂志SDTimes颁发的2013SDTimes100奖项,位于“极大影响力”分类第二位,仅次于亚马逊。Apache软件基金会自成立15年来,已经拥有超过150个世界顶级项目。从Apache软件基金会讲起专门为运作一个开源软件项目的A13Hadoop生态体系Hadoop由Apache基金会于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。Hadoop的意义不仅在于其自身,而且它具备丰富的生态技术体系。HDFS为分布式文件系统,为海量数据提供了存储服务。为海量数据提供了分布式处理.Hadoop数据库,提供海量结构化存储。.分布式内存计算技术,提供高性能数据计算。高性能的全文搜索服务.数据实时计算,流式数据处理技术。可扩展的机器学习领域经典算法的实现。可伸缩的分布式迭代图处理系统提供类SQL交互接口。Hadoop与关系型数据库交互大规模科学的计算……Hadoop生态体系Hadoop由Apache基金会于14Hadoop开源生态发展法则批处理数据库消息传递内存计算索引技术流处理图计算Tez?Impala?Storm?Kafka?Spark?Ooize?Hbase?Solr?任务调度框架:YARN数据存储框架:HDFSHadoopCoreFalcon?Databus?Pregel?Hive?MapReduce?MPI?1:计算框架多样性在分布式计算环境中成为事实,没有一种框架适合所有计算,不同的场景使用多种的计算框架组合。Google,Facebook等获得巨大商业化成功的公司,将研发的部分计算框架开源回馈社区;分享与迭代创新精神,推动社区不断出现新的计算框架;2:Hadoopcore开源核心成为一种标准,成为众多计算框架彼此合作的基础.没有任何商业实体能够拥有hadoop核心;任何对hadoopcore的优化改进,如果采用商业形式的封装,都是对行业sayNO;数据处理技术Hadoop开源生态发展法则批处理数据库消息内存索引流处理图15丰富的生态体系满足专业化的需求用户选择视角互联网程序猿视角i7处理器光驱主板至强处理器内存显示器显卡不同的应用场景,对组件的选择要求不同,丰富的生态技术满足专业化需求服务器游戏主机办公电脑移动设备数据治理,日志分析,历史数据查询,关联关系网络分析,机器学习,统计分析,自然语言识别Tez?Impala?Storm?Kafka?Spark?Ooize?Solr?Falcon?Databus?Pregel?Hive?MR?MPI?丰富的生态体系满足专业化的需求用户选择视角互联网程序猿视角i16与似类技术对比MPP数据库分布式存储分布式处理数据库内存计算流式处理数据结构数据挖掘统计计算是是是是是是nosqlsql数据处理技术(包括nosql)否否是否否是单一单一丰富否否是是是是与似类技术对比MPP数据库分布式存储分布式处理数据库内存计算17数据采集OracleDB2Mysql。。。HDFSFlume日志系统console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIXtail)、syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等Hadoop导入实时关系型二进制Hadoop支持所有类型数据的导入与存储数据采集OracleDB2Mysql。。。HDFSFlume18数据存储(分布式)HDFS节点HDFS节点HDFS节点HDFS节点HDFS节点。。。Oracle实时日志数据Hadoop分布式存储系统满足大规模的全数据数据存储节点扩展数据存储(分布式)HDFSHDFS节点HDFS节点HDFS节19数据处理(分布式)清洗、归整、转换、计算、建模。。。。。。MPP关系型数据库结构化数据提取数据模型创建查询统计科学计算备份归档数据处理(分布式)清洗、归整、转换、计算、建模。。。MPP结20数据应用(分布式)HadoopYARNHadoopCore数据结构、模型Key-Value文本JSon全文索引向量空间矩阵邻接表数据应用查询、统计报表、机器学习、自然语言识别、复杂网络数据应用(分布式)HadoopHadoop数据结构Key21如何组建大数据团队如何组建大数据团队22大数据团队的组成算法研究开发测试实施维护大数据团队业务分析大数据团队的组成算法研究开发测试实施维护大数据业务分析23团队组织业务分析算法研究业务专家理解业务梳理数据开发模型构建算法编码算法训练测试挖掘分析场景确定分析目标场景抽象算法研究匹配功能开发功能测试功能验证应用场景沟通规划功能点制定开发计划算法实现验证业务验证实施代码交付实施培训业务验证用户系统实施系统交付使用培训团队组织业务算法研究业务理解业务开发模型构建测试挖掘分析场景24岗位角色总经理主管业务分析师业务分析师主管算法工程师算法工程师主管后端开发工程师后端开发工程师前端开发工程师前端开发工程师主管测试工程师测试分析师主管实施运维工程师实施运维分析师岗位角色总经理主管业务分析师业务分析师主管算法工程师算法工程25关于大数据平台规划关于大数据平台规划26大数据典型场景分类查询查询统计类处理离线批量处理类计算挖掘计算类大数据典型场景分类查询查询统计类处理离线批量处理类计算挖掘计27不同的场景对硬件资源的要求查询统计类应用CPU磁盘网络离线批量处理类应用科学计算类应用内存不同类大数据应用场景,对硬件资源的偏好有所不同。不同的场景对硬件资源的要求查询统计类应用CPU磁盘网络离线批28不同的场景对软件资源的要求查询统计类应用离线批量处理类应用科学计算类应用不同类大数据应用场景,对生态技术资源的偏好有所不同。YARN不同的场景对软件资源的要求查询统计类应用离线批量处理类应用科29大独立,小集中配置适合的硬件资源,资源充分利用。计算框架专业,避免部署大而全的臃肿计算框架。维护难度低,节点数量不是很大,降低了运维的技术难度。技术风险小,独立资源,物理隔离,不会出现大面积事故。Hadoop集群(查询统计类)Hadoop集群(批处理类)Hadoop集群(挖掘计算类)大独立,小集中配置适合的硬件资源,资源充分利用。Hadoop30小集中VS大集中小集中大集中成本较高低硬件资源利用充分低计算组件专业大而全运维难度低高运维量高低技术风险低较高小集中VS大集中小集中大集中成本较高低硬件资源利用充分低计算31Hadoop技术为什么要企业化Hadoop技术为什么要企业化32企业就绪大数据能力所面临的问题陡峭的学习曲线计算框架的丰富性,带来众多的编程接口(API)、操作、部署以及维护管理方式,增加了学习成本,抬高了技术人员入行的门槛。SQLJAVAOracleJDBCHadoop技能不能快速就绪企业就绪大数据能力所面临的问题陡峭的学习曲线计算框架的丰富性33企业就绪大数据能力所面临的问题不具有企业友好性及通用性例如,黑屏命令行操作维护方式,增加了运维开发人员的工作难度、操作量,降低的工具的友好性。企业就绪大数据能力所面临的问题不具有企业友好性及通用性例如,34企业就绪大数据能力所面临的问题分析算法或模型的不足决策树贝叶斯逻辑回归协同过滤聚类最短路径DFSBFSK-壳K-核度值统计PageRank分词标注词频统计文本分类语义图谱摘要提取语义提取情感分析机器学习复杂网络自然语言。。。自己编互联网开源社区正确性时间成本支持与服务企业就绪大数据能力所面临的问题分析算法或模型的不足决策树贝叶35企业就绪大数据能力所面临的问题运维难度大数据集群数量众多的服务器不便于整体的部署与管理。资源监控组件部署资源分配辅助工具…企业就绪大数据能力所面临的问题运维难度大数据集群数量众多的服36企业就绪大数据能力所面临的问题版本的选择支持与服务HBasev0.98.17、HBasev1.1.3、
Hbase
v1.2.0、Hbase
v1.0.3。。。哪个框架最适合,需要分析。哪个版本最稳定,需要测试。框架升级是否兼容,需要研究。优化与故障处理。专业的运维培训。组件选型的方案级建议。企业就绪大数据能力所面临的问题版本的选择支持与服务HBase37公司的主要大数据产品天云大数据平台(简称BDP)解决了企业使用Hadoop遇到的困境自然语言处理引擎机器学习引擎复杂网络引擎公司的主要大数据产品天云大数据平台(简称BDP)自然语言处理38天云大数据产品BDP介绍天云大数据产品BDP介绍39天云BDP产品简介天云大数据的BDP企业级平台产品是业界第一个实现了Hadoop技术落地的商业版产品。在体系架构、功能组件、外围工具、科学算法、客户友好、运维管理、应用开发支撑等多方面都在与国内外友商的竞争中占据明显强势地位。在大量落地项目中展现了产品、服务、交付能力、经验知识储备和技术发展前瞻性的优势。在产品创新、技术融合、业务完善等多方面有效解决了客户所面临的各种问题。天云BDP产品简介天云大数据的BDP企业级平台产品是业界第一40天云大数据产品体系架构OpensourceInfrastructureHadoopMiddlewareHadoopApplications天云大数据产品体系架构OpensourceInfrast41天云大数据产品体系架构Hadoop
CoreLinuxSystemRedhatCentOSSuseDebian红旗UbuntuMandrivaApacheClouderaCDHHortonworksHDPComputing
Template数据管理Ingress/egress/compression/schemaseriaiization/retention/dual-activecluster数据处理DataPipeline/Consistence/ResidenceFramework&
InstanceBATCHNoSQLIndexStreamNLPGraphMLIn-memoryAd-HocQuerySecurityGovernanceDeploymentOrchestrationProvisioning结构检索机器日志语义分析流数据模糊查询文档检索关联计算HadoopApplications行为分析/规律发现日志处理及分析预警目标市场分析(预测)机器学习精准推荐天云大数据产品体系架构HadoopCoreLinuxSy42BDP产品的价值降低了学习和维护成本统一的编程接口、操作、部署以及维护管理和状态监控。图形化操作界面决策树、聚类、贝叶斯、逻辑回归、最短路、PageRank。丰富的企业版算法包稳定可靠的Hadoop组件版本每个组件在出厂之前会进行严格测试,保证其兼容稳定。灵活组件升级局部组件升级,而不用整体大的版本升级。模板化实施提供丰富的场景技术模板,帮助用户快速平台就绪。安全访问控制安全授权、细粒度访问控制、基于角色的管理、多租户管理、机器级别的安全认证。BDP产品的价值降低了学习和维护成本统一的编程接口、操作、部43REST接口资源与权限管理硬件资源服务插件模版策略&流程Hadoop框架服务实例配置部署监控管理插件管理模块Plugin1Plugin4Plugin2Plugin3…计算模版架构LogFilesNoSQL流采集分布式消息队列分布式流引擎模版实例:实时数据服务模版实例:模糊查询数据服务多元计算框架模板REST接口资源与权限管理硬件资源服务插件模版策略&流程Ha44公司的主要大数据产品备注公司的主要大数据产品备注45复杂网络引擎(BDCN)复杂网络引擎46什么是复杂网络钱学森给出了复杂网络的一个较严格的定义:具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称为复杂网络。结构复杂节点数目巨大,网络结构呈现多种不同特征。网络进化节点或连接的产生与消失。连接多样性节点之间的连接权重存在差异,且有可能存在方向性。节点多样性节点可以代表任何事物.多重复杂性融合多重复杂性相互影响,导致更为难以预料的结果.动力学复杂性节点集可能属于非线性动力学系统。由节点和边构成的图。什么是复杂网络钱学森给出了复杂网络的一个较严格的定义:具有47复杂网络研究的领域城市公共交通网经济物理学科学家合作网航空网朋友关系网神经网络道路交通网只要能抽象出网络结构的客观事务,都可以作为复杂网络的研究的对象。复杂网络研究的领域城市公共交通网经济物理学科学家合作网航空网48天云复杂网络引擎简介天云大数据的复杂网络引擎(BDCN)是一款对网络科学研究及应用的专业数据处理引擎。用户可以快速方便的实现对关联数据的加载、建模、存储、计算以及可视化展示。在实现数据分布式存储的同时提供了如最短路径、Ranking、随机游走、子图发现等诸多复杂网络的算法实现。天云复杂网络引擎简介天云大数据的复杂网络引擎(BDCN)是一49复杂网络理论的丰富算法分析能力节点重要性分析中心性权威性枢纽性PR值分析相似性分析关系性分析BFSDFS最短路径闭环发现社团分析网络特征分析连通性度分布稀疏与稠密平均路径聚类系数幂率分布基于复杂网络算法帮助我们从新的视角观察分析事物的本质规律。复杂网络理论的丰富算法分析能力节点重要性分析中心性权威性枢纽50某金融机构企业关联关系查询商业银行A企业1放贷担保企业1企业2担保商业银行B放贷企业1担保担保商业银行C放贷商业银行D放贷担保圈形成商业银行不能看到担保链条全部。单纯的财务报表,企业经营状况检查很难揭示企业风险,需要更深一步的信息挖掘,才能发现潜在的金融风险,保证金融市场的安全。基于企业之间的各种关联关系构建出来的复杂关系网络,从新的分析视角分析金融风险。某金融机构企业关联关系查询商业银行A企业1放贷担保企业1企业51某金融机构企业关联关系查询关系型数据库(核心系统)结构化数据文本数据互联网网络爬取某金融机构企业关联关系查询关系型数据库结构化数据文本数据互联52某金融机构企业关联关系查询文本数据担保关系对家族关系对投资关系对集团关系对0
1
0
1
0
1
01
1
0
1
0
1
10
1
0
1
1
1
01
1
0
1
0
1
11
1
0
1
1
1
11
1
0
1
1
1
11
1
0
1
1
1
1邻接矩阵复杂网络平台数据汇总构建模型企业关系网络某金融机构企业关联关系查询文本数据担保关系对0153某金融机构企业关联关系查询BDCN计算引擎BDCN复杂网络Warshall算法Breath-First
Search,BFS算法Deep-First
Search,DFS算法担保圈发现企业关联关系查找技术与算法支撑某金融机构企业关联关系查询BDCN计算引擎BDCN复杂网络W54企业关联关系查询系统企业名称:山东东方伊特广告有限责任公司投资总额:
¥1,000,000被投资额:¥300,000投资企业数:10家被投资企业数:6家投资总额:¥38,234,532投资企业被投资企业投资额度所查企业企业1¥3,000,000所查企业北京市京东林元养殖场¥2,300,000企业5企业6¥1,000,000所查企业北京东豪德利经贸…¥500,000投资额排名:按投资关系展示查询结果企业关联关系查询系统企业名称:山东东方伊特广告有限责任公司投55机器学习引擎(BDML)机器学习引擎56什么是机器学习机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习有监督学习无监督学习半监督学习对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的岐义性高。聚类就是典型的无监督学习介于有监督和无监督之间。什么是机器学习机器学习(MachineLearning,57天云机器学习引擎简介机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,包括分类、协同过滤、聚类分析、统计分析等理论方法。天云大数据的机器学习引擎基于分布式平台,为数据挖掘提供了算法支撑,能够处理海量数据深度挖掘。天云机器学习引擎简介机器学习是人工智能的核心,是使计算机具有58基于有监督机器学习技术的客户流失分析客户1客户2客户3客户4……基本信息购买数据理赔数据健康数据缴费数据呼叫数据HDFS已流失客户清洗、转换规整、建模有监督学习算法模型训练成熟的算法模型基于有监督机器学习技术的客户流失分析客户1客户2客户3客户459基于有监督机器学习技术的客户流失分析成熟的算法模型客户1客户2客户3客户4……基本信息购买数据理赔数据健康数据缴费数据呼叫数据现有客户客户1客户2客户3客户4流失预警稳定客户客户经理基于有监督机器学习技术的客户流失分析成熟的算法模型客户1客户60基于无监督机器学习技术的客户流失分析年收入2.9万,总标保1.5万以上,高达9万的两全产品,产品覆盖面齐全年收入高达18万,总标保只有1万,寿险和年金金额较高,无投连产品年收入2.9万,高达6.3万的万能产品,产品覆盖面齐全年收入只有0.3万,高达7.7万的投连产品年收入9.7万,标保只有0.5万年收入只有0.8万,高达2.9万的年金产品年收入4.8万,总标保2.6万以上,高达7.6万的年金产品,产品覆盖面齐全基于无监督机器学习技术的客户流失分析年收入2.9万,总标保161自然语言处理引擎(BDNLP)自然语言处理引擎62什么是自然语言处理自然语言处理在海量文本数据之上进行处理,通过机器实现了文本分类、情感分析、主题模型、摘要抽取等多个模型。分词标注、实体抽取、词频统计、新词识别、文本分类、情感分析、关键词抽取、词向量、依存文法、简繁转换、自动注音、摘要提取、文本聚类什么是自然语言处理自然语言处理在海量文本数据之上进行处理,通63汤森路透上市公司公告处理汤森路透(ThomsonReuters)成立于2008年4月17日,是由加拿大汤姆森公司(TheThomsonCorporation)与英国路透集团(ReutersGroupPLC)合并组成的商务和专业智能信息提供商。主要为专业企业、金融机构和消费者提供财经信息服务,例如电子交易系统、企业管理系统和风险管理系统、桌面系统、新闻,以及为在法律、税务和会计、科学、医疗保健和媒体市场的专业人员提供智能信息及解决方案。上市公司公告内容抓取自然语言分类和摘要提取并购、公开募股、私募股权、可转债、其它分类……汤森路透上市公司公告处理汤森路透(ThomsonReute64分词汤森路透上市公司公告处理通用词库专业词库新词发现有监督机器学习算法模型上市公司公告并购公开募股私募股权可转债其它分类分词汤森路透上市公司公告处理通用词库专业词库新词发现有监督机65汤森路透上市公司公告处理并购公开募股私募股权可转债其它分类基于复杂网络技术的文章摘要提取摘要信息(涵盖70%信息量)汤森路透上市公司公告处理并购基于复杂网络技术的文章摘要提取摘66自然语言处理之文章摘要随着信息时代的发展,大量文本涌现出来,包括新闻、咨询、论文、小说等,面对如此大的信息量,如何快速提取文本中心思想并评价文本内容,是当今信息处理领域的关键研究领域。本场景主要介绍的是如何基于复杂网络技术对文本进行摘要信息的提取。复杂网络节点边文章句子句子间共有词自然语言处理之文章摘要随着信息时代的发展,大量文本涌现出来,67自然语言处理之文章摘要0
1
0
1
0
1
01
1
0
1
0
1
10
1
0
1
1
1
01
1
0
1
0
1
11
1
0
1
1
1
11
1
0
1
1
1
11
1
0
1
1
1
1句子1句子2句子3句子5句子6句子7句子4句子1句子4句子2句子3句子5句子6句子70
6
0
1
0
1
01
1
0
7
0
1
10
1
0
1
1
1
01
8
0
3
0
3
11
1
0
1
1
1
11
1
0
1
0
1
13
1
0
2
1
1
1句子1句子2句子3句子5句子6句子7句子4句子1句子4句子2句子3句子5句子6句子7矩阵A矩阵W仅表示节点与节点关系含权,表示节点与节点共有词数自然语言处理之文章摘要0101068自然语言处理之文章摘要度与强度的分析度描述一个句子与其它句子是否有关系,一个句子的度分布越高,则表明与该句子有联系的句子就越多。度分布高度分布低度强度描述一个句子与其它句子的关系的紧密度,一个句子的度强度分布越高,则表明该句子与其它有关系的句子共有词的频度就越高。自然语言处理之文章摘要度与强度的分析度描述一个句子与其它句子69自然语言处理之文章摘要根据句子节点度和节点强度的部分排名,选出度值和强度值都比较大的节点,一般来说,根据统计,前10名左右的句子基本上覆盖全文60%的信息量,因此,根据排名提取文本的中心思想和摘要。自然语言处理之文章摘要根据句子节点度和节点强度的部分排名,选70实时查询引擎(BDTQ)实时查询引擎71BDTQ特性BDTQ与Hadoop生态圈紧密结合。Hbase与solr的有效整合。通过solr实现Hbase二级索引。强大的一致性支持。线性扩展能力。读写严格一致。基类支持HBase表的MapReduce作业。数据查询的秒级、毫秒级响应。BDTQ特性BDTQ与Hadoop生态圈紧密结合。Hbase72软件系统架构CassandraHBaseBerkeley
DB…HDFSSolrLucene…后端存储后端索引BDTQ应用1应用2应用3应用4应用5应用6…存储索引层事务控制层读写接口层软件系统架构CassandraHBaseBerkeleyD73BDTQ适用场景需要从海量的历史、实时数据中快速获取有用信息数据量不断增大,需要高速的在线读写,更需要count/groupby等复杂应用。用户使用频率非常高,重要程度接近核心应用,对数据丢失以及服务中断是零容忍。对数据有ACID的要求。帮助开发者简化使用搜索服务的复杂度,降低开发成本,加快产品迭代速度。BDTQ适用场景需要从海量的历史、实时数据中快速获取有用信息74SQL引擎SQL引擎75存储插件SQL引擎应用接口大数据SQL引擎架构图存储插件SQL引擎应用接口大数据SQL引擎架构图76大数据技术与构成团队介绍展示课件77关于大数据技术与思路的介绍关于大数据技术与思路的介绍78从大数据思维谈起从大数据思维谈起79功能的价值VS数据的价值功能的价值数据的价值产品或服务静态的被动的价值递减的动态的主动的价值递增的创新与发现传统与经验用户使用中留下了实用的信息痕迹产生了数据,能告诉我们,每一个客户的消费倾向,他们想要什么,喜欢什么,每个人的需求有哪些区别,哪些又可以被集合到一起来进行分类。功能的价值VS数据的价值功能的价值数据的价值产品静态的被动的80大数据思维重要特征是相关性思维一些看起来不相关的东西,其实它们有其内在相关性。大数据没有必要找到原因,不需要证明这个事件和那个事件之间有一个必然,不需要找到先后关联发生的一个因果规律。传统的思维方式习惯于“因果”大数据的思维是“相关性”思维往往只能够想到“前应后果”“多因一果”“一因多果”。数据的分析按照我们既定的目标进行,一切以业务驱动为主。大数据思维重要特征是相关性思维一些看起来不相关的东西,其实它81从“人找信息”到“信息找人”人找信息信息找人从人找信息到信息找人,是交互时代的一个转变,也是智能时代的要求,你需要什么信息,企业和机器提前知道,而且主动给你提供你所需要的信息。从“人找信息”到“信息找人”人找信息信息找人从人找信息到信息82大数据应用需要大数据技术大数据应用需要大数据技术83需要具备海量存储的能力磁盘阵列分布式存储海量历史数据事务数据容量可扩展单位存储成本低适用于海量存储容量扩展有限单位存储成本高适用于关键交易系统需要具备海量存储的能力磁盘阵列分布式存储海量历史数据事务数据84需要兼容全类别格式的数据关系型数据文本数据二进制数据大数据平台需要兼容全类别格式的数据关系型数据文本数据二进制数据大数据平85需要具备分布式处理能力计算节点大规模计算和处理任务计算任务拆分随着节点数的增加,其处理能力线性提升。需要具备分布式处理能力计算节点大规模计算和处理任务计算任务拆86需要支持开放式的数据结构Key-ValueJSon索引向量空间矩阵邻接表关系模型GIS大数据技术需要支持开放式的数据结构Key-ValueJSon索引向量空87需要具备多种数据处理的技术数据检索(精确、模糊)数据统计流式处理内存计算批量处理图计算机器学习自然语言识别大数据技术需要具备多种数据处理的技术数据检索数据统计流式处理内存计算批88Hadoop技术是支撑大数据的最佳实践Hadoop技术是支撑大数据的最佳实践89从Apache软件基金会讲起专门为运作一个开源软件项目的Apache的团体提供支持的非盈利性组织。这个开源软件项目就是Apache项目。Apache软件基金会荣获了著名IT杂志SDTimes颁发的2013SDTimes100奖项,位于“极大影响力”分类第二位,仅次于亚马逊。Apache软件基金会自成立15年来,已经拥有超过150个世界顶级项目。从Apache软件基金会讲起专门为运作一个开源软件项目的A90Hadoop生态体系Hadoop由Apache基金会于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。Hadoop的意义不仅在于其自身,而且它具备丰富的生态技术体系。HDFS为分布式文件系统,为海量数据提供了存储服务。为海量数据提供了分布式处理.Hadoop数据库,提供海量结构化存储。.分布式内存计算技术,提供高性能数据计算。高性能的全文搜索服务.数据实时计算,流式数据处理技术。可扩展的机器学习领域经典算法的实现。可伸缩的分布式迭代图处理系统提供类SQL交互接口。Hadoop与关系型数据库交互大规模科学的计算……Hadoop生态体系Hadoop由Apache基金会于91Hadoop开源生态发展法则批处理数据库消息传递内存计算索引技术流处理图计算Tez?Impala?Storm?Kafka?Spark?Ooize?Hbase?Solr?任务调度框架:YARN数据存储框架:HDFSHadoopCoreFalcon?Databus?Pregel?Hive?MapReduce?MPI?1:计算框架多样性在分布式计算环境中成为事实,没有一种框架适合所有计算,不同的场景使用多种的计算框架组合。Google,Facebook等获得巨大商业化成功的公司,将研发的部分计算框架开源回馈社区;分享与迭代创新精神,推动社区不断出现新的计算框架;2:Hadoopcore开源核心成为一种标准,成为众多计算框架彼此合作的基础.没有任何商业实体能够拥有hadoop核心;任何对hadoopcore的优化改进,如果采用商业形式的封装,都是对行业sayNO;数据处理技术Hadoop开源生态发展法则批处理数据库消息内存索引流处理图92丰富的生态体系满足专业化的需求用户选择视角互联网程序猿视角i7处理器光驱主板至强处理器内存显示器显卡不同的应用场景,对组件的选择要求不同,丰富的生态技术满足专业化需求服务器游戏主机办公电脑移动设备数据治理,日志分析,历史数据查询,关联关系网络分析,机器学习,统计分析,自然语言识别Tez?Impala?Storm?Kafka?Spark?Ooize?Solr?Falcon?Databus?Pregel?Hive?MR?MPI?丰富的生态体系满足专业化的需求用户选择视角互联网程序猿视角i93与似类技术对比MPP数据库分布式存储分布式处理数据库内存计算流式处理数据结构数据挖掘统计计算是是是是是是nosqlsql数据处理技术(包括nosql)否否是否否是单一单一丰富否否是是是是与似类技术对比MPP数据库分布式存储分布式处理数据库内存计算94数据采集OracleDB2Mysql。。。HDFSFlume日志系统console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIXtail)、syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等Hadoop导入实时关系型二进制Hadoop支持所有类型数据的导入与存储数据采集OracleDB2Mysql。。。HDFSFlume95数据存储(分布式)HDFS节点HDFS节点HDFS节点HDFS节点HDFS节点。。。Oracle实时日志数据Hadoop分布式存储系统满足大规模的全数据数据存储节点扩展数据存储(分布式)HDFSHDFS节点HDFS节点HDFS节96数据处理(分布式)清洗、归整、转换、计算、建模。。。。。。MPP关系型数据库结构化数据提取数据模型创建查询统计科学计算备份归档数据处理(分布式)清洗、归整、转换、计算、建模。。。MPP结97数据应用(分布式)HadoopYARNHadoopCore数据结构、模型Key-Value文本JSon全文索引向量空间矩阵邻接表数据应用查询、统计报表、机器学习、自然语言识别、复杂网络数据应用(分布式)HadoopHadoop数据结构Key98如何组建大数据团队如何组建大数据团队99大数据团队的组成算法研究开发测试实施维护大数据团队业务分析大数据团队的组成算法研究开发测试实施维护大数据业务分析100团队组织业务分析算法研究业务专家理解业务梳理数据开发模型构建算法编码算法训练测试挖掘分析场景确定分析目标场景抽象算法研究匹配功能开发功能测试功能验证应用场景沟通规划功能点制定开发计划算法实现验证业务验证实施代码交付实施培训业务验证用户系统实施系统交付使用培训团队组织业务算法研究业务理解业务开发模型构建测试挖掘分析场景101岗位角色总经理主管业务分析师业务分析师主管算法工程师算法工程师主管后端开发工程师后端开发工程师前端开发工程师前端开发工程师主管测试工程师测试分析师主管实施运维工程师实施运维分析师岗位角色总经理主管业务分析师业务分析师主管算法工程师算法工程102关于大数据平台规划关于大数据平台规划103大数据典型场景分类查询查询统计类处理离线批量处理类计算挖掘计算类大数据典型场景分类查询查询统计类处理离线批量处理类计算挖掘计104不同的场景对硬件资源的要求查询统计类应用CPU磁盘网络离线批量处理类应用科学计算类应用内存不同类大数据应用场景,对硬件资源的偏好有所不同。不同的场景对硬件资源的要求查询统计类应用CPU磁盘网络离线批105不同的场景对软件资源的要求查询统计类应用离线批量处理类应用科学计算类应用不同类大数据应用场景,对生态技术资源的偏好有所不同。YARN不同的场景对软件资源的要求查询统计类应用离线批量处理类应用科106大独立,小集中配置适合的硬件资源,资源充分利用。计算框架专业,避免部署大而全的臃肿计算框架。维护难度低,节点数量不是很大,降低了运维的技术难度。技术风险小,独立资源,物理隔离,不会出现大面积事故。Hadoop集群(查询统计类)Hadoop集群(批处理类)Hadoop集群(挖掘计算类)大独立,小集中配置适合的硬件资源,资源充分利用。Hadoop107小集中VS大集中小集中大集中成本较高低硬件资源利用充分低计算组件专业大而全运维难度低高运维量高低技术风险低较高小集中VS大集中小集中大集中成本较高低硬件资源利用充分低计算108Hadoop技术为什么要企业化Hadoop技术为什么要企业化109企业就绪大数据能力所面临的问题陡峭的学习曲线计算框架的丰富性,带来众多的编程接口(API)、操作、部署以及维护管理方式,增加了学习成本,抬高了技术人员入行的门槛。SQLJAVAOracleJDBCHadoop技能不能快速就绪企业就绪大数据能力所面临的问题陡峭的学习曲线计算框架的丰富性110企业就绪大数据能力所面临的问题不具有企业友好性及通用性例如,黑屏命令行操作维护方式,增加了运维开发人员的工作难度、操作量,降低的工具的友好性。企业就绪大数据能力所面临的问题不具有企业友好性及通用性例如,111企业就绪大数据能力所面临的问题分析算法或模型的不足决策树贝叶斯逻辑回归协同过滤聚类最短路径DFSBFSK-壳K-核度值统计PageRank分词标注词频统计文本分类语义图谱摘要提取语义提取情感分析机器学习复杂网络自然语言。。。自己编互联网开源社区正确性时间成本支持与服务企业就绪大数据能力所面临的问题分析算法或模型的不足决策树贝叶112企业就绪大数据能力所面临的问题运维难度大数据集群数量众多的服务器不便于整体的部署与管理。资源监控组件部署资源分配辅助工具…企业就绪大数据能力所面临的问题运维难度大数据集群数量众多的服113企业就绪大数据能力所面临的问题版本的选择支持与服务HBasev0.98.17、HBasev1.1.3、
Hbase
v1.2.0、Hbase
v1.0.3。。。哪个框架最适合,需要分析。哪个版本最稳定,需要测试。框架升级是否兼容,需要研究。优化与故障处理。专业的运维培训。组件选型的方案级建议。企业就绪大数据能力所面临的问题版本的选择支持与服务HBase114公司的主要大数据产品天云大数据平台(简称BDP)解决了企业使用Hadoop遇到的困境自然语言处理引擎机器学习引擎复杂网络引擎公司的主要大数据产品天云大数据平台(简称BDP)自然语言处理115天云大数据产品BDP介绍天云大数据产品BDP介绍116天云BDP产品简介天云大数据的BDP企业级平台产品是业界第一个实现了Hadoop技术落地的商业版产品。在体系架构、功能组件、外围工具、科学算法、客户友好、运维管理、应用开发支撑等多方面都在与国内外友商的竞争中占据明显强势地位。在大量落地项目中展现了产品、服务、交付能力、经验知识储备和技术发展前瞻性的优势。在产品创新、技术融合、业务完善等多方面有效解决了客户所面临的各种问题。天云BDP产品简介天云大数据的BDP企业级平台产品是业界第一117天云大数据产品体系架构OpensourceInfrastructureHadoopMiddlewareHadoopApplications天云大数据产品体系架构OpensourceInfrast118天云大数据产品体系架构Hadoop
CoreLinuxSystemRedhatCentOSSuseDebian红旗UbuntuMandrivaApacheClouderaCDHHortonworksHDPComputing
Template数据管理Ingress/egress/compression/schemaseriaiization/retention/dual-activecluster数据处理DataPipeline/Consistence/ResidenceFramework&
InstanceBATCHNoSQLIndexStreamNLPGraphMLIn-memoryAd-HocQuerySecurityGovernanceDeploymentOrchestrationProvisioning结构检索机器日志语义分析流数据模糊查询文档检索关联计算HadoopApplications行为分析/规律发现日志处理及分析预警目标市场分析(预测)机器学习精准推荐天云大数据产品体系架构HadoopCoreLinuxSy119BDP产品的价值降低了学习和维护成本统一的编程接口、操作、部署以及维护管理和状态监控。图形化操作界面决策树、聚类、贝叶斯、逻辑回归、最短路、PageRank。丰富的企业版算法包稳定可靠的Hadoop组件版本每个组件在出厂之前会进行严格测试,保证其兼容稳定。灵活组件升级局部组件升级,而不用整体大的版本升级。模板化实施提供丰富的场景技术模板,帮助用户快速平台就绪。安全访问控制安全授权、细粒度访问控制、基于角色的管理、多租户管理、机器级别的安全认证。BDP产品的价值降低了学习和维护成本统一的编程接口、操作、部120REST接口资源与权限管理硬件资源服务插件模版策略&流程Hadoop框架服务实例配置部署监控管理插件管理模块Plugin1Plugin4Plugin2Plugin3…计算模版架构LogFilesNoSQL流采集分布式消息队列分布式流引擎模版实例:实时数据服务模版实例:模糊查询数据服务多元计算框架模板REST接口资源与权限管理硬件资源服务插件模版策略&流程Ha121公司的主要大数据产品备注公司的主要大数据产品备注122复杂网络引擎(BDCN)复杂网络引擎123什么是复杂网络钱学森给出了复杂网络的一个较严格的定义:具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称为复杂网络。结构复杂节点数目巨大,网络结构呈现多种不同特征。网络进化节点或连接的产生与消失。连接多样性节点之间的连接权重存在差异,且有可能存在方向性。节点多样性节点可以代表任何事物.多重复杂性融合多重复杂性相互影响,导致更为难以预料的结果.动力学复杂性节点集可能属于非线性动力学系统。由节点和边构成的图。什么是复杂网络钱学森给出了复杂网络的一个较严格的定义:具有124复杂网络研究的领域城市公共交通网经济物理学科学家合作网航空网朋友关系网神经网络道路交通网只要能抽象出网络结构的客观事务,都可以作为复杂网络的研究的对象。复杂网络研究的领域城市公共交通网经济物理学科学家合作网航空网125天云复杂网络引擎简介天云大数据的复杂网络引擎(BDCN)是一款对网络科学研究及应用的专业数据处理引擎。用户可以快速方便的实现对关联数据的加载、建模、存储、计算以及可视化展示。在实现数据分布式存储的同时提供了如最短路径、Ranking、随机游走、子图发现等诸多复杂网络的算法实现。天云复杂网络引擎简介天云大数据的复杂网络引擎(BDCN)是一126复杂网络理论的丰富算法分析能力节点重要性分析中心性权威性枢纽性PR值分析相似性分析关系性分析BFSDFS最短路径闭环发现社团分析网络特征分析连通性度分布稀疏与稠密平均路径聚类系数幂率分布基于复杂网络算法帮助我们从新的视角观察分析事物的本质规律。复杂网络理论的丰富算法分析能力节点重要性分析中心性权威性枢纽127某金融机构企业关联关系查询商业银行A企业1放贷担保企业1企业2担保商业银行B放贷企业1担保担保商业银行C放贷商业银行D放贷担保圈形成商业银行不能看到担保链条全部。单纯的财务报表,企业经营状况检查很难揭示企业风险,需要更深一步的信息挖掘,才能发现潜在的金融风险,保证金融市场的安全。基于企业之间的各种关联关系构建出来的复杂关系网络,从新的分析视角分析金融风险。某金融机构企业关联关系查询商业银行A企业1放贷担保企业1企业128某金融机构企业关联关系查询关系型数据库(核心系统)结构化数据文本数据互联网网络爬取某金融机构企业关联关系查询关系型数据库结构化数据文本数据互联129某金融机构企业关联关系查询文本数据担保关系对家族关系对投资关系对集团关系对0
1
0
1
0
1
01
1
0
1
0
1
10
1
0
1
1
1
01
1
0
1
0
1
11
1
0
1
1
1
11
1
0
1
1
1
11
1
0
1
1
1
1邻接矩阵复杂网络平台数据汇总构建模型企业关系网络某金融机构企业关联关系查询文本数据担保关系对01130某金融机构企业关联关系查询BDCN计算引擎BDCN复杂网络Warshall算法Breath-First
Search,BFS算法Deep-First
Search,DFS算法担保圈发现企业关联关系查找技术与算法支撑某金融机构企业关联关系查询BDCN计算引擎BDCN复杂网络W131企业关联关系查询系统企业名称:山东东方伊特广告有限责任公司投资总额:
¥1,000,000被投资额:¥300,000投资企业数:10家被投资企业数:6家投资总额:¥38,234,532投资企业被投资企业投资额度所查企业企业1¥3,000,000所查企业北京市京东林元养殖场¥2,300,000企业5企业6¥1,000,000所查企业北京东豪德利经贸…¥500,000投资额排名:按投资关系展示查询结果企业关联关系查询系统企业名称:山东东方伊特广告有限责任公司投132机器学习引擎(BDML)机器学习引擎133什么是机器学习机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习有监督学习无监督学习半监督学习对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的岐义性高。聚类就是典型的无监督学习介于有监督和无监督之间。什么是机器学习机器学习(MachineLearning,134天云机器学习引擎简介机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,包括分类、协同过滤、聚类分析、统计分析等理论方法。天云大数据的机器学习引擎基于分布式平台,为数据挖掘提供了算法支撑,能够处理海量数据深度挖掘。天云机器学习引擎简介机器学习是人工智能的核心,是使计算机具有135基于有监督机器学习技术的客户流失分析客户1客户2客户3客户4……基本信息购买数据理赔数据健康数据缴费数据呼叫数据HDFS已流失客户清洗、转换规整、建模有监督学习算法模型训练成熟的算法模型基于有监督机器学习技术的客户流失分析客户1客户2客户3客户4136基于有监督机器学习技术的客户流失分析成熟的算法模型客户1客户2客户3客户4……基本信息购买数据理赔数据健康数据缴费数据呼叫数据现有客户客户1客户2客户3客户4流失预警稳定客户客户经理基于有监督机器学习技术的客户流失分析成熟的算法模型客户1客户137基于无监督机器学习技术的客户流失分析年收入2.9万,总标保1.5万以上,高达9万的两全产品,产品覆盖面齐全年收入高达18万,总标保只有1万,寿险和年金金额较高,无投连产品年收入2.9万,高达6.3万的万能产品,产品覆盖面齐全年收入只有0.3万,高达7.7万的投连产品年收入9.7万,标保只有0.5万年收入只有0.8万,高达2.9万的年金产品年收入4.8万,总标保2.6万以上,高达7.6万的年金产品,产品覆盖面齐全基于无监督机器学习技术的客户流失分析年收入2.9万,总标保1138自然语言处理引擎(BDNLP)自然语言处理引擎139什么是自然语言处理自然语言处理在海量文本数据之上进行处理,通过机器实现了文本分类、情感分析、主题模型、摘要抽取等多个模型。分词标注、实体抽取、词频统计、新词识别、文本分类、情感分析、关键词抽取、词向量、依存文法、简繁转换、自动注音、摘要提取、文本聚类什么是自然语言处理自然语言处理在海量文本数据之上进行处理,通140汤森路透上市公司公告处理汤森路透(Thomso
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024版中英文二手房买卖合同范本
- 2024年物业管理服务采购合同
- 17 爬天都峰 说课稿-2024-2025学年语文四年级上册统编版
- 专业绘画合作合同2024版版B版
- 19 怀疑与学问2024-2025学年九年级语文上册同步说课稿(河北专版)
- 【呼吸内科】为了患者健康的呼吸
- 福建省南平市武夷山上梅中学2021-2022学年高二化学上学期期末试题含解析
- 2025年度国际工程项目承包合同5篇
- 2024年鱼池生态旅游租赁合同3篇
- 七夕运动情缘盛宴
- 绵阳市高中2022级(2025届)高三第二次诊断性考试(二诊)历史试卷(含答案)
- 四年级数学(上)计算题专项练习及答案
- 期末测试卷(试题)-2024-2025学年四年级上册数学沪教版
- 超星 尔雅 中国古典小说巅峰-四大名著鉴赏
- 挖掘机专业词语中英对照表2014-12-04
- 中考必备高频词汇2600词(单词版)
- SSB变桨系统的基础知识
- GB∕T 27552-2021 金属材料焊缝破坏性试验 焊接接头显微硬度试验
- 外贸中常见付款方式的英文表达及简要说明
- 抗压偏压混凝土柱承载力计算表格
- 初次申领《南京市建筑业企业信用管理手册(电子版)》办事
评论
0/150
提交评论