大数据数据治理和挖掘解决方案_第1页
大数据数据治理和挖掘解决方案_第2页
大数据数据治理和挖掘解决方案_第3页
大数据数据治理和挖掘解决方案_第4页
大数据数据治理和挖掘解决方案_第5页
已阅读5页,还剩125页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卓越梦想大数据平台数据治理和挖掘解决方案卓越梦想大数据平台数据治理和挖掘解决方案大数据治理框架大数据治理框架由三大部分组成:大数据类型、大数据治理领域、行业与功能2产业和功能场景保险业电信业零售业公共事业医疗保健业组织元数据隐私数据质量大数据类型web和社交媒体数据机器对机器的数据生物计量学数据大体量交易数据人工生成的数据信息治理大数据治理需要高度聚焦于数据本身。传统的数据治理领域同样适用于大数据大数据分析受用例驱动,用例的具体情况因产业和功能而异。客户服务IT业务流程整合情绪分析Facebook忠诚度计划客户流失分析索赔调查IT日志分析车载通信技术位置服务索赔欺诈分析智能仪表患者监测索赔分析客户流失分析通话质量保证基因测试人脸识别承保电子病历RFI日志大数据治理框架大数据治理框架由三大部分组成:大数据类型、大数Contents目录大数据综述2341大数据平台解决方案大数据平台数据治理方法请输入第四部分标题Contents目录大数据综述2341大数据平台解决方01大数据综述01大数据综述数据处理思维转变少量的样本数据数据关系力求明确清晰探求难以捉摸的因果关系要求数据精确无误全量数据

乐于接受数据的纷繁复杂转而关注事物的关联关系

数据的精确不是那么重要了•

谷歌翻译系统为了训练其系统,收集其能找到的所有翻译;•

谷歌收集了上万亿页的语料库,包括质量参差不齐的文档;•

上万亿的语料库,相当于950亿句英语;•

相对而言,谷歌的翻译质量还是最好的;•

谷歌翻译之所以更好,不是因为它拥有一个更好的算法机制,而是增加了各种各样的数据,包括有错误的数据;•

在谷歌的翻译团队中,大多数工程师并不懂其翻译出来的语言;数据处理思维转变传统数据分析思维大数据分析思维案例一•

聘请了20多名书评家和编辑组成的团队,在网页上创立“亚马逊的声音”向客户推荐新书,写书评;•

通过客户的购买历史,寻找客户的相似性,对客户分群进行产品推荐,推荐的总是与以往购买的相似或略有区别;•

通过大量的数据分析,找出书籍之间的关联关系,即“item-to-item”,时亚马逊发生了天翻地覆的变化。•

AMAZON销售额的三分之一来自于“item-to-item”的推荐系统。•

AMAZON最终放弃了在线书评,书评团队被解散。案例二数据处理思维转变少量的样本数据数据关系力求明确清晰探求难以捉数据处理思维转变数据处理思维转变关联关系,预测的关键。很多时候,知道“是什么”就够了,没必要知道“为什么”。一旦我们完成了“关联关系”分析,我们就可以继续向更深层次研究因果关系,找出背后的“为什么”•

沃尔玛:请把蛋挞和飓风用品摆在一起,请把啤酒和尿片摆在一起;•

某信用评分公司,利用Facebook的社交圈来预测个人偿还债务的可能性;•

对冲基金通过分析Twitter微博的数据文本,作为股市投资的信号;•

某信用评分公司,利用Facebook的社交圈来预测个人偿还债务的可能性;•

对冲基金通过分析Twitter微博的数据文本,作为股市投资的信号;其它案例数据处理思维转变•沃尔玛:请把蛋挞和飓风用品摆在一起,请把大数据与BI融合*大数据与BI融合*大数据的商业价值大数据的商业价值大数据主要厂商

大型企业和机构在寻求解决棘手的大数据问题时,往往会使用开源软件基础架构Hadoop的服务。由于Hadoop深受欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop提供解决方案。Hadoop的发行版除了社区的Apachehadoop外,cloudera,IBM,ORACLE等都提供了自己的商业版本。商业版主要是提供Hadoop专业的技术支持,这对一些大型企业尤其重要。ClouderaEMC。。。IBMOracle大数据主要厂商大型企业和机构在寻求解决棘手的大数据问题时,大数据生态HIVEBigDataApplicationsPig!ZooKeeperSQLRAW非结构化资料汇入SQL资料汇入分散式档案系统类SQL资料库系统(非即时性)分散式资料库(即时性)并行计算框架资料处理语言数据挖掘程序库大数据生态HIVEBigDataApplications大数据治理体系与数据治理体系的联系与区别大数据治理是一项系统工程,大到大数据技术平台的搭建、组织的变革、政策的制定、流程的重组,小到元数据的管理、主数据的整合、各种类型大数据的个性化治理和大数据的行业应用。组织必须治理全部大数据,将大数据治理定义如下:

大数据治理是广义数据治理计划的一部分,即制定与大数据有关的数据优化、隐私保护与数据变现的政策。将上述大数据治理的定义分解为以下部分:

大数据是广义数据治理计划的一部分数据治理机构必须采取以下措施,以将大数据整合到既有的数据治理框架中:

扩展数据治理宪章的外延,将大数据治理纳入其中;

拓宽数据治理委员会成员的范围,将数据科学家等大数据的超级用户吸纳进来;

任命处理社交媒体等特定大数据的主管;

将大数据与元数据、隐私、数据质量和主数据等数据治理准则结合。大数据治理关乎政策制定政策包括人们在特定情形下如何作为的成文和非成文的宣告。譬如,大数据治理政策可能申明,未经顾客知情并同意,组织不得将顾客的Facebook资料整合到其主数据记录中。大数据必须优化考虑一下组织是如何将现实世界的准则应用到大数据治理中的。公司设计了精致的企业资产管理计划,对机器、飞机、交通工具和其他资产进行妥善管理。与对实物资产进行登记类似,组织必须对大数据进行如下优化:

元数据——建立大数据类别信息;

数据质量管理——像公司对实物资产进行定期检修一样,定期净化大数据;

信息生命周期管理——对大数据进行存档,并在没必要继续保存某些数据时,将其删除。大数据隐私至关重要组织同样必须建立旨在防止大数据误用的适当政策。组织在处理社交媒体、地理定位、生物计量学和其他形式的个人可识别信息(PII)时,必须考虑涉及的声誉、规制和法律风险。大数据必须变现所谓变现,就是将数据等资产转化为现金的过程,变现的方式可以是将数据卖给第三方,也可以是利用数据开发新的服务。在当下,公司意识到,必须将大数据视为具有财务价值的企业资产。例如,运营部门可以通过传感器数据,根据定期检修计划,提高设备正常运行时间。呼叫中心可以分析客户代表的记录,通过了解顾客呼叫的原因,降低呼叫量。此外,零售商可以使用主数据激活Facebook的应用程序,提升顾客忠诚度。大数据治理体系与数据治理体系的联系与区别大数据治理是一项系统02大数据平台解决方案02大数据平台解决方案大数据平台整体架构大数据平台整体架构大数据处理流程建立对非结构化数据进行SQL语法查询的支持,实现与结构化数据的集成关联(key)主分类关键词标签地名人名全国统一分类分词,倒排搜索共性、个性文本识别处理功能模块网页分类反向搜索关键词分析日志关联内容分词索引建立索引分析日志合并用户类别标签摘要结构化元信息网页信息分类数据获取语义分析数据解析

非结构化数据数据获取结构化数据数据集市数据集市EDW结构化元数据Hadoop建立非结构化信息的标签、摘要、索引、日志、内容等提取结构化的元数据信息,如类别、标引、摘要等;实现与结构化数据的整合ODSSQL声誉度分析品牌分析服务质量分析竞争产品分析产品评价市场动态跟踪ETL网络爬虫大数据处理流程主分类关键词标签地名人名全国统一分类分词,倒排大数据关键技术大数据关键技术大数据关键技术-Hadoop大数据关键技术-HadoopHadoop系统工作原理Hadoop系统工作原理大数据关键技术-网络数据获取分布式网络爬虫分布式文件系统分布式存储横向扩容(Scale-out)架构分布式软件架构并行计算框架大数据关键技术-网络数据获取分布式网络爬虫分布式文件系统分布大数据关键技术-两种平台相互集成大数据关键技术-两种平台相互集成大数据关键技术-数据应用功能数据查询数据统计信息检索数据分析语义分析数据挖掘经营管理市场活动市场口碑分销管理决策支持用户服务大数据关键技术-数据应用功能数据查询数据统计信息检索数据分析大数据关键技术-数据管控大数据关键技术-数据管控03大数据平台数据治理方法03大数据平台数据治理方法传统数据平台与大数据分布式平台特性差异传统数据平台与大数据分布式平台特性差异大数据分析与传统BI分析差异结构化数据数据规模一般为TB规模集中式,为了分析进行大量数据移动,数据向计算靠近批处理为主结构化/非结构化混合分析的能力数据规模从数十TB到PB级别分布式,计算向数据靠近支持流式分析事务关系型数据库批处理数据仓库分析集群化非结构化流式多种数据源分析(MapReduce)组织传统BI分析大数据分析大数据分析与传统BI分析差异结构化数据结构化/非结构化混合分大数据处理和管理体系-多结构化大数据处理和管理体系-多结构化大数据实施建议第一阶段:应用场景驱动的大数据开发第二阶段:各业务系统、各渠道系统等配合大数据改造优化第三阶段:管理信息体系下的大数据平台建设第四阶段(目标):以大数据驱动的,实时的、整体联动的IT解决方案Think

big,

start

small.大处着眼,小处着手。大数据实施建议第一阶段:应用场景驱动第二阶段:各渠道系统等第大数据实施方法论大数据业务战略大数据建设目标大数据架构设计大数据实施大数据运维企业战略目标业务目标业务模式大数据治理目标应用场景服务模式服务对象大数据服务定义大数据信息模型大数据管理定义技术选择验证测试容量规划安装,配置验收测试系统上线大数据服务管理服务性能管理生命周期管理资源调度系统监控大数据持续改进业务调整服务改进技术升级架构优化大数据实施方法论大数据业务战略大数据建设目标大数据架构设计大大数据的角色和技能大数据的角色和技能大数据治理成熟度模型实施大数据治理的第一步,是评估大数据治理成熟度的当前状态和期望的未来状态。现将某信息治理委员会的成熟度模型用于成熟度评估。该模型设立了4个领域的11个大数据治理成熟度指标。29支持准则数据架构数据标准审计信息日志和报告核心准则数据质量管理信息生命周期管理信息安全与隐私支持要素管理人员数据风险管理政策目标业务成果要求支持增强组织机构和认识元数据大数据治理成熟度模型实施大数据治理的第一步,是评估大数据治理大数据治理成熟度模型介绍及问题示例30目标目标指信息治理计划的预期结果。目标倾向于关注降低风险与提升价值,这反过来又受降低成本和提高收入的驱动。业务成果:代表信息治理计划的目标和目的。业务成果:A是否已经确定了大数据治理计划的关键业务关联方?B是否对大数据治理可带来的财务收益进行了量化?支持要素核心准则支持准则组织结构和认识:指业务部门和IT部门间的相互责任,以及对治理不同管理层次中数据的信托责任的认识。管理人员:旨在保证数据监护,实现资产增值、风险消解和组织控制的质量控制准则。数据风险管理:据以识别、保留、量化、规避、接受、消解和转嫁风险的方法论。政策:期望得到落实的组织行为的书面表达。数据结构和认识:如关键角色的职位说明中,是否包含大数据治理,如配备首席数据官和信息治理官?管理人员:是否已经建立了责任分配(RACI)矩阵,以定义针对大数据关键属性的角色和责任?数据风险管理:是否在大数据治理与风险治理之间建立了联系?政策:是否已经归档了一组大数据治理政策?数据质量管理:指测量、提高和保证产品数据、测试数据和归档数据的质量和集成性的方法。信息生命周期管理:有关信息采集、使用、保留和删除的系统化的、基于策略的方法。信息安全与隐私:组织用于消解风险和保护数据资产的策略、实践和控制手段。数据质量管理:对于与大数据相关的质量问题(数据价值不高或不显著),是否达成了一致意见?信息生命周期管理:是否制定了流程,根据法律和业务要求合法处理不再需要的大数据?信息安全和隐私:首席信息安全官是否是大数据治理计划的关键支持者?数据架构:结构化和非结构化数据系统及应用的架构式设计,用于实现数据的可用性,并将数据分配给合适的用户。元数据:指用于创建常见的语义定义、IT术语、数据模型和数据库的方法和工具。审计信息日志和报告:指监测和测量数据价值、风险和信息治理有效性的组织流程。数据架构:Hadoop、NoSQL以及与当前架构相关的其他新兴大数据技术的共存战略是怎样的?分类和元数据:业务词库是否包含与大数据相关的关键业务术语(如针对点击流数据的“独立访客”)?审计信息日志和报告:企业如何检测特权用户对医保索赔和通话详单等敏感大数据的访问?问题示例模型介绍大数据治理成熟度模型介绍及问题示例30目标目标指信息治理计划案例某大型金融机构资金管理部的大数据治理路线图31创建Hadoop基础设施大数据治理的演进关键活动每日头寸快照社交媒体和非结构化内容治理大数据某大型金融机构的资金管理部,为大中型企业提供现金管理和流动性管理的综合服务。该部门处于部署大数据计划的早期阶段,其最初的大数据治理路线图如右图所示:第1-6个月构建技术基础设施,获得Linux服务器和ApacheHadoop发行版。由于大数据是一个新事物,在切入业务前,必须设计一个可行的用例,并进行财务可行性论证。此外,组织要认真审视数据管理的传统方面:怎样将数据导入并导出Hadoop?Hadoop中的数据质量如何?大数据的元数据是怎样的?如何将大数据整合到未来12个月将要部署的主数据管理数据库中?大数据已经成为主流媒体的热门词汇,高管层至少很有可能同意支持一个大数据试点项目。因此,数据治理团队需要及时更新路线图,将与大数据有关的人员、流程和技术计划纳入其中。第6-12个月引入详细的交易记录,以分析每日头寸快照。受传统基础设施成本高昂的影响,以往的金融机构从未进行这样细致入微的分析。第12-24个月将社交媒体数据和其他非结构化内容引入Hadoop环境。由于金融机构的大多数客户是大企业,对交易对手的10-K和10-Q归档等非结构化内容,进行探索性分析。第24-36个月资金管理部已经有了现成的聚焦于大企业客户的主数据的信息治理计划。案例某大型金融机构资金管理部的大数据治理路线图31创建Had大数据处理框架的组成32大数据治理需要高度聚焦于数据本身。我们将大数据分为五种:web和社交媒体数据、机器对机器的数据、大体量交易数据、生物计量学数据和人工生成的数据。大数据类型信息治理准则产业与功能传统的信息治理准则,同样适用于大数据,相关准则包括组织、元数据、隐私、数据质量、业务流程整合、主数据整合和信息生命周期管理。大数据分析是受例驱动的,用例的具体情况因产能和功能而异。限于篇幅,我们只列出了部分的产业和功能。大数据处理框架的组成32大数据治理需要高度聚焦于数据本身。我大数据的类型大数据大体可分为五种类型33Web和社交媒体数据二的点击流数据TwitterFeedsFacebook帖子网络内容Web和社交媒体数据二的点击流数据TwitterFeedsFacebook帖子网络内容机器对机器的数据二的公用事业智能仪表读数RFID读数石油钻探设备传感器读数网络内容Web和社交媒体数据二的点击流数据TwitterFeedsFacebook帖子网络内容Web和社交媒体数据二的点击流数据TwitterFeedsFacebook帖子网络内容类型大数据的类型大数据大体可分为五种类型33Web和社交媒体数据职责分配(RACI)所代表的内涵34应负责方(Responsible)指授权管理某属性的人。(一种属性可有多个负责人)最终负责方(Accountable)指数据属性承担最终责任的人。咨询方(Consulted)指通过双向沟通接受咨询的某人或某些人。被告知方(Informed)指通过单向沟通被告知的某人或某些人。职责分配(RACI)所代表的内涵34应负责方(Respons大数据治理计划需要实施的最佳实践351324创建一个体现关键大数据术语的业务定义的词库。理解对ApacheHadoop中元数据的持续支持。对业务词库中的敏感大数据进行标记。从相关的大数据存储中输入技术元数据。将相关的数据元与业务词库中的术语进行链接。5768使用运营元数据监测大数据的流动。保留技术元数据,以支持数据血统和影响分析。从非结构化文件中采集元数据,支持企业搜索。扩展既有的元数据角色,将大数据纳入其中。9元数据是描述数据产品特征的任何信息,如名字、位置、可感知的、重要性、质量、对企业的价值,以及与企业认为值得管理的其他数据产品的关系等。元数据决定信息架构的如何满足业务需求,因此元数据是信息治理计划的关键。大数据治理计划需要实施的最佳实践351324创建一个体现关键业务词库36业务词库业务词库是企业用于传达其对信息的认识的语言。创建并维护该层业务元数据,对表达要求的含义和描述IT系统可用的信息至关重要。业务词库保证了信息开发的准确性和速度。术语代表着企业和业务层面对信息的理解,所以许多组织倾向于自下而上创建数据词典,对已有的信息进行归类。在处理大数据时,业务驱动的数据定义和数据目录之间的区别尤为重要业务词库保证了信息开发的准确性和速度。在处理大数据时,业务驱动的数据定义和数据目录之间的区别尤为重要。业务词库36业务词库业务词库是企业用于传达其对信息的认识的语对业务词库中的敏感数据37对敏感的大数据进行分类发现敏感数据对业务词库中的敏感数据进行标记执行大数据隐私政策进行分类大数据治理计划需要对社会保险号码等敏感数据进行分类。分类应来自业务词库模型并被传承到不同数据库中数据的所有物理实例中。敏感的大数据可能隐藏在非结构化文本中。大数据治理计划应考虑数据分析工具的利用,以便自动发现非结构化字段的敏感数据。首席信息安全官制定有关敏感数据的政策。只有在识别到敏感数据的位置时,组织才能执行政策,因此,在业务词库中标记敏感数据就非常关键。大数据治理团队可以通过使用数据分析工具发现敏感的大数据,以监督对政策的遵从度。对业务词库中的敏感数据37对敏感的大数据进行分类发现敏感数据从相关的大数据存储中输入技术元数据38在创建业务词库后大数据治理团队需要从大数据源中采集合用的、相关的元数据。大数据源Hadoop文件商业智能报告应用数据库数据模型准结构化非结构化数据结构化信息管理经销商元数据中央存储库桥接器连接器从相关的大数据存储中输入技术元数据38在创建业务词库后大数据元数据39元数据创建一个体现关键大数据术语的业务定义的词库理解对ApacheHadoop中元数据的持续支持对业务词库中的敏感大数据进行标记从相关的大数据存储中输入技术元数据将相关的数据元与业务词库的术语进行链接使用运营元数据监测大数据的流动保留技术元数据,以支持数据血统和影响分析元数据39元数据创建一个体现关键大数据术语的业务定义的词库理从非结构化文件中采集元数据,支持企业搜索创建非结构化数据的索引,也是元数据的一种形式,许多企业的搜索供应商已开发相应工具。40保险业通过向呼叫人员提供客服关怀、告警、保单和客户信息文件等多个文件库的可搜索访问,可将平均处理时间减少三秒,年节约数百万美元。通过提供对EMCDocumentum、文件系统、微软Share-Point、内网和外部数据库中客户、患者和研究数据的快速访问,加快科研进程。让临床医生可访问来自医学刊物和其他文件库的最新研究成果。制药业医疗保险业从非结构化文件中采集元数据,支持企业搜索创建非结构化数据的索拓展既有的元数据角色,将大数据纳入其中信息治理团队可能安排许多与原数据相关的角色。组织需考虑这些角色进行拓展,以将大数据治理纳入进来。41业务词库管理者数据科学家元数据管理者数据血统管理者数据主管数据架构师本角色负责保管应将大数据术语包含在内的业务词库。本角色负责在相关数据源识别和输入技术元数据。数据血统管理者与数据管理者配合,确保数据血统分析中数据源之间的数据流可得到准确地反映。本角色参与大数据特别是关键业务术语定义的管理。本角色监督元数据模型的创建及其与企业数据模型的连接。本角色缩短了大数据原始卷和使其有用的业务洞察间的距离,其通过创造力和想象力创建原型,以揭开大数据中的秘密。拓展既有的元数据角色,将大数据纳入其中信息治理团队可能安排许大数据质量42维度传统数据的质量大数据的质量处理频率处理是面向批量的处理是实时的或面向批量的数据多样性数据格式大部分是结构化的数据格式可能是结构化的、准结构化的或非结构化的置信度数据需处于原始阶段,以方便数据仓库的分析糟糕的数据质量可能会阻碍分析工具获得业务洞察数据进化的时间选择在下载到数据仓库前数据需要进化数据的体量和速度可能要求采取流式的、内存中的分析来进化数据、从而降低存储要求关键数据元素评估客户地址等关键数据元素的数据质量数据可能被模糊定义或错误定义,关键数据元素可能会反复变化分析位置数据迁移到数据质量和分析引擎数据质量和分析引擎可进入数据中,以保证可接受的处理速度管理工作数据主管可管理大部分数据由于体量大和速度快,数据主管只能管理相对更小的数据数据质量管理是测度、提高、验证质量以及整合组织数据的方法等一套行为准则。体量极大、速度极快和多样的特点,决定了大数据质量所需的处理有别于传统信息治理计划的质量管理。大数据质量42维度传统数据的质量大数据的质量处理频率处理是面大数据治理计划必须采取的实践439.1与商业上的利益攸关者协作,建立并测度大数据质量的置信区间9.2利用准结构化和非结构化数据,提高人口稀疏的结构化数据的质量9.3使用流数据分析技术解决内存中的数据质量问题,无需将中间结果输入硬盘9.4任命对信息治理委员会负责的主管,由其负责提高大数据治理计划必须采取的实践439.1与商业上的利益攸关者业务流程整合

4410.1识别将会受到大数据治理影响的关键流程10.2建立关键合同的流程图10.3针对业务流程中的关键步骤,制定大数据治理政策业务流程整合4410.1识别将会受到大数据治理影响的关键流1.大数据源图21.1大数据技术参考架构45Web和社交媒体数据机器对机器的数据大体量交易数据生物计量学数据人工生成的数据15.大数据安全和隐私16.大数据生命周期管理17.云2.开源的基础组件HDFSMapReduceHadoopCommonHBaseOthers5.数据库NoSQLIn-MemoryRelationalLegacy6.大数据整合批量迁移复制虚拟化7.文本分析8.大数据发现9.大数据质量10.元数据11.信息政策管理12.主数据管理13.数据仓库和数据集市14.大数据分析和报告3.Hadoop发行版4.流媒体分析18.大数据标准8.大数据发现9.大数据质量1.大数据源图21.1大数据技术参考架构45Web和社交媒微软的大数据平台461.微软Hadoop发行版6.WindowsAzureExcel5.大数据分析与报告SQLServerAnalysisServicesSQLServerParallelEditionSQLServerReportingServices4.数据仓库与数据集市3.大数据整合2.数据库开源基础组件大数据源SQLServerIntegrationServicesSQLServer微软的大数据平台461.微软Hadoop发行版6.Windo理解对ApacheHadoop中元数据的持续支持47名称节点数据块A数据节点机架1数据块B数据块C数据块A数据节点机架2数据块B数据块C数据块A数据节点机架3数据块B数据块C图:Hadoop分布式文件系统(HDFS)的技术构架作为Hadoop关键支持要素的元数据如图Hadoop分布式文件系统(HDFS)是一个带单个名称节点和多个数据结点的主/从架构。单点故障因为HDFS很容易受到名称节点故障的损害,所以Hadoop经销商建议管理者存储一些不同本地硬盘的备份可拓展性随着数据存储动能的扩大,主服务器名称节点可能出现可拓展性的问题,主服务器名称节点必须将所有元数据保存在内存中。HCatalogHcatalog项目是Apache孵化器的一部分,旨在解决Hadoop中缺乏元数据支持的问题。理解对ApacheHadoop中元数据的持续支持47名称节大数据安全与隐私48部分漏洞变通方案HDFS没有授权系统,注册用户可以在群中读写任何数据Hadoop注册用户通过“whoami”命令访问,这是不安全的Hbase没有访问控制,Hadoop群中任何工作运行均可以访问群中任何数据……不要在Hadoop中存储任何敏感数据对敏感数据进行加密,包括隐藏文本和非结构欧化领域的内容将每个数据置于自己的群中,以便用户仅可以访问被授权的数据……Hadoop是一项新技术,我们预计随着大公司和供应链的介入,上述问题将被得到解决。大数据安全与隐私48部分漏洞变通方案HDFS没有授权系统,04大数据质量管理平台04大数据质量管理平台数据质量管理平台技术架构数据质量检查规则执行模块作为多个ETL任务部署在工商数据平台ETL服务器上,由Automation工作流调度服务统一调度运行,实现各个数据区技术和业务数据质量检查数据质量管理系统元模型包含检查规则、检查执行结果、分析报告,模型作为一个独立的Schema部署在决策分析报表平台的数据库数据质量检查规则配置模块作为JavaWeb应用部署在工商数据平台Tomcat集群上,数据质量管理员通过统一的Web服务访问,实现检查规则的维护数据质量分析报告展现模块作为JavaWeb应用部署在工商数据平台Tomcat集群上,用户通过统一的Web服务访问,实现日报、月报的浏览、下载等功能数据质量分析报告生成模块作为一个ETL任务部署在决策分析报表平台ETL服务器上,由Automation工作流调度服务统一调度运行,按照每日、每月生成各数据区数据质量检查报告数据质量管理平台以元信息模型为核心,由规则配置管理模块、检查执行模块、分析报告生成模块和分析报告展现模块四部分构成。整个数据质量检查过程以ETL任务的形式统一调度执行。数据质量管理平台技术架构数据质量检查规则执行模块作为多个ET数据质量检查执行服务数据质量管理的规则执行服务作为ETL任务部署在ETL服务器上在整个数据处理过程中,设置4类检查点在不同的检查点由TaskAutomation工作流统一调度执行检查结果统一存入数据质量管理资料库1234数据质量检查执行服务数据质量管理的规则执行服务作为ETL任务检查规则执行服务检查点1云数据推送平台接口文件级规范性检查任务说明任务类型ETL任务——技术型检查ETL阶段云数据推送平台->工商数据交换平台NAS存储指定目录执行频率每日执行执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在ETL服务器上执行检查对象云数据推送平台按照接口规范导出的业务系统每日增量数据文件和控制文件检查内容接口文件是否存在,接口文件名称是否正确,接口文件是否通过MD5校验实现技术Linux脚本语言,Perl或Python成功阈值所有规则通过检查依赖任务N/A触发任务数据加载检查规则执行服务检查点1云数据推送平台接口文件级规范性检查任检查规则执行服务检查点2临时区数据技术性检查任务说明任务类型ETL任务——技术型检查ETL阶段临时数据区->贴源整合数据区执行频率每日执行执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在Hadoop集群上执行检查对象云数据推送平台按照接口规范导出的业务系统每日增量数据检查内容日期、时间格式检查;主键唯一型检查;外键参照完整型检查;关键字段取值完整性检查实现技术HiveSQL成功阈值90%记录通过检查异常处理未通过检查的记录存入指定错误明细表依赖任务接口文件级规范性检查任务触发任务贴源数据整合任务检查规则执行服务检查点2临时区数据技术性检查任务说明任务类型检查规则执行服务检查点3汇总区业务性检查任务内容说明任务类型ETL任务——业务型检查ETL阶段贴源整合数据区->汇总数据区执行频率每日/月/季执行执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在Hadoop集群上执行检查对象汇总数据区的数据检查内容业务逻辑检查:通过对若干个汇总值/指标值的运算,来检验各个汇总值/指标间潜在的平衡或其他比较关系实现技术HiveSQL成功阈值90%记录通过检查异常处理未通过检查的记录存入指定错误明细表依赖任务贴源整合数据区数据处理完成触发任务集市数据区应用数据生成检查规则执行服务检查点3汇总区业务性检查任务内容说明任务类型检查规则执行服务检查点4.1应用集市区技术性检查任务内容说明任务类型ETL任务——业务型检查ETL阶段汇总数据区->应用集市数据区执行频率每日/月/季执行执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在应用集市数据库集群上执行检查对象应用集市数据区的数据检查内容主键唯一型检查;外键参照完整型检查;关键字段取值完整性检查实现技术SQL成功阈值90%记录通过检查异常处理未通过检查的记录存入指定错误明细表依赖任务汇总数据区数据处理完成触发任务N/A检查规则执行服务检查点4.1应用集市区技术性检查任务内容说明检查规则执行服务检查点4.2应用集市区业务性检查任务内容说明任务类型ETL任务——业务型检查ETL阶段汇总数据区->应用集市数据区执行频率每日/月/季执行执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在应用集市数据库集群上执行检查对象应用集市数据区的数据检查内容业务逻辑检查:通过对若干个指标值的运算,来检验各个指标间潜在的平衡或其他比较关系数值检查:主要是通过对单个指标值的监控来发现数据的异常、突变等情况波动检查:通过对单个指标值一段时间内的数值变化情况来检查数据的波动、变化情况一致性检查:通过对两个指标按某几个维度展开后的增减幅度来发现数据的波动、变化情况实现技术SQL成功阈值90%记录通过检查异常处理未通过检查的记录存入指定错误明细表依赖任务汇总数据区数据处理完成触发任务N/A检查规则执行服务检查点4.2应用集市区业务性检查任务内容说明数据质量管理分析报告生成服务分析报告生成服务是部署在ETL服务器上的ETL任务,按照任务流程被TaskAutomation统一调度执行,生成以下三类报告:源系统数据交换质量日报该报告汇总了报告生成当天源系统的数据接口校验结果,包括针对每个接口单元的表及记录级校验错误的统计数据和指标日平均值数据质量汇总日报该报告依照每日各源系统数据交换评价指标的平均值及当天的贴源数据、汇总数据和数据集市质量检查结果汇总生成数据质量汇总月报该报告依照当月的日报结果,取各项指标的平均值和数据统计的汇总值生成数据质量管理分析报告生成服务分析报告生成服务是部署在ETL服数据质量管理分析报告指标定义指标分类指标名称指标说明对应报告接口单元级评价指标接口传输及时率指在最后截止时间前完成上传的接口单元数量与时限内要求上传的接口单元数的比率。《源系统数据交换质量日报(XX系统)》接口传输完整率指在数据质量日报告生成之前,成功上传的接口单元数量与要求上传的接口单元数量的比率。《源系统数据交换质量日报(XX系统)》接口准确率指与接口校验内容描述一致的接口单元数量与要求上传的接口单元数量的比率。《源系统数据交换质量日报(XX系统)》记录级评价指标记录正确率正确的记录数与全部记录数的比值。每条记录只要违反任一条检查规则(例如:主键唯一、业务规则等),就被计入错误日志。每个接口单元的最大允许出错阈值由数据质量检查规则确定。计算公式如下:当Ec<Emax时:记录正确率=当Ec>=Emax时:记录正确率=0说明:Ec—出错记录数Et—记录总数Emax—最大允许出错阈值《源系统数据交换质量日报(XX系统)》《数据质量汇总日报》《数据质量汇总月报》数据质量管理分析报告指标定义指标分类指标名称指标说明对应报告分析报告生成服务:源系统数据交换质量日报明细报告生成任务内容说明任务类型ETL任务——明细日报生成ETL阶段分析报告生成阶段执行频率每日执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在数据质量管理元数据库上执行评价对象数据质量检查点1、2对应的检查任务执行结果评价指标接口传输及时率、接口传输完整率、接口准确率实现技术MySQLSQL命令依赖任务ETL处理完成触发任务数据质量汇总日报生成任务分析报告生成服务:源系统数据交换质量日报明细报告生成任务内容分析报告生成服务:数据质量汇总日报数据质量汇总日报生成任务内容说明任务类型ETL任务——汇总日报生成ETL阶段分析报告生成阶段执行频率每日执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在数据质量管理元数据库上执行评价对象数据质量检查点2、3、4对应的检查任务执行结果评价指标记录正确率实现技术MySQLSQL命令依赖任务源系统数据交换质量日报生成触发任务数据质量汇总月报生成任务分析报告生成服务:数据质量汇总日报数据质量汇总日报生成任务内分析报告生成服务:数据质量汇总月报任务内容说明任务类型ETL任务——汇总月报生成ETL阶段分析报告生成阶段执行频率每月月初执行方式由TaskAutomation工作流引擎根据工作流定义统一调度,在数据质量管理元数据库上执行评价对象当月所有数据质量检查点对应的检查任务执行结果评价指标记录正确率实现技术MySQLSQL命令依赖任务数据质量汇总日报生成任务触发任务N/A分析报告生成服务:数据质量汇总月报任务内容说明任务类型ETL数据质量管理元信息库采用MySQL数据库,存储数据质量检查规则、数据质量检查结果、数据质量检查报告示例数据质量管理元信息库采用MySQL数据库,存储数据质量检查规检查规则配置管理模块说明模块名称接口单元级技术检查规则配置管理模块实现功能该模块的主要任务是用web界面方式引导用户完成数据质量检查规则的配置,主要包括检查规则的唯一标识、检查规则简单描述、检查类型、检查对象、生效标志、检查规则(如:SQL命令)等。模块需要实现如下功能:规则新增;增加一条检查规则规则修改;修改规则内容规则删除;删除已有的规则规则生效:设置规则的状态为生效或无效规则搜索:按规则ID、接口名称搜索规则实现技术J2EE运行方式作为WAR包部署在Tomcat集群上发布链接到工商数据平台门户上用户通过B/S方式登录平台执行配置管理使用对象数据质量管理员检查规则配置管理模块说明模块名称接口单元级技术检查规则配置管数据质量管理分析报告展现模块说明模块名称源系统数据交换质量日报、数据质量汇总日报、数据质量汇总月报展现模块实现功能该模块的主要任务是用web界面方式引导用户提交查询条件,查看满足条件的数据质量管理分析。模块需要实现如下功能:报告查询;按照时间、报告名称报告查看;在线查看报告内容报告下载;将报告下载到本地查看错误明细下载;下载未通过数据质量检查的出错记录明细有效时间每日或月ETL处理结束后实现技术J2EE运行方式作为WAR包部署在Tomcat集群上发布链接到工商数据平台门户上用户通过B/S方式登录平台执行配置管理使用对象源系统维护人员(查看相关源系统日报)、数据质量管理员、ETL管理员、公司领导数据质量管理分析报告展现模块说明模块名称源系统数据交换质量日卓越梦想演示完毕感谢观看卓越梦想演示完毕感谢观卓越梦想大数据平台数据治理和挖掘解决方案卓越梦想大数据平台数据治理和挖掘解决方案大数据治理框架大数据治理框架由三大部分组成:大数据类型、大数据治理领域、行业与功能67产业和功能场景保险业电信业零售业公共事业医疗保健业组织元数据隐私数据质量大数据类型web和社交媒体数据机器对机器的数据生物计量学数据大体量交易数据人工生成的数据信息治理大数据治理需要高度聚焦于数据本身。传统的数据治理领域同样适用于大数据大数据分析受用例驱动,用例的具体情况因产业和功能而异。客户服务IT业务流程整合情绪分析Facebook忠诚度计划客户流失分析索赔调查IT日志分析车载通信技术位置服务索赔欺诈分析智能仪表患者监测索赔分析客户流失分析通话质量保证基因测试人脸识别承保电子病历RFI日志大数据治理框架大数据治理框架由三大部分组成:大数据类型、大数Contents目录大数据综述2341大数据平台解决方案大数据平台数据治理方法请输入第四部分标题Contents目录大数据综述2341大数据平台解决方01大数据综述01大数据综述数据处理思维转变少量的样本数据数据关系力求明确清晰探求难以捉摸的因果关系要求数据精确无误全量数据

乐于接受数据的纷繁复杂转而关注事物的关联关系

数据的精确不是那么重要了•

谷歌翻译系统为了训练其系统,收集其能找到的所有翻译;•

谷歌收集了上万亿页的语料库,包括质量参差不齐的文档;•

上万亿的语料库,相当于950亿句英语;•

相对而言,谷歌的翻译质量还是最好的;•

谷歌翻译之所以更好,不是因为它拥有一个更好的算法机制,而是增加了各种各样的数据,包括有错误的数据;•

在谷歌的翻译团队中,大多数工程师并不懂其翻译出来的语言;数据处理思维转变传统数据分析思维大数据分析思维案例一•

聘请了20多名书评家和编辑组成的团队,在网页上创立“亚马逊的声音”向客户推荐新书,写书评;•

通过客户的购买历史,寻找客户的相似性,对客户分群进行产品推荐,推荐的总是与以往购买的相似或略有区别;•

通过大量的数据分析,找出书籍之间的关联关系,即“item-to-item”,时亚马逊发生了天翻地覆的变化。•

AMAZON销售额的三分之一来自于“item-to-item”的推荐系统。•

AMAZON最终放弃了在线书评,书评团队被解散。案例二数据处理思维转变少量的样本数据数据关系力求明确清晰探求难以捉数据处理思维转变数据处理思维转变关联关系,预测的关键。很多时候,知道“是什么”就够了,没必要知道“为什么”。一旦我们完成了“关联关系”分析,我们就可以继续向更深层次研究因果关系,找出背后的“为什么”•

沃尔玛:请把蛋挞和飓风用品摆在一起,请把啤酒和尿片摆在一起;•

某信用评分公司,利用Facebook的社交圈来预测个人偿还债务的可能性;•

对冲基金通过分析Twitter微博的数据文本,作为股市投资的信号;•

某信用评分公司,利用Facebook的社交圈来预测个人偿还债务的可能性;•

对冲基金通过分析Twitter微博的数据文本,作为股市投资的信号;其它案例数据处理思维转变•沃尔玛:请把蛋挞和飓风用品摆在一起,请把大数据与BI融合*大数据与BI融合*大数据的商业价值大数据的商业价值大数据主要厂商

大型企业和机构在寻求解决棘手的大数据问题时,往往会使用开源软件基础架构Hadoop的服务。由于Hadoop深受欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop提供解决方案。Hadoop的发行版除了社区的Apachehadoop外,cloudera,IBM,ORACLE等都提供了自己的商业版本。商业版主要是提供Hadoop专业的技术支持,这对一些大型企业尤其重要。ClouderaEMC。。。IBMOracle大数据主要厂商大型企业和机构在寻求解决棘手的大数据问题时,大数据生态HIVEBigDataApplicationsPig!ZooKeeperSQLRAW非结构化资料汇入SQL资料汇入分散式档案系统类SQL资料库系统(非即时性)分散式资料库(即时性)并行计算框架资料处理语言数据挖掘程序库大数据生态HIVEBigDataApplications大数据治理体系与数据治理体系的联系与区别大数据治理是一项系统工程,大到大数据技术平台的搭建、组织的变革、政策的制定、流程的重组,小到元数据的管理、主数据的整合、各种类型大数据的个性化治理和大数据的行业应用。组织必须治理全部大数据,将大数据治理定义如下:

大数据治理是广义数据治理计划的一部分,即制定与大数据有关的数据优化、隐私保护与数据变现的政策。将上述大数据治理的定义分解为以下部分:

大数据是广义数据治理计划的一部分数据治理机构必须采取以下措施,以将大数据整合到既有的数据治理框架中:

扩展数据治理宪章的外延,将大数据治理纳入其中;

拓宽数据治理委员会成员的范围,将数据科学家等大数据的超级用户吸纳进来;

任命处理社交媒体等特定大数据的主管;

将大数据与元数据、隐私、数据质量和主数据等数据治理准则结合。大数据治理关乎政策制定政策包括人们在特定情形下如何作为的成文和非成文的宣告。譬如,大数据治理政策可能申明,未经顾客知情并同意,组织不得将顾客的Facebook资料整合到其主数据记录中。大数据必须优化考虑一下组织是如何将现实世界的准则应用到大数据治理中的。公司设计了精致的企业资产管理计划,对机器、飞机、交通工具和其他资产进行妥善管理。与对实物资产进行登记类似,组织必须对大数据进行如下优化:

元数据——建立大数据类别信息;

数据质量管理——像公司对实物资产进行定期检修一样,定期净化大数据;

信息生命周期管理——对大数据进行存档,并在没必要继续保存某些数据时,将其删除。大数据隐私至关重要组织同样必须建立旨在防止大数据误用的适当政策。组织在处理社交媒体、地理定位、生物计量学和其他形式的个人可识别信息(PII)时,必须考虑涉及的声誉、规制和法律风险。大数据必须变现所谓变现,就是将数据等资产转化为现金的过程,变现的方式可以是将数据卖给第三方,也可以是利用数据开发新的服务。在当下,公司意识到,必须将大数据视为具有财务价值的企业资产。例如,运营部门可以通过传感器数据,根据定期检修计划,提高设备正常运行时间。呼叫中心可以分析客户代表的记录,通过了解顾客呼叫的原因,降低呼叫量。此外,零售商可以使用主数据激活Facebook的应用程序,提升顾客忠诚度。大数据治理体系与数据治理体系的联系与区别大数据治理是一项系统02大数据平台解决方案02大数据平台解决方案大数据平台整体架构大数据平台整体架构大数据处理流程建立对非结构化数据进行SQL语法查询的支持,实现与结构化数据的集成关联(key)主分类关键词标签地名人名全国统一分类分词,倒排搜索共性、个性文本识别处理功能模块网页分类反向搜索关键词分析日志关联内容分词索引建立索引分析日志合并用户类别标签摘要结构化元信息网页信息分类数据获取语义分析数据解析

非结构化数据数据获取结构化数据数据集市数据集市EDW结构化元数据Hadoop建立非结构化信息的标签、摘要、索引、日志、内容等提取结构化的元数据信息,如类别、标引、摘要等;实现与结构化数据的整合ODSSQL声誉度分析品牌分析服务质量分析竞争产品分析产品评价市场动态跟踪ETL网络爬虫大数据处理流程主分类关键词标签地名人名全国统一分类分词,倒排大数据关键技术大数据关键技术大数据关键技术-Hadoop大数据关键技术-HadoopHadoop系统工作原理Hadoop系统工作原理大数据关键技术-网络数据获取分布式网络爬虫分布式文件系统分布式存储横向扩容(Scale-out)架构分布式软件架构并行计算框架大数据关键技术-网络数据获取分布式网络爬虫分布式文件系统分布大数据关键技术-两种平台相互集成大数据关键技术-两种平台相互集成大数据关键技术-数据应用功能数据查询数据统计信息检索数据分析语义分析数据挖掘经营管理市场活动市场口碑分销管理决策支持用户服务大数据关键技术-数据应用功能数据查询数据统计信息检索数据分析大数据关键技术-数据管控大数据关键技术-数据管控03大数据平台数据治理方法03大数据平台数据治理方法传统数据平台与大数据分布式平台特性差异传统数据平台与大数据分布式平台特性差异大数据分析与传统BI分析差异结构化数据数据规模一般为TB规模集中式,为了分析进行大量数据移动,数据向计算靠近批处理为主结构化/非结构化混合分析的能力数据规模从数十TB到PB级别分布式,计算向数据靠近支持流式分析事务关系型数据库批处理数据仓库分析集群化非结构化流式多种数据源分析(MapReduce)组织传统BI分析大数据分析大数据分析与传统BI分析差异结构化数据结构化/非结构化混合分大数据处理和管理体系-多结构化大数据处理和管理体系-多结构化大数据实施建议第一阶段:应用场景驱动的大数据开发第二阶段:各业务系统、各渠道系统等配合大数据改造优化第三阶段:管理信息体系下的大数据平台建设第四阶段(目标):以大数据驱动的,实时的、整体联动的IT解决方案Think

big,

start

small.大处着眼,小处着手。大数据实施建议第一阶段:应用场景驱动第二阶段:各渠道系统等第大数据实施方法论大数据业务战略大数据建设目标大数据架构设计大数据实施大数据运维企业战略目标业务目标业务模式大数据治理目标应用场景服务模式服务对象大数据服务定义大数据信息模型大数据管理定义技术选择验证测试容量规划安装,配置验收测试系统上线大数据服务管理服务性能管理生命周期管理资源调度系统监控大数据持续改进业务调整服务改进技术升级架构优化大数据实施方法论大数据业务战略大数据建设目标大数据架构设计大大数据的角色和技能大数据的角色和技能大数据治理成熟度模型实施大数据治理的第一步,是评估大数据治理成熟度的当前状态和期望的未来状态。现将某信息治理委员会的成熟度模型用于成熟度评估。该模型设立了4个领域的11个大数据治理成熟度指标。94支持准则数据架构数据标准审计信息日志和报告核心准则数据质量管理信息生命周期管理信息安全与隐私支持要素管理人员数据风险管理政策目标业务成果要求支持增强组织机构和认识元数据大数据治理成熟度模型实施大数据治理的第一步,是评估大数据治理大数据治理成熟度模型介绍及问题示例95目标目标指信息治理计划的预期结果。目标倾向于关注降低风险与提升价值,这反过来又受降低成本和提高收入的驱动。业务成果:代表信息治理计划的目标和目的。业务成果:A是否已经确定了大数据治理计划的关键业务关联方?B是否对大数据治理可带来的财务收益进行了量化?支持要素核心准则支持准则组织结构和认识:指业务部门和IT部门间的相互责任,以及对治理不同管理层次中数据的信托责任的认识。管理人员:旨在保证数据监护,实现资产增值、风险消解和组织控制的质量控制准则。数据风险管理:据以识别、保留、量化、规避、接受、消解和转嫁风险的方法论。政策:期望得到落实的组织行为的书面表达。数据结构和认识:如关键角色的职位说明中,是否包含大数据治理,如配备首席数据官和信息治理官?管理人员:是否已经建立了责任分配(RACI)矩阵,以定义针对大数据关键属性的角色和责任?数据风险管理:是否在大数据治理与风险治理之间建立了联系?政策:是否已经归档了一组大数据治理政策?数据质量管理:指测量、提高和保证产品数据、测试数据和归档数据的质量和集成性的方法。信息生命周期管理:有关信息采集、使用、保留和删除的系统化的、基于策略的方法。信息安全与隐私:组织用于消解风险和保护数据资产的策略、实践和控制手段。数据质量管理:对于与大数据相关的质量问题(数据价值不高或不显著),是否达成了一致意见?信息生命周期管理:是否制定了流程,根据法律和业务要求合法处理不再需要的大数据?信息安全和隐私:首席信息安全官是否是大数据治理计划的关键支持者?数据架构:结构化和非结构化数据系统及应用的架构式设计,用于实现数据的可用性,并将数据分配给合适的用户。元数据:指用于创建常见的语义定义、IT术语、数据模型和数据库的方法和工具。审计信息日志和报告:指监测和测量数据价值、风险和信息治理有效性的组织流程。数据架构:Hadoop、NoSQL以及与当前架构相关的其他新兴大数据技术的共存战略是怎样的?分类和元数据:业务词库是否包含与大数据相关的关键业务术语(如针对点击流数据的“独立访客”)?审计信息日志和报告:企业如何检测特权用户对医保索赔和通话详单等敏感大数据的访问?问题示例模型介绍大数据治理成熟度模型介绍及问题示例30目标目标指信息治理计划案例某大型金融机构资金管理部的大数据治理路线图96创建Hadoop基础设施大数据治理的演进关键活动每日头寸快照社交媒体和非结构化内容治理大数据某大型金融机构的资金管理部,为大中型企业提供现金管理和流动性管理的综合服务。该部门处于部署大数据计划的早期阶段,其最初的大数据治理路线图如右图所示:第1-6个月构建技术基础设施,获得Linux服务器和ApacheHadoop发行版。由于大数据是一个新事物,在切入业务前,必须设计一个可行的用例,并进行财务可行性论证。此外,组织要认真审视数据管理的传统方面:怎样将数据导入并导出Hadoop?Hadoop中的数据质量如何?大数据的元数据是怎样的?如何将大数据整合到未来12个月将要部署的主数据管理数据库中?大数据已经成为主流媒体的热门词汇,高管层至少很有可能同意支持一个大数据试点项目。因此,数据治理团队需要及时更新路线图,将与大数据有关的人员、流程和技术计划纳入其中。第6-12个月引入详细的交易记录,以分析每日头寸快照。受传统基础设施成本高昂的影响,以往的金融机构从未进行这样细致入微的分析。第12-24个月将社交媒体数据和其他非结构化内容引入Hadoop环境。由于金融机构的大多数客户是大企业,对交易对手的10-K和10-Q归档等非结构化内容,进行探索性分析。第24-36个月资金管理部已经有了现成的聚焦于大企业客户的主数据的信息治理计划。案例某大型金融机构资金管理部的大数据治理路线图31创建Had大数据处理框架的组成97大数据治理需要高度聚焦于数据本身。我们将大数据分为五种:web和社交媒体数据、机器对机器的数据、大体量交易数据、生物计量学数据和人工生成的数据。大数据类型信息治理准则产业与功能传统的信息治理准则,同样适用于大数据,相关准则包括组织、元数据、隐私、数据质量、业务流程整合、主数据整合和信息生命周期管理。大数据分析是受例驱动的,用例的具体情况因产能和功能而异。限于篇幅,我们只列出了部分的产业和功能。大数据处理框架的组成32大数据治理需要高度聚焦于数据本身。我大数据的类型大数据大体可分为五种类型98Web和社交媒体数据二的点击流数据TwitterFeedsFacebook帖子网络内容Web和社交媒体数据二的点击流数据TwitterFeedsFacebook帖子网络内容机器对机器的数据二的公用事业智能仪表读数RFID读数石油钻探设备传感器读数网络内容Web和社交媒体数据二的点击流数据TwitterFeedsFacebook帖子网络内容Web和社交媒体数据二的点击流数据TwitterFeedsFacebook帖子网络内容类型大数据的类型大数据大体可分为五种类型33Web和社交媒体数据职责分配(RACI)所代表的内涵99应负责方(Responsible)指授权管理某属性的人。(一种属性可有多个负责人)最终负责方(Accountable)指数据属性承担最终责任的人。咨询方(Consulted)指通过双向沟通接受咨询的某人或某些人。被告知方(Informed)指通过单向沟通被告知的某人或某些人。职责分配(RACI)所代表的内涵34应负责方(Respons大数据治理计划需要实施的最佳实践1001324创建一个体现关键大数据术语的业务定义的词库。理解对ApacheHadoop中元数据的持续支持。对业务词库中的敏感大数据进行标记。从相关的大数据存储中输入技术元数据。将相关的数据元与业务词库中的术语进行链接。5768使用运营元数据监测大数据的流动。保留技术元数据,以支持数据血统和影响分析。从非结构化文件中采集元数据,支持企业搜索。扩展既有的元数据角色,将大数据纳入其中。9元数据是描述数据产品特征的任何信息,如名字、位置、可感知的、重要性、质量、对企业的价值,以及与企业认为值得管理的其他数据产品的关系等。元数据决定信息架构的如何满足业务需求,因此元数据是信息治理计划的关键。大数据治理计划需要实施的最佳实践351324创建一个体现关键业务词库101业务词库业务词库是企业用于传达其对信息的认识的语言。创建并维护该层业务元数据,对表达要求的含义和描述IT系统可用的信息至关重要。业务词库保证了信息开发的准确性和速度。术语代表着企业和业务层面对信息的理解,所以许多组织倾向于自下而上创建数据词典,对已有的信息进行归类。在处理大数据时,业务驱动的数据定义和数据目录之间的区别尤为重要业务词库保证了信息开发的准确性和速度。在处理大数据时,业务驱动的数据定义和数据目录之间的区别尤为重要。业务词库36业务词库业务词库是企业用于传达其对信息的认识的语对业务词库中的敏感数据102对敏感的大数据进行分类发现敏感数据对业务词库中的敏感数据进行标记执行大数据隐私政策进行分类大数据治理计划需要对社会保险号码等敏感数据进行分类。分类应来自业务词库模型并被传承到不同数据库中数据的所有物理实例中。敏感的大数据可能隐藏在非结构化文本中。大数据治理计划应考虑数据分析工具的利用,以便自动发现非结构化字段的敏感数据。首席信息安全官制定有关敏感数据的政策。只有在识别到敏感数据的位置时,组织才能执行政策,因此,在业务词库中标记敏感数据就非常关键。大数据治理团队可以通过使用数据分析工具发现敏感的大数据,以监督对政策的遵从度。对业务词库中的敏感数据37对敏感的大数据进行分类发现敏感数据从相关的大数据存储中输入技术元数据103在创建业务词库后大数据治理团队需要从大数据源中采集合用的、相关的元数据。大数据源Hadoop文件商业智能报告应用数据库数据模型准结构化非结构化数据结构化信息管理经销商元数据中央存储库桥接器连接器从相关的大数据存储中输入技术元数据38在创建业务词库后大数据元数据104元数据创建一个体现关键大数据术语的业务定义的词库理解对ApacheHadoop中元数据的持续支持对业务词库中的敏感大数据进行标记从相关的大数据存储中输入技术元数据将相关的数据元与业务词库的术语进行链接使用运营元数据监测大数据的流动保留技术元数据,以支持数据血统和影响分析元数据39元数据创建一个体现关键大数据术语的业务定义的词库理从非结构化文件中采集元数据,支持企业搜索创建非结构化数据的索引,也是元数据的一种形式,许多企业的搜索供应商已开发相应工具。105保险业通过向呼叫人员提供客服关怀、告警、保单和客户信息文件等多个文件库的可搜索访问,可将平均处理时间减少三秒,年节约数百万美元。通过提供对EMCDocumentum、文件系统、微软Share-Point、内网和外部数据库中客户、患者和研究数据的快速访问,加快科研进程。让临床医生可访问来自医学刊物和其他文件库的最新研究成果。制药业医疗保险业从非结构化文件中采集元数据,支持企业搜索创建非结构化数据的索拓展既有的元数据角色,将大数据纳入其中信息治理团队可能安排许多与原数据相关的角色。组织需考虑这些角色进行拓展,以将大数据治理纳入进来。106业务词库管理者数据科学家元数据管理者数据血统管理者数据主管数据架构师本角色负责保管应将大数据术语包含在内的业务词库。本角色负责在相关数据源识别和输入技术元数据。数据血统管理者与数据管理者配合,确保数据血统分析中数据源之间的数据流可得到准确地反映。本角色参与大数据特别是关键业务术语定义的管理。本角色监督元数据模型的创建及其与企业数据模型的连接。本角色缩短了大数据原始卷和使其有用的业务洞察间的距离,其通过创造力和想象力创建原型,以揭开大数据中的秘密。拓展既有的元数据角色,将大数据纳入其中信息治理团队可能安排许大数据质量107维度传统数据的质量大数据的质量处理频率处理是面向批量的处理是实时的或面向批量的数据多样性数据格式大部分是结构化的数据格式可能是结构化的、准结构化的或非结构化的置信度数据需处于原始阶段,以方便数据仓库的分析糟糕的数据质量可能会阻碍分析工具获得业务洞察数据进化的时间选择在下载到数据仓库前数据需要进化数据的体量和速度可能要求采取流式的、内存中的分析来进化数据、从而降低存储要求关键数据元素评估客户地址等关键数据元素的数据质量数据可能被模糊定义或错误定义,关键数据元素可能会反复变化分析位置数据迁移到数据质量和分析引擎数据质量和分析引擎可进入数据中,以保证可接受的处理速度管理工作数据主管可管理大部分数据由于体量大和速度快,数据主管只能管理相对更小的数据数据质量管理是测度、提高、验证质量以及整合组织数据的方法等一套行为准则。体量极大、速度极快和多样的特点,决定了大数据质量所需的处理有别于传统信息治理计划的质量管理。大数据质量42维度传统数据的质量大数据的质量处理频率处理是面大数据治理计划必须采取的实践1089.1与商业上的利益攸关者协作,建立并测度大数据质量的置信区间9.2利用准结构化和非结构化数据,提高人口稀疏的结构化数据的质量9.3使用流数据分析技术解决内存中的数据质量问题,无需将中间结果输入硬盘9.4任命对信息治理委员会负责的主管,由其负责提高大数据治理计划必须采取的实践439.1与商业上的利益攸关者业务流程整合

10910.1识别将会受到大数据治理影响的关键流程10.2建立关键合同的流程图10.3针对业务流程中的关键步骤,制定大数据治理政策业务流程整合4410.1识别将会受到大数据治理影响的关键流1.大数据源图21.1大数据技术参考架构110Web和社交媒体数据机器对机器的数据大体量交易数据生物计量学数据人工生成的数据15.大数据安全和隐私16.大数据生命周期管理17.云2.开源的基础组件HDFSMapReduceHadoopCommonHBaseOthers5.数据库NoSQLIn-MemoryRelationalLegacy6.大数据整合批量迁移复制虚拟化7.文本分析8.大数据发现9.大数据质量10.元数据11.信息政策管理12.主数据管理13.数据仓库和数据集市14.大数据分析和报告3.Hadoop发行版4.流媒体分析18.大数据标准8.大数据发现9.大数据质量1.大数据源图21.1大数据技术参考架构45Web和社交媒微软的大数据平台1111.微软Hadoop发行版6.WindowsAzureExcel5.大数据分析与报告SQLServerAnalysisServicesSQLServerParallelEditionSQLServerReportingServices4.数据仓库与数据集市3.大数据整合2.数据库开源基础组件大数据源SQLServerIntegrationServicesSQLServer微软的大数据平台461.微软Hadoop发行版6.Windo理解对ApacheHadoop中元数据的持续支持112名称节点数据块A数据节点机架1数据块B数据块C数据块A数据节点机架2数据块B数据块C数据块A数据节点机架3数据块B数据块C图:Hadoop分布式文件系统(HDFS)的技术构架作为Hadoop关键支持要素的元数据如图Hadoop分布式文件系统(HDFS)是一个带单个名称节点和多个数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论