大数据治理(高级) 课件 西财 第1篇:概论篇_第1页
大数据治理(高级) 课件 西财 第1篇:概论篇_第2页
大数据治理(高级) 课件 西财 第1篇:概论篇_第3页
大数据治理(高级) 课件 西财 第1篇:概论篇_第4页
大数据治理(高级) 课件 西财 第1篇:概论篇_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第1章大数据治理概论2大数据治理背景1大数据治理相关概念2大数据治理的框架3大数据治理的原则4大数据治理的方法5目录学习目标掌握大数据治理的概念掌握大数据治理的框架掌握大数据治理的主要方法4政府需求岷山集团需求数据治理背景1.1数据爆炸式增长管理深度信息化:企业建设信息化系统来提高管理效率、降低管理成本。各式各样的企业信息化管理系统,例如:客户关系管理系统、核算系统、预算系统、供应商管理系统、金税系统、报表系统、销售系统、采购系统等。如此繁多的信息化管理系统,会导致数据量日益剧增,如何组织、管理、应用爆炸式增加数据成为了关注的焦点。拥抱转型、业务创新:以信息技术为代表的技术革命从根本上改变着我们的社会经济生活。社会形态已由工业社会发展为信息社会,传统的农业经济、工业经济正在被知识经济逐渐取代。在新境界的浪潮中,企业面临的竞争环境也发生了巨大变化,促使企业尽快进行发展模式、管理模式、商业模式的升级转型。技术创新与发展:随着大数据时代的发展,技术不断更新迭代,数据处理速度也在不断的提升。主要技术内容包括:数据采集技术、数据清洗技术、数据安全技术、数据建模技术、数据加速计算技术、元数据管理技术、数据生命周期管理技术。数据资产价值驱动:数据是一种未经加工的原始资料,是对客观事物的逻辑归纳。用符号、字母等方式对客观事物进行直观描述。数据经过解释并赋予一定的意义之后,便成为了信息;数据是一种资产,对于组织具有价值,因此需要妥善保护、利用,从而为企业带来经济利益的流入。数据资产是有企业拥有和控制。能够为企业带来未来经济利益的信息资源。具有以下基本特性:共享性、增值性、实效性、低安全性。其价值主要体现在以下几方面。数据资产是一种企业生产经营活动的经济资源;数据资产是支持企业发展战略的重要资源;数据资产是现代化企业最大的价值来源。政府需求岷山集团需求大数据治理相关概念1.2大数据咨询公司Gartner认为:大数据是指需要借助新的处理模式才能拥有更强的决策力、洞察发现力和流程优化能力的具有海量、多样化和高增长率等特点的信息资产。麦肯锡认为:大数据是指在一定时间内无法用传统数据库软件工具采集、存储、管理和分析其内容的数据集合。国际数据公司IDC认为:大数据一般会涉及两种或两种以上的数据形式。它要收集超过100TB的数据,并且是高速、实时的数据流,或者是从小数据开始,但数据量每年会增长60%以上。维基百科的定义是:大数据指的是需要处理的资料量规模巨大,无法在合理时间内,通过当前主流的软件工具撷取、管理、处理并整理的资料,它成为帮助企业经营决策的资讯。特性:4V,体量(Volume)、速度(Velocity)、多样性(Variety)、价值(Value)。政府需求岷山集团需求大数据治理相关概念1.2大数据治理IBM认为,数据治理是根据企业的数据管控政策,利用组织人员、流程和技术的相互协作,使企业能将“数据作为资产”(dataasenterpriseasset)来管理和应用。根据伯森(Berson)和杜波夫(Dubov)的定义,数据治理是一个关注于管理信息的质量(Quality)、一致性(Consistency)、可用性(Usability)、安全性(Security)和可得性(Availability)的过程。这个过程与数据的拥有(Ownership)和管理职责(Stewardship)紧密相关。国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合(规划、监控和执行)。ReneAbraham等在2019年发表的论文中提出:大数据治理是一个跨功能框架,把数据作为组织、企业或者国家的战略资产进行管理。综合上述定义,可以认为,大数据治理,是把大数据作为组织、企业或者国家的战略资产进行管理,以及在管理流程中进行分析、控制和决策的活动集合。政府需求岷山集团需求大数据治理相关概念1.2数据仓库数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。数据仓库是以关系数据库、并行处理和分布式技术为基础的信息新技术。特点:面向主题:数据仓库围绕一些重要主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,不是单位的日常操作和事务处理。因此,数据仓库通常排除对于决策无用的数据,提供特定主题的简明视图。集成:通常,构造数据仓库是将多个异构数据源,如关系数据库、一般文件和联机事务处理记录集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。时变:数据存储从历史的角度(例如,过去5-10年)提供信息。数据仓库中的关键结构都隐式或显式地包含时间元素。非易失:数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。政府需求岷山集团需求大数据治理相关概念1.2元数据元数据(Metadata),又称中介数据、中继数据,是数据仓库的一部分不可或缺的重要数据。它是“关于数据的数据”,描述的是数据仓库中数据的结构、内容、码以及索引等。分类:第一种元数据包含了所有原数据项名、属性以及它在数据仓库中的转换,它是为了从操作型环境向数据仓库环境转换而建立的。第二种元数据称为DSS元数据,是在数据仓库中用来在终端用户的多维商业模型以及前端工具间建立映射,一般是为了开发出更加先进的决策支持工具而创建的。作用:定义数据仓库中有什么;指明数据仓库中信息的内容及位置;刻画数据的抽取和转换规则;存储和数据仓库主题相关的各种商业信息。政府需求岷山集团需求大数据治理的框架1.3核心层大数据治理框架的核心层是大数据处理的过程,包括了数据采集、数据清洗与预处理、数据统计分析和挖掘以及结果可视化。方法层大数据治理的方法层,包括数据质量管理、数据安全、隐私保护、主数据管理及数据融合。领域层领域层,即领域知识。领域知识是指用以指导和约束搜索感兴趣知识行为的知识,也称背景知识,包括特定领域的背景信息和专家知识。主数据管理大数据处理隐私保护数据融合数据安全质量管理知识领域政府需求岷山集团需求大数据治理的原则1.4有效性原则有效性原则体现了大数据治理过程中数据的标准、质量、价值、管控的有效性、高效性。价值化原则价值化原则指大数据治理过程中以数据资产为价值核心,最大化大数据平台的数据价值。统一性原则统一性原则是在数据标准管理组织架构的推动和指导下,遵循协商一致制定的数据标准规范,借助标准化管控流程得以实施数据统一性的原则。开放性原则在大数据和云环境下,要以开放的理念确立起信息公开的政策思想,运用开放、透明、发展、共享的信息资源管理理念对数据进行处理,提高数据治理的透明度。安全性原则大数据治理的安全性原则体现了安全的重要性、必要性,保障大数据平台数据安全和数据治理过程中数据的安全可控。政府需求岷山集团需求大数据治理的方法1.5大数据质量管理的概念大数据质量管理,是指对数据计划、获取、存储、共享、维护、应用、消亡的生命周期中每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平,使得数据质量获得进一步提高。大数据质量评估(1)完整性(2)准确性(3)有效性(4)一致性(5)及时性政府需求岷山集团需求大数据治理的方法1.5大数据安全大数据安全存在着多个层次,如制度安全、技术安全、运算安全、存储安全、传输安全、产品和服务安全等。大数据安全防护技术(1)数据发布匿名保护技术(2)社交网络匿名保护技术(3)数据水印技术(4)数据溯源技术(5)访问控制技术政府需求岷山集团需求大数据治理的方法1.5隐私保护大数据隐私保护是指通过技术和管理手段来确保大数据环境下数据的保密性、完整性和可用性,以及分析并解决大数据活动对国家安全、社会影响、公共利益、个人的生命财产安全等造成的影响。大数据隐私保护技术(1)威胁发现技术(2)大数据认证技术(3)数据真实性分析技术(4)数据失真处理技术(5)数据加密技术(6)限制发布技术政府需求岷山集团需求大数据治理的方法1.5主数据主数据(MasterData)是指具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,是单一、准确、权威的数据来源。主数据包含元数据、属性、定义、角色、关联关系、分类方法等内容,被不同的应用所使用,涉及企业多数组织及业务单元。主数据管理主数据管理描述了一组规程、技术和解决方案,这些规程、技术和解决方案用于为所有利益相关方(如用户、应用程序、数据仓库、流程以及贸易伙伴)创建并维护业务数据的一致性、完整性、相关性和精确性。数据融合从数据来源的角度,大数据融合包括组织内部的数据和组织外部数据的融合;从数据结构的角度,包括结构化、半结构化和非结构化数据的融合;从数据状态的角度,包括静态数据和流数据的融合。第2章大数据治理应用16疫情防控与复工案例1中国人民银行个人信用评分案例2目录学习目标理解大数据治理的应用18政府需求岷山集团需求疫情防控与复工案例2.1案例背景新冠肺炎疫情在全球持续蔓延,已有6大洲180多个国家出现确诊病例,超过180万人确诊。新冠疫情已经对世界的正常运转带来严重的影响,全球的恐慌情绪正在蔓延。因此,为了更科学的防范疫情的进一步蔓延,必须对疫情的暴发进行回顾性分析,深入了解疾病传播方式,从而提出前瞻性的建议。天府大数据国际战略与技术研究院院长石勇带领的科研团队联合香港浸会大学计算机科学系刘际明教授、中国疾病预防控制中心寄生虫病所周晓农研究员所带领的智能化疾病监控联合实验室团队通过前期研究,基于不同年龄组人群在典型社交场合的接触模式,用数据驱动的模型刻画了新冠肺炎的潜在传播方式,量化分析了不同时间段疫情风险与多种复工方案的利弊关系,为国家制定疫情防控策略提供了科学有效的决策支持。政府需求岷山集团需求疫情防控与复工案例2.1案例分析该研究通过对不同年龄段人群在典型社交环境中的接触进行刻画,对新冠肺炎疫情的传播特征进行精准描述与分析,包括不同时刻不同地区的传播风险趋势、不同干预措施的有效性、以及恢复正常社会经济秩序所伴随的风险等。具体来说,该研究构建了一个数据驱动的计算模型用于揭示人群之间的接触模式,针对每种社交环境,计算模型将推断出相应的各年龄组人群间的接触强度,并由此刻画新冠肺炎在不同人群之间的传播方式。政府需求岷山集团需求疫情防控与复工案例2.1该研究得出的结论不仅为中国的新冠肺炎传播方式提供了更深入的解释,更为重要的是,研究中所提出的基于社交接触模式的疫情风险分析方法可被其他国家借鉴来指导其新冠疫情的防控策略与干预措施,从而减轻疫情大流行所带来的社会与经济影响。截至目前,已有72个国家及智库机构,引用了该研究,对世界疫情防控及经济恢复决策支撑提供了重要支撑。2020年12月,石勇教授因此获得国家先进个人表彰。政府需求岷山集团需求中国人民银行个人信用评分案例2.2案例背景中国人民银行征信系统包括企业信用信息基础数据库和个人信用信息基础数据库。其中企业信用信息基础数据库始于1997年,并在2006年7月份实现全国联网查询。个人信用信息基础数据库建设最早始于1999年,2005年8月底完成与全国所有商业银行和部分有条件的农信社的联网运行,2006年1月,个人信用信息基础数据库正式运行。2019年4月,新版个人征信报告已上线,拖欠水费也可能影响其个人信用。2019年6月19日,中国已建立全球规模最大的征信系统。2020年1月19日,征信中心面向社会公众和金融机构提供二代格式信用报告查询服务。中国个人信用分数,也被称作“中国分数”,是中国科学院虚拟经济与数据科学研究中心与央行(中国人民银行)合作开发完成的。石勇教授领衔研究团队,经过3年的开发与测试,不仅让中国人民银行征信中心信用评分系统模型建设成功,也通过后期的商业银行数据获得验证,并取得良好效果。中国的征信系统,为大数据的典型应用。截至2019年,征信系统累计收录9.9亿自然人、2591万户企业和其他组织的有关信息,个人信用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论