大数据及其在石油行业的应用案例_第1页
大数据及其在石油行业的应用案例_第2页
大数据及其在石油行业的应用案例_第3页
大数据及其在石油行业的应用案例_第4页
大数据及其在石油行业的应用案例_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据及其在石油行业的应用案例大数据的内涵大数据时代大数据的技术体系大数据的发展趋势及挑战目录一、大数据介绍二、大数据在石油行业的应用近些年,由于计算机、物联网等信息化技术以及传感技术的发展,现代生活中出现了“一切皆可数据化”的思维,数据的产生方式由“人机”、“机物”的二元世界向着融合社会资源、信息系统以及物理资源的三元世界转变,数据规模呈膨胀式发展,信息技术快速发展、数据存储和处理成本大幅下降,催生了大数据时代的来临。大数据的内涵3大数据的主要特征可以概况为4V+1C,分别代表了Variety(多样化)、Volume(海量化)、Velocity(快速性)、Value(价值化)以及Complexity(复杂性)。数据体量巨大处理速度快数据类型繁多数据潜在价值高Complexity复杂异构数据一、大数据的内涵

规模——大数据有多大?单一数据集的规模范围从几十TB到数PB不等。数据集合的大小超出了传统数据库软件(比如Oracle、MySQL等)的采集、存储、管理及分析等能力。符合大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长。不同领域符合大数据标准的数据集大小会存在差别。目前,我们已进入数据的ZB时代。国际数据公司(IDC)称,全球数据总量2015年为8.6ZB左右,2016年将在12ZB左右,全球数据的增长速度在每年40%左右,预计2020年将达40ZB。大数据的内涵大数据的内涵标识单位大小含意和例子Bit位1或0计算机用二进制存储和处理数据,一位是指一个二进制数位;0或1,这是存储信息的逻辑单元Byte字节8位这是计算机存储信息的基本物理单位,存储一个英文字母在计算机上,其大小就是一个字节KB千字节1024字节,或

个字节一页纸上的文字大概是5千字节MB兆字节1024字节,或

个字节一个普通MP3格式的流行歌曲大概是4兆字节GB吉字节1024字节,或

个字节一部电影大概是1吉字节TB太字节1024字节,或

个字节美国国会图书馆所有登记的印刷版书本的信息量为15太字节,截至2011年年底,其网络备份的数据量为280太字节,这个数据还在以每个月5太的速度递增PB拍字节1024字节,或

个字节美国邮政局一年处理的信件大约为5拍,谷歌每小时处理的数据为1拍EB艾字节1024字节,或

个字节相当于13亿中国人人手一本500页的书加起来的信息量ZB泽字节1024字节,或

个字节截至2010年,人类拥有的信息总量大概是1.2泽字节YB尧字节1024字节,或

个字节超出想象,难以描述正确认识大数据大数据是一个宽泛的概念,见仁见智

流传最广的概念——4V模型大量(Volume)高速(Velocity)多样(Varity)价值(Value)阿里系的概念——3大特征在线实时全貌科学院的概念——5大特征活性颗粒度维度时空情绪全量胜于样本混杂胜于精确相关重于因果舍恩伯格的概念——思维定义+3大特征大数据和传统BI的区别

表象实质数据量GBTBTBPB以上传统BI多样性结构化数据结构化、半结构化、多维、音视频数据速度数据量稳定,增长不快持续实时产生数据,要求即时处理价值高密度低密度大数据维度理念模式方法大数据的价值大数据应用可以提升商业价值大数据可以强化管理乃至管理自动化数字化、智能化“数据驱动型决策”模式可以促进生产力和预测能力的提升美国179家大型公司研究表明基于数据分析的决策实现的生产率增长,要比任何其他因素高5%到6%。能通过流程优化提高盈利能力,通过基于购买行为的预测分析提高销量,或者通过预测市场环境变化来调节。

战略性利用大数据可以提升企业创新力和决策能力

能够利用大数据的企业,创新能力、业务灵活性和利润都将得到极大的提高。增加企业透明度的能力可发现新需求,揭示多样性,改善绩效使产品与服务精确满足客户新需求用自动生成算法取代或支持人为决策开发新业务模型、产品和服务大数据时代大数据将引发一系列变革在大数据之前,互联网企业和传统企业基本上平行的发展,鲜有交集。而大数据是两者发展的交集,当传统企业利用大数据,嫁接互联网基因,那么他将获得新的发展动力,也将引发消费模式、制造模式、管理模式的巨大变革,对政府、对企业、对个人影响深远!大数据是IT产业又一次颠覆性的技术变革大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革。对国家治理模式、对企业的决策、组织和业务流程、对个人生活方式都将产生巨大的影响。大数据时代数据成为企业的核心资产大数据时代企业的疆界变得模糊,数据成为核心的资产,并将深刻影响企业的业务模式,甚至重构企业文化和组织。企业将面临一系列挑战企业在大数据时代将面临文化、战略、组织、流程、信息化、公共公关系、人才培养方方面面的挑战,同时也迎来重大的转型机遇和飞跃契机。信息部门将跃升为决策部门之一企业信息化部门将从一个辅助角色,一跃而为企业决策的力量之一,一切都将以精确的大数据分析为导向。

大数据技术是继云计算之后全球最新兴起的一项重大IT技术。大数据的核心技术包括基于Hadoop的大数据基础平台、HDFS分布式文件系统、YARN资源管理系统、SPARK大数据处理引擎、Storm大数据分布式实时计算系统以及R语言等数据分析应用技术等。大数据的核心技术序号类别主要技术1基础设施技术基于Hadoop的大数据基础设施平台,具体包括:分布式文件系统(HDFS)、分布式计算框架(MapReduce)、非关系型数据库(NoSQL)、列式存储数据库(Hbase)、数据仓库工具(Hive)等。2数据处理管理技术资源管理系统(YARN)、大数据处理引擎(Spark)、大数据分布式实时计算系统(Storm)、元数据管理(Hcatalog)、数据提取转换和加载(Sqoop)、NoSQL数据库管理系统、列存储数据库管理系统等。3数据分析应用技术数据挖掘分析关联规则学习、数据融合与集成、遗传算法、机器学习、自然语言处理、模式识别、情感分析、内容分析、复合事件处理、语义引擎等。预测分析预测模型、时间序列分析、回归分析等。可视化分析Processing、R语言、可视化算法和模型等。大数据的核心技术大数据的核心技术SparkSpark是一个新兴的大数据处理的引擎,主要特点是提供了一个集群的分布式内存抽象,以支持需要工作集的应用。简单说Spark就是内存计算(包含迭代式计算,DAG计算,流式计算)框架。Spark的生态系统发展非常迅速,成为2015年大数据领域最火的开源软件,其版本更新速度也是非常之快,2016年一季度迎来重要的2.x版本,确立以DataFrame和Dataset为核心的体系架构,同时在各方面的性能上有很大的提升。大数据的核心技术大数据的核心技术名称方案特点功能特点主要应用IBM大数据分析平台基于Hadoop的整体解决方案集成数据仓库、数据库和分布式存储系统静态数据分析、多节点分布式计算内存计算方式、实时数据分析非结构化分析、流数据分析商务智能报表数据挖掘、内容分析、预测分析Microsoft大数据分析开发环境基于Hadoop的整体解决方案能集成第三方数据分析软件强大的可视化展现能力Hadoop与微软BI、Office的无缝结合;提供基于云端的Hadoop服务商务智能报表等数据分析Oracle大数据协同工作平台基于Hadoop的整体解决方案集成了硬件、存储、软件和Hadoop软件对所有数据类型提供数据分析能力;通过SQL语言从Oracle数据库直接访问Hadoop分布式文件系统上的数据提供基于云的数据库存储服务—DBaaS各种类型海量数据存储的DBaaS的云服务;企业数据分析服务SAP

商务智能系统基于Hadoop的整体解决方案快速数据分析并支持移动计算。系统提供强大的管理工具,系统部署快捷利用行、列存储结构和内存计算技术,实现即时商务分析;使用戶端拥有強大的商务智能能力及移动计算能力;能获取准确的企业和社交信息,包括结构化与非结构化信息商务智能报表、图形、地理信息图,数据分析、可视化SAS商业智能和分析软件与服务基于应用模型的解决方案业务、数据分析模型和方案处于优势整合软件、知识及方法论商务智能报表数据发现、可视化、预测分析大数据技术平台一般都是开源免费的,但提供技术支持和服务是收费的,且价格很高,如HORTONOR公司另一类是收费,IT公司封装好的,大多只能满足一些基本要求,需要大量的定制开发解决方案基本上在开源的Hadoop平台上实现的解决方案往往支持云技术应用17大数据的解决方案大数据的核心技术大数据的核心技术HDFS——Hadoop分布式文件系统,能提供高吞吐量的数据访问,非常适合在大规模数据集上的应用,具有高度的容错性,其主要组件由一个NameNode(管理者)和多个DataNode(工作者)组成。NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性等DataNode在本地文件系统存储文件块数据,以及块数据的校验等。保存多个副本,且提供容错机制,副本丢失或宕机自动恢复,默认存3份。可在廉价的机器上运行。适合大数据的处理。大数据的核心技术大数据的核心技术MapReduceMapReduce这一并行处理技术用来提高数据的处理速度。其设计初衷是通过大量廉价服务器实现大数据并行处理,对数据一致性要求不高,突出优势是具有扩展性和可用性,特别适用于海量的结构化、半结构化及非结构化数据的混合处理。

MapReduce将传统的查询、分解及数据分析进行分布式处理,将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。作为一个简化的并行处理的编程模型,MapReduce还降低了开发并行应用的门槛。大数据的核心技术大数据的核心技术YARNYARN是Hadoop2.0中的资源管理系统,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。借助YARN,大数据集群组件的安装更为便捷、简易。大数据的核心技术大数据分析与挖掘技术目前常用的大数据分析与挖掘技术主要有聚类分析、分类和预测、关联分析、人工神经网络、遗传基因算法、数据挖掘算法、智能翻译、机器学习、语义引擎、情感分析及可视化技术等。大数据的核心技术R语言R是一套完整的数据处理、计算和制图软件系统,是自由、免费、源代码开放的,用于统计计算和统计制图的优秀工具。R的功能:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。大数据的核心技术大数据的数据挖掘大数据的数据挖掘大数据的数据挖掘大数据产业发展历程:目前,我国大数据产业正处于高速发展期,多种商业模式得到市场印证,新产品和服务不断推出,细分市场走向差异化竞争。大数据的发展趋势及挑战“大数据”应用已遍布各行各业:航空、金融、电商、政府、电信、能源、旅游、医疗等行业,它正在影响人们的思维模式、商业模式和管理模式。如:大数据在电商和互联网行业得到了广泛的应用,利用大数据技术分析客户购买行为和消费偏好,从而为消费者提供精准的商品推送和个性化服务,大大提高了销量、收入和利润。大数据的发展趋势及挑战2015年9月5日,国务院发布《促进大数据发展行动纲要》,提出要全面推进大数据发展和应用,加快政府数据开放共享,深化大数据在各行业创新应用,通过建设数据强国,提升政府治理能力,推动经济转型升级。2016年3月17日,国家《十三五规划纲要》,首次将发展大数据上升为国家战略。把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。大数据的发展趋势及挑战《大数据产业“十三五”发展规划》将于今年下半年发布,从四大工作思路入手,推进大数据产业发展:支持关键技术产品的研发和产业化,主要就是要抓住大数据引领的IT技术的架构和产业变革的机遇,在技术研发、产品体系、服务支撑这三个方面着力。推动行业大数据应用的不断深化,主要是大力推动工业和信息通信业大数据应用发展,支持大数据跨行业的融合应用发展,包括公共服务、社会治理、金融、能源、交通和农业等。繁荣大数据的产业生态,包括合理规划大数据的基础设施建设,促进大数据的创业创新发展和优化大数据产业的区域布局。完善大数据的支撑体系,支持数据交易流通平台的探索,培育大数据开源社区项目,加快大数据标准体系建设,建立大数据统计及评估体系,完善大数据安全保障体系。大数据的发展趋势及挑战大数据的发展趋势:从数据角度看,一是数据量呈现指数级增长。二是不同行业的大数据内容和开发应用特点各有不同。其中,金融、通信、公共事业以及政府等领域或行业更加具有通过大数据来创造价值的潜力。三是跨领域跨行业的数据共享范围和程度必将大大提升。从技术角度看,未来大数据技术将进行更多的智能嵌入,各智能化主体将产生更多颠覆性的创新理念及产品,如机器人、自动驾驶车辆、虚拟个人助手等。此外,机器学习、智能实时分析、信息挖掘算法等的发展将成为“数据准备与预测分析工作的必要前提”。从应用角度看,应用领域将不断扩展,并逐步深化应用。大数据的发展趋势及挑战发展大数据的挑战业务部门没有清晰的大数据需求企业内部数据孤岛严重数据可用性低,数据质量差数据相关管理技术和架构数据安全大数据人才缺乏数据开放与隐私的权衡大数据的发展趋势及挑战36研究机构认为,通过大数据实现价值的一个重要制约因素是人才短缺,尤其是缺少拥有统计学和机器学习方面专长的人,以及知道如何通过运用从大数据获得的洞见来运营企业的管理者和分析师。

麦肯锡预计,截止2018年,美国大数据领域中深度分析人才职位的需求会超过供给,缺口为14万到19万个职位。这类人才不仅需要具备固有的数学能力,还需要数年的培训。此外,麦肯锡预计截止2018年,美国需要增加150万能够提出正确的问题并有效利用大数据分析的管理者和分析师。美国和其他面临类似短缺的经济体不能简单地靠改变毕业生需求、等待具有更多技能的人才毕业,或是引进人才来填补这个缺口,故须对相当数量人才进行适当的再培训。实现大数据价值的重大制约是人才短缺目录一、大数据介绍二、大数据在石油行业的应用数据被誉为“未来世界的新石油”。在大数据时代,任何决策都不能再简单地依靠经验和直觉,而是要快捷地从海量数据中获取决策的数据,这是油气公司实现科学决策、高效运营的关键。油气公司在科研、生产、管理、经营活动中积累了海量的结构化及非结构化数据,其数据总量仍在不断持续攀升,充分挖掘这些数据的价值是非常重要和十分迫切的,尤其是在低油价时期。重要意义应用领域大数据总体应用方向中国石油业务总体特征是产业链长,包括勘探、生产、储运、炼油、销售等,业务类型多并关联度紧密,企业规模大且地域分布广。目前业务运行产生的数据量巨大,数据类型更为复杂,已向PB(万亿字节)级规模发展,而随着物联网系统的实施,未来将逐步实现数据采集实时化,使得支持集团业务运行、企业经营管理、科学研究的信息资源越来越丰富。为此,中国石油大数据应用应集中在业务分析和企业决策,重点关注数据跨界集成、企业决策工作平台建立、综合完整KPI分析体系建立、业务分析与价值发现等方面应用。应用领域针对集团业务领域多、企业类型不一致等情况,可以通过大数据方法对各系统的数据实现跨界集成,实现勘探开发、油田生产、炼油化工、传输管道、销售服务的上、下游产业链信息整合,提高数字化决策的可信性、准确性和即时性用大数据思路构建一个更加综合、海内外统一的、高效运作的集团级企业决策、业务分析工作平台

通过“大数据”系统支持建立企业、地区公司到集团的综合完整KPI分析体系,不断改进企业KPI,促进业务能力增长建立各领域业务模型和数学模型、通过挖掘分析,从大数据资源中发现更多的财富、智慧和价值,提升创新力、增强企业核心竞争力炼化业务大数据典型应用通过对生产过程、物资储运和公用工程的数据一体化整合,形成炼化企业绩效综合分析能力。这些数据应包括以下几类:生产管理(计算现场生产/材料使用/库存信息/跟踪产品遗留/进料处理/生产成本)计划优化与调度(原油调度/操作计划/供销优化/操作调度/调合优化/性能监控)操作管理(设定传递操作计划/监控工艺数据)调合与库存管理(制定调合计划/执行调合操作/调合过程监控)等41(三)应用需求应用领域序号应用领域应用方向1经营管理整合资源优化,人力资源管理优化分析,舆情监控分析,企业绩效分析,投资决策分析,财务分析、科技研究平台搭建,经营风险分析与防范2安全管理信息安全威胁监测,网络安全监控与预测,健康、安全与环境保护(HSE)优化3生产营运原油需求预测,采购成本优化,生产状态优化,风险预测,供应链优化4勘探开发勘探开发分析,油气完整性分析,运行效率分析,生产过程检测,油气价格预测分析,地震数据分析,钻井分析,实时作业决策支持,产量预测分析,提高采收率分析,安全行为分析5炼油化工数据一体化整合,生产运行分析与优化,能效预测分析与优化,设备运行分析,客户价值分析,安全行为分析(HSE风险预测),产品研发分析,需求预测分析6销售油品损溢分析,站级销售分析,营销活动分析,实时定价分析,销售市场预测分析,客户分析,关联商品分析7天然气与管道管网运行优化分析,管道安全识别,天然气销售预测分析,能耗预测分析,泄露监测分析,调峰策略分析,压缩机故障诊断分析,客户价值分析8装备制造装备设备故障分析,指导产品研发9工程建设工程设计优化分析,风险分析与防范,知识库挖掘分析10工程技术套管卡管预测分析,设备监控与预支性维修分析,物探数据处理解释应用领域——生产营运大数据应用应用领域——炼化生产大数据应用近年来,国内外石油公司纷纷探索应用大数据,取得了一些可喜进展。壳牌中国——大数据应用康菲石油——开发PLOT工具利用大数据提升天然气气井某英国石油公司——钻井作业中的套管卡管预测中国石化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论