大数据分析及应用实践全书课件汇总整本书电子教案(最新)_第1页
大数据分析及应用实践全书课件汇总整本书电子教案(最新)_第2页
大数据分析及应用实践全书课件汇总整本书电子教案(最新)_第3页
大数据分析及应用实践全书课件汇总整本书电子教案(最新)_第4页
大数据分析及应用实践全书课件汇总整本书电子教案(最新)_第5页
已阅读5页,还剩191页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据分析及应用实践第1章 认识大数据本章内容1.1 大数据综述1.1.1 大数据的产生1.1.2 大数据的特征1.2 可视化表现形式1.2.1 大数据定义1.2.2 大数据的基本特征1.3 大数据思维1.3.1 大数据思维的变革1.3.2 大数据思维的关注点1.4 大数据的处理过程1.4.1 大数据采集1.4.2 大数据导入与预处理1.4.3 大数据统计与分析1.4.4 大数据挖掘1.5 大数据思维1.5.1 InfoSphere BigInsights简介1.5.2 BigQuery简介1.5.3 “魔镜”简介1.6 大数据的应用1.6.1 大数据助石油公司智能营销1.6.2 大数据在乳业

2、公司预测产奶量实验1 认识大数据分析工具“魔镜” 1.1 大数据综述 1.1.1 大数据的产生 随着互联网逐渐过渡到物联网,数据从而得到爆发式增长,因而产生了各色各样的大数据。网络中互联的主体不仅仅是人,可以是智能终端、传感器、乃至可穿戴设备等。大数据(big data,mega data)又称巨量数据,指的是海量、高增长率和多样化的信息资产。大数据革命正在对世界产生巨大的系统性影响和深远意义。 1.1.2 大数据的特征 与传统数据的产生方式相比,大数据具有三个明显的特征: 数据量大:数据量大是大数据的明显特征,一般计量单位都是PB、EB甚至ZB。 非结构性:大数据既包含结构化数据也包含非结构

3、化数据,而且通过特定的大数据技术从大量非结构化数据中提取有用的信息。 实时性:在互联网高速发展的背景下,我们所谈到的大数据不仅仅数量巨大,实时性、动态性成了大数据的另一重要特征。1.2 大数据概念 1.2.1 大数据定义 麦肯锡(美国首屈一指的咨询公司)是研究大数据的先驱。在其报告Bigdata:Thenextfrontierforinnovation,competition,andproductivity中给出的大数据定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。即大数据是现有数据库管理工具和传统数据处理手段很难处理的大型、复杂的数据集,其涉及到采集、存储、

4、搜索、共享、传输和可视化等方面。 1.2.2 大数据的基本特点 大数据的特点可归纳为“4V”,即Volume(容量),即海量的数据规模; Variety(种类),即多样的数据类型; Velocity(速度),即快速的数据流转和动态的数据体系;最重要的Value(价值),即巨大的数据价值。1.3 大数据思维 1.3.1 大数据思维的变革 大数据时代将带来深刻的思维转变,大数据不仅将改变每个人的日常生活和工作方式,改变商业组织和社会组织的运行方式。 1.从样本思维到总体思维意识的变革。 2.容错思维意识的变革。 3.从关注因果关系到相关关系的思维变革。 4.从自然思维到智能思维的变革。 1.3.2

5、 大数据思维的关注点 大数据思维是客观存在,大数据思维是新的思维观。大数据思维开启了一次重大的时代转型,人们对数据的关注点也发生了很大变化。 1.数据思维的最核心是利用数据解决问题。 2.大数据关注“有用”。 3.由关注精确度转变为关注效率。 4.关注定制产品。 1.4大数据的处理过程 1.4.1 大数据采集 在计算机广泛应用的今天,数据采集的重要性是十分显著的。它是计算机与外部物理世界连接的桥梁。各种类型信号采集的难易程度差别很大。数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的、用户自定义的测量系统。数据采集技术广泛应用在各个领域,比如摄像头,麦克风,都是数据采

6、集工具。 1.4.2 大数据导入/预处理 虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。 1.4.3 大数据统计与分析 大数据时代的来临将对我们的现实生活、企业的运营管理模式提出了新的挑战,也带来新的市场机会。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些数据进行专业化处理。可以说大数据分析是决策过程中的决定性因素,也是大数据时代发挥数据价值的关键环节。大数据分析技术帮助企业了解客户、锁定资源、规划生产、开拓新的业务。 1.4.

7、4 大数据挖掘 从海量数据中发现有价值的信息,把这些数据转化成有组织的知识,这种需求导致了大数据挖掘的诞生。 数据挖掘主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。1.5 大数据分析工具简介 1.InfoSphere BigInsights 由IBM推出的大数据平台InfoSphere BigInsights为用于处理流数据和持久性数据的软件。旨在帮助公司从大量不同范围的数据中挖掘商机并进行分析,为了能够对大量丰富的数据进行筛选,BigInsights 提供了内置分析技术和无分享硬件集群。它可以透明地分配存储在附加至集群中各

8、种节点的磁盘上的文件数据,将应用程序的子任务分配给位于目标数据子集附近的处理器。 2.BigQuery BigQuery是Google推出的一项Web服务,该服务让开发者可以使用Google的架构来运行SQL语句对超级大的数据库进行操作。BigQuery旨在分析数十亿行近似的数据,使用类SQL语法。BigQuery支持分析交互风格,使用SELECT命令构建查询。查询语言包括支持标准操作,比如joining、sorting和grouping,以及内嵌数据结构。可以支持统计函数,比如count、sum、average、variance和standard deviation(标准偏差)等。 3.魔镜

9、(moojnn) 大数据可视化处理软件魔镜为国云数据科技有限公司研发,为我国大数据领域领先的分析平台。 魔镜支持各种各样的数据源。无论是Excel文件、传统数据库、大数据、集成数据,甚至微博微信淘宝,魔镜都可以支持。 魔镜颠覆传统Excel分析和报表工具,自动拖拽建模。操作简单、应用方便。魔镜中现为我国最大的可视化分析挖掘平台、开放的数据市场和拥有超大的视觉效果库。 目前,已超过一万多家企业在使用,魔镜为提供全行业大数据解决方案。1.6 大数据应用案例 1.6.1 大数据助石油公司精准管理、智能营销 国内某石油公司希望通过其庞大的销售数据了解到销售代表的销售业绩与KPI,希望能从各个角度对整体

10、的销售数据进行切片分析并根据市场走势制定合适的营销策略。 该企业选择大数据分析工具魔镜来预测综合市场指数,全维度的分析数据并挖掘出数据背后隐藏的巨大的价值。员工KPI考核指标客户分析石油生产流程监控管理 1.6.2大数据在乳业公司预测产量值 国内某乳业公司为了保证提供优质的鲜乳原料,实现真正意义上的“横跨东西、纵跨南北”的战略布局,其原奶事业部想对取决于五大区的奶牛产奶量和奶牛数量的供奶量进行预测。 同时,供奶地区较多,地域跨度大,奶牛存栏情况和不同泌乳周期的产奶量等都各不相同,而原奶事业部自身的可视化展示效果较为单一。如何将不同的地域、不同的产奶量等用多元的可视化效果展示都是原奶事业部想要解

11、决的问题。新投产泌乳牛的数量情况 大数据分析工具魔镜为改乳业公司建立的奶量预测系统是通过业务逻辑,以历史供奶量为基准进行估算和预测的。大数据分析工具魔镜的大数据挖掘功能可以通过历史数据,并利用逻辑回归算法进行数据预测。预测置信度高,但前期的数据积累必不可少。未来对奶量的预测还应建立业务模型,列举影响供奶的内外因,设置权重,从而回归预测。谢 谢 !第2章 大数据技术基础2.1 基础架构支持2.1.1 Hadoop2.1.2 Hbase2.1.3 MapReduce2.1.4 Hive2.1.5 Pig2.1.6 R语言2.2 云计算2.2.1 云计算的特点2.2.2 云计算与大数据2.3 数据采

12、集2.3.1 数据采集的意义2.3.2 数据采集的方法2.4 数据存储2.4.1 数据存储的概念2.4.2 数据存储方式2.4.3 常见数据源类型实验1 识大数据分析工具“魔镜” 本章内容 目前,建立在大数据基础之上的大分析系统有两个探索方向。 方向之一是:互联网企业直接在Hadoop基础之上,借助于云计算模式,通过加强开源数据库系统Hive/Hbase等工具能力,逐步提升大分析所需的分析能力。 方向之二是:传统的数据仓库处理厂家引入Hadoop云计算的技术,扩展原有的信息处理能力,融合传统数据仓库能力和Hadoop云计算能力,在应用层支撑更丰富的大分析能力。不管怎样,进行大数据的大分析,需要

13、一定的架构支撑和技术支持。2.1 基础架构支持2.1.1 HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统HDFS(Hadoop Distributed File System)。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop之父Hadoop Hadoop项目的发起人为Doug Cutting,称之为Hadoop之父。1985年,C

14、utting毕业于美国斯坦福大学。Doug Cutting主导的Apache Nutch项目是Hadoop软件的源头,该项目始于2002年,是Apache Lucene 的子项目之一。Hadoop技术架构 2.1.2 HBase HBase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,也就是说HBase具有HDFS的分布式处理的优势,HBase本身就是十分强大的数据库,它能够融合key/value存储模式带来实时查询的能力,以及通过MapReduce进行离线处理或者批处理的能力。 HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。 所谓

15、非结构化数据存储就是说HBase是基于列的而不是基于行的模式。2.1.3 MapReduceMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。Map-映射,Reduce-归约。MapReduce采用分而治之的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是任务的分解与结果的汇总。在Hadoop中,每个MapReduce任务都被初始化为一个Job,每个Job又可以分为两种阶段:map阶段和reduce阶段。这两个阶段分别用两个函数表示,即map函数和reduce函数。

16、map函数接收一个形式的输入,然后同样产生一个形式的中间输出,Hadoop函数接收一个如形式的输入,然后对这个value集合进行处理,每个reduce产生0或1个输出,reduce的输出也是形式的。 2.1.4 Hive Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reduce

17、r 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。2.1.5 PigPig是一个基于Hadoop的大规模数据分析平台,Pig包含两个部分:Pig Interface,Pig Latin。它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。 2.1.6 R语言 R是一套完整的数据处理、计算和制图软件系统。其功能包括: 数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计

18、制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环。 R语言擅长在Hadoop分布式文件系统中存储的非结构化数据的分析。R现在还可以运行在HBase这种非关系型的数据库以及面向列的分布式数据存储之上。 2.2 云计算 云计算技术是硬件技术和网络技术发展到一定阶段而出现的一种新的技术模型。云计算是分布式存储、网格计算、虚拟化、负载均衡、热备份冗余等传统计算机和网络技术发展融合的产物。云计算是一种计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按照自己的需要获取计算、存储和信息服务。这里提到的资源池也称为“云”。“云”是一些可以进行自我维护和自我管理的虚拟计算

19、资源,通常是一些大型服务器集群,包括计算服务器、存储服务器和宽带资源等。2.2.1 云计算的特点 1.可扩展性:从资源低效率的分散使用到资源高效的集约化使用正是云计算的基本特征之一。 2.按需提供资源服务:云计算系统实现按需向用户提供资源能大大节省用户的硬件资源开支。 3.虚拟化:现在的云计算平台的重要特点是利用软件来实现硬件资源的虚拟化管理、调试及应用。 4.超大规模:应用于“云”的服务器数量就在几十万甚至上百万之多,“云”也会给用户带来前所未有的计算能力。 5.高可靠性和安全性:在使用“云”的服务的过程中,服务器使用了数据多副本容错、计算节点同构可互换等措施在保障服务的高可靠性。 2.2.

20、2 云计算与大数据 云计算与大数据之间是相辅相成,相得益彰的关系。云计算就是硬件资源的虚拟化;大数据分析就是海量数据的高效处理。大数据挖掘处理需要云计算作为平台,而大数据涵盖的价值和规律则能够使云计算更好的与行业应用结合并发挥更大的作用。云计算将计算资源作为服务支撑大数据的挖掘,而大数据的发展趋势是对实时交互的海量数据查询、分析提供了各自需要的价值信息。2.3 数据采集2.3.1 数据采集的意义 足够的数据量是企业大数据战略建设的基础,数据采集成为大数据分析的前奏。数据采集是大数据价值挖掘中重要的一环,其后的分析挖掘都是建立在数据采集的基础之上。 在计算机广泛应用的今天,数据采集的重要性是十分

21、显著的。各种类型信号采集的难易程度差别很大。实际采集时,噪声也可能带来一些麻烦。数据采集时,有一些基本原理要注意,还有更多的实际的问题要解决。2.3.2 数据采集的方法1.基于物联网采集方法2.系统日志采集方法3.网络数据采集方法4.其他数据采集方法2.4 大数据存储2.4.1数据存储的概念 大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据存储由于其本身存在的4V特征,传统的存储技术不能满足大数据存储的需要,通过ETL技术数据资源被从源系统中提取,并被转换为一个标准的格式,再使用NoSQL数据库进行数据库存取管理,通过分布式网络文件系统将数据信息存储在整个互联网络资

22、源中,并用可视化的操作界面随时满足用户的数据处理需求。 2.4.2 数据存储方式 针对大数据的存储,主要采用以下两种存储方式。 1.开放系统的直连式存储(Direct Attached Storage,DAS),外部存储设备都是直接挂接在服务器内部总线上,数据存储设备是整个服务器结构的一部分。直连存储无法共享,因此经常出现的情况是某台服务器的存储空间不足,而其他一些服务器却有大量的存储空间处于闲置状态却无法利用。 2.网络附加存储(Network Attached Storage,NAS),它采用独立于服务器,单独为网络数据存储而开发的一种文件服务器来连接所存储设备。这样数据存储就不再是服务器

23、的附属,而是作为独立网络节点而存在于网络之中,可由所有的网络用户共享。2.4.3 常见数据源类型1.文本类型:如Excel、TXT、CSV等。2.数据库类型:如MySQL、SQLSever、Oracle、PostgreSQL等。3.数据集群类型:Hive、Spark等。谢 谢 !第3章 大数据管理本章内容3.1 大数据的清洗3.1.1 数据质量3.1.2 数据清洗的作用3.1.3 数据清洗的方法和过程3.1.4 数据清洗实例3.2 数据类型和数据转换3.2.1 数据类型3.2.2 数据转换3.3 大数据的提取和加载实验3 数据处理3.1 大数据的清洗 大数据时代下,管理的关键依靠着数据,但随着

24、信息量的不断增长、智慧工具的不断涌现,如何对数据进行有效清洗实现数据的真实性,有效性,唯一性变得十分具有挑战。为了使数据的记录更准确、一致,消除重复和异常记录就变得很重要,所以数据预处理工作是相当必要的。数据清洗作为数据预处理的一个重要环节,在大数据分析过程中占据重要位置。 3.1.1 数据质量 1.数据质量的四大要素 在技术发展的不同阶段,对数据质量有不同的定义和标准。早期对数据质量的评价标准主要以数据准确性为出发点,随着信息系统功能和定位的不断延伸,用户关心的重点逐步由数据准确性扩展至合法性、一致性等方面。归纳起来,数据质量具有四大要素: 完整性 一致性 准确性 及时性2. 数据质量管理的

25、关键 制订规范的数据质量度量标准建立有效的数据质量监管体系建立完善的数据质量管理制度 3.1.2 数据清洗的作用 数据清洗就是按照一定的规则把“脏数据”“洗掉”,过滤不符合要求的数据,主要包括不完整的数据、错误的数据、重复的数据,然后将过滤的结果交给业务主管部门,确认是否过滤掉还是修正之后再进行提取。因此如何对数据进行有效的清理和转换,使之成为符合数据分析要求的数据源,是影响数据分析准确性的关键因素。3.1.3 数据清洗的方法和过程1. 数据清洗的方法 通过人工检查 通过专门编写的应用程序 针对特定应用领域的数据清理 针对与特定应用领域无关的数据清理3.1.3 数据清洗的方法和过程2. 数据清

26、洗的过程第一阶段:数据分析、定义错误类型第二阶段:搜索、识别错误记录第三阶段:修正错误3.1.4 数据清洗的实例DataEye 原始数据源提供一组游戏下载时长数据集 如果直接计算游戏平均下载时长,得到的结果为23 062.57 秒,约6.4小时,与实际情况严重不符,说明这一数据集受到噪声数据的显著影响。3.1.4 数据清洗的实例将数据集等分为240 300 个区间,找到数据集中区域0,3 266.376,对取值之间的数据做箱型图分析,对此区间外的数据剔除离群值,重新计算平均下载时长最后计算目标数据源的平均下载时长为192.93 秒,约3.22 分,符合实际情况。通过数据分布特征及箱型图的方法来

27、识别、剔除噪声数据较为快捷且效果显著。3.2.1 数据类型1. 整理数据类型(1)INT(或INTEGER)数据类型;(2)SMALLINT 数据类型(3)TINYINT 数据类型;(4)BIGINT 数据类型2. 浮点数据类型(1)REAL 数据类型;(2)FLOAT 数据类型(3)DECIMAL 数据类型;(4)NUMERIC 数据类型3. 二进制数据类型(1)BINARY 数据类型 ;(2)VARBINARY 数据类型 3.2 数据类型和数据转换3.2.1 数据类型4. 逻辑数据类型 BIT 数据类型5. 字符数据类型(1)CHAR 数据类型;(2)NCHAR 数据类型(3)VARCHA

28、R 数据类型;(4)NVARCHAR 数据类型6. 文本和图像数据类型(1)TEXT 数据类型;(2)NTEXT 数据类型;(3)IMAGE 数据类型7. 日期和时间数据类型 DATETIME 数据类型用于存储日期和时间3.2.2 数据转换 数据转换是将数据从一种表示形式变为另一种表示形式的过程。由于每一个软件后台数据库的构架与数据的存储形式都是不相同的,因此就需要对数据进行转换。例如,对两个操作数进行运算,当操作数的类型不同,而且不属于基本数据类型时,经常需要将操作数转换为所需要的类型,这个过程即为强制类型转换。强制类型转换有两种形式:显式强制类型转换和隐式强制类型转换。3.3 大数据的提取

29、和加载 大数据的提取和加载是指将转换好的数据保存到数据仓库中去。大数据在加载时一般采用两种方式:完全刷新加载从技术角度上说,完全刷新加载比增量提取和加载要简单得多,它适用于数据量不大并且时间代价和条件代价较小的情况。增量提取和加载如何精准快速地捕获变化的数据是实现数据增量加载的关键。(1)触发器方式;(2)时间戳方式;(3)全表比对方式(4)日志表方式;(5)系统日志分析方式谢 谢 !第四章 大数据统计分析技术4.1 统计分析概述4.1.1 统计分析的概念4.1.2 统计分析的特点4.1.3 统计分析的应用4.2 统计分析的常见指标4.2.1 统计指标概述4.2.2 总量指标4.2.3 相对指

30、标4.2.4 平均指标4.2.5 变异指标4.3 回归与预测4.3.1 回归4.3.2 预测实验4 数据分析本章内容4.1 统计分析概述4.1.1 统计分析的概念统计分析是指运用统计方法及与分析对象有关的知识,定量与定性相结合对样本数据进行的研究活动。4.1大数据统计分析的核心思想4.1.1统计分析的概念大数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用的信息以及对数据加以详细研究和概括总结的过程。4.1大数据统计分析的核心思想4.1.1统计分析的概念统计分析的意义帮助企业了解客户、锁定资源、规划生产、开拓新的业务;通过对消费者爱好、需求以及对品牌忠诚度等因素进行大数据分析

31、,来制定服务和营销的智能决策;通过对通信、金融活动记录的大数据分析,来精准地拓展业务和更好地服务客户4.1大数据统计分析的核心思想4.1.2统计分析的特点传统统计分析的特点 目的与对象相统一 定性与定量相结合 系统性与全面性 原则性能动性 变化性 4.1大数据统计分析的核心思想4.1.2统计分析的特点大数据统计分析的特点 宏观与微观相统一 方法理论尚未成熟 全样本采样,实时性分析人才专业性较强能动性 变化性 4.1大数据统计分析的核心思想4.1.3统计分析的应用大数据帮能源公司设置发电机地点 丹麦能源公司维斯塔斯(Vestas Wind Systems)将利用业界领先的IBM大数据分析软件和卓

32、越的IBM系统优化风力涡轮机配置方案,从而实现最高效的能量输出。4.1大数据统计分析的核心思想4.1.3统计分析的应用大数据帮零售企业制定促销策略 沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,结果是得到了尿不湿与啤酒的销售量双双增长。4.1大数据统计分析的核心思想4.1.3统计分析的应用大数据对交通行为预测基于用户和车辆的LBS定位数据,分析人车出行的个体和群体特征,进行交通行为的预测。4.1大数据统计分析的核心思想4.1.3统计分析的应用大数据对疾病疫情预测 google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。4.1大数据统计分析的核心思想4.1.3统计分析的应用

33、大数据帮助奥巴马大选连任成功 2012年11月奥巴马大选连任成功的胜利果实也被归功于大数据深入数据挖掘。4.2 统计分析的常见指标4.2.1统计分析指标概述统计指标简称指标,是反映同类社会经济现象总体综合数量特征的范畴及其具体数值。对统计指标通常有两种理解和使用方法:一是用来反映总体现象总体数量状况的基本概念,例如年末全国人口总数、全年国内生产总值、国内生产总值年度总长率等。二是反映现象总体数量状况的概念和数值。例如,2001年我国年末总人口数为127,627万人、全社会固定产投资增长率为13%等 。4.2 统计分析的常见指标4.2.1统计分析指标概述统计指标特点:总体性 具体性 4.2 统计

34、分析的常见指标4.2.1统计分析指标概述统计指标的种类:按统计指标所说明的总体现象内容不同,可分为数量指标和质量指标; 按统计指标按作用和表现形式不同,可分为总量指标、相对指标、平均指标、标志变异指标四类; 按统计指标的作用和功能的不同,可以分为描述指标、评价指标、监测指标和预警指标; 4.2 统计分析的常见指标4.2.1统计分析指标概述统计指标体系是由若干个相互联系、相互作用的统计指标组成的整体,用以说明所研究社会经济现象各方面相互依存和相互制约的关系。 通过数学公式形式表现出来的统计指标体系。例如,工业总产值=工业产品产量产品价格商品销售额。 指标之间不存在数学公式形式的关系,而只是存在着

35、一种相互联系、相互补充的关系。例如,反映国内商品流转情况的指标(购进量、销售量、调拨量、库存量)所形成的指标体系; 4.2 统计分析的常见指标4.2.2总量指标总量指标是反映社会经济现象在一定时间、空间条件下的总规模或总水平的最基本的综合指标,用绝对数表示,因此,总量指标又叫统计绝对数。如某企业去年总工资100万元,去年上半年总工资30万元,相减得去年下半年总工资。比如每年的政府工作报告都会公布关乎国计民生的重要总量指标。4.2 统计分析的常见指标4.2.2总量指标总量指标的作用:是认识社会经济现象的起点;是实行社会经济管理的依据之一; 是计算相对指标和平均指标的基础;4.2 统计分析的常见指

36、标4.2.2总量指标总量指标的种类:总体单位总量指标和总体标志总量指标;时期指标和时点指标; 4.2 统计分析的常见指标4.2.2总量指标总量指标的计量单位: 实物单位;价值单位; 劳动单位;4.2 统计分析的常见指标4.2.2总量指标总量指标的计算方法 : 直接计算法它是对研究对象用直接的计数、点数和测量等方法,登记各单位的具体数值加以汇总,得到总量指标。如统计报表或普查中的总量资料,基本上都是用直接计算法计算出来的。间接推算法它是采用社会经济现象之间的平衡关系、因果关系、比例关系或利用非全面调查资料进行推算总量的方法。如利用样本资料推断某种农产品的产量,利用平衡关系推算某种商品的库存量等。

37、4.2 统计分析的常见指标4.2.3 相对指标相对指标又称相对数,是应用对比的方法,将两个相互联系的指标数值加以对比计算的一种比值,用来说明现象之间的数量对比关系。其数值表现为相对数,如比重、比例、速度、程度、密度。比如2008年6月27日国内外主要钢铁企业的PE估值对比。相对数指标计算公式为:相对指标=分子/分母(基数) 4.2 统计分析的常见指标4.2.3 相对指标相对指标又称相对数,是应用对比的方法,将两个相互联系的指标数值加以对比计算的一种比值,用来说明现象之间的数量对比关系。其数值表现为相对数,如比重、比例、速度、程度、密度。比如2008年6月27日国内外主要钢铁企业的PE估值对比。

38、相对数指标计算公式为:相对指标=分子/分母(基数) 4.2 统计分析的常见指标4.2.3 相对指标相对指标的作用 :反映现象之间的相互联系程度,说明总体现象的质量、经济效益和经济实力情况。使原来不能直接相比的数量关系变为可比,有利于对所研究失误进行分析比较。表明事物的发展程度、内部结构以及比例关系,为人们深刻认识事物提供依据。4.2 统计分析的常见指标4.2.3 相对指标相对指标的种类和计算原则 (1)同一总体内部之比的相对指标计划完成程度相对指标:是用现象在某一段时间内同一总体的实际完成数与计划数对比的相对数,一般用百分数表示,基本公式为:4.2 统计分析的常见指标4.2.3 相对指标(1)

39、同一总体内部之比的相对指标结构相对指标:结构相对指标(又称比重)是利用分组法,将总体区分为不同特征的各部分,以部分总量与总体总量对比求得比重或比率来反映总体内部组成状况的综合指标。它是分组的基础上计算出来的一种相对数。基本公式为:4.2 统计分析的常见指标4.2.3 相对指标相对指标的种类和计算原则 (1)同一总体内部之比的相对指标比例相对指标:比例相对指标是在总体分组的基础上,各组成部分之间的数量对比的比值,反映总体内部的比例关系。是同一总体内不同部分之比,基本公式为:4.2 统计分析的常见指标4.2.3 相对指标相对指标的种类和计算原则 (1)同一总体内部之比的相对指标动态相对指标:动态相

40、对指标是同一总体中同一指标在不同时间上的指标数值对比,以表明现象的发展速度。统计上把用来作为比较标准的时期称为基期,把和基期对比的时期称为报告期,计算公式为:4.2 统计分析的常见指标4.2.3 相对指标(2)两个总体之间对比的相对指标比较相对指标:就是由不同单位的性质相同的指标对比而确定的相对指标,说明某一种现象在同一时间内各单位发展的不平衡程度。一般用百分数、系数或倍数表示,计算公式为:4.2 统计分析的常见指标4.2.3 相对指标(2)两个总体之间对比的相对指标强度相对指标:不属于同一总体的两个性质不同但相互间有联系的总量指标对比的比值,用来反映现象的强度、密度和普遍程度、利用程度的综合

41、指标,计算公式为: 4.2 统计分析的常见指标4.2.3 相对指标例如,某工厂生产产品A,全年计划生产100台,到三季度结束分别生产了90台。最后全年生产了120台。去年全年生产了90台。今年这个单位共100名员工,男60人。另外一家生产相同产品的厂家,今年年产量是80台。求计划完成相对指标、执行进度相对指标、结构相对指标、比例相对指标、动态相对指标、比较相对指标、强度相对指标,则有:计划完成相对指标=120/100=120%; 执行进度相对指标=90/100=90%结构相对指标=60/100=60%; 比例相对指标=60/(100-60)=150:100动态相对指标=120/90=133.3

42、%;比较相对指标=120/80=150%强度相对指标=100/100=1(台/人)正负。4. 统计分析的常见指标4.2.4 平均指标平均指标的概念平均指标是以反映总体的一般水平的综合指标,又称平均数,它是将一个总体内各个单位在某个数量标志上的差异抽象化,以反映这个总体一般水平的综合指标。比如2014年度北京市职工平均工资(又称社会平均工资)为7.76万元,月平均工资为6463元。4.2 统计分析的常见指标4.2.4 平均指标平均指标的特点:平均指标是个代表值,代表总体各单位标志值的一般水平;把总体各个单位某一标志数值的差异抵消掉。即总体内各同质单位存在数量差异,但在计算平均数时并不考虑这种差异

43、,即把这种差异平均掉了。平均指标的作用:反映总体各单位标志值分布的集中趋势;用来比较同类现象在不同单位发展的一般水平及同一单位的同类指标在不同时期的发展状况;4.2 统计分析的常见指标4.2.4 平均指标平均指标的分类平均指标分为数值平均指标和位置平均指标。数值平均指标按计算方法分为算术平均数、调和平均数和几何平均数。位置平均平均指标有众数和中位数。4.2 统计分析的常见指标4.2.4 平均指标数值平均指标算术平均数:算术平均数是将总体各个单位的某一标志值相加除以总体单位数求的的标志值,计算公式为: 4.2 统计分析的常见指标4.2.4 平均指标数值平均指标加权算术平均数:当变量值已经分组,且

44、各个标志值出现的次数不相同时,就可以采用加权算术平均数的形式计算平均指标,公式:4.2 统计分析的常见指标4.2.4 平均指标数值平均指标调和平均数:在不掌握各组单位数以及总体单位数的情况下,只掌握各组的标志值和各组的标志总量及总体总量的情况下,用此方法。简单调和平均数:加权调和平均数:4.2 统计分析的常见指标4.2.4 平均指标数值平均指标几何平均数:几何平均数是用n个变量相乘开n次方的算术根来计算的平均数,在统计中,几何平均数常用于计算平均速度和平均比率。简单几何平均数:加权几何平均数:4.2 统计分析的常见指标4.2.4 平均指标位置平均指标中位数:是根据变量值的位置来确定的平均数。将

45、变量值按大小顺序排序,处于中间位置的变量值(或数据),公式为:4.2 统计分析的常见指标4.2.4 平均指标位置平均指标中位数:是根据变量值的位置来确定的平均数。将变量值按大小顺序排序,处于中间位置的变量值(或数据),公式为:4.2 统计分析的常见指标4.2.4 平均指标位置平均指标众数是指总体中出现次数最多的标志值,用表示。众数也是一种位置平均数,近似计算公式为:4.2 统计分析的常见指标4.2.5 变异指标变异指标又称标志变动指标,它反映了总体各单位标志值的差异程度,它是说明总体标志值的变异、离散程度。例如用于股市投资分析的MACD指标(指数离差指标)。变异指标的作用反映变量分布的离散趋势

46、;反映平均数的代表性,总体单位变量值的离中趋势;量度事物发展均衡性。4.2 统计分析的常见指标4.2.5 变异指标变异指标又称标志变动指标,它反映了总体各单位标志值的差异程度,它是说明总体标志值的变异、离散程度。例如用于股市投资分析的MACD指标(指数离差指标)。变异指标的作用反映变量分布的离散趋势;反映平均数的代表性,总体单位变量值的离中趋势;量度事物发展均衡性。4.2 统计分析的常见指标4.2.5 变异指标变异指标的种类与计算 全距(极差):总体各单位标志值中最大值和最小值的差距。它最简明地说明标志值的变动范围,计算公式为:平均差 :总体各单位标志值与平均数离差绝对值的平均数。它表示总体各

47、标志值与平均数的平均差异程度,用A.D表示平均差。4.2 统计分析的常见指标4.2.5 变异指标全距(极差):总体各单位标志值中最大值和最小值的差距。它最简明地说明标志值的变动范围,计算公式为:平均差 :总体各单位标志值与平均数离差绝对值的平均数。它表示总体各标志值与平均数的平均差异程度,用A.D表示平均差。4.2 统计分析的常见指标4.2.5 变异指标方差和标准差:方差和标准差是测度标志变异最重要最常用的指标,它以变量值与平均数的离差平方为基础,讨论平均数的代表性,是变量值与平均数的离差平方的平均数,标准差用表示。4.3 回归与预测4.3.1回归回归的概念一般说来,回归就是在分析自变量和因变

48、量之间相关关系的基础上,建立变量之间的方程。回归的本质是一种数学模型,通过建立变量间适当的依赖关系,以分析数据内在规律,并可用于预报、控制等问题 4.3 回归与预测4.3.1回归公式:y = a + b x公式:y =sin( x) 4.3回归与预测4.3.2预测统计预测属于预测方法研究范畴,即如何利用科学的统计方法对事物的未来发展进行定量推测,并计算概率置信区间。是一种具有通用性的方法。最简单的预测方法就是回归预测,即将回归方程作为模型,根据自变量在预测期的数量变化来预测因变量值。4.3回归与预测4.3.2预测预测步骤:确定变量:明确预测的具体目标,也就确定了因变量。建立模型:依据自变量和因

49、变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。进行分析:回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。谢 谢 !第5章 数据挖掘本章内容5.1 大数据挖掘概念5.2 大数据挖掘概念5.3 数据挖掘流程数据挖掘的常用方法实验5 数据挖掘5.1.1 数据挖掘的起源 从我们的观点来看,大部分数据挖掘问题和相应的解决方法都起源于传统的数据分析。数据挖掘起源于多种学科,其中最重要的两门是统计学和机器学习,统计学起源于数学,因此,它强调数学上的精确。在实践测试之前,在理论

50、基础上建立一些东西的要求是明智的,相比之下,机器学习更多地起源于计算机实践。这就导致了实践的倾向,自觉地对一些东西进行检验来查看它表现的好坏,而不是去等待有效性的正式证据。5.1 大数据挖掘概念5.1.2 数据挖掘的定义 数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目

51、标。5.2.1 数据总结 数据总结目的是对数据进行浓缩,给出它的总体综合描述。通过对数据的总结,数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。 最简单的数据总结方法是利用统计学中的传统方法,计算出数据库中各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具,对数据制作直方图、饼状图等。 利用OLAP(On Line Processing)技术(即联机分析处理技术)实现数据的多维查询也是一种广泛使用的数据总结的方法。 5.2 数据挖掘任务5.2.2 分类 分类的主要功能是使用一个分类函数或分类模型(

52、也常常称作分类器),该模型能够根据数据的属性将数据分派到不同的组中。即:分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些组。这样我们就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。 分类应用的实例很多。例如,我们可以将银行网点分为好、一般和较差三种类型,并依此分析这三种类型银行网点的各种属性,特别是位置、盈利情况等属性,并决定它们分类的关键属性及相互间关系。此后就可以根据这些关键属性对每一个预期的银行网点进行分析,以便决定预期银行网点属于哪一种类型。5.2.3 关系分析 关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目的密切度或关系。有时并不知道数据库中数据

53、的关联是否存在精确的关联函数,即便知道也是不确定的,因此关联分析生成的规则带有置信度,置信度级别度量了关联规则的强度。5.2.4 聚类 当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚类分析。聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。 统计方法中的聚类分析是实现聚类的一种手段,它主要研究基于几何距离的聚类。人工智能中的聚类是基于概念描述的。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象

54、之间的区别。5.3.1 业务理解(1)确定业务目标(2)形式评估(3)确定数据挖掘目标(4)制订项目实施计划5.3 数据挖掘流程5.3.2 数据理解(1)数据的初步收集(2)数据描述(3)数据的探索性分析(4)数据质量检验5.3.3 数据准备(1)选择数据(2)数据清洗(3)数据构建(4)数据融合(5)数据格式化5.3.4 建立模型(1)选择建模技术(2)生成模型(3)建立模型(4)评估模型5.3.5 结果评价 在大多数情况下,数据挖掘模型应该有助于决策。因此,要对这种模型进行说明以使模型有用,因为人们不会在复杂的“黑箱模型”的基础上作决策。注意,模型准确性的目标和模型说明的准确性的目标有点互

55、相矛盾。一般来说,简单的模型容易说明,但是其准确性就差一些。5.4 数据挖掘的常用方法 数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学以及科学计算可视化技术,以数据库为研究对象,形成的数据挖掘的方法和技术。 数据挖掘常用的技术可以分为六大类:归纳学习方法、仿生物技术、公式发现、统计分析方法、模糊数学方法、可视化技术。5.4.1 决策树 决策树起源于概念学习系统CLS (Concept Learning System)。决策树方法就是利用信息论的原理建立决策树。该类方法的实用效果好,影响较大。决策树可高度自动化地建立起易于为用户所理解的模型,而且,系统具有较好

56、地处理缺省数据及带有噪声数据等能力。1、决策树表示法 决策树是一树状结构,它从根节点开始,对数据样本(由实例集组成,实例有若干属性)进行测试,根据不同的结果将数据样本划分成不同的数据样本子集,每个数据样本子集构成一子节点。生成的决策树每个叶节点对应一个分类。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。这种具有预测功能的系统叫决策树分类器。2、决策树构造思想 构造一个决策树分类器通常分为两步:树的生成和剪枝。决策树的生成是一个从上至下,“分而治之”(Divide-And-Conquer)的过程,是一个递归的过程。设数据样本集为S,算法框架如下: (1)如果数据样

57、本集S中所有样本都属于同一类或者满足其它终止准则,则S不再划分,形成叶节点。 (2)否则,根据某种策略选择一个属性,按照属性的各个取值,对S进行划分,得到n个子样本集,记为 。再对每个 迭代执行步骤1经过n次递归,最后生成决策树。从根到叶结点的一条路径就对应着一条规则,整棵决策树就对应着一组析取表达式规则。树构成步骤中,主要就是找出节点的属性和如何对属性值进行划分。3、决策树方法特点 决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。5.4.2 遗传算法 遗传算法是由美国Michigan

58、大学的Holland教授于1969年提出,后经DeJong、Goldberg等人归纳总结所形成的一类模拟进化算法。它来源于达尔文的进化论、魏茨曼的物种选择学说和孟德尔的群体遗传学说。它适合于无表达或有表达的任何类函数,具有可实现的并行计算行为;它能解决任何种类实际问题,具有广泛的应用价值。1、遗传算法特点(1)遗传算法从问题解的中集开始嫂索,而不是从单个解开始。(2)遗传算法求解时使用特定问题的信息极少,容易形成通用算法程序。(3)遗传算法有极强的容错能力(4)遗传算法中的选择、交叉和变异都是这说明遗传算法是采用随机方法进行最优解搜索,选择体现了向最优解迫近,交叉体现了最优解的产生,变异体现了

59、全局最优解的覆盖。(5)遗传算法具有隐含的并行性。2、遗传算法流程(1)选择一个初始的人口(2)确定每个个体的适应度(3)执行选择(4)重复(5)执行交叉(6)执行突变(7)确定每个个体的适应度(8)执行选择直到停止准则应用遗传算法处理流程3、遗传算法优缺点 遗传是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应用。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和BP算法结合训练神经网络,然后从网络

60、提取规则等。但遗传算法的算法比较复杂,收敛于局部极小的较早收敛问题尚未解决。5.4.3 神经网络 神经网络是以重复学习的方法,将一串例子交与学习,使其归纳出足以区分的样式。如果面对新的例证,神经网络即可根据其过去学习的成果归纳后,推导出新的结果,这属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式,其学习效果十分正确并可做预测功能。1、神经网路概述 在许多数据挖掘和决策支持应用中,由于有公认的轨迹记录,人工神经网络已经成为一种普遍采用的方法。神经网络是一种可以容易的应用于预测、分类和聚类的强有力工具。最有力的神经网络是生物所具有的神经网络,与此相对应的是,计算机通常善于反复的执行明确

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论