数据分析建模简介_第1页
数据分析建模简介_第2页
数据分析建模简介_第3页
数据分析建模简介_第4页
数据分析建模简介_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据分析建模简介观察和实验是科学家探究自然的主要方法,但如果你有数据,那么如何让 这些数据开口说话呢?数据用现代人的话说即信息,信息的挖掘与分析也是建 模的一个重要方法。1科学史上最有名的数据分析例子开普勒三定律数据来源:第谷?布拉赫(1546-1601, 丹麦人),观察力极强的天文学家,一辈子( 20年)观察记录了 750颗行星资料,位置误差不超过 0.67 °。 观测数据可以视为实验模型。数据处理:开普勒( 1571-1630,德国人),身体瘦弱、近视又散光, 不适合观天,但有一个非常聪明的数学头脑、坚韧的性格(甚至有些固执) 和坚强的信念(宇宙是一个和谐的整体) ,花了 16

2、年(1596-1612)研究第 谷的观测数据,得到了开普勒三定律。开普勒三定律则为唯象模型。2数据分析法2.1 思想 采用数理统计方法(如回归分析、聚类分析等)或插值方法或曲线拟合方 法,对已知离散数据建模。适用范围:系统的结构性质不大清楚,无法从理论分析中得到系统的规律, 也不便于类比,但有若干能表征系统规律、描述系统状态的数据可利用。2.2 数据分析法2.2.1 基础知识(1)数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的 形式给出;(2)数据分析( data analysis )是指分析数据的技术和理论;(3)数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集 中、

3、萃取和提炼出来,以找出所研究对象的内在规律;(4)作用:在实用中,它可帮助人们作判断,以采取适当行动。(5)实际问题所涉及的数据分为: 受到随机性影响(随机现象)的数据; 不受随机性影响(确定现象)的数据; 难以确定性质的数据(如灰色数据) 。(6)数理统计学是一门以收集和分析随机数据为内容的学科,目的是对数 据所来自的总体作出判断,总体有一定的概率模型,推断的结论也往往一 概率的形式表达(如产品检验合格率) 。(7)探索性数据分析是在尽量少的先验假定下处理数据,以表格、摘要、 图示等直观的手段,探索数据的结构及检测对于某种指定模型是否有重大 偏离。它可以作为进一步分析的基础,也可以对数据作出

4、非正式的解释。 实验者常常据此扩充或修改其实验方案(作图法也该法的重要方法,如饼 图、直方图、条形图、走势图或插值法、曲线(面)拟合法等) 。2.2.2 典型的数据分析工作步骤第一步:探索性数据分析 目的:通过作图、造表、用各种形式的方程拟合、计算某些特征量等 手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐 含在数据中的规律性。第二步:模型选定分析 目的:在探索性分析的基础上,提出一类或几类可能的模型(如进一 步确定拟合多项式(方程)的次数和各项的系数) 。第三步:推断分析 目的:通常用数理统计或其它方法对所选定的模型或估计的可靠程度 或精确程度作出推断(如统计学中的假设检验

5、、参数估计、统计推断) 3建模中的概率统计方法现实世界存在确定性现象和随机现象,研究随机现象主要由随机数学来承担,随机数学包括十几个分支,但主要有概率论、数理统计、试验设计、贝叶 斯统计、随机过程、时间序列分析、马尔可夫决策、可靠性理论等。3.1概率统计建模基本思想面对实际的随机现象,有两类定量方法:(1)方法一:概率统计方法。其思想是从对随机现象的大量观察中提出相 应的数学模型(即概率空间),用随机变量来描述随机现象,然后再研究这 一数学模型的性质、特点(如随机变量及其分布、随机变量的数字特征等), 由此来阐述随机现象的统计规律性。(2)方法二:数理统计方法。其思想是从对随机现象的观测所得到

6、的资料 出发(在概率论的指导下)研究怎样去有效地收集、整理和分析带有随机 性的数据,以对所考察的问题作出推断或预测,直至为采取一定的决策和 行动提供依据和建议。(3)概率统计分析方法建模的步骤:【Stepl】:模型的选择与建立即确定总体的分布类型(分布函数或密度函数如二项分布、泊松分布、正态分布、2、t、F分布等)、回归函数等,其方法为绘制频 数直方图。【Step2】:描述性统计数据的收集(全面观测、抽样观测和安排特定的实验(实验设 计法、正交实验设计、回归设计、抽样检验) 数据的整理(数字特征和统计量,如均值、方差等)【Step3】:统计推断据总体模型和由样本描述分析,作出有关总体分布的某种

7、论断,如 残次品率为正态分布,常用参数估计和假设检验,或用统计软件做 概率值检验。【Step4】:统计预测预测随机变量在未来某个时刻的值,如预测一种产品在未来三年内 市场的销售量,常用回归。【Step5】:统计决策就是依据所做的统计推断或预测,并考虑到行动的后果(一经济损失的形式表示),而指定的一种行动方案。【注意】:Step4和Step5涉及内容包含:非参数统计、多元统计分析 (相关、方差、聚类、判别、因子、主成分、多维标度法、多变量的图 表示法、对应分析(列联表对应分析)、序贯分析、时间序列分析和随 机过程统计等。(4)熟悉几个重要的分布:二项分布、泊松分布、正态分布、2分布、t分布、F分

8、布。在数学软件中包含很多概率分布,例如在Matlab的统计工具箱(toolbox'stats )中的概率分布共有 20多种,有norm-正态分布、chi2-2分布、t-t分布、f F分布等。工具箱对每一种分布都提供5类函数,其命令字为:pdf-概率密度,cdf-概率分布,inv-逆概率分布,stat-均值与方差,rnd-随机数生成(可以通过help pdf 等查询命令格式)3.2建模中的实用概率统计方法简单地讲,统计的任务就是从样本推断总体。样本是统计研究的主要 对象,对于一次具体的试验,样本是一组数据,但它的取值是随机的,从 概率论的观点可以把样本当作随机变量,而且当每个个体都是从总

9、体中独 立抽取(即个体被抽取的结果互不影响)时,样本就是一组相互独立、同 分布的随机变量,当然总体也可以被视为随机变量,与样本同分布。例如, 学校全体学生的身高为总体,其中100名学生的身高数据为样本,100为样 本容量。在实际问题的数学建模中,常用的统计方法有数据的统计描述和分析、 统计推断、相关性分析、方差分析、回归分析、因子分析、主成分分析、 聚类分析和判别分析等。3.2.1数据的描述性统计针对一组杂乱无章的数据(即样本),描述性统计的步骤为:初步整理和直观描述-作出频数表和直方图进一步加工,提取有用信息-计算统计量统计量:用来进一步反映数据特征,它是加工出来的,反映样本数据特征 的函数

10、,它不含任何未知量,大致可以分三类:表示位置的统计量-样本均值、中位数、上下1、4分位点 表示变异程度的统计量 标准差、方差、极差表示分布形状的统计量-偏度、峰度322统计推断统计推断主要有参数估计和假设检验。参数估计:点估计、均值的区间估计和方差的区间估计假设检验:均值检验、方差检验【例】:学校学生的身高构成一个总体,通常认为身高是服从正态分布NL,;2)的(这就是问题的基本假定),从这群人中随机抽出n人,量得身高为XX2,,Xn (这就是观测数据),它受到随机性的影响。若要估计这群人的平均身高,即上述正态分布的均值(这种估计就是种推断形式,此处估计的对象是总体分布中的未知参数,故又称为参数

11、估计)。若感兴趣的问题是“平均身高是否超过 1.7米”就需要通过样本检验关于总体分布的命题“"叮.7 ”是否成立?(这便是假设检验)3.2.3相关性分析在现实问题中,常会遇到没有因果关系的变量 x与y (地位对称),比如:(1)一个家庭的月收入x与这个家庭的孩子数量y; (2) 个人的身高x 与他的体重y等。这里x与y无因果关系,但它们之间却存在着一定的关 系,如(2)中,一般来说个子高的人体重也大一些。因此,人们希望了解 这些x、y之间关系究竟密切到了什么程度?这变需要统计意义下的相关。 相关分析的步骤:建立样本相关系数 *,这是衡量x、y之间关系密切程度的指标n'(Xjx

12、)(yjy)3 二 cov(x, y)=nn' (Xi -x)2 二(w - y)2主要任务:由x、y的一些观测值如(Xj)估计.及检验有关.的假 设,如H。: 0 (一般地,当二x =0时,x、y不相关;0(:0)时,x、y有正(负)相关)。【例】 从某大学中随机选择10名男生,的观测值如表3。表3身高与体重观测值身高(x)1.711.631.841.901.581.601.751.781.801.64体重(y)65637075605564696558计算相关系数:亠=0.91;设(x,y )服从正态分布,考虑假设检验问题:H0: x与y线性不相关,取显著水平:.=0.01,查表得t

13、zG) "8(0.005)=3.355,c 二tn_2 (多.n-2 仁(2)二 0.765 : 0.91所以拒绝H,即x与y的线性相关性高度显著,即格子高的人一般体重也 要大些。3.2.4方差分析在试验和实践中,影响试验或生产的因素往往很多,我们通常需要分析哪 种因素对事情有显著影响,并希望知道起决定影响的因素在什么时候有着 最有利的影响。可以分为:单因素多水平方差分析和多因素方差分析。【参见文件】:方差分析.doc3.2.5回归分析回归分析是研究一个或多个随机变量y1, y2/ ,ym与另一些变量人公2,,人之间的关系的统计方法。“回归”一词首先被英国生物统计学家高尔顿(Galt

14、 on)使用。应用回归模型可以进行因果关系分析、预测、优化与控 制等多种目的。回归分析分类: 一元回归分析:m=n=1模型:y = f (x);, ; : N(0,;2)多元回归分析:m=1, n=k>1;模型:y 二 f (為兀,X, u,订);,;:N(0,;2)多重回归分析:m>1 n >1;模型:丫皿! = FX,X,, p) 回归分析的方法与步骤:选定回归函数;对回归函数中的位置参数 r匕,5进行估计(最小二乘方法); 检验有关参数的假设(假设检验);对;的影响估计;建立回归方程进行预测和控制。3.2.6主成分分析在实际问题中,经常需要对多个变量同时进行统计分析。变

15、量个数多了,就不易看清变量之间的相互关系,会给统计分析带来困难。主成分分析的基本思想是:对原来多个变量进行适当的组合,组合成一些 综合指标,用较少的综合指标来近似代替原来的多个变量。这种由原来多 个变量组合而成的综合指标,成为主成分。主要目的:降维。主成分选取的原则:主成分是原变量的线性组合;各个主成分之间互不相关;如果原来有m个变量,则最多可以取到m个主成分,这m个主成分的变 化可以完全反映原来全部 m个变量的变化;如果选取的主成分少于m个, 那么这些主成分的变化应该尽可能多地反映原来全部 m个变量的变化。3.2.8聚类分析【参见文件】:聚类分析.doc。329判别分析判别分析是判别样品所属

16、的类型的一种统计方法,广泛地应用与生成、科 研和日常生活中。例如,一位病人肺部有阴影,医生要判断他的病是肺结 核、肺部良性肿瘤还是肺癌。这里,肺结核病人、肺部良性肿瘤病人和肺 癌病人就组成了三个总体,判别的目的就是根据病人各种症状的指标(如 阴影大小、阴影部位、是否有痰、是否有低烧 )来判断他属于哪个总体 (即判断他所患的病种);又如生物品种的鉴别、选矿中矿藏储量的贫富等, 它们的共性是根据研究对象的一组标志值(通常为一组观测向量)来判断 这个研究的个体来自哪个总体。判别分析的数学模型:设有k个总体G,G2,,Gk,它们的分布函数分别是Fi(y),F2(y),Fk(y),每个R(y)都是m维分

17、布函数,对给定的一个样品y, 问y来自哪个母体?判别分析的基本思想:设要研究的对象可分为p类:A,A2,,Ap。任取一个样品,它属于第i类A的概率(先验概率)为二i,i =1,2,p。现在有N个分类已知的样品,其中属于A,A2,,Ap的样品分别有 汕小2,,Np个。对每一个样品,都可以得到 m个变量的观测值,对于N个 分类已知的样品,共有N组、每组m个变量的观测值:(XXq,Xim), i=1,2,N。现在要从这些分类已知的样品的观测值出发,构造出一种判别方法,对于 任何一个分类未知的样品,只要知道它的m个变量的观测数据,就可以用这种判别方法,判别出它属于哪一类。数学方法:距离判别法;Baye

18、s判别法;Fisher判别法。【参见文件】:判断分析.doc4 .简单的灰色预测-GM(1,1)预测数理统计分析方法的局限:需要大量的数据要求数据存在统计规律要求统计规律是典型的(如正态分布、平稳过程) 计算工作量大信息量不足,结论不直观华中理工大学邓聚龙教授于 1982年在Systems & Control Letters系统与控制通信上发表“灰色系统的控制问题论文,宣告横断科学灰色系 统理论的诞生。4.1灰色系统理论概述4.1.1 基本概念【灰色系统】:既含有已知信息又含有未知的非确知的信息的系统。例如: 人口问题、历史系统、中医系统等。【灰色系统的公理】:公理1: “差异”是信息

19、,凡信息必有差异;(差异信息原理) 公理2:信息不完全、不确定的解是非唯一的;(解的非唯一性原理) 公理3:充分开放利用已经占有的“最少信息”;(最少信息原理) 公理4:信息是认识的根据;(认识根据原理)公理5:新信息对认识的作用大于老信息;(新信息优先原理) 公理6: “信息不完全”(灰)是绝对的。(灰性不灭原理)表4 “灰”的含义及引申场次概念黑灰白从信息上看未知不完全完全从表象上看暗若明若暗明朗从过程上看新新旧交替旧从性质上看混沌多种成分纯从方法上看否定扬弃r H.冃疋从态度上看放纵宽容严厉从结果上看无解非唯一解唯一解【灰色系统的描述】:灰色系统用灰色参数(灰元、灰数)、灰色方程、灰 色

20、矩阵、灰色度等综合描述,其中灰数是灰数系统的基本“单元”或“细 胞”。灰色参数(灰数):只知道大概范围而不知其确切值的数(只知道部分 数学特征,而不知道具体数值的参数),记为®,割,,j。实际应用中指 在某一个区间或某个一般的数集合内,以a为白化值的灰数,记为:(a), 1 (a) =a (正常的数为相应灰色的白化值)灰色代数方程:含有灰色系数的代数方程。如x2 ix 2 = 0灰色微分方程:含有灰色导数或灰色微分的方程。女口: dXa=bx(t) dt含有灰系数的微分方程:灰系数白微分方程。如: x(t)=a。dt灰色矩阵:行列数确知而含有灰元的矩阵。如灰色度:若在A的m n个元素

21、中,有Ng个灰色元素,则这一矩阵的灰dgNgm n色度可以表示为:4.1.2灰色系统理论的主要方法灰色系统理论的主要方法可以分为两大类:由灰到白的方法:把具体数值不确定的灰数按具体取值的可能性进 行量化以构成白化权函数等。由白到灰的方法:将抽象的现象、因素等找出某些对应量,将杂乱 无章的数据列进行整理、生成,将空缺的数据通过计算加以补充, 用整理过的数据列建立模型并通过它进行决策和预测,将结构、关 系、机制不清楚的对象、过程、系统作灰色预测以进行提前控制等。常用方法有:关联度分析法-最基本的方法(一个有众多因素构成的系统中哪 些因素对系统影响大、中、小?)基于白化权函数的灰色统计和灰色聚类法灰

22、色预测法(如GM(1,1)灰色决策灰色提前控制法灰色优化技术(如灰色规划等)4.1.3生成数灰色理论中常用的生成方法有:累加生成(AGO,即累加生成算子;累减生成(IAGO)或逆累加生成以及均值生成 乙灰色系统是通过对原始数据的整理来寻找其变化规律的,这是一种就数据 寻找数据的现实规律的途径,称为灰色序列生成。(灰色系统理论认为,尽 管客观表象复杂,数理离乱,但总是有整体功能的,因此必然蕴含某种内 在规律。关键在于如何选择适当的方式去挖掘和利用它。一切灰色序列都 能通过某种生成弱化其随机性,显现其规律性。)生成法如下:设原始数据列为:x(0)二x(0)(1),x(0)(2),x(0) (n),

23、贝Uk1 次累加(1-AGQ: X( )1*1(,12>)1(0X' n ,其中 x(k)=S: x(0) (m);R次累加(r-AGQ): x(r =x :1熬/ 0 1 x r n ,其中kx(r)(k)x(r4)(m) -x(r) (k -1) x(rJ)(k);m =1均值生成 Z: z(1)(k-(x(1)(k) x(1)(k -1);2累减生成 IAGQ a (x(k)=x(1)(k)_x(k_1) = x(0)(k)。【例】:已给原始数据列x(0)二5,3,7,6。1-AGQ x(1) =5,8,15,21Z: z(1) =1,6.5,11.5,18,(赋 x(0)

24、3 )IAGO «(x)=5,3,7,6还原。注意:(1) 一般地 x(k)i占AGA x(r)(k);(2)通过累加可能是离乱的数据中蕴含的积分特性或规律充分显露 出来。4.2简单的灰色预测-GM(1,1)预测4.1 GM( 1,1)模型(来自数学建模方法及其应用,韩中庚编著,高等教育出版社)(1)GM(1,1)定义设x(0)二x(0)(1),x(0)(2),x(0) (n) , x(0)的 1-AGO生成数列为x=x(1)(1),x(1 )(2),,x(1)(n),则定义x的灰导数为d(k) =x(0)(k) =x(k) x(k -1)令Z为数列X的均值数列,即Z(k) =0.5

25、x(k) 0.5X(k-1) ,k=2,3; ,n则z二z(2),z(3),z(1)(n),于是定义GM(1,1)的灰微分方程模型为d(k) az(k)二 b即x(0) (k) az(k) =b( 4-1)其中x(0) (k)称为灰导数,a称为发展系数,z(1)(k)称为白化背景值,b称为灰 作用量。将时刻k=2,3,n代入(4-1 ),有x(0) (2) + az(2) = bx(0) (3) + az=b、x(0) (n) +az(1)(n) = b令YN -丁 (2) 1 A)(3)x(0) (n) j_-z(1)(2)B =-z(1 )(3)(n)111,称Yn为数据向量,1B为数据矩

26、阵,u为参数向量,则GM(1,1)可以表示为矩阵方程YN = Bu上述模型参数u的确定方法方法:最小二乘法。(2)GM(1,1)的白化型对于GM(1,1)的灰微分方程(4-1 ),如果将x(0) (k)的时刻k=2,3,n视为连续的变量t,则数列x就可以视为时间t的函数,记为x=x(t),并让灰导数x(0) (k)对应于导数 一,背景值z(k)对应于x(t)。于是得到 dtGM(1,1)的灰微分方程对应的白微分方程为dx(1)dtax (t) = b(4-2)称之为GM(1,1)的白化型。【注意1 : 1) GM( 1, 1)的白化型本身以及一切从白化型推导出来的结果, 只是在不与定义有矛盾的情况下成立,否则无意义;2) GM(1,1)的白化型是一个真正的微分方程,如果白化型模型精确度高, 则表明所用数列建立的模型GM(1,1)与真正的微分方程模型吻合较好。4.2灰色预测的方法灰色预测是指利用GM 莫型对系统行为特征的发展变化规律进行估计预测, 同时也可以对行为特征的异常情况发生的时刻进行估计计算,以及对在特 定时区内发生事件的未来时间分布情况做出研究等。它具有广泛的应用。设已知数据列为 x(0) =(x(0)(1),x(0)(2),,x(0)(n),做 1-AGO生成数列x=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论