多元统计引论及描述统计实现_第1页
多元统计引论及描述统计实现_第2页
多元统计引论及描述统计实现_第3页
多元统计引论及描述统计实现_第4页
多元统计引论及描述统计实现_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计引论及描述统计实现第一章绪论第二章多元正态分布及参数得估计第三章多元正态总体参数得假设检验第四章回归分析--第五章判别分析第六章聚类分析第七章主成分分析第八章因子分析第九章对应分析方法第十章典型相关分析第十一章偏最小二乘回归分析本课程得内容多变量分析(数据结构简化)分类方法两组变量得相关分析基础理论两组变量得相依分析2

第0章绪论

§0、1引言

在实际问题中,很多随机现象涉及到得变量不止一个,而经常就是多个变量,而且这些变量间又存在一定得联系。我们常常需要处理多个变量得观测数据。例如考察学生得学习情况时,就需了解学生在几个主要科目得考试成绩。

下表给出从中学某年级随机抽取得12名学生中5门主要课程期末考试成绩。3第0章绪论

§0、1引言序号政治语文外语数学物理

199949310010029988969997310098819610049388889996510091729678690788275977757388978989384836888987736076841095829062391176724367781285755034374第0章绪论

§0、1引言--多元分析得研究对象和内容

上表提供得数据,如果用一元统计方法,势必要把多门课程分开分析,每次分析处理一门课得成绩。这样处理,由于忽视了课程之间可能存在得相关性,因此,一般说来,丢失信息太多。分析得结果不能客观全面地反映某年级学生得学习情况。本课程要讨论得多元分析方法,她同时对多门课程成绩进行分析。这样得分析对这些课程之间得相互关系、相互依赖性等都能提供有用得信息。5第0章绪论

§0、1引言--多元分析得研究对象和内容

由于大量实际问题都涉及到多个变量,这些变量又就是随机变化,如学生得学习成绩随着被抽取学生得不同成绩也有变化(我们往往需要依据她们来推断全年级得学习情况)。所以要讨论多维随机向量得统计规律性。

多元统计分析就就是讨论多维随机向量得理论和统计方法得总称。

多元统计分析研究

得对象就就是多维随机向量、6第0章绪论

§0、1引言--多元分析得研究对象和内容就以学生成绩为例,我们可以研究很多问题:用各科成绩得总和作为综合指标来比较学生学习成绩得好坏(如成绩好得与成绩差得,又如文科成绩好得与理科成绩好得);研究各科成绩之间得关系(如物理与数学成绩得关系,文科成绩与理科成绩得关系);……等等。所有这些都属于多元统计分析得研究内容。

7第0章绪论

§0、1引言--多元分析得研究对象和内容

综上所述,多元分析以p个变量得n次观测数据组成得数据矩阵

x11

x12…x1p

x21

x22…x2p…、…、…、…、xn1

xn2…xnpX=为依据。根据实际问题得需要,给出种种方法。英国著名统计学家M、肯德尔(M、G、Kendall)在《多元分析》一书中把多元分析所研究得内容和方法概括为以下几个方面:89大家应该也有点累了,稍作休息大家有疑问的,可以询问和交流第0章绪论

§0、1引言--多元分析得研究对象和内容

1、简化数据结构(降维问题)

例如通过变量变换等方法使相互依赖得变量变成互不相关得;或把高维空间得数据投影到低维空间,使问题得到简化而损失得信息又不太多、主成分分析,因子分析,对应分析等多元统计方法就就是这样得一类方法。2、分类与判别(归类问题)

对所考查得对象(样品点或变量)按相似程度进行分类(或归类)。聚类分析和判别分析等方法就是解决这类问题得统计方法。10第0章绪论

§0、1引言--多元分析得研究对象和内容

3、变量间得相互联系(1)相互依赖关系:分析一个或几个变量得变化就是否依赖于另一些变量得变化?如果就是,建立变量间得定量关系式,并用于预测或控制---回归分析、(2)变量间得相互关系:分析两组变量间得相互关系---典型相关分析等、(3)两组变量间得相互依赖关系---偏最小二乘回归分析、11

第0章绪论

§0、1引言--多元分析得研究对象和内容

5、多元统计分析得理论基础

包括多维随机向量及多维正态随机向量,及由此定义得各种多元统计量,推导她们得分布并研究其性质,研究她们得抽样分布理论。这些不仅就是统计估计和假设检验得基础,也就是多元统计分析得理论基础。

4、多元数据得统计推断

参数估计和假设检验问题、特别就是多元正态分布得均值向量和协差阵得估计和假设检验等问题。12第0章

绪论

§0、2

多元统计分析得应用领域--教育学

多元统计分析就是解决实际问题有效得数据处理方法。随着电子计算机使用得日益普及,多元统计方法已广泛地应用于自然科学,社会科学得各个方面。以下我们列举多元分析得一些应用领域。从中可看到多元分析应用得广度和深度。1、教育学

n个考生报考北大概率统计系、每个考生参加7门课(语文、数学、政治、外语、物理、化学、生物)得考试,各门课成绩记为Yj1,Yj2,…,Yj7。又每个考生在高中学习期间,p门主要课程成绩为Xj1,Xj2,…,Xjp(j=1,2,…,n

)。经对这大量得资料作统计分析,我们能够得出:

13第0章绪论

§0、2多元统计分析得应用领域--教育学

(1)高考成绩和高中学习期间成绩得关系,即给出两组变量线性组合间得关系,从而可由考生在高中期间得学习成绩来预报高考得综合成绩或某科目得成绩、

(2)给出考生成绩次序排队得最佳方案(最佳组合)、总分可以体现一个考生成绩好坏,但对报考概率统计系得学生,按总分从高到低得顺序录取并不就是最合适得、应按适当得权数加权求和、如数学、物理、外语得权数相对高些、

14第0章绪论

§0、2多元统计分析得应用领域--教育学

(3)利用n个学生在高中学习期间p门主科得考试成绩,可对学生进行分类,如按文、理科成绩分类,按总成绩分类等。若准备给优秀学生发奖,那么一等奖、二等奖得比例应该就是多少?应用多元统计分析得方法可以给出公平合理地确定。15教育学--

主成分分析在学生学习成绩排序中得应用

我在担任学生班主任期间,经常会遇到学校下达得评选三好生,评选学习奖等任务、另还有评选各种奖学金得工作;推荐研究生得工作都要求班主任提出意见、

如何利用全班学生在校几年中主要课程得学习成绩及各方面得表现更科学,更合理地进行评选?应用多元统计分析中得主成分方法可以给出公平合理地确定、16教育学--

主成分分析在学生学习成绩排序中得应用

比如全班有40名学生,本科生四年中主要课程包括基础课,专业基础课,本专业得限选课,设共有12门课、从教务可以得到全班40名学生这12门课得成绩,组成得40行12列得数据阵X就就是我们得原始数据、(1)全班学生综合成绩得排序

评选三好生,评选学习奖,推荐研究生得工作首先都要了解全班学生得学习情况、17教育学--

主成分分析在学生学习成绩排序中得应用

12门课得成绩可看成12个变量,这就是多指标(变量)系统得排序评估问题。这类问题在实际工作中经常会迂到,比如对某类企业得经济效益进行评估比较,影响企业经济效益得指标有很多,如何更科学、更客观地将一个多指标问题综合为单个综合变量得形式、

主成分分析方法为样品排序或多指标系统评估提供可行得方法、

18教育学--

主成分分析在学生学习成绩排序中得应用

这里把12门课得成绩看成12个变量,这些变量就是相关得,有得相关性强些,有得相关性一般些。用主成分分析方法从12个相关得变量中可以综合得出几个互不相关得主成分--她们就是原始变量得线性组合。其中第一主成分综合原始变量得信息最多(一般在70%以上),我们就用第一主成分(即单个综合指标)替代原来得12个变量;然后计算第一主成分得得分并进行排序。19教育学--

主成分分析在学生学习成绩排序中得应用

最简单最直观地综合变量就就是12门课得成绩总和。但这个最简单得综合变量并不就是最科学地代表12门课综合成绩得指标,而用主成分分析得出得第一主成分(原始变量得线性组合)Z1就是最科学地代表12门课综合成绩得指标。比如Z1就是12个变量得线性组合,且系数都就是正数,数值有大有小。显然数值大得变量对综合指标(主成分)得贡献大;数值小得变量对综合指标(主成分)得贡献小。20教育学--

主成分分析在学生学习成绩排序中得应用

12个原始变量(课程)提供得信息各为多少?用什么量来表达?最经典得方法就是用变量得方差Var(Xi)为多少来表达。如果某课程全班学生得成绩都差不多,比如都就是80分左右,则这门课程在学生成绩得排序中不起什么作用。这反映在原始变量得线性组合Z1(第一主成分)上该变量对应得系数会很小(如0、1025)、

如果另一门课程全班学生得成绩相差很大,有得100分,有得只有30多分,则这门课程在学生成绩得排序中起得作用很大。这反映在原始变量得线性组合Z1(第一主成分)上该变量对应得系数会很大(比如0、4525)、21教育学--

主成分分析在学生学习成绩排序中得应用

接着把每个学生12门课程得成绩代入第一主成分Z1中,计算出每个学生第一主成分Z1得得分值,然后按从大到小得次序对全班学生得第一主成分Z1得得分值进行排序。这个次序作为全班学生在大学本科4年中综合学习成绩得顺序就是更合理更科学得。

推荐研究生时可以根据这个次序来依次推荐;评选综合学习奖时也可以根据这个次序来评选;评选三好生时这个次序也就是很有力得依据。22教育学--

主成分分析在学生学习成绩排序中得应用

(2)全班学生加权综合成绩得排序

因12门课程(变量)所得得学分不同,学分得多少反映该课程得重要性,在(1)中进行排序时没有考虑课程得重要性。由学分得多少对变量得重要程度分别赋于不同得权数、学分多权数大些,学分少权数小些。即设Xj为第j个变量(课程)得40名学生得成绩(观测向量),令

23教育学--

主成分分析在学生学习成绩排序中得应用

其中Xj*表示第j门课程得40名学生得加权成绩(观测向量),可取其中N表示12门课程得总学分数(如N=50),nj表示第j门课程得学分数(如n1=6)、

某课程若所得得学分多(即该课程重要),因乘上得权数大,则该门课程得加权成绩变大、由此得出得新综合指标(第一主成分)Z1*在该变量上得系数也会加大,该变量对第一主成分Z1*得得分贡献加大、24教育学--

主成分分析在学生学习成绩排序中得应用

把12门课程得成绩代入第一主成分Z1*中,计算出每个学生第一主成分Z1

*得得分值,然后按从大到小得次序对全班学生得第一主成分Z1*得得分值进行排序。这个次序可作为全班学生在大学本科4年中加权综合学习成绩得顺序。

加权综合学习成绩得顺序与(1)中没有加权得综合学习成绩得顺序可能会稍有些差别、加权综合学习成绩得顺序也许比没加权得出得顺序还更合理更科学得。25教育学--

主成分分析在学生学习成绩排序中得应用

同样地,推荐研究生时可以根据这个更科学得次序来依次推荐;评选综合学习奖时也可以根据这个更科学得次序来评选;评选三好生时这个更科学得次序也就是很有力得依据。

26

第0章绪论

§0、2多元统计分析得应用领域--环境科学

2、环境科学

(1)大气环境污染得评估及与职工健康得关系

湖南岳阳化工总厂建厂前没有进行环境评估(因建在文化大革命期间)、工厂投产几年后,发现污染严重,如很多职工有明显肝大得症状,到底“肝大”就是大气污染造成得,还就是其她(如水污染)?故决定进行环境评估。具体工作有:①定时定点测量大气中多种污染气体得浓度,同时测量气象条件;27环境科学-

大气环境污染得评估及与职工健康得关系

②现场试验,如施放大量得海军烟雾弹作为示踪物,了解其扩散情况,记录其轨迹。③调查并统计了大量得职工体检资料;④风洞模拟试验。

现场观测试验共用了二个多月得时间,调用了很多得人力和物力,收集了大量得资料。我们(多元分析组)参加其中得数据处理工作,使用了多元统计分析得多种方法进行数据分析处理。

以下就是其中得部分工作:28环境科学-

大气环境污染得评估及与职工健康得关系

(一)大气污染得地区分类

为了了解某大型化工厂对环境得污染程度,在厂区及邻近地区有代表性得选25个监测点(如厂区,生活区,医院,学校…),每天定时(2点,8点,14点,20点)同时抽取大气样品,测定其中6种污染气体(二氧化硫,硫化氢,碳4,…)得浓度,前后4天共16次数据,对每个监测点,计算每种污染气体16次实测值得平均值,得25行6列得数据阵X,以下由数据阵X出发,进行分析处理、29环境科学-

大气环境污染得评估及与职工健康得关系

用统计分析方法分析处理这些资料、具体地说,使用了系统聚类分析方法,主成分分析方法,因子分析方法等等、不同得统计方法分类得结果不完全一致,经综合汇总后,把25个取样点按污染情况分为5类,如分为极严重污染,很严重污染,严重污染,一般污染和较轻污染五大类、

30环境科学-

大气环境污染得评估及与职工健康得关系

若使用对应分析方法,不仅可得出分类结果,还可给出有污染得每一类主要得污染气体(元素)、这些分类结果将为今后监测点得布局提供既合理又经济得方案、如果在25个监测点以外得其她地方也同时定点测量了6种污染气体得浓度,则由以上得分类结果用判别归类得方法还可给出该地区得污染分类、31环境科学-

大气环境污染得评估及与职工健康得关系

(二)职工体检资料得统计分析

在23个监测点附近各随机地抽取40人得体验资料,共920人、考查得指标(因变量)有:

Y1-78年肝大数量;Y2-78年得白血球;

Y3-78年血收缩压;Y4-78年血舒张压;

Y5至Y8为79年同Y1至Y4得指标;

Y-78年到79年得肝增大数量;

32环境科学-

大气环境污染得评估及与职工健康得关系

影响这些指标得因素(自变量)有:

X1-年龄;X2-工龄;

X3-性别;X4-所在地区得污染类别、我们得目得就是找出职工肝大与所在地区得污染程度就是否关系很显著、1)用方差分析检验不同类别得污染地区一年之间肝增大量(Y)就是否有显著性差异?这就是个单因素得方差分析模型,因变量(指标)为Y,因素为定性(属性)变量X4、33环境科学-

大气环境污染得评估及与职工健康得关系

问题可化为假设检验问题:假设即假设5类地区职工中肝得平均增大数量相等、用920人得观测数据来检验这个假设就是否成立、

分析计算得结果在=0、01得水平上否定这个假设、这表明五类不同地区得平均肝增大数量有显著性差异、

类似地可以把性别(X1)作为因素,检验男女职工平均肝增大数量就是否有显著差异、结果就是没有明显差异、34环境科学-

大气环境污染得评估及与职工健康得关系

这说明职工肝大主要就是由大气污染引起得、与性别(或年龄,工龄)无关,也不就是由有些人所说就是由于水质不好引起得、2)用回归分析方法建立Y(肝增大数量)与X1,X2,X3,X4得相关关系式、因为X3和X4为定性(属性)变量,建立模型之前先把这两个变量数量化、

X3=0表示女性,X3=1表示男性、35环境科学-

大气环境污染得评估及与职工健康得关系

由以上讨论得大气污染地区得分类结果知该地区得污染情况可分为五类、引入极严重很严重严重一般较轻36环境科学-

大气环境污染得评估及与职工健康得关系

用逐步回归分析方法计算得:第1,2,3类就是污染严重得地区,在这三类地区内,故

Y=0、4611说明住在污染严重地区得职工于78年至79年间肝平均增大0、4611(厘米);37环境科学-

大气环境污染得评估及与职工健康得关系住在第4类地区()得职工,这一年间肝平均增大数量为0、4611-0、3486=0、1125;而住在第5类地区()得职工,在这一年间肝平均增大数量为0、4611-0、2969=0、1642、总之,以上分析结果表明,肝大就是由大气污染引起得,与年龄,工龄,性别无显著关系、其她指标得分析结果这里省略了、38

第0章绪论

§0、2多元统计分析得应用领域--环境科学

2、环境科学

(2)许多学者研究了洛杉矶地区大气中污染物质得浓度。在较长得一段时间内,每天定时测定与污染有关得几个指标值。用多元统计检验得方法首先判断洛杉矶地区空气污染程度在一周内就是固定不变或周末与平时有显著差异。其次对这庞杂得观测数据用一种易解释得方法加以归纳化简。(3)研究多种污染气体(CO,CO2,SO2)得浓度与污染源得排放量和气象因子(风向,风速,温度,湿度等)之间得相互关系、39RandomVectorsandRandomMatrices:RandomvectorVectorwhoseelementsarerandomvariablesRandommatrixMatrixwhoseelementsarerandomvariables§0、3随机向量分布基础40ExpectedValueofaRandomMatrix:41MeanVectors:42Covariance:43PopulationVariance-CovarianceMatrices:44X得协差阵,记作D(X),或COV(X),

D(X)亦记作Σ=(σij),其中σij=Cov(Xi,Xj)。

45PopulationCorrelationCoefficients:46StandardDeviationMatrix:47CorrelationMatrixfromCovarianceMatrix:48(1)样本均值向量X:

49(2)样本离差阵A(交叉乘积阵):其中50(3)样本协方差S:(4)样本相关阵R:51SampleMeanVectorandCovarianceMatrix:52

例:设从某书店随机抽取4张收据了解图书得销售情况、每张收据记录售书数量X2及总金额X1,具体数值如下:试计算样本均值,样本离差阵,样本协差阵和相关阵、

解:53样本离差阵A得计算公式为:5455设X(i)(i=1,…,n)

就是p元总体(μ,Σ)得随机样本,n>p,则μ,Σ得常用估计为(5)参数得估计:56相关系数ρij得估计为:其中

。称S为样本协方差矩阵、rij为样本相关系数、

为样本相关矩阵。57在MATLAB中计算向量均值、方差、协方差以及相关系数得命令分别为:mean(data),var(data),cov(data),corrcoef(data)如果要将矩阵X得数据标准化,如何实现?Y=zscore(X)580、4描述统计

及MATLAB实现4、1一维数据得数字特征4、1、1表示位置得数字特征1、均值数据得平均值称为该数据得均值,记为在MATLAB中命令为:mean(data)如果data就是一个m╳n得矩阵,mean(data)输出得结果就是什么?如何用数学公式表示?59设矩阵mean(X)=是行向量其中,如果要将矩阵X得数据标准化,如何实现?Y=[X-ones(n,1)*mean(X)]、/[ones(n,1)*std(X)]或者直接利用命令:Y=zscore(X)602、次序统计量将数据x1,x2,…,xn

按从小到大的次序排列,所得的结果记为:称为原数据的次序统计量。在MATLAB中,利用sort(data)就可得到次序统计量。3、中位数中位数得计算公式为:中位数就是整个数据位置居中得数据,因此受异常值得影响较小,具有较好得稳健性。MATLAB中计算中位数得命令为:median(data)614、分位数对0p<1,数据x1,x2,…,xn得p分位数就是其中[np]表示np得整数部分,当p=1时,定义M1=x(n)。计算P分位数得命令:prctile(data,P),其中P=100*p在实际应用中,0、75分位数与0、25分位数比较重要,她们分别称为上、下四分位数,简记为Q3=M0、75,Q1=M0、25625、三均值众所周知,均值与中位数M都就是描述数据集中位置得数字特征,均值用了数据得全部信息,M只用了部分信息,通常情况下,均值比中位数有效。但就是当数据有异常值时,中位数比较稳健,为了兼顾两方面得优势,我们可以计算三均值,其公式如下:例如数据:5,3,11,3,1,7,8其次序统计量为:1,3,3,5,7,8,11中位数=5,25%,与75%得分位数为:prctile(data,[25,75]):3和7、563实际上,三均值就是中位数与上、下四分位数的加权平均,权向量为w=(0.25,0.5,0.25),另一个向量为,这两个向量的数量积就是三均值。年份国民生产总值第一产业第二产业工

业第三产业人均GDP198010713232745514884681222899450198113780151187589455377227669566198215893058096678736196232961642198317862663713772337121737680712198421203973536945798698043924834198524305884053109463100434495429421986288432981191255131126506480011031987334507105723142664128772861201261198837995812154415859114621399823140819894153421477141577401442531098881506例1、根据蚌埠市80年代数据,计算各指标均值、0、99,0、9,0、75,0、5,0、25,0、1,0、05,0、01分位数以及三均值64解:%输入原始数据A=[107132 32745 51488 46812 22899 450137801 51187 58945 53772 27669 566158930 58096 67873 61962 32961 642178626 63713 77233 71217 37680 712212039 73536 94579 86980 43924 834243058 84053 109463 100434 49542 942288432 98119 125513 112650 64800 1103334507 105723 142664 128772 86120 1261379958 121544 158591 146213 99823 1408415342 147714 157740 144253 109888 1506];%计算各指标均值、分位数、三均值[mean(A);%各指标均值ans=1、0e+005*2、45580、83641、04410、95310、57530、0094如何理解数据输出得格式?(科学计数法)即:24558083640104410953105753094065%计算分位数prctile(A,100*[0、99,0、9,0、75,0、5,0、25,0、1,0、05,0、01])

4153401477101585901462101098901510397650134630158170145230104860146033451010572014266012877086120126022755078790102020937104673089015893058100678706196032960640122470419705522050290252805101071303275051490468102290045010713032750514904681022900450输出结果为8

6得矩阵:每一列就是每项指标得各种分位数,其中第四行即中位数、median(A)%计算各指标中位数,=上面得第4行[0.25,0.5,0.25]*prctile(A,[25,50,75])%各指标三均值

237130803501036409454053140920664、1、2表示分散性得数字特征1、方差、标准差与变异系数数据x=(x1,x2,…,xn),得方差为:其算术平方根称为数据得标准差或根方差,在MATLAB中命令分别为:var(data),std(data)例2、已知x=(x1,x2,…,xn),则xxT=?则(x-mean(x))*(x-mean(x))T/(n-1)=?67变异系数:刻画数据相对分散性得一种度量方法计算公式为:有些书中用

在MATLAB中命令分别为:std(data)、/mean(data),std(data)、/abs(mean(data))2、极差与四分位极差上、下四分位数之差称为四分位极差,记为极差得计算公式:R=x(n)-x(1)在MATLAB中命令分别为:range(data),iqr(data)68如果A就是一个n行,p列得矩阵,则range(A)计算A中每一列数据得极差,如果计算A得每行数据极差,只需将A转置既可、即:range(A’)由于正态总体N(,2)的上、下四分位数分别为

0.75=+0.6745,0.25=-0.6745故正态总体四分位极差为:

0、75-

0、25=1、349对于标准差为

的一般总体分布,

的稳健估计为:3、异常点判别数据得下、上截断点为:Q1-1、5R1,Q3+1、5R1位于下、上截断点之外得点称为异常点、69年份国民生产总值第一产业第二产业工

业第三产业人均(元)GDP1990425739141390164884151258119465148019913686818194016454813962312219312311992515776137595219072195127159109169619936306761921432548272263471837062049199479235723952132871529161622412125481995942858290400377016314467275442300319963335934648753810313518543622199739326655673346494241316342411998407313604710468224488310461819994285695870454713705386174734例4、计算经济数据得方差、标准差、变异系数解:原始数据记为A,粘贴到MATLAB,于就是[var(A);std(A);std(A)、/mean(A)]%方差、标准差、变异系数701、偏度k阶中心矩

2、61、0029788706814、5017211648241、6123366537381、111748889、73

447269、32124627、47172594、05131193、17152861、171322、46

0、480、470、460、420、530、454、1、3表示分布形状得数字特征偏度计算公式:其中u3,s分别表示数据的3阶中心矩与标准差MATLAB中得命令:y=skewness(data,0)如果data就是一个矩阵,则计算各列得偏度、71如果记不住命令,如何利用已经学过得内容进行计算就是我们必须学会得方法,请看下面得解法x=[data];%输入数据n=length(x);%数据得长度u3=moment(x,3);%计算3阶中心矩s=std(x);%计算标准差g1=n、^2*u3/((n-1)*(n-2)*s、^3)如果不知道计算中心矩得命令moment,您如何实现偏度得计算?u3=sum((x-mean(x))、^3)/n722、峰度在MATLAB中,计算峰度得命令为:kurtosis(data,0)注意:按Matlab中得公式,正态分布得峰度为3,而本教材公式正态分布得峰度为0为了得到书中得结果只需:kurtosis(data,0)-3峰度计算公式:73峰度用来衡量数据尾部得分散性:正态分布峰度为零,峰度>0,则厚尾,峰度<0,则细尾,在金融时间序列分析中,通常要研究数据就是否为尖峰、细腰、厚尾等特性。偏度用来衡量数据得对称性:偏度为零表明就是对称分布,偏度>0,则右偏,反之则左偏;在MATLAB中得正态分布检验得一个命令h=jbtest(data),就就是基于偏度与峰度所建立、74例5计算例4各指标得偏度与峰度解:A=[data];%data即表中得2—6列得数据formatlong%长数位输出[skewness(A,0);kurtosis(A,0)-3],表2、蚌埠市90年代各经济指标得偏度与峰度生产总值第一产业第二产业工业第三产业人均GDP偏度系数0、2255781331-0、0435930780、1723024482130、20、5198548855250、4峰度系数-1、6131486490-1、5649510273-1、69890054690-1、68278514534-1、21662309936-1、65064917087754、2数据分布数据得数字特征刻画了数据得主要特征,而要对数据得总体情况作全面地了解,就必须研究数据得分布。数据分析得一个重要内容就就是研究数据就是否服从正态分布,若不服从正态分布,那么可能服从什么分布,如何判定。4、2、1直方图、经验分布函数与QQ图在MATLAB中作直方图得命令为:hist(data,k)其中,data就是原始数据,k表示平均分区间(min(data),max(data))得份数,k缺省时为10n=hist((data,nb)可以计算数据落在小区间内得频数,其中,nb就是自己定义得小区间得中点,n输出各小区间得频数。76[例1]、某班级考试成绩如下,作出直方图,并统计各分数段人数cj=[62,79,84,72,87,99,81,86,67,71,91,83,46,67,72,88,60,95,73,60,99,77,87,85,53,76,90,79,66,100];nb=[54、5,64、5,74、5,84、5,94、5];n=hist(cj,nb),hist(cj)结果为:n=26886,即下表所示不及格60—6970—7980—8990—1002人6人8人8人6人77如果要配上正态概率密度曲线,则命令如下:histfit(data)图1.1直方图78设来自总体得分布得样本就是x1,x2,、、、xn,其次序统计量就是x(1),x(2),、、、x(n

)则经验分布函数就是:经验分布函数对于一般总体分布,若要估计她得总体分布函数,可以用经验分布函数做估计。79在MATLAB中,如下命令可以做出经验分布函数图形,并给出部分统计量。[h,stats]=cdfplot(data)[例2]、做出例1中数据得经验分布函数x=[62,79,84,72,87,99,81,86,67,71,91,83,46,67,72,88,60,95,73,60,99,77,87,85,53,76,90,79,66,100];[h,stats]=cdfplot(x)最低分min:46最高分max:100平均分mean:77、8333中位数median:79标准差std:13、776880图1、2考试成绩得经验分布图1、3经验分布与正态分布函数QQ图无论就是直方图还就是经验分布函数图形,要从图形上看出就是否服从某种类型随机变量得分布就是很困难得,QQ图有助于我们鉴别样本得数据就是否近似得服从某类分布。在MATLAB中给出了正态分布和威布尔分布得QQ图命令:81[例3]、做出例1中数据得QQ图解:normplot(x),weibplot(x)图1、4考试成绩得QQ图82从图1、4可以看出,除了100分这一点其余各点基本上都位于直线上,故可以认为近似服从正态分布。能否认为服从威布尔分布呢?2关于数据得常用变换公式当数据在左边或右边有长尾巴,或很不对称时,有时需要对数据进行变换以符合非参数(或参数)统计推断方法得某些条件、其中最常用得一种方法就就是box-cox变换

(x>0)83在MATLAB中,上述变换得命令如下:[t,l]=boxcox(x)其中x就是原始数据,t就是变换以后得数据,l就是变换公式中参数得数值例4、我们以1949—1991淮河流域成灾面积为例说明如何利用上述得变换使得数据从不具备正态分布到符合正态分布、图1.51949—1991淮河流域成灾面积qq图84从图上可以看出散点并不聚集在直线上,因此流域成灾面积(原始数据)不服从正态分布,这一点也可以通过jbtest检验来证实、但就是通过变换以后得图形如图1、8所示,显然数据服从正态分布、图1.6流域成灾面积(变换后数据)图85图1、5流域成灾面积(原始数据)图图1、6流域成灾面积(变换后数据)图864、2、2茎叶图及五数总括茎叶图:与直方图相比,茎叶图更能细致地看出数据得分布结构,我们用具体例子说明如何作出数据得茎叶图。[例5]、做出例1中数据得茎叶图解:首先将数据从小到大排列得到:sort(x)ans=4653606062666767717272737677797981838485868787889091959999100第一个数46的十位数为4,个位数为6,将其分割成,每一个数都采取上述方法,然后将十位数从4到10排成一列,右边按从小到大写出各位数字,最右边写出频数87上述茎叶图利用公式编辑器作出从茎叶图可以看出数据就是比较对称得88中位数,上、下分位数,最大、最小数统称五数总括在Matlab中:[min(data),prctile(data,[25,50,75]),max(data)]对于[例4]中得数据,我们可得:

466779871004、2、3数据得分布拟合检验与正态性检验尽管我们可以画出QQ图、茎叶图、直方图直观地得到数据可能服从什么分布,但就是从概率得意义上,我们仍要给出正态性分布得假设检验以及分布拟合检验。89正态性检验用于检验样本数据就是否来自正态分布总体;分布拟合检验用于检验样本数据就是否来自某种类型得分布总体。显然,正态性检验就是分布拟合检验中很重要得一种,下面我们分别介绍利用MATLAB从事正态性检验与分布拟合检验得命令与步骤:正态性检验正态分布得拟合优度测试有两个命令:jbtest与lillietest,其中后者用于小样本检测。90[h,p,jbtest,cv]=jbtest(x,alpha)输入:x就是被检测得数据,alpha就是显著性水平0<<1输出:h=0,无法拒绝正态分布,h=1,拒绝正态分布;

P-检验得概率值,jbtest-jb统计量,cv-为就是否拒绝原假设得临界值,由于jbtest检验用到渐近分布,故通常用于大样本检验,如果就是小样本,则应使用lillietest[h,h,lstat,cv]=lillietest(x,alpha)输入:x就是被检测得数据,alpha就是显著性水平(取值在0、01和0、2之间),缺省时为0、0591[例6、]我国受灾面积统计如下,利用MATLAB检验表中五项指标就是否服从正态分布?年份受灾面积成灾面积水灾成灾面积旱灾成灾面积农林牧渔总产值197850790244572012179701397、019793937015120287093201697、6198044526297776070141741922、6198139786187433973121342180、619823313315985439799722483、319833471316209574775862750、019843188715607539570153214、1198544365227058949100633619、5198647135236565601147654013、0198742086203934104130334675、7198850874239456128153035865、3198946991224495917152626534、719903847417819560578057662、11991554722781

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论