第六数据分析演示文稿_第1页
第六数据分析演示文稿_第2页
第六数据分析演示文稿_第3页
第六数据分析演示文稿_第4页
第六数据分析演示文稿_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六数据分析演示文稿当前1页,总共63页。(优选)第六数据分析当前2页,总共63页。关系运算符的运算法则当两个比较量是标量时,直接比较两数的大小。若关系成立,关系表达式结果为1,否则为0。当参与比较的量是两个维数相同的矩阵时,比较是对两矩阵相同位置的元素按标量关系运算规则逐个进行,并给出元素比较结果。最终的关系运算的结果是一个维数与原矩阵相同的矩阵,它的元素由0或1组成。当前3页,总共63页。关系运算符的运算法则(3)

当参与比较的一个是标量,而另一个是矩阵时,则把标量与矩阵的每一个元素按标量关系运算规则逐个比较,并给出元素比较结果。最终的关系运算的结果是一个维数与原矩阵相同的矩阵,它的元素由0或1组成。当前4页,总共63页。逻辑运算MATLAB提供3种逻辑运算符:&(与)、|(或)和~(非)。逻辑运算的运算法则为:

(1)在逻辑运算中,确认非零元素为真,用1表示,零元素为假,用0表示。

(2)设参与逻辑运算的是两个标量a和b,那么,

a&ba,b全为非零时,运算结果为1,否则为0。

a|ba,b中只要有一个非零,运算结果为1。

~a当a是零时,运算结果为1;当a非零时,运算结果为0。当前5页,总共63页。逻辑运算(3)若参与逻辑运算的是两个同维矩阵,那么运算将对矩阵相同位置上的元素按标量规则逐个进行。最终运算结果是一个与原矩阵同维的矩阵,其元素由1或0组成。(4)若参与逻辑运算的一个是标量,一个是矩阵,那么运算将在标量与矩阵中的每个元素之间按标量规则逐个进行。最终运算结果是一个与矩阵同维的矩阵,其元素由1或0组成。当前6页,总共63页。逻辑运算(5)逻辑非是单目运算符,也服从矩阵运算规则。(6)在算术、关系、逻辑运算中,算术运算优先级最高,逻辑运算优先级最低。当前7页,总共63页。多项式及运算多项式的MATLAB表示法:如:P=S3+2S2+3S+4MATLAB可表示为系数向量

P=[1234]当前8页,总共63页。多项式的生成直接输入系数向量

>>p=[1234] P=S3+2S2+3S+4*

求多项式的根,可用函数roots(P)【例】r=roots(P)

ans=-1.6506-0.1747+1.5469i当前9页,总共63页。若已知多项式根向量,可用poly(P)生成多项式【例】已知P1(s)=(s+1)(s+2)(s+3)的根为:-1-2-3

则编写:P1=poly([-1,-2,-3])

运行后,得

P1=

16116

表示已生成多项式为:P=s3+6s2+11s+6多项式的生成当前10页,总共63页。多项式运算1.求多项式值polyval(p,x0)V=polyval(P1,1)V=242.多项式加、减:

*阶次相同,低阶缺项系数必须补0【例】:(s2+2s+1)+2s2P1=[121];

P2=[200];

P=P1+P2》P=321当前11页,总共63页。多项式运算3.多项式乘法conv.(卷积)

(s+1)(s3+6s2+11s+6)P1=[11];P2=[16116];P3=conv(P1,P2)》P3=1717176→P3=s4+7s3+17s2+17s+6当前12页,总共63页。多项式运算4.多项式除运算deconva=[123];c=[413282718]d=deconv(c,a)c=413282718[d,r]=deconv(c,a)余数c除a后的整数当前13页,总共63页。多项式运算5.部分分式展开式residue[r,p,k]=residue(b,a)

b(s)r(1)

r(2)

r(n)----=--------+--------+...+--------+k(s)a(s)s-p(1)s-p(2)s-p(n)

p=[p(1),p(2),…p(n)]r=[r(1),r)2),….r(n)].k(s)直接项当前14页,总共63页。多项式运算6.多项式微分运算polyder【例】f(x)=2x5+5x4+4x2+x+4 p=[250414];h=polyder(p)

》h=1020081当前15页,总共63页。练习例:x1+2x2=82x1+3x2=13

=方程ax=ba=[12;23];b=[8;13];x=inv(a)*b

x=a\bx=x=2.002.003.003.00当前16页,总共63页。多项式拟合与插值在分析试验数据中,常常要面临将试验数据作解析描述的任务,这个问题有曲线拟合和插值两种方法。在曲线拟合中,假定已知曲线的规律,作曲线的最佳逼近,但不需要经过所有的数据点;在插值中,认为数据是准确的,求取其中描述点之间的数据。当前17页,总共63页。多项式拟合多项式的最小二乘曲线拟合使用polyfit,它需要曲线的x、y值,以及曲线的阶数。曲线的阶数:如果曲线的阶数选择的过小,拟合效果不好;如果曲线的阶数过高,虽然数据点上看到效果好,数据点之间会出现有数据振荡的问题,阶数不宜过高,一般小于5阶。灵活使用拟合当前18页,总共63页。插值当前19页,总共63页。插值函数1、曲线插值函数interp1方法t=interp1(x,y,x0,’method’)x、y:原始数据点,x0为进行插值的数组,method为插值算法:线性插值('linear'),三次样条插值('spline'),三次多项式插值(‘cubic’).如果x0出界,则对应值为NaN当前20页,总共63页。三次样条插值对于给定的离散的测量数据x,y(称为断点),要寻找一个三项多项式y=p(x),以逼近每对数据(x,y)点间的曲线。过两点(xi,yi)和(xi+1,yi+1)只能确定一条直线,而通过一点的三次多项式曲线有无穷多条。为使通过中间断点的三次多项式曲线具有唯一性,要增加两个条件(因为三次多项式有4个系数): 1.三次多项式在点(xi,yi)处有:pi′(xi)=pi〞(xi); 2.三次多项式在点(xi+1,yi+1)处有:

pi′(xi+1)=pi〞(xi+1); 3.p(x)在点(xi,yi)处的斜率是连续的(为了使三次多项式具有良好的解析性,加上的条件); 4.p(x)在点(xi,yi)处的曲率是连续的;当前21页,总共63页。曲面(二维)插值插值函数:interp2,基本形式:zi=interp2(x,y,z,xi,yi,method)method包括linear:线性cubic:三次多项式nearest:粗略估计数据当前22页,总共63页。集中趋势的测定在统计研究中,需要搜集大量数据并对其进行加工整理,对这些数据进行整理之后发现:大多数情况下数据都会呈现出一种钟形分布,即各个变量值与中间位置的距离越近,出现的次数越多;与中间位置距离越远,出现的次数越少,从而形成了一种以中间值为中心的集中趋势。这个集中趋势是现象共性的特征,是现象规律性的数量表现。当前23页,总共63页。数据特征设是取自总体X的一个简单随机样本,在n次抽样以后得到样本的一组观测值我们通过对数据的分析研究可以得到总体X的有关信息,在MATLAB中有专门的函数分析数据特征,如下表所示.位置特征MATLAB函数变异特征MATLAB函数算术平均mean极差range中位数median方差var切尾平均trimmean标准差std几何平均geomean四分位极差iqr调和平均harmmean平均绝对偏差mad当前24页,总共63页。集中趋势的描述1.均值函数(1)算术平均数(2)调和平均数 数值倒数的平均数的倒数。(3)几何平均数

n个观察值连乘积的n次方根。当前25页,总共63页。集中趋势的描述2.中位数(中位次数)函数中位数是指全体数值按大小排列后位于中间的数值。 如果参数集合中包含有偶数个数字,中位数函数将返回位于中间的两个数的平均值。当前26页,总共63页。集中趋势的描述3.众数函数众数是一组数列中出现次数最多的数值,众数函数返回某一数组或数据区域中出现频率最多的数值。4.最大(小)值函数最大(小)值函数可以返回数据集中的最大(小)数值。当前27页,总共63页。三种平均数的特点众数是一组数据中出现次数最多的变量值,它用于对分类数据的概括性度量,其特点是不受极端值的影响,但它没有利用全部数据信息,而且还具有不惟一性。一组数据可能有众数,也可能没有众数;可能有一个众数,也可能有多个众数。中位数是一组数据按大小顺序排序后处于中间位置上的变量,它主要用于对顺序数据的概括性度量。均值是一组数据的算术平均,它利用了全部数据信息,是概括一组数据最常用的一个值。当前28页,总共63页。表示变异程度的统计量标准差:它是各个数据与均值偏离程度的度量.方差:标准差的平方.在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。极差:样本中最大值与最小值之差.当前29页,总共63页。四分位数四分位数是将中值的前后两部分数值再等分为二,以数值小的一端算起,前半部的分区点称为第1四分位数,后半部的分区点称为第3四分位数,而中值即为第2四分位数。四分位数通常用于在销售额和测量值数据集中对总体进行分组。当前30页,总共63页。数据特征示例一例4.已知数据:a=[4593626245425095844337488155056124524349826407425657065936809266531644877346084281153593844527552513781474388824538862659775859755649697515628954771609402960885610292837473677358638699634555570844166061062484120447654564339280246687539790581621724531512577496468499544645764558378765666763217715310851];计算该数据特征.当前31页,总共63页。数据特征示例二已知数据:1,1,1,1,1,1,100;计算其数据特征,由此你有何发现?计算结果为:y=15.14311.93071.16471991400.137.418024.245如果本例的数据全部为1,则各种平均值都应等于1,所有的变异特征全部为零,由于有一个异常值100,于是导致上述的一些特征受影响(不稳健),但是中位数、切尾平均与四分位极差没有改变,它们对异常值是稳健的.当前32页,总共63页。异常值的判别在探索性数据分析时,有一种判别异常值的简单方法,首先计算数据的下、上截断点,数据中小于下截断点的数据为特小值,大于上截断点的数据为特大值,二者都是异常值.当前33页,总共63页。数据的下、上截断点计算上、下截断点的公式如下:其中,R为四分位极差,分别称为下四分位数与上四分位数.注:Q1=prctile(w,25);

Q3=prctile(w,75);

prctile()函数实现计算样本的百分位数功能

当前34页,总共63页。位于以外的点若数据服从正态分布,则称位于以外的点为异常点.当前35页,总共63页。分布形态的测定只用集中趋势和离中趋势来表示所有数据,难免不够准确。分析总体次数的分布形态有助于识别整个总体的数量特征。总体的分布形态可以从两个角度考虑,一是分布的对称程度,另一个是分布的高低。前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度。峰度是掌握分布形态的另一指标,它能描述分布的平缓或陡峭程度。如果峰度数值等于零,说明分布为正态;如果峰度数值大于零,说明分布呈陡峭状态;如果峰度数值小于零,说明分布形态趋于平缓。当前36页,总共63页。偏度函数偏度函数返回分布的偏斜度。偏斜度反映以平均值为中心的分布的不对称程度。正偏斜度表示不对称边的分布更趋向正值,负偏斜度表示不对称边的分布更趋向负值。其计算公式为当前37页,总共63页。峰度函数峰度函数返回数据集的峰值,表示次数分布高峰的起伏状态。峰值反映与正态分布相比某一分布的尖锐度或平坦度。正峰值表示相对尖锐的分布,负峰值表示相对平坦的分布。其计算公式为当前38页,总共63页。表示分布形状的统计量 偏度反映分布的对称性,g1>0称为右偏态,此时数据位于均值右边的比位于左边的多;g1<0称为左偏态,情况相反;而g1接近0 则可认为分布是对称的.

峰度是分布形状的另一种度量,正态分布的峰度为3,若g2比3大很多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可用作衡量偏离正态分布的尺度之一.当前39页,总共63页。随机变量名称MATLAB密度函数随机变量名称MATLAB密度函数Beta分布betapdf标准正态分布normpdf二项分布binopdf泊松分布poisspdf卡方分布chi2pdf瑞利分布raylpdf指数分布exppdfT分布tpdfF分布fpdf均匀分布unifpdf伽马分布gampdfWeibull分布weibpdf几何分布geopdf非中心F分布ncfpdf超几何分布hygepdf非中心T分布nctpdf对数正态分布lognpdf非中心卡方布ncx2pdf

如果将上述命令中的后缀pdf分别改为cdf,inv,rnd,stat就得到相应的随机变量的分布函数、分位数、随机数的生成以及均值与方差.随机变量与分布当前40页,总共63页。Matlab工具箱对每一种分布都提供五类函数,其命令字符为: 概率密度:pdf概率分布:cdf

逆概率分布:inv均值与方差:stat

随机数生成:rnd当前41页,总共63页。频数表和直方图一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图,可以看作是对这组数据的一个初步整理和直观描述。将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图,或频数分布图。若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可以借助MATLAB这样的软件了。当前42页,总共63页。1.大样本h=jbtest(x),h=0,接受正态分布,h=1拒绝正态分布2.小样本h=lillietest(x),h=0,接受正态分布,h=1拒绝正态分布正态分布的检验当前43页,总共63页。假设检验在总体服从正态分布的情况下,可用以下命令进行假设检验.1、总体方差sigma2已知时,总体均值的检验使用z-检验2、总体方差sigma2未知时,总体均值的检验使用t-检验3、两总体均值的假设检验使用t-检验4、非参数检验:总体分布的检验5、假设检验当前44页,总共63页。1、总体方差sigma2已知时,总体均值的检验使用z-检验

[h,sig,ci]=ztest(x,m,sigma,alpha,tail)检验数据x的关于均值的某一假设是否成立,其中sigma为已知方差,alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于m”tail=1,检验假设“x的均值大于m”tail=-1,检验假设“x的均值小于m”tail的缺省值为0,alpha的缺省值为0.05.返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig为假设成立的概率,ci为均值的1-alpha置信区间.当前45页,总共63页。2、总体方差sigma2未知时,总体均值的检验使用t-检验

[h,sig,ci]=ttest(x,m,alpha,tail)检验数据x的关于均值的某一假设是否成立,其中alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于m”tail=1,检验假设“x的均值大于m”tail=-1,检验假设“x的均值小于m”tail的缺省值为0,alpha的缺省值为0.05.返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig为假设成立的概率,ci为均值的1-alpha置信区间.当前46页,总共63页。3、两总体均值的假设检验使用t-检验

[h,sig,ci]=ttest2(x,y,alpha,tail)检验数据x,y的关于均值的某一假设是否成立,其中alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于y的均值”tail=1,检验假设“x的均值大于y的均值”tail=-1,检验假设“x的均值小于y的均值”tail的缺省值为0,alpha的缺省值为0.05.返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig为假设成立的概率,ci为与x与y均值差的的1-alpha置信区间.当前47页,总共63页。相关问题示例Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本. 1、假设一月份油价的标准偏差是一加仑四分币(

=4),试检验一月份油价的均值是否等于115. 2、试检验二月份油价Price2的均值是否等于115. 3、试检验一月份油价Price1与二月份的油价Price2均值是否相同.当前48页,总共63页。

例1Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差是一加仑四分币(=4),试检验一月份油价的均值是否等于115.解作假设:m=115.首先取出数据,用以下命令:

loadgas然后用以下命令检验

[h,sig,ci]=ztest(price1,115,4)返回:h=0,sig=0.8668,ci=[113.3970116.9030].检验结果:1.布尔变量h=0,表示不拒绝零假设.说明提出的假设均值115

是合理的.2.sig-值为0.8668,远超过0.5,不能拒绝零假设

3.95%的置信区间为[113.4,116.9],它完全包括115,且精度很高..

当前49页,总共63页。返回:h=1,sig=4.9517e-004,ci=[116.8120.2].检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假设油价均值115是不合理的.2.95%的置信区间为[116.8120.2],它不包括

115,故不能接受假设.3.sig-值为4.9517e-004,远小于0.5,不能接受零假设.

例2试检验例8中二月份油价Price2的均值是否等于115.解作假设:m=115,price2为二月份的油价,不知其方差,故用以下命令检验[h,sig,ci]=ttest(price2,115)当前50页,总共63页。返回:h=1,sig=0.0083,ci=[-5.8,-0.9].检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假设“油价均值相同”是不合理的.

2.95%的置信区间为[-5.8,-0.9],说明一月份油价比二月份油价约低1至6分.

3.sig-值为0.0083,远小于0.5,不能接受“油价均相同”假设.例3试检验例8中一月份油价Price1与二月份的油价Price2均值是否相同.解用以下命令检验[h,sig,ci]=ttest2(price1,price2)当前51页,总共63页。假设检验习题1、某车间用一台包装机包装糖果。包得的袋装糖重是一个随机变量,它服从正态分布。当机器正常时,其均值为0.5公斤,标准差为0.015公斤。某日开工后为检验包装机是否正常,随机地抽取它所包装的糖9袋,称得净重为(公斤):0.4970.5060.5180.5240.4980.5110.5200.5150.512,问机器是否正常?解:x=[0.4970.5060.5180.5240.498...0.5110.5200.5150.512]; [h,p,ci]=ztest(x,0.5,0.015)当前52页,总共63页。2、某种电子元件的寿命x(以小时计)服从正态分布,μ,σ2均未知.现得16只元件的寿命如下: 159280101212224379179264 222362168250149260485170 问是否有理由认为元件的平均寿命大于225(小时)?解:x=[159280101212224379179264... 222362168250149260485170]; [h,p,ci]=ttest(x,225,0.05,1)当前53页,总共63页。3、在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率,试验是在同一平炉上进行的。每炼一炉钢时除操作方法外,其它条件都可能做到相同。先用标准方法炼一炉,然后用建议的新方法炼一炉,以后交换进行,各炼了10炉,其得率分别为 a)标准方法 78.172.476.274.377.478.476.075.676.777.3 b)新方法 79.181.077.379.180.079.179.177.380.282.1 设这两个样本相互独立且分别来自正态总体N(μ1,σ2)和N(μ2,σ2),μ1,μ2,σ2均未知,问建议的新方法能否提高得率?(取α=0.05)当前54页,总共63页。解: x=[78.172.476.274.377.478.476.075.676.7 77.3]; y=[79.181.077.379.180.079.179.177.380.2 82.1]; [h,p,ci]=ttest2(x,y,0.05,-1)当前55页,总共63页。4、非参数检验:总体分布的检验Matlab工具箱提供了两个对总体分布进行检验的命令:(1)h=normplot(x)(2)h=weibplot(x)此命令显示数据矩阵x的正态概率图.如果数据来自于正态分布,则图形显示出直线性形态.而其它概率分布函数显示出曲线形态.此命令显示数据矩阵x的Weibull概率图.如果数据来自于Weibull分布,则图形将显示出直线性形态.而其它概率分布函数将显示出曲线形态.当前56页,总共63页。协方差在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。直观上来看,协方差表示的是两个变量总体的误差,这与只表示一个变量误差的方差不同。

1.如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。

2.如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

3.如果X与Y是统计独立的,那么二者之间的协方差就是0。但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。当前57页,总共63页。一元函数的数值积分一、函数:quad、quadl、quad8(P230)quad函数功能数值定积分,自适应Simpleson积分法。格式q=quad(fun,a,b)%近似地从a到b计算函数fun的数值积分,误差为10-6。若给fun输入向量x,应返回向量y,即fun是一单值函数。q=quad(fun,a,b,tol)%用指定的绝对误差tol代替缺省误差。tol越大,函数计算的次数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论