第七讲-matlab统计分析_第1页
第七讲-matlab统计分析_第2页
第七讲-matlab统计分析_第3页
第七讲-matlab统计分析_第4页
第七讲-matlab统计分析_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七讲 matlab统计分析韩璐韩璐Matlab统计分析 方差分析方差分析2 2描述性统计描述性统计3 3 1 1回归分析回归分析3 3 3 3描述性统计学生成绩的案例(51人,49人考试)数据为examp07_01.xls对数据的初步描述均值标准差最大值最小值极差%-% 描述性统计量和统计图%-%*读取文件中数据*% 读取文件examp07_01.xls的第1个工作表中的G2:G52中的数据,即总成绩数据score = xlsread(examp07_01.xls,Sheet1,G2:G52);% 去掉总成绩中的0,即缺考成绩score = score(score 0);%*计算描述性统计量

2、*score_mean = mean(score) % 计算平均成绩s1 = std(score) % 计算标准差s1 = std(score,0) % 也是计算标准差score_max = max(score) % 计算样本最大值score_min = min(score) % 计算样本最小值score_range = range(score) % 计算样本极差score_median = median(score) % 计算样本中位数score_mode = mode(score) % 计算样本众数%*绘制箱线图*figure; % 新建图形窗口boxlabel = 考试成绩箱线图; %

3、箱线图的标签% 绘制带有刻槽的水平箱线图boxplot(score,boxlabel,notch,on,orientation,horizontal)xlabel(考试成绩); % 为X轴加标签%*绘制频率直方图*% 调用ecdf函数计算xc处的经验分布函数值ff, xc = ecdf(score);figure; % 新建图形窗口% 绘制频率直方图ecdfhist(f, xc, 7);xlabel(考试成绩); % 为X轴加标签ylabel(f(x); % 为Y轴加标签JBtest 检验样本是否符合正态分布,使用偏度0,峰度3,做检验指标。22n(k-3)JB=s64其中,n为样本容量,s为

4、样本偏度,k为样本峰度。h,p,jbstat,critval = jbtest(score)KS test-检验样本的分布函数是否在指定的分布函数之上或者之下。n n KS=max(|F (x)-G (x)|)Cdf=score,normcdf(score, 79, 10.1489)h,p,ksstat,cv = kstest(score,cdf)%*调用kstest2函数检验两个班的总成绩是否服从相同的分布*% 读取文件examp07_01.xls的第1个工作表中的B2:B52中的数据,即班级数据banji = xlsread(examp07_01.xls,Sheet1,B2:B52);%

5、读取文件examp07_01.xls的第1个工作表中的G2:G52中的数据,即总成绩数据score = xlsread(examp07_01.xls,Sheet1,G2:G52);% 去除缺考数据score = score(score 0);banji = banji(score 0);% 分别提取60101和60102班的总成绩score1 = score(banji = 60101);score2 = score(banji = 60102);% 调用kstest2函数检验两个班的总成绩是否服从相同的分布h,p,ks2stat = kstest2(score1,score2) 方差分析方差

6、分析概述多因素方差分析 方差分析概述在科学实验中常常要探讨在科学实验中常常要探讨不同实验条件或处理方法对不同实验条件或处理方法对实验结果的影响实验结果的影响。通常通常是比较不同实验条件下是比较不同实验条件下总体均值总体均值间的间的差异。差异。举例举例u医学界研究几种药物对某种疾病的疗效;医学界研究几种药物对某种疾病的疗效;u农业研究土壤、肥料、日照时间等因素对某种农作物产量的农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响影响u不同饲料对牲畜体重增长的效果等不同饲料对牲畜体重增长的效果等u不同广告形式、地区规模等因素对广告效果的影响等不同广告形式、地区规模等因素对广告效果的影响等 都可

7、以使用方差分析方法去解决都可以使用方差分析方法去解决方差分析方差分析是检验多个总体均值是否相等一种方法是检验多个总体均值是否相等一种方法。本。本质上是质上是研究分类型自变量对数值型因变量的影响。研究分类型自变量对数值型因变量的影响。方差分析基本原理方差分析基本原理方差分析中判断总体均值是否相等一般是通过对数据方差分析中判断总体均值是否相等一般是通过对数据误差来源的分析判断得到。误差来源的分析判断得到。误差来源有两种情况:误差来源有两种情况:随机误差和系统误差随机误差和系统误差。随机误差随机误差:在同一因素下的观察值由于抽样的随机性:在同一因素下的观察值由于抽样的随机性造成的误差。造成的误差。系

8、统误差系统误差:不同因素下的观察值由于系统因素造成的:不同因素下的观察值由于系统因素造成的误差。误差。数据误差用数据误差用平方和平方和表示。表示。 组内误差(组内误差(随机误差随机误差)数据误差数据误差 随机误差随机误差 组组间误差间误差 系统误差系统误差 衡量同一水平下样本衡量同一水平下样本数据的误差数据的误差衡量不同下的样本数据衡量不同下的样本数据误差误差方差分析的方差分析的核心是方差可分解核心是方差可分解。这里的方。这里的方差是指通过计算各观测值偏离均值的平方差是指通过计算各观测值偏离均值的平方和再除以和再除以n-1n-1得到。这样,在给定得到。这样,在给定n n的情况的情况下,方差就是

9、离差平方和,简称下,方差就是离差平方和,简称SSTSST。观察量的总平方和观察量的总平方和SSTSST分解为组间离差平方分解为组间离差平方和和SSASSA和组内误差平方和和组内误差平方和SSE,SSE,即:即:SST=SSA+SSESST=SSA+SSE由误差来源的分析得知,判断分类型自变由误差来源的分析得知,判断分类型自变量对数值型因变量受否有影响,就是量对数值型因变量受否有影响,就是检验检验数值型变量存在差异的原因数值型变量存在差异的原因。如果这种差。如果这种差异主要是异主要是系统误差系统误差,则分类型变量对该数,则分类型变量对该数值存在值存在显著影响显著影响, ,否则差异不显著。否则差异

10、不显著。根据根据统计学原理,统计学原理,组间均方和组内均方的组间均方和组内均方的比值构成比值构成F F分布。给定显著性水平,通过和分布。给定显著性水平,通过和F F分布统计量的概率分布统计量的概率P P的比较的比较,推出总体均,推出总体均值是否存在显著差异。值是否存在显著差异。 多因素方差分析u概念概念u基本基本思想思想u数学模型数学模型u应用应用 概念 多多因素方差分析用来研究因素方差分析用来研究两个及两个以上两个及两个以上控制变量控制变量是否是否对观测变量对观测变量产生显著影响。产生显著影响。它不仅能分析多个因素对观测变量的它不仅能分析多个因素对观测变量的独立独立影响,影响,更能够分析多个

11、控制因素的更能够分析多个控制因素的交互作交互作用用能否对观测变量的分布产生显著影响,能否对观测变量的分布产生显著影响,进而找到有利于观测变量的最优组合。进而找到有利于观测变量的最优组合。基本思想u确定观测变量和若干个控制变量确定观测变量和若干个控制变量u剖析观测变量的方差剖析观测变量的方差u比较观测变量总离差平方和和各部分所占比较观测变量总离差平方和和各部分所占的比例的比例多因素方差分析的数学模型设控制变量设控制变量A A有有k k个水平,个水平,B B有有r r个水平,每个水平,每个交叉水平下均有个交叉水平下均有l l个样本,则在控制变个样本,则在控制变量量A A的水平的水平A Ai i和控

12、制变量和控制变量B B的水平的水平B Bj j下的第下的第k k个样本值个样本值 定义为:定义为:ijkx()ijkijijijkxabab(1,2,. ;1,2., ;1,2., )ik jr kl多因素方差多因素方差分析的饱分析的饱和模型和模型ijkijijkxab(1,2,. ;1,2., ;1,2., )ik jr kl多因素方差多因素方差分析的非饱分析的非饱和模型和模型应用某高校学生高等数据考试成绩。设计6个学院,69个班。数据为exam07_02.xls要求:检验学生成绩是否存在差异%*读取数据*% 读取文件examp07_02.xls的第1个工作表中的数据x,y=xlsread(

13、examp07_02.xls);% 提取矩阵x的第2列数据,即2077名同学的考试成绩数据score = x(:,2);% 提取元胞数组y的第4列的第2行至最后一行数据,即2077名同学所在学院的名称数据college = y(2:end,4);% 提取矩阵x的第1列数据,即2077名同学所在学院的编号数据college_id = x(:,1);%*正态性检验*% 调用lillietest函数分别对6个学院的考试成绩进行正态性检验for i = 1:6 scorei = score(college_id = i); % 提取第i个学院的成绩数据 h,p = lillietest(scorei)

14、; % 正态性检验 result(i,:) = p; % 把检验的p值赋给result变量 end% 查看正态性检验的p值Result%*方差齐性检验*% 调用vartestn函数进行方差齐性检验p,stats = vartestn(score,college)%*方差分析*p,table,stats = anova1(score,college) % 单因素一元方差分析%*多重比较*c,m,h,gnames = multcompare(stats); % 多重比较% 设置表头,以元胞数组形式显示矩阵chead = 组序号,组序号,置信下限,组均值差,置信上限;head; num2cell(c

15、) % 将矩阵c转为元胞数组,并与head一起显示gnames num2cell(m) %将m转为元胞数组,并与gnames一起显统计分析案例 方差分析方差分析2 2描述性统计描述性统计3 3 1 1回归分析回归分析3 3 3 3一元线性回归一元线性回归多元线性回归多元线性回归回归分析方法回归分析方法数学模型及定义数学模型及定义模型参数估计模型参数估计检验、预测与控制检验、预测与控制数学模型及定义数学模型及定义模型参数估计模型参数估计多元线性回归中的多元线性回归中的检验与预测检验与预测 一元线性回归分析一元线性回归分析例例1 测16名成年女子的身高与腿长所得数据如下:以身高x为横坐标,以腿长y

16、为纵坐标将这些数据点(xi,yi)在平面直角坐标系上标出.1401451501551601658486889092949698100102散点图xy10身高身高143145146147149150153154155156157158159160162164腿长腿长8885889192939395969897969899100102 1.数学模型数学模型一元线性回归分析的主要任务是:一元线性回归分析的主要任务是:、1、用试验值、用试验值(样本值)对(样本值)对0 1 和和s s作点估计;作点估计;、2、对回归系数、对回归系数0 1 作假设检验;作假设检验;03.xxy对处对 做预测和区间估计2.

17、回归系数的置信区间回归系数的置信区间0和和1置信水平为置信水平为 1-的置信区间分别为的置信区间分别为 xxexxeLxnntLxnnt221022101)2(,1)2(ss和 xxexxeLntLnt/)2(,/)2(211211ss2s的的置置信信水水平平为为 1-的的置置信信区区间间为为 )2(,)2(22221nQnQee3.预测与控制预测与控制(1)预测)预测:对固定的对固定的x值预测相应的值预测相应的y值值用 y0的回归值0100 xy作为 y0的的预预测测值值.(2)控制)控制0111yx 若要的值以的概率落在区间(y ,y )之内,那么预报变量x应控制在什么范围内。也就是说要求

18、出区间(x ,x ),使当x (x ,x )时,对应的y值以的概率落在区间(y ,y )之内。这就是控制问题。控制问题可以看成是预测问题的反问题。1122,eexxxxyuyuss 一般说来,要解出 和 很复杂。若样本容量很大,且 在 附近,问题可以大大简化。这时我们可以利用预测区间来进行控制。 多元线性回归多元线性回归多元线性回归在工程上更为有用。0111.( )kkyxx1212100,.,( ),( ).kyx xxkED s s0 0k k其其中中 为为可可观观测测的的随随机机变变量量,为为非非随随机机的的可可精精确确观观测测的的变变量量, , ,. . . . ., ,为为个个未未知

19、知参参数数, 为为随随机机变变量量,设设 1. 1.数学模型及定义数学模型及定义 一般地,影响试验指标的因素不只一个,假设它们之间有如下的线性关系:211212011122,.,.,.( ),.,kiiikiikikinx xxynnxxxyxxss 0k0ki i 为为了了估估计计未未知知参参数数, ,.,.,和和,我我们们对对和和 作作 次次观观测测得得 组组观观测测值值(,y,y)(i=1,2,3,.,n).(i=1,2,3,.,n).它它们们满满足足关关系系式式:i=1,2,3,.ni=1,2,3,.n其其中中相相互互独独立立且且是是与与 同同分分布布的的随随机机变变量量。为为了了用用

20、矩矩阵阵表表示示上上式式,令令2(1)10( , ).nXnkkECOVI s其中 为阶矩阵,称为资料矩阵, 为维未知的列向量, 满足:,1于是,()式变为:(3)YX2.2.模型参数估计模型参数估计 2is(1)对 和作估计0000.0kQQQ根据微积分求极值的方法,得正规方程组 YXXXTT1解得估计值211() .TkX Xs服从维正态分布,且为 的无偏估计,协 注意为:方差阵3.多元线性回归中的检验与预测多元线性回归中的检验与预测 线性回归例子应用现有全国31个主要城市2007年的气候情况观测数据。数据为exam07_03.xls请研究以上观测数据中年平均气温与全年日照小时数之间的关系

21、。%-% 读取原始数据,调用regress函数作一元线性回归%-%*读取数据,绘制散点图*ClimateData = xlsread(examp07_03.xls); % 从Excel文件读取数据x = ClimateData(:, 1); % 提取ClimateData的第1列,即年平均气温数据y = ClimateData(:, 5); % 提取ClimateData的第5列,即全年日照时数数据plot(x, y, k., Markersize, 15) % 绘制x和y的散点图xlabel(年平均气温(x) % 给X轴加标签ylabel(全年日照时数(y) % 给Y轴加标签%*计算相关系数*R = corrcoef(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论