数理统计方法的Matlab实现65版_第1页
数理统计方法的Matlab实现65版_第2页
数理统计方法的Matlab实现65版_第3页
数理统计方法的Matlab实现65版_第4页
数理统计方法的Matlab实现65版_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,统计量的计算与简单统计,1,典型相关分析,7,一、统计量的计算与简单统计,以向量为计算单位的统计量 sum , mean , median , var, std, max, min,x= 909, 1091, 967,1232,1096,1164, 1086,1071,1572, 950, 808, 971, 650,789, 1120,1081,825 ,775,1224, 950, 999,1130, 914,1203,1044, 866, 1320,1336,992 ,1025,871,738,865;mean(x ), var (x) , std(x),注:若参数为矩阵,默认计算各列向量的统计量,返回行向量;若要计算各行向量的统计量,要加一个维数参数2,返回列向量。,C=1,3,3;4,8,6;7,7,9;6,5,9 mean(C) %计算样本均值向量mean(C,2),计算各行向量的最值较特殊,用max(C, ,2) , min(C, ,2),2. 计算样本的协方差矩阵和相关矩阵 cov(C ),corrcoef(C ),3. 常用分布的分位点nameinv (x, 参数表列)其中函数名name。求分位点 。norminv(0.025, 0,1)tinv(0.025, 10)chi2inv(0.025 ,10)finv(0.05 ,6,10),4.参数估计 namefit (x, ) 分布参数的极大似然估计和 水平的置信区间其中函数名name的含义:norm 代表正态分布。例1某种清漆的9个样品,其干燥时间(以小时计)分别为6.0 5.7 5.8 6.5 7.0 6.3 5.6 6.1 5.0设干燥时间服从正态分布 ,求 的估计值和置信度为0.95的置信区间。x=6.0 5.7 5.8 6.5 7.0 6.3 5.6 6.1 5.0;mu,sigma,muci,sigmaci=normfit (x,0.05),5. 假设检验 H,SIG=ztest(x, mu, sigma, ,tail) 已知时对正态总体参数 作检验 H,SIG=ttest(x, mu, ,tail) 未知时对正态总体参数 作检验若tail=0, 表示若tail=1, 表示若tail=-1,表示结论:H=0,表示接受原假设 H=1,表示拒绝原假设 SIG为犯错误的概率,例2自动包装机包装出的产品服从正态分布 ,从中抽取出9个样品,它们的重量是0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512问包装机的工作是否正常? ( =0.05)x=0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512;H,SIG=ztest(x, 0.5, 0.015, 0.05,0),H,SIG,CI=ttest2 (x, y, ,tail) 对两个正态总体的均值作检验若tail=0, 表示若tail=1, 表示若tail=-1,表示结论:H=0,表示接受原假设 H=1,表示拒绝原假设 SIG为犯错误的概率,CI为均值差的置信区间。,例3在平炉上用标准方法和新方法各炼10炉钢,其得率分别为标准方法:78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3新方法: 79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1 问新方法能否提高钢的提率? ( =0.05)x=78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3;y=79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1;H,SIG,CI=ttest2 (x, y, 0.05,-1),二、方差分析,1.单因素方差分析 anova1(X) 其中,X为需要分析的数据,每一列对应于一个组(因子水平)的测试数据。,例1某农科所为比较三种不同肥料对水稻产量的影响,进行如下试验。选一块肥沃程度较均匀的土地,将其分割成12块,随机地分成3组,所得产量如下,请评价三种不同肥料对水稻产量有无显著性差异。,相关知识点:,A=94 91 75 85; 62 68 50 70; 78 65 80 69anova1(A),2.双因素方差分析 anova2(),例2某农科所为提高水稻产量,对不同水稻品种(因素A)和施肥量(因素B)进行组合试验,所得结果如下,试分析各水稻品种与各施肥量对水稻产量是否有显著影响。,AB=87 97 90 95;85 89 84 93;82 88 80 72anova2(AB),2.有交互作用的方差分析 anova2(X,reps),例3某农科所为提高水稻产量,对不同水稻品种(因素A)和施肥量(因素B)进行组合试验,每种组合各3次,所得结果如下,试分析各水稻品种与各施肥量及它们的交互作用对水稻产量是否有显著影响。,AB2=95 93 97 96 87 89 90 91;85 86 89 90 84 87 92 90;72 76 75 73 85 86 88 89 anova2(AB2,2),三、多元线性回归分析,例1 研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。数据如下:,相关知识点:,A=load(D:货运总量.txt);n,p=size(A);X=ones(n,1),A(:,1:p-1);y=A(:,p);b,bint,r,rint,stats=regress(y,X),其中y:y的 数据向量x:x的数据 矩阵b: 的估计值bint:b的置信区间r:残差rint :r的置信区间stats:第一个值是回归方程的置信度,第二值是F统计量的值,第三值小说明所建的回归方程有意义。,如果要继续做多元二项式回归A=load(D:货运总量.txt);n,p=size(A);x=A(1:n,1:p-1);y=A(1:n,p:p);rstool(x,y),A=load(D:养猪场数据资料.txt);n,p=size(A);X=ones(n,1),A(:,1:p-1);y=A(:,p);b,bint,r,rint,stats=regress(y,X),继续做多元二项式回归A=load(D:养猪场数据资料.txt);n,p=size(A);x=A(1:n,1:p-1);y=A(1:n,p:p);rstool(x,y),四、判别分析,1.距离判别(程序编写,查看maDis函数),class,Dis= MaDis(sample,train,group,cov_equal),其中sample为待判样本,train为训练样本,group为训练样本的类别.前两个参数必须相同的列数,后两个参数必须相同的行数. cov_equal各总体协方差阵相同时取1,否则取0.输出中class为待判样本的判别结果, Dis为待判样本到各总体的距离.,相关知识点:,例 (胃癌的鉴别),228134201124513410402001671227170150781001672014225125714130100612150117761201331026160100510185115519170125641651425313510821210011772,A=load(D:胃癌的鉴别.txt)n,p=size(A);sample=A(:,1:p-1);train=sample;group=A(:,p);class,Dis= MaDis(sample,train,group,0),2.Bayes判别(假设正态分布,可计算后验概率)class,err,p=classify(sample,training,group,type),其中sample为待判样本,training为训练样本,group为训练样本的类别.前两个参数必须相同的列数,后两个参数必须相同的行数.type参数默认值为linear,即各组协方差阵相同;还可取值为quadratic,即各组用不同的协方差阵.输出中class为待判样本的判别结果,err为的错判率,p为待判样本属于各总体的概率.,相关知识点:,A=load(D:胃癌的鉴别.txt)n,p=size(A);sample=A(:,1:p-1);group=A(:,p);class,err,p=classify(sample,sample,group,quadratic),3.fisher判别(程序编写见fisher_Classify.m函数),class,e,lam=fisher_Classify(sample,train,group,cov_equal),其中sample为待判样本,train为训练样本,group为训练样本的类别.前两个参数必须相同的列数,后两个参数必须相同的行数. cov_equal各组协方差阵相同时取1,否则取0.输出中class为待判样本的判别结果, e为正特征值对应的特征向量,lam为全体特征值.,两类Fisher判别示意图,Y,X,L=b1X+b2Y,G1,G2,原则是使两组间的组间离差尽量大,而每个组的组内离差尽量小。,组间离差平方和,合并组内离差平方和,A=load(D:胃癌的鉴别.txt)n,p=size(A);sample=A(:,1:p-1);train=sample;group=A(:,p);class,e,lam=fisher_Classify(sample,train,group,0),五、聚类分析,系统聚类基本思想:初始每个样本自成一类,并规定样品间的距离和类与类间的距离;然后距离最近的两类合并成为新类,并计算新类与其它类间的距离;接下去再将最近小类聚成一类,如此反复,直到所有样本聚成一类为止。,X=load(D:2002年全国消费性支出.txt);newX=zscore(X) %标准化数据D=pdist(newX) %计算距离矩阵squareform(D) %以矩阵形式显示Z=linkage(D,average) %按类平均法进行系统聚类dendrogram(Z) %画谱系图,系统聚类方法single Shortest distance (default)complete Furthest distanceaverage Unweighted average distance (UPGMA)weighted Weighted average distance (WPGMA) centroid Centroid distance (UPGMC)median Weighted center of mass distance (WPGMC)ward Inner squared distance (minimum variance algorithm),六、主成分分析,COEFF, SCORE, latent = princomp(zscore(X),其中X为样本数据矩阵.输出中COEFF为各特征值对应的特征向量, latent为全体特征值.,主成分定义,考虑线性变换,X=load(D:2010亚洲20国经济数据.txt);COEFF, SCORE, latent = princomp(zscore(X),例:针对2010亚洲20国经济数据进行主成分分析。,七、典型相关分析,a1,b1,r,u1,v1,stats = canoncorr(x,y),其中x、y为原始样本数据矩阵.输出项中a1,b1返回的是典型变量的系数,r返回的是典型相关系数,u1,v1返回的是典型变量的值,stats返回的是检验典型变量显著性的结果.,x=load(D:城市基础设施指标.txt);y=load(D:城市竞争力指标.txt);p=size(x,2);q=size(y,2);x=zscore(x);y=zscore(y); %标准化数据n=size(x,1); %观测数据的个数a1,b1,r,u1,v1,stats = canoncorr(x,y),例:中国城市竞争力与基础设施的典型相关分析。,八、因子分析,例1:为了了解学生的学习能力,观测了n个学生p个科目的成绩,用X1,X2,Xp表示。,数学推导能力、记忆能力、计算能力、想象能力等,因子载荷,公共因子,相关知识点:,称为 公共因子,是不可观测的变量,他们的系数称为因子载荷。 是特殊因子,是不能被前m个公共因子包含的部分。并且满足:,特殊因子互不相关,特殊因子与公共因子互不相关,公共因子互不相关,且齐方差,原始变量X的协方差矩阵的分解,主成分法主因子法极大似然法,主成分法,若要以主成分法求载荷矩阵

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论