




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2014年年5月月31日日Matlab统计分析与应用统计分析与应用Computer Science | Software Engineering & Information System目录目录1234 数据导入、导出与预处理数据导入、导出与预处理方差分析方差分析参数估计与假设检验参数估计与假设检验 随机数生成随机数生成Computer Science | Software Engineering & Information System5678 数据拟合数据拟合主成分分析主成分分析判别分析判别分析 聚类分析聚类分析Computer Science | Software Eng
2、ineering & Information System1 1数据处理数据处理1.2 1.2 调用高级函数导入数据调用高级函数导入数据 importdata(examp02-01.txt),importdata(examp02-01.txt),把文件复制到目录下,重命名选把文件复制到目录下,重命名选中文件名中文件名LoadLoad函数适用于全是数据的文件,且等长;函数适用于全是数据的文件,且等长;常用的还有常用的还有dlmread,textread(dlmread,textread(适合分隔符多样的情况适合分隔符多样的情况) )1.1 1.1 用菜单导入数据用菜单导入数据对对txtt
3、xt文档,直接使用文档,直接使用filefileimport dataimport data例如例如example 02-01;02-05(example 02-01;02-05(长短不齐长短不齐) )1.1.3 3调用低级函数导入数据调用低级函数导入数据 步骤:按指定格式打开文件(步骤:按指定格式打开文件(fopenfopen),获取文件标识符),获取文件标识符(fid)(fid),读,读取文件内容(取文件内容(fseek,ftell,frewind,feoffseek,ftell,frewind,feof控制读写位置,控制读写位置,fgetsfgets读取文读取文件的下一行件的下一行,te
4、xtscan,textscan读取数据等)读取数据等) ,关闭文件(,关闭文件(fclosefclose) 。Computer Science | Software Engineering & Information System1 1数据处理数据处理1.1.5 5从从excelexcel文件中读取数据文件中读取数据 num = xlsread(examp02_14.xls, A2:H4)1.1.4 4 数据写入数据写入txttxt文件文件 fprintf(fid,%-f %-f %-f %-f %-f %-f %-f %-fn, x);1.1.6 6 数据预处理数据预处理1.1.画出
5、散点图估计趋势画出散点图估计趋势2.2.剔除奇异点剔除奇异点3.3.平滑处理(平滑处理(smoothsmooth,建议用,建议用excelexcel)或对数变换)或对数变换4.4.标准化变换,适合于各变量的量纲和数量级不一致的时候。数据减去标准化变换,适合于各变量的量纲和数量级不一致的时候。数据减去均值,除以标准差(均值,除以标准差(zscorezscore)xz,mu,sigma = zscore(x)5.5.极差归一化变换(极差归一化变换(rscore ,rscore ,非非matlabmatlab自带)自带)Computer Science | Software Engineering
6、& Information System2 2随机数生成随机数生成v1 1随机数随机数 用于信息安全,网络游戏,计算机仿真和模拟计算等。用于信息安全,网络游戏,计算机仿真和模拟计算等。Rand 0,1Rand 0,1Randn Randn 标准正态标准正态Randstream Randstream 适合于适合于7.77.7及其以后版本,调用类函数及其以后版本,调用类函数统计工具箱中以统计工具箱中以rndrnd结尾的用来生成符合某种分布的随机数,如结尾的用来生成符合某种分布的随机数,如Normrnd Normrnd 正态分布正态分布BinorndBinornd二项分布二项分布Exprnd
7、Exprnd指数分布等指数分布等v2 2 histratehistrate函数(非自带)函数(非自带) 统计数值型数组,字符串数组等各元素出现的频数,频率等,请同学们检统计数值型数组,字符串数组等各元素出现的频数,频率等,请同学们检查是否安装的有查是否安装的有matlabmatlab统计工具箱统计工具箱Computer Science | Software Engineering & Information System2 2随机数生成随机数生成例子:用蒙特卡洛方法求圆周率例子:用蒙特卡洛方法求圆周率圆心在原点的单位圆与外接正方形,相互独立的,服从圆心在原点的单位圆与外接正方形,相互独
8、立的,服从-1,1-1,1上的均匀上的均匀分布,则(,)在正方形内服从二元均匀分布,为落在圆内的概率,分布,则(,)在正方形内服从二元均匀分布,为落在圆内的概率,则(则(A A)=?=?还可以用来求面积,体积,积分值,概率等还可以用来求面积,体积,积分值,概率等v3 3蒙特卡洛方法蒙特卡洛方法 这是计算机随机模拟方法,是一种基于随机数的计算方法,冯以摩纳哥的这是计算机随机模拟方法,是一种基于随机数的计算方法,冯以摩纳哥的赌城命名。基本思想:频率确定概率。赌城命名。基本思想:频率确定概率。Computer Science | Software Engineering & Informat
9、ion System3 3参数估计参数估计2 2正态总体参数的检验正态总体参数的检验( (例子例子05.02)05.02)U U检验检验( (标准差已知标准差已知) ) ztestztest检验检验( (标准差未知标准差未知) ) ttestttest均值比较检验均值比较检验ttest2ttest2卡方检验(单个方差)卡方检验(单个方差)vartestvartest检验(两个方差)检验(两个方差) vartest2 vartest21 1参数估计参数估计统计工具箱中以统计工具箱中以fitfit结尾的函数,用来求常见分布的参数的最大似然估计和置结尾的函数,用来求常见分布的参数的最大似然估计和置信
10、区间估计。信区间估计。例子例子05.0105.01Computer Science | Software Engineering & Information System3 3拟合与检验拟合与检验理论上概率统计都假定变量服从某分布,构造统计量,做出统计推断。理论上概率统计都假定变量服从某分布,构造统计量,做出统计推断。但总体到底服从何种分布,你的假定是真的吗?但总体到底服从何种分布,你的假定是真的吗?v例子例子examp02_14.xlsexamp02_14.xls描述性统计描述性统计(examp05-03)(examp05-03)v均值,标准差,最值,极差,中位数,众数,均值,标准差
11、,最值,极差,中位数,众数,v变异系数,标准差与平均数的比值,自己计算变异系数,标准差与平均数的比值,自己计算v偏度,分布密度曲线的对称性,越接近偏度,分布密度曲线的对称性,越接近0 0,越对称,越对称v峰度,密度曲线在峰值附近的陡峭性,正态为峰度,密度曲线在峰值附近的陡峭性,正态为3 3Computer Science | Software Engineering & Information System3 3拟合与检验拟合与检验v3 3统计图统计图(examp05-03)(examp05-03)v箱线图(判断对称性)箱线图(判断对称性)v频率直方图(最常用)频率直方图(最常用)v经
12、验分布函数图经验分布函数图v正态概率图(正态概率图(+ +越集中在参考线附近,越近似正态分布)越集中在参考线附近,越近似正态分布)v4 4分布检验分布检验vChi2gof,jbtest,kstest,kstest2,lillietestChi2gof,jbtest,kstest,kstest2,lillietest等等vChi2gofChi2gof卡方拟合优度检验,检验样本是否符合指定分布。它把观测数据分卡方拟合优度检验,检验样本是否符合指定分布。它把观测数据分组,每组包含组,每组包含5 5个以上的观测值,根据分组结果计算卡方统计量,当样本够多个以上的观测值,根据分组结果计算卡方统计量,当样本
13、够多时,该统计量近似服从卡方分布。时,该统计量近似服从卡方分布。vjbtest,jbtest,利用峰度和偏度检验。利用峰度和偏度检验。Computer Science | Software Engineering & Information System3 3拟合与检验拟合与检验v5 5核密度估计核密度估计(example05_04.m)(example05_04.m)v需要用样本估计总体的概率分布函数,方法有参数法和非参数法。参数法假需要用样本估计总体的概率分布函数,方法有参数法和非参数法。参数法假定总体服从某种已知的分布,估计参数。非参数法不需要做对总体分布的假定总体服从某种已知的
14、分布,估计参数。非参数法不需要做对总体分布的假设,核密度估计就是一种非参数法。设,核密度估计就是一种非参数法。Computer Science | Software Engineering & Information System4 4方差分析方差分析预备知识有关术语简介预备知识有关术语简介因素或因子:所要检验的对象因素或因子:所要检验的对象水平:因子的不同表现水平:因子的不同表现观察值:在每个因素水平下得到的样本值观察值:在每个因素水平下得到的样本值方差分析能做:方差分析能做:1 1检验多个总体均值是否相等(不同院系的高数成绩)检验多个总体均值是否相等(不同院系的高数成绩)2 2需要
15、研究生产条件或实验条件的改变对产品的质量或产量有无影响,比如需要研究生产条件或实验条件的改变对产品的质量或产量有无影响,比如种植业研究诸多因素对因变量的影响(品种、施肥量、密度对产量)。在诸多种植业研究诸多因素对因变量的影响(品种、施肥量、密度对产量)。在诸多影响因素中哪些是主要的?影响因素中哪些是主要的?3 3确定最优组合确定最优组合Computer Science | Software Engineering & Information System4 4方差分析方差分析1 1之所以叫方差分析,是我们虽然关心的是均值,但在判断均值是否有差异之所以叫方差分析,是我们虽然关心的是均值,
16、但在判断均值是否有差异时需要借助于方差。这个名字也表示,它是通过误差来源的分析来判断不同时需要借助于方差。这个名字也表示,它是通过误差来源的分析来判断不同总体的均值是否相等。总体的均值是否相等。2 2 方差分析的基本假定方差分析的基本假定v正态性方差齐性独立抽样前两个条件满足认为方差分析是稳健的正态性方差齐性独立抽样前两个条件满足认为方差分析是稳健的3 3单因素一元方差分析步骤单因素一元方差分析步骤( example07_01.m example07_01.m判断不同院系成绩均值是否相等)判断不同院系成绩均值是否相等)数据预处理数据预处理正态性检验正态性检验lillietest lilliet
17、est (p0.05p0.05接受)接受)方差齐性检验方差齐性检验vartestnvartestn (p0.05p0.05接受)接受)方差分析方差分析anovalanoval(0 0有显著差别)有显著差别)多重比较:两两比较,找出存在显著差异的学院,多重比较:两两比较,找出存在显著差异的学院,multcomparemultcompareComputer Science | Software Engineering & Information System4 4方差分析方差分析方差分析表把数据差异分为三部分(或四部分):方差分析表把数据差异分为三部分(或四部分):列均值之间的差异引起的变
18、差列均值之间的差异引起的变差列均值之间的差异引起的变差列均值之间的差异引起的变差行列交互作用引起的变差行列交互作用引起的变差(随机误差)(随机误差)后续可以进行多重比较,后续可以进行多重比较,multcomparemultcompare,找出哪种组合是最优的,找出哪种组合是最优的4 4双因素一元方差分析步骤(如判断两种肥料使用量不同对产量的影响)双因素一元方差分析步骤(如判断两种肥料使用量不同对产量的影响)数据预处理数据预处理正态性检验正态性检验lillietest lillietest (p0.05p0.05接受)接受)方差齐性检验方差齐性检验vartestnvartestn (p0.05p
19、0.05接受)接受)构造观测值矩阵,每一列对应因素的一个水平,每一行对应因素的一个构造观测值矩阵,每一列对应因素的一个水平,每一行对应因素的一个水平水平方差分析方差分析anova2anova2得到方差分析表得到方差分析表Computer Science | Software Engineering & Information System4 4方差分析方差分析5 5多因素一元方差分析多因素一元方差分析anovananovan根据样本观测值向量进行均衡或非均衡实验的多因素一元方差分析,检验多根据样本观测值向量进行均衡或非均衡实验的多因素一元方差分析,检验多个因素的主效应或交互效应是否显著
20、,这里往往需要结合正交实验进行。个因素的主效应或交互效应是否显著,这里往往需要结合正交实验进行。6 6单因素多元方差分析单因素多元方差分析manovalmanoval7 7非参数方差分析:当数据不满足正态性和方差齐性假定时,应采用基于秩非参数方差分析:当数据不满足正态性和方差齐性假定时,应采用基于秩的非参数检验(参看的非参数检验(参看非参数统计非参数统计,王星,人大出版社),王星,人大出版社)两种非参数检验:两种非参数检验:kruskal-walliskruskal-wallis检验检验friedmanfriedman检验检验函数名同上:函数名同上:kruskalwalliskruskalwa
21、llis,friedmanfriedman如:如:example07_07example07_07,四个评委判断四个人做得,四个评委判断四个人做得“水煮鱼水煮鱼”是否品质相同是否品质相同Computer Science | Software Engineering & Information System5 5数据拟合数据拟合目的:用一个函数近似表示变量之间的不确定关系。目的:用一个函数近似表示变量之间的不确定关系。1 1一元线性回归分析一元线性回归分析做出散点图,估计趋势;计算相关系数矩阵;做出散点图,估计趋势;计算相关系数矩阵;regressregress函数,可以得到回归系数和置
22、信区间函数,可以得到回归系数和置信区间, ,做残差分析,剔除异常点,重做残差分析,剔除异常点,重新做回归分析新做回归分析Regstats Regstats 多重线性或广义回归分析,它带有交互式图形用户界面,可以处理多重线性或广义回归分析,它带有交互式图形用户界面,可以处理带有常数项、线性项、交叉项、平方项等模型带有常数项、线性项、交叉项、平方项等模型robustfitrobustfit函数:稳健回归(加权最小二乘法)函数:稳健回归(加权最小二乘法)2 2一元非线性回归分析一元非线性回归分析做出散点图,估计趋势;定义回归方程所对应的函数(幂函数,对数函数做出散点图,估计趋势;定义回归方程所对应的
23、函数(幂函数,对数函数等),调用等),调用nlinfitnlinfit函数做回归方程;再用函数做回归方程;再用nlparcinlparci函数计算参数估计的置信函数计算参数估计的置信区间;调用区间;调用nlpredcinlpredci函数求预测值函数求预测值Computer Science | Software Engineering & Information System5 5数据拟合数据拟合3 3 曲线拟合工具箱曲线拟合工具箱cftoolcftool作一元非线性拟合作一元非线性拟合运行运行cftool,cftool,主要功能:主要功能:datadata(导入数据)(导入数据),f
24、itting,fitting(拟合)(拟合),exclude(,exclude(筛选筛选) ),plotting,analysisplotting,analysis4 4多重回归分析多重回归分析一个变量与诸因素之间的回归模型。调用一个变量与诸因素之间的回归模型。调用reglmreglm函数函数( (非自带非自带) )。Y=a+bx1+cx2+dx3Y=a+bx1+cx2+dx3开始并不知道选择几个自变量,可以先设一个,再根据显著性水平,剔除不开始并不知道选择几个自变量,可以先设一个,再根据显著性水平,剔除不显著的项。显著的项。5 5逐步回归分析逐步回归分析StepwiseStepwise函数,
25、函数,matlabmatlab自带函数,输入函数名后打开交互式图形用户界面,自带函数,输入函数名后打开交互式图形用户界面,Computer Science | Software Engineering & Information System6 6聚类分析聚类分析1 1聚类分析简介聚类分析简介目的:把分类对象按一定规则分成若干类。目的:把分类对象按一定规则分成若干类。距离:度量样品间的相似性,明氏距离距离:度量样品间的相似性,明氏距离兰氏距离,马氏距离,斜交空间距离兰氏距离,马氏距离,斜交空间距离相似系数:度量变量之间的相似性相似系数:度量变量之间的相似性夹角余弦夹角余弦xianxia
26、n,相关系数,相关系数,2 2系统聚类法系统聚类法定义距离(样品之间的距离和类与类之间的距离),距离最近的两类合并为定义距离(样品之间的距离和类与类之间的距离),距离最近的两类合并为一类,每次减少一类,最后形成聚类树形图或谱系图。一类,每次减少一类,最后形成聚类树形图或谱系图。类与类之间的距离的不同定义方式,产生了不同的聚类方法。类与类之间的距离的不同定义方式,产生了不同的聚类方法。最短距离法:类与类之间的距离为两类最近样品间的距离。最短距离法:类与类之间的距离为两类最近样品间的距离。最长距离法:类与类之间的距离为两类最远样品间的距离。最长距离法:类与类之间的距离为两类最远样品间的距离。中间距
27、离法:类与类之间的距离采用中间距离。中间距离法:类与类之间的距离采用中间距离。重心法:类与类之间的距离为两类重心(类均值)的距离。重心法:类与类之间的距离为两类重心(类均值)的距离。11qqpikikkxxComputer Science | Software Engineering & Information System6 6聚类分析聚类分析4 4模糊均值聚类法模糊均值聚类法3 3K K均值聚类法均值聚类法一、将所有样品分为个初始类,这个类的重心作为初始凝聚点。一、将所有样品分为个初始类,这个类的重心作为初始凝聚点。二、每个样品归入离它最近的凝聚点所在的类,更新均值二、每个样品归入
28、离它最近的凝聚点所在的类,更新均值三、重复二,直到结束。三、重复二,直到结束。注意:初始凝聚点的选择对结果可能有影响注意:初始凝聚点的选择对结果可能有影响所用函数:所用函数:kmeans,silhouettekmeans,silhouette类平均法:样品对之间平方距离的平均值,该方法比较好。还有离差平方和法等类平均法:样品对之间平方距离的平均值,该方法比较好。还有离差平方和法等Pdist,squareform,linkage,dendrogram,cophenet,inconsistent,cluster,clusterdata,Pdist,squareform,linkage,dendro
29、gram,cophenet,inconsistent,cluster,clusterdata,距离,距离矩阵,创建系统聚类树,作聚类树形图,计算相关系数,计算不一致系数,距离,距离矩阵,创建系统聚类树,作聚类树形图,计算相关系数,计算不一致系数,输出聚类结果,由数据得到聚类输出聚类结果,由数据得到聚类Computer Science | Software Engineering & Information System6 6聚类分析聚类分析4 4模糊均值聚类法模糊均值聚类法使用模糊数学中的隶属度函数来确定分类使用模糊数学中的隶属度函数来确定分类MatlabMatlab模糊逻辑工具箱模糊
30、逻辑工具箱fuzzy logic toolboxfuzzy logic toolbox提供了函数:提供了函数:fcmfcm不同聚类分析方法的结果不一定一致。需要测试集,可参考其它论文不同聚类分析方法的结果不一定一致。需要测试集,可参考其它论文系统聚类法的评价:系统聚类法的评价:单调性:距离单增单调性:距离单增空间的浓缩与扩张空间的浓缩与扩张类平均法比较好类平均法比较好Computer Science | Software Engineering & Information System7 7判别分析判别分析1 1判别分析简介判别分析简介对未知类别的样品进行归类的一种方法。聚类分析是对还
31、没有分类的对象进对未知类别的样品进行归类的一种方法。聚类分析是对还没有分类的对象进行分类。判别分析是对已经有了分类,需要建立判别准则,判别未知类别的行分类。判别分析是对已经有了分类,需要建立判别准则,判别未知类别的样品所属的类型。如考古,医学判断,文字识别等。样品所属的类型。如考古,医学判断,文字识别等。2 2距离判别法距离判别法这里的思想和前面的聚类分析是类似的,根据样品到各个类的距离这里的思想和前面的聚类分析是类似的,根据样品到各个类的距离( (比如用马比如用马氏距离氏距离) )判断其所属的类。判断其所属的类。3 3贝叶斯判别法贝叶斯判别法距离判别没有考虑人们对研究对象已有的认识,而这种认
32、识可能对判别结果距离判别没有考虑人们对研究对象已有的认识,而这种认识可能对判别结果产生影响。贝叶斯判断用一个先验概率来描述这种认识,然后用样本来修正产生影响。贝叶斯判断用一个先验概率来描述这种认识,然后用样本来修正先验概率,得到后验概率,最后基于后验概率进行判别。先验概率,得到后验概率,最后基于后验概率进行判别。距离判别法和先验分布为正态分布的贝叶斯判别法都可以用统计工具箱中的距离判别法和先验分布为正态分布的贝叶斯判别法都可以用统计工具箱中的classifyclassify函数,对未知类别的样品进行判断。函数,对未知类别的样品进行判断。Computer Science | Software E
33、ngineering & Information System7 7判别分析判别分析4 4 Fisher Fisher判别法判别法FisherFisher判别的基本思想是投影,将组维数据投影到某个方向,使得它们判别的基本思想是投影,将组维数据投影到某个方向,使得它们投影组与组之间尽可能地分开。投影组与组之间尽可能地分开。工具箱中没有,有编好的函数工具箱中没有,有编好的函数fisher.mfisher.m,程序有,程序有205205行,如果你能看懂,对你行,如果你能看懂,对你的编程能力大有好处的编程能力大有好处Computer Science | Software Engineering
34、 & Information System8 8主成分分析主成分分析通过降维技术把多个变量化为少数几个主成分的多元统计方法。这些主成分通过降维技术把多个变量化为少数几个主成分的多元统计方法。这些主成分能够反映原始变量的大部分信息,通常表示为原始变量的线性组合,为使信能够反映原始变量的大部分信息,通常表示为原始变量的线性组合,为使信息互不重叠,要求各主成分之间互不相关。易于抓住主要矛盾,简化问题。息互不重叠,要求各主成分之间互不相关。易于抓住主要矛盾,简化问题。1 1主成分分析主成分分析几何意义:通过坐标系旋转,使得新坐标系的各个坐标轴方向是原始数据变几何意义:通过坐标系旋转,使得新坐标系的各个坐标轴方向是原始数据变差最大的方向,各主成分表达式就是新旧坐标转换关系式差最大的方向,各主成分表达式就是新旧坐标转换关系式(几何直观:一三象限的一个椭圆内部密集分布的点)(几何直观:一三象限的一个椭圆内部密集分布的点)样本主成分分析步骤:构造样本观测值矩阵,计算样本协方差矩阵和样本相样本主成分分析步骤:构造样本观测值矩阵,计算样本协方差矩阵和样本相关系数矩阵;从样本协方差矩阵出发
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 借款合同的服务协议
- 护理病区管理大比拼
- 担保购销合同范本
- 健康业务知识
- 学生心理健康培训总结
- 儿童电梯安全知识
- 阿克苏工业职业技术学院《医学影像技术Ⅰ》2023-2024学年第一学期期末试卷
- 阿坝师范学院《酶工程实验》2023-2024学年第二学期期末试卷
- 陆川县2025届六年级下学期调研数学试卷含解析
- 陕西学前师范学院《临床研究质量管理》2023-2024学年第二学期期末试卷
- 2025年高校教师岗前培训《高等教育学》考试模拟试卷及答案(共五套)
- 概括归纳类(非选择题)-2025年高考历史复习热点题型专项训练(解析版)
- 中学教育基础(上)知到课后答案智慧树章节测试答案2025年春陕西师范大学
- 2024年共青团入团积极人员考试题【附答案】
- 全国职业院校技能大赛高职组(高铁信号与客运组织赛项)备赛试题库(含答案)
- 工程机械租赁服务方案及保障措施投标方案文件
- 2025华能陕西新能源分公司招聘15人易考易错模拟试题(共500题)试卷后附参考答案
- 2025春《中考解读·英语》 课件 专题四 短文填空;专题五 读写综合
- 人工智能驱动的科学研究第五范式:演进、机制与影响
- 2024 北京公务员考试笔试真题
- 《眼应用光学基础》课件
评论
0/150
提交评论