![多元统计分析及R语言建模全书教学课件完整版全套教学教程最全电子教案教学设计_第1页](http://file4.renrendoc.com/view/f70dadb9e5811bda4a6a082eb299da93/f70dadb9e5811bda4a6a082eb299da931.gif)
![多元统计分析及R语言建模全书教学课件完整版全套教学教程最全电子教案教学设计_第2页](http://file4.renrendoc.com/view/f70dadb9e5811bda4a6a082eb299da93/f70dadb9e5811bda4a6a082eb299da932.gif)
![多元统计分析及R语言建模全书教学课件完整版全套教学教程最全电子教案教学设计_第3页](http://file4.renrendoc.com/view/f70dadb9e5811bda4a6a082eb299da93/f70dadb9e5811bda4a6a082eb299da933.gif)
![多元统计分析及R语言建模全书教学课件完整版全套教学教程最全电子教案教学设计_第4页](http://file4.renrendoc.com/view/f70dadb9e5811bda4a6a082eb299da93/f70dadb9e5811bda4a6a082eb299da934.gif)
![多元统计分析及R语言建模全书教学课件完整版全套教学教程最全电子教案教学设计_第5页](http://file4.renrendoc.com/view/f70dadb9e5811bda4a6a082eb299da93/f70dadb9e5811bda4a6a082eb299da935.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第1章 多元统计分析概述多元统计分析及R语言建模 - 1- 多元统计分析及R语言建模1 多元统计分析概述内容与要求内容: 多元分析基本内容,以及本课程的主要安排。相关的补充知识和将要涉及的计算软件程序。要求: 要求学生了解多元分析的基本内容及应用领域,并掌握一些基本概念。对统计分析软件有一个基本认识。多元统计分析及R语言建模 多元统计分析概述1.1 多元统计分析的历史1 多元统计分析概述多元统计分析的历史 现实生活中,受多种指标共同作用和影响的现象大量存在。 在经济生活中,受多种指标(随机变量)共同作用和影响的现象大量存在。 多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。1.
2、2 多元统计分析的用途多元统计分析的用途进行数值分类,构造分类模式3变量之间相依性分析1构造预测模型,进行预报控制2简化系统结构,探讨系统内核4 如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。1 多元统计分析概述多元统计分析的内容多元数据的数学表示1多元数据的直观分析2多元线性相关分析3多元线性回归分析4广义和一般线性模型5判别分析6聚类分析7主成分分析8因子分析9对应分析10典型相关分析11多维标度法12综合评价法131.3 多元统计分析的内容1 多元统计分析概述1.4 统计分析软件及应用S-PLUSSASSPSS著名统计分析软件组合软件系统入门比较困难操作简单无须编程方便的数据
3、接口灵活的功能模块组合操作界面简单全面的统计模型和分析手段很强的图形处理能力兼容性极好1强大的统计分析软件 1 多元统计分析概述3 多元数据直观表示及R使用1.4 统计分析软件及应用MATLAB数值分析数值和符号计算工程与科学绘图控制系统的设计与仿真数字图像处理技术数字信号处理技术通讯系统设计与仿财务与金融工程2完整的数值计算软件 02031.4 统计分析软件及应用R3免费的数据分析软件 01功能强大免费,开源前景广阔1 多元统计分析概述1.5 R语言系统的设置优点缺点自由软件,统计功能强大,可以看作Splus的免费版本,是统计研究的首选初学较为麻烦,需一定编程经验1 多元统计分析概述R软件优
4、缺点1.5 R语言系统的设置1 多元统计分析概述 调整窗体位置 #三窗口排列语句编程窗口命令结果窗口图形显示窗口#Rstudio界面R里面有什么? Packages (每个都有大量数据和可以读写修改的函数/程序)base The R base packageboot Bootstrap R (S-Plus) Functions (Canty)class Functions for classificationcluster Functions for clustering (by Rousseeuw et al.)ctest Classical Testseda Exploratory Dat
5、a Analysisforeign Read data stored by Minitab, SAS, SPSS, .grid The Grid Graphics PackageKernSmooth Functions for kernel smoothing for Wand & Jones (1995)lattice Lattice Graphicslqs Resistant Regression and Covariance EstimationMASS Main Library of Venables and Ripleys MASSmethods Formal Methods and
6、 Classesmgcv Multiple smoothing parameter estimation and GAMs by GCVPackages (继续) modreg Modern Regression: Smoothing and Local Methodsmva Classical Multivariate Analysisnlme Linear and nonlinear mixed effects modelsnls Nonlinear regressionnnet Feed-forward neural networks and multinomial log-linear
7、 modelsrpart Recursive partitioningspatial functions for kriging and point pattern analysissplines Regression Spline Functions and Classes stepfun Step Functions, including Empirical Distributionssurvival Survival analysis, including penalised likelihood.tcltk Interface to Tcl/Tktools Tools for Pack
8、age Development and Administrationts Time series functions所有这些Packages都是在base package上添加的 Base包含所有固有的应用和数据而其他的packages包含各统计学家自己发展的方法和数据。希望你是下一个加盟这些packages的作者之一。第2章 多元数据的数学表达及R使用多元统计分析及R语言建模 多元统计分析及R语言建模2 多元数据的数学表达及R使用内容与要求内容: 多元数据的基本格式,如何收集和整理多元统计分析资料、数据的数学表达、数据矩阵及R表示、数据的R语言表示、R调用多元的数据和多元的数据的简单R语言分
9、析。要求: 要求学生熟练如何收集和整理多元统计分析资料、数据的数学表达、掌握多元数据的数字特征的解析表达式、数字特征的基本性质。熟悉有关统计软件。利用统计软件来练习矩阵的有关计算。练习在已给数据下,求样本均值、样本离差阵、样本协差阵等。多元统计分析及R语言建模2 多元数据的数学表达及R使用2.1 如何收集和整理多元分析资料2 多元数据的数学表达及R使用 多元分析资料的一般格式 矩阵化表示2.1 如何收集和整理多元分析资料2 多元数据的数学表达及R使用 举例【例2.1】为了了解股民的投资状况,研究股民的股票投资特征,我们在2002年组织统计系本科生进行小范围的“股民投资状况抽样调查”。本次调查的
10、抽样框主要涉及广东省的6个城市(广州、深圳、珠海、中山、佛山和东莞,其中,广州、深圳各100份,其他城市各80份),共发放问卷520份,回收有效问卷514份。问卷中设计了18个问题。为了简化分析,本例只考虑:年龄、性别、风险意识、是否专兼职、职业状况、教育程度和投资结果共7个变量进行分析。#本例性别、风险、专兼职、职业、教育和结果为定性变量,年龄是定量变量,有时为了分析问题方便,也可将其定量化,例如年龄(age):19岁以下(1);20至29岁(2);30 至39岁(3);40至49岁(4);50至59岁(5);60岁 及以上(6);缺失(*)。性别(sex): 男(1),女(2)。风险(ri
11、sk):有(1);无(2)。专兼职(post):专职(1);业余(2)。职业(career):干部(1);管理(2);3科教(3);金融(4);工人(5);农民(6);个体(7);无业(8)。教育(edu):文盲(1);小学(2);中学(3);高中(4);中专(5);大专(6);大学(7);研究生(8)。投资结果(result):赚钱(1);不赔不赚(2);赔钱(3)。2.2 数据的表达2 多元数据的数学表达及R使用方差样本均值和方差一元数据多元数据期望期望协方差数据的表达2.3 数据矩阵2 多元数据的数学表达及R使用在R中可以用函数c()来创建向量:在R中结果输出如下:2.3 数据矩阵2 多
12、元数据的数学表达及R使用#将向量按列和并rbind(x1,x2) #利用x1数据创建矩阵matrix(x1,nrow=3,ncol=4) #创建按照行排列的矩阵matrix(x1,nrow=3,ncol=4,byrow=T)2.3 数据矩阵2 多元数据的数学表达及R使用#创建两个相同的矩阵A=B=matrix(1:12,nrow=3,ncol=4) #矩阵转置t(A) #矩阵加法A+B #矩阵加法A+B 2.3 数据矩阵2 多元数据的数学表达及R使用#矩阵相乘A=matrix(1:12,nrow=3,ncol=4) B=matrix(1:12,nrow=4,ncol=3)A%in%B#获取对角
13、线元素A=matrix(1:16,nrow=4,ncol=4)diag(A) #利用对角线元素创建对角矩阵diag(diag(A)#创建3阶单位矩阵diag(3)2.3 数据矩阵2 多元数据的数学表达及R使用#求逆矩阵A=matrix(rnorm(16),4,4)solve(A)#求矩阵特征根与特征向量A=diag(4)+1A.e=eigen(A,symmetric=T)#矩阵的Choleskey分解A.c=chol(A)2.3 数据矩阵2 多元数据的数学表达及R使用#矩阵奇异值分解A=matrix(1:18,3,6)A.s=svd(A)#矩阵的维数A=matrix(1:12,3,4)dim(
14、A)#矩阵的行数nrow(A)#矩阵的行数ncol(A)2.3 数据矩阵2 多元数据的数学表达及R使用#矩阵按行求和rowSums(A)#矩阵按行求均值colSums(A)#矩阵按列求和colSums(A)#矩阵按列求均值colSums(A)apply()函数apply(X, MARGIN, FUN, .)#矩阵按行求和apply(A,1,sum)#矩阵按行求均值apply(A,1,mean)#矩阵按行求和rowSums(A)#矩阵按行求均值colSums(A)2.3 数据矩阵2 多元数据的数学表达及R使用#矩阵按列求和apply(A,2,sum)#矩阵按列求均值aplly(A,2,mean)
15、#矩阵按列求方差A=matrix(rnorm(100),20,5)aplly(A,2,var)#矩阵按列求函数结果B=matrix(1:12,3,4)apply(B,2,function(x,a) x*a, a=2)注意:apply(B,2,function(x,a) x*a,a=2)与B*2效果相同,此处旨在说明如何应用apply函数。2.4 数据的R语言表示数据框2 多元数据的数学表达及R使用数据框(data frame)是一种矩阵形式的数据,但数据框中各列可以是不同类型的数据。分量必须是向量(数值,字符,逻辑)、因子、数值矩阵、列表或者其他数据框。矩阵、列表和数据框为新的数据框提供了尽可
16、能多的变量,因为它们各自拥有列、元素或者变量。数值向量、逻辑值、因子保持原有格式,而字符向量会被强制转换成因子并且它的水平就是向量中出现的独立值。在数据框中以变量形式出现的向量长度必须一致,矩阵结构必须有一样的行数。数据框录入限制条件数据框2.4 数据的R语言表示数据框2 多元数据的数学表达及R使用#由x1和x2构建数据框X=data.frame(x1,x2)#赋予数据框新的列标签X=data.frame(身高=x1,体重=x2)2.5 多元数据的R语言调用 2 多元数据的数学表达及R使用从剪切板读取选择需要进行计算的数据块(比如上例中名为UG的数据),拷贝之。在R中使用dat - read.
17、table(clipboard,header=T)01022.5 多元数据的R语言调用 2 多元数据的数学表达及R使用从文本文件读取#读取名为textdata的txt格式文档X=read.table(textdata.txt)X=read.table(textdata.txt,header=T)第一行作为标题时 2.5 多元数据的R语言调用 2 多元数据的数学表达及R使用读取csv格式和excel格式读取csv格式读取excel格式X=read.csv(textdata.csv) 1.下载读取excel文件的包“readxl”2. 调用包:library(readxl)3. 读取文件:X=re
18、ad_excel(“data.xls”)2.6 多元数据的简单R语言分析 2 多元数据的数学表达及R使用#身高的直方图hist(x1)#身高与体重散点图plot(x1,x2)定量变量分析2.6 多元数据的简单R语言分析 2 多元数据的数学表达及R使用#将剪切板数据读入数据框d2.1中d2.1=read.table(clipboard,header=T)#显示数据前6行head(d2.1)定性变量分析#绑定数据attach(d2.1)#一维列联表table(年龄)2.6 多元数据的简单R语言分析 2 多元数据的数学表达及R使用#条形图barplot(table(年龄),col=1:7)#饼图pi
19、e(table(结果)定性变量分析(单因素)2.6 多元数据的简单R语言分析 2 多元数据的数学表达及R使用#以性别分组的年龄条图barplot(table(年龄,性别), beside =T, col = 1:7)#以年龄分组的性别条图barplot(table(性别,年龄), beside=T,col =1:2)定性变量分析(双因素)2.6 多元数据的简单R语言分析 2 多元数据的数学表达及R使用#以年龄、性别排列的结果频数三维列联表ftable(年龄,性别,结果)#以性别、年龄排列的结果频数三维列联表ftable(性别,年龄,结果)定性变量分析(三因素)2.6 多元数据的简单R语言分析
20、2 多元数据的数学表达及R使用#ft=ftable(性别,结果,年龄)#求ft的行和rowSums(ft)定性变量分析(三因素)#求ft的列和colSums(ft)#整理得注意detach(d2.1)当数据框不使用时,解除绑定!第3章 多元数据直观表示及R使用多元统计分析及R语言建模 - 41- 多元统计分析及R语言建模3 多元数据直观表示及R使用内容与要求内容: 包括条图、箱尾图、星相图、脸谱图、调和曲线图等图形及R语言使用。要求: 要求学生了解多元数据的直观表示方法及多变量图形的一些特点,并掌握一些复杂的多元数据的图示技术。多元统计分析及R语言建模第3章 多元数据直观表示及R使用3.1 数
21、据直观分析简述3 多元数据直观表示及R使用说明与举例 说明: 图形有助于对所研究数据的直观了解,如果能把一些多元数据直接绘图显示,便可从图形一目了然看出多元变量之间的关系。 举例: 【例 3-1】为了研究全国31个省、市、自治区2007年城镇居民生活消费的分布规律,根据调查资料做区域消费类型划分。3.1 数据直观分析简述3 多元数据直观表示及R使用 指标:食品:人均食品支出(元/人) 衣着:人均衣着商品支出(元/人) 设备:人均家庭设备用品及服务支出(元/人) 医疗:人均医疗保健支出(元/人) 交通:人均交通和通讯支出(元/人) 教育:人均娱乐教育文化服务支出(元/人) 居住:人均居住支出(元
22、/人) 杂项:人均杂项商品和服务支出(元/人) 数据: 数据来源: 2008中国统计年鉴 数据存储: 电子表格mvstats4.xls 之【d3.1】 3.1 数据直观分析简述3 多元数据直观表示及R使用 数据输入:数据R语言读取 #在mvstats4.xls:d3.1中选取A1:I32,拷贝 数据输出: X=read.table(clipboard,header=T);X 直观分析:图示法 对上述数据直接做条图意义不大,通常需要对其统计量(如均值、中位数等)做直观分析。3.2 均值条图及R使用3 多元数据直观表示及R使用 条图: (1)样品(行)均值条图#按行做均值条形图barplot(ap
23、ply(X,1,mean) #修改横坐标位置barplot(apply(X,1,mean),las=3) 3.2 均值条图及R使用3 多元数据直观表示及R使用 条图: (2)变量(列)均值条图#按列做均值图条形barplot(apply(X,2,mean) #按列做彩色均值图条形图barplot(apply(X,2,mean),col=1:8)3.2 均值条图及R使用3 多元数据直观表示及R使用 条图:(2)变量(列)中位数条图#按列做中位数条形图 barplot(apply(X,2,median),col=1:8)#按列做均值饼图pie(apply(X,2,mean) 饼图: (2)变量(列
24、)圆图3.3 箱尾图及R使用3 多元数据直观表示及R使用 箱尾图 用途: Tukey提出的箱尾图由箱子和其上引出的两个尾组成,这种图用来表示在一定时间内一个班成绩的变化、物体位置的变化、原材料的变化、产品标准的变化等。 特征: 箱尾图可以比较清晰地表示数据的分布特征,它由4部分组成。 R语言函数: boxplot(X,.)3.3 箱尾图及R使用3 多元数据直观表示及R使用boxplot(X) #按列做垂直箱线图boxplot(X,horizontal=T)#水平箱线图3.4 星相图及R使用3 多元数据直观表示及R使用 星相图 用途: 它将每个变量的各个观察单位的数值表示为一个图形,个观察单位就
25、有个图,每个图的每个角表示每个变量。 特征: 星相图是雷达图的多元表示形式。 R语言函数: stars(X, draw.segments = FALSE,key.loc = NULL,.)3.4 星相图及R使用3 多元数据直观表示及R使用#简单星相图stars(X) 3.4 星相图及R使用3 多元数据直观表示及R使用 #带图例的星相图 stars(X,key.loc=c(17,7) 3.4 星相图及R使用3 多元数据直观表示及R使用#带图例度彩色星相图stars(X,key.loc=c(17,7), draw.segments=T) #加载aplpack包library(aplpack) #按
26、每行7个做脸谱图faces(X,ncol.plot=7) 脸谱图:运用样本各变量值构造脸的各部位,通过分析脸部位大小或形状来 分析各样本数据特征3.4 星脸谱图及R使用3 多元数据直观表示及R使用#加载mvstats包library(mvstats) plot.andrews(X) 调和曲线图:使用高维空间中的一个样本对应于二维平面上的一条曲线的方法 分析数据特征3.6 调和曲线图及R使用3 多元数据直观表示及R使用直观表示图均值条图均值、中位数箱尾图调和曲线图分位数曲线特征多元数据直观表示-小结星相图星相凸角脸谱图脸谱特征第4章 多元相关与回归分析及R使用多元统计分析及R语言建模 - 59-
27、 多元统计分析及R语言建模4 多元相关与回归分析及R使用内容与要求内容: 变量间的关系分析与回归分析。多元相关回归分析的目的和基本思想,回归变量选择及逐步回归分析方法。要求: 在学生已具有的(一元)相关与回归分析的基础知识上,掌握和应用多元线性相关与回归分析。多元统计分析及R语言建模第4章 多元相关与回归分析及R使用本节内容4.1 变量间的关系分析1 简单相关分析的R计算2 一元线性回归分析的R计算4 多元相关与回归分析及R使用4.1 变量间的关系分析4 多元相关与回归分析及R使用两变量线性相关系数 样本的线性相关系数: 离均差平方和与离均差积和:4.1 变量间的关系分析4 多元相关与回归分析
28、及R使用说明与举例 举例: 【例 4-1】(续例2-2)身高与体重的相关关系分析。下面以例2-2的身高与体重数据分析。 先建立一个离均差积和函数:4.1 变量间的关系分析4 多元相关与回归分析及R使用 数据输入:读取身高与体重的数据 数据输出: plot(x1,x2) 直观分析:图示法 通过散点图看身高与体重的关系x1=c(171,175,159,155,152,158,154,164,168,166,159,164)x2=c(57,64,41,38,35,44,41,51,57,49,47,46)4.1 变量间的关系分析4 多元相关与回归分析及R使用 建立离均差乘积和函数: 数据输出: lx
29、yF) x 1 712077 712077 27427 |t|) (Intercept) -1.19660 1.16126 -1.03 0.311 x 1.11623 0.00674 165.61 |t|) (Intercept) 23.5321088 4.5990714 5.117 2.47e-05 *x1 -0.0033866 0.0080749 -0.419 0.678 x2 1.1641150 0.0404889 28.751 2e-16 *x3 0.0002919 0.0085527 0.034 0.973 x4 -0.0437416 0.0092638 -4.722 7.00e-0
30、5 *Signif. codes: 0*0.001 *0.01 *0.05 .0.1 1Residual standard error: 2.79 on 26 degrees of freedomMultiple R-squared: 0.9997,Adjusted R-squared: 0.9997 F-statistic: 2.289e+04 on 4 and 26 DF, p-value: 2.2e-16summary(fm)#多元线性回归系数t检验lm(formula=yx1+x2+x3+x4, data = yX)Residuals: Min 1Q Median 3Q Max -5.
31、0229 -2.1354 0.3297 1.2639 6.9690 多元统计分析及R语言建模4.3 多元相关分析 在相关分析中,研究较多的是两个变量之间的关系,称为简单相关;当涉及到的变量为三个或者三个以上时,称为偏相关或复相关。实际上,偏相关和复相关是对简单相关的一种推广。多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建模4.3 多元相关分析设样本矩阵为:多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建模4.3 多元相关分析此时任意两个变量间相关系数构成的矩阵为:多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建模4.3 多元相关分析其中r
32、ij为任意两变量之间的简单相关系数:多元统计分析及R语言建模4.3 多元相关分析举例与说明(续例4.4)财政收入与其他变量间的相关分析。计算财政收入和国民生产总值及税收、进出口贸易总额、经济活动人口两两之间相关系数,表4.9给出了相关系数的假设检验统计量。首先我们计算变量两两间的相关系数多元统计分析及R语言建模4.3 多元相关分析#多元数据相关系数矩阵cor(yX) R语言代码数据输出多元统计分析及R语言建模4.3 多元相关分析函数说明由于没有现成的进行相关系数矩阵的假设检验,下面编写计算相关系数的值和值的函数corr.test()。多元统计分析及R语言建模4.3 多元相关分析library(
33、mvstats)#多元数据相关系数检验corr.test(yX) R语言代码数据输出从结果可以看出,财政收入和国民生产总值及税收、进出口贸易总额、经济活动人口之间的关系都非常密切,财政收入与税收之间的关系最为密切。多元统计分析及R语言建模4.3 多元相关分析复相关分析 在实际分析中,一个变量的变化往往要受到多种变量的综合影响,这时就需要采用复相关分析方法。所谓复相关,就是研究多个变量同时与某个变量之间的相关关系,度量复相关程度的指标是复相关系数。多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建模4.3 多元相关分析假定回归模型为:复相关系数多元统计分析及R语言建模4.3 多元
34、相关分析多元统计分析及R语言建模4.3 多元相关分析复相关系数计算公式为:复相关系数多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建模4.3 多元相关分析复相关系数:决定系数决定系数:多元统计分析及R语言建模4.3 多元相关分析#显示多元线性回归模型决定系数(R2=summary(fm)$r.sq) R语言代码数据输出#显示多元数据复相关系数(R=sqrt(R2)1 0.99971 0.9999多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模多元回归分析主要用途用于描述解释现象, 这时希望回归方程中所包含的自变量尽可能少一些用于预测, 这时希望预测的
35、均方误差较小用于控制,这时希望各回归系数具有较小的方差和均方误差多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模变量太多,容易引起的问题变量多增加了模型的复杂计算量增大估计和预测的精度下降模型应用费用增加多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模解决方法全部子集法向后删除法向前引入法逐步回归法4.4 回归变量的选择方法多元统计分析及R语言建模全局最优法从理论上说,自变量选择最好的方法是所有可能回归法,即建立因变量和所有自变量全部子集组合的回归模型,也称全部子集法。对于每个模型,在实用上,从数据与模型拟合优劣的直观考虑出发,基于残差(误差
36、)平方和的变量选择准则使用的最多。多元统计分析及R语言建模4.3 多元相关分析举例与说明【例4.6】(续例4.4)在“财政收入”数据中,有4个自变量:x1,x2,x3,x4。所有可能的模型可分为5组子集:多元统计分析及R语言建模4.3 多元相关分析举例与说明例4.4数据的RSS与R2准则回归子集:多元统计分析及R语言建模4.3 多元相关分析library(leaps) #加载leaps包varsel=regsubsets(yx1+x2+x3+x4,data=yX) result=summary(varsel) data.frame(resultoutmat,RSS=resultrss,R2=r
37、esult$rsq) R语言代码数据输出多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模R2和RSS准则优缺点具有较大R2的对较少自变量的模型应该是好的选择,较大的意味着有好的拟合效果,而较少的变量个数可减轻信息的收集和控制。对于有个自变量的回归模型来说,当自变量子集在扩大时,残差平方和随之减少。因此,如果按RSS“愈小愈好”和按R2”愈大愈好”的原则来选择自变量子集,则毫无疑问应该选全部自变量多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模变量选择的常用准则平均残差平方和最小准则误差均方根MSE最小准则校正复相关系数平方(Adjusted
38、R2)准则Cp准则AIC准则BIC准则多元统计分析及R语言建模举例与说明表4.10例4.4数据的Cp与BIC准则回归子集4.4 回归变量的选择方法多元统计分析及R语言建模4.3 多元相关分析data.frame(resultoutmat,adjR2=resultadjr2,Cp=resultcp,BIC=result$bic)R语言代码数据输出多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模全局择优法的缺陷如果自变量个数为4,则所有的回归有15个,当自变量个数为10时,所有可能的回归为1023个,当自变量数个数为50时,所有可能的回归为1015个,当p很大时,数字2p
39、大得惊人,有时计算是不可能的,于是就提出了所谓逐步回归的方法.4.4 回归变量的选择方法多元统计分析及R语言建模逐步回归分析在作实际多元线性回归时常有这样情况, 变量x1,x2,.xp相互之间常常是线性相关的,即在x1,x2,.xp中任何两个变量是完全线性相关的, 即相关系数为1,则矩阵XTX的秩小于p,XTX就无解。当变量x1,x2,.xp中任有两个变量存在较大的相关性时, 矩阵XTX处于病态, 会给模型带来很大误差。因此作回归时, 应选变量x1,x2,.xp中的一部分作回归, 剔除一些变量。逐步回归法就是寻找较优子空间的一种变量选择方法。多元统计分析及R语言建模4.4 回归变量的选择方法多
40、元统计分析及R语言建模逐步变量选择的方法向前引入法向后剔除法逐步筛选法多元统计分析及R语言建模fm=lm(yx1+x2+x3+x4, data=yX) fm.step=step(fm,direction=forward) #向前引入法变量选择结果R语言代码数据输出4.4 回归变量的选择方法多元统计分析及R语言建模fm.step=step(fm,direction=backward) #向后剔除法变量选择结果R语言代码数据输出4.4 回归变量的选择方法多元统计分析及R语言建模fm.step=step(fm,direction=both) #逐步筛选法变量选择结果R语言代码数据输出4.4 回归变量
41、的选择方法多元统计分析及R语言建模 第5章 广义与一般线性模型及R使用 多元统计分析及R语言建模第5章 广义与一般线性模型及R使用多元统计分析及R语言建模第5章 广义与一般线性模型及R使用基本内容:数据的分类与模型选择、广义线性模型概述、Logistic回归模型、对数线性模型、一般线性模型的计算。基本要求:要求学生针对因变量和解释变量的取值性质,了解统计模型的类型。掌握数据的分类与模型选择方法,并对广义线性模型和一般线性模型有初步的了解。内容与要求5.1 数据的分类与模型选择5广义与一般线性模型及R使用5.1 数据的分类与模型选择5广义与一般线性模型及R使用2.模型选择方式:基本公式 yX连续
42、变量0-1变量有序变量多分类变量连续伴有删失连续变量线性回归方程logistic回归模型累积比数模型对数线性模型对数线性模型多分类logistic回归模型cox比例风险模型分类变量 实验设计模型(方差分析模型)连续变量分类变量协方差分析模型5.2 广义线性模型5广义与一般线性模型及R使用表5.1 广义线性模型中的常用分布族5.2 广义线性模型5广义与一般线性模型及R使用5.2 广义线性模型5广义与一般线性模型及R使用说明与举例 说明: 2、Logistic模型:函数形式其中参数估计采用极大似然估计。 举例:对45名驾驶员的调查结果,其中四个变量的含义为:x1:表示视力状况,它是一个分类变量,1
43、表示好,0表示有问题;x2:年龄,数值型;x3:驾车教育,它也是一个分类变量,1表示参加过驾车教育,0表示没有;y:分类变量(去年是否出过事故,1表示出过事故,0表示没有)。5.2 广义线性模型5广义与一般线性模型及R使用d5.1=read.table(clipboard,header=T) #读取例5.1数据 logit.glm-glm(yx1+x2+x3,family=binomial,data=d5.1) #Logistic回归模型summary(logit.glm) #Logistic回归模型结果得到初步的logistic回归模型:(1)建立全变量logistic回归模型:程序与结果5
44、.2 广义线性模型5广义与一般线性模型及R使用logit.step-step(logit.glm,direction=both) #逐步筛选法变量选择由此得到新的logistic回归模型:(2)逐步筛选变量logistic回归模型:summary(logit.step) #逐步筛选法变量选择结果程序与结果5.2 广义线性模型5广义与一般线性模型及R使用pre1-predict(logit.step,data.frame(x1=1) #预测视力正常司机Logistic回归结果p1-exp(pre1)/(1+exp(pre1) #预测视力正常司机发生事故概率pre2-predict(logit.s
45、tep,data.frame(x1=0) #预测视力有问题的司机Logistic回归结果p2-exp(pre2)/(1+exp(pre2) #预测视力有问题的司机发生事故概率c(p1,p2) #结果显示(3):预测发生交通事故的概率程序与结果5.2 广义线性模型5广义与一般线性模型及R使用说明与举例 说明: 3、对数线性模型:函数形式 式2含有交叉效应 举例: 某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品的满意程度是否相同。满意不满意合计高533891中434108542低11148159合计598194792在R语言中,数据需变形为:用y表示频数,x1表示收入人群,x
46、2表示满意程度5.2 广义线性模型5广义与一般线性模型及R使用程序与结果(1)建立Poisson对数线性模型:从检验结果可看出,p1=0.00310.01,p20.01,说明收入和满意程度对产品有重要影响5.3 一般线性模型5广义与一般线性模型及R使用说明与举例 举例: 设有3台机器,用来生产规格相同的铝合金薄板。现从3台机器生产出的薄板中各随机抽取5块,测出厚度值,见下表,试分析各机器生产的薄板厚度有无显著差异?机器12.362.382.482.452.472.43机器22.572.532.552.542.562.61机器32.582.642.592.672.662.625.2 广义线性模型
47、5广义与一般线性模型及R使用d5.3=read.table(clipboard,header=T) #读取例5.3数据 anova(lm(Yfactor(A),data=d5.3) #完全随机设计模型方差分析 P0.05,说明各种燃料A对火箭射程有无显著影响,PB0.05,说明各种推进器B对火箭射程也无显著影响。(1)数据格式为:程序与结果案例分析 广义线性模型及其应用5广义与一般线性模型及R使用关于40个不同年龄(age,定量变量)和性别(sex,定性变量,用0和1代表女和男)的人对某项服务产品的观点(y,二水平定性变量,用1和0代表认可与不认可)的数据。一、数据管理二、R语言操作 拟合的模
48、型为:Case4=read.table(clipboard,header=T);Case4fm=glm(ysex+age,family=binomial,data=Case4)fmsummary(fm)attach(Case4)Pr=predict(fm,data.frame(list(sex,age) #模型预测p=exp(Pr)/(1+exp(Pr)cbind(sex,age,y,p)plot(age,Pr)detach(Case4)谢谢!第6章 判别分析及R使用多元统计分析及R语言建模 多元统计分析及R语言建模6 判别分析及R使用多元统计分析及R语言建模6 判别分析及R使用基本要求理解判
49、别分析的目的及其统计思想了解并熟悉判别分析的三种类型掌握不同判别方法的判别规则和判别函数利用R语言程序,实际计算教材中的习题多元统计分析及R语言建模6 判别分析及R使用主要内容判别分析的目的和意义几种判别分析准则和性质 包括Fisher判别法、距离判别法、Bayes判别法R语言程序中有关判别分析的算法6 判别分析及R使用6.1 判别分析的概念概念和方法判别分析概念判别分析方法 是在已知的分类之下,对新的样本,可以利用此法选定一判别标准,以判定将该新样品放置于哪个类中。 判别分析(Discriminat Analysis)是多元分析中用于判别样本所属类型的一种统计分析方法。6 判别分析及R使用6
50、.1 判别分析的概念判别分析的种类一、确定性判别:Fisher型判别 (1)线性型 (2)距离型 (3)非线性型二、概率性判别:Bayes型判别 (1)概率型 (2)损失型6 判别分析及R使用6.2 线性判别分析 6 判别分析及R使用6.2 线性判别分析 一、求Fisher线性判别函数二、计算判别界值三、建立判别标准6 判别分析及R使用6.2 线性判别分析【例6.1】今天和昨天湿温差 x1及气温差x2是预报明天 下雨否的其中两个重要因子, 试建立Fisher线性判别函数如测得今天 x1=8.1, x2=2.0试报明天是雨天还是晴天?6 判别分析及R使用6.2 线性判别分析一、基本统计分析6 判
51、别分析及R使用6.2 线性判别分析二、Logistic模型分析6 判别分析及R使用6.2 线性判别分析三、Fisher判别分析6 判别分析及R使用6.2 线性判别分析6 判别分析及R使用6.3 距离判别法6.3.1 两总体距离判别马氏距离:判别准则:6 判别分析及R使用6.3 距离判别法6.3.1 两总体距离判别一、等方差阵:直线判别6 判别分析及R使用6.3 距离判别法6.3.1 两总体距离判别二、异方差阵:曲线判别6 判别分析及R使用6.3 距离判别法【例6.2】对例6.1天气数据做距离判别分析6 判别分析及R使用6.3 距离判别法6.3.2 多总体距离判别一、协方差矩阵相同:线性判别6
52、判别分析及R使用6.3 距离判别法6.3.2 多总体距离判别二、协方差矩阵不同:非线性判别6 判别分析及R使用6.3 距离判别法【例6.3】电视机品牌调查分析20 个电视机 5 种畅销 8 种平销 7 种滞销试建立判别函数,当一新产品其质量评分为8.0, 功能评分为7.5, 销售价格为65百元,问该厂产品的销售前景如何?6 判别分析及R使用6.3 距离判别法6 判别分析及R使用6.3 距离判别法1. 线性判别(等方差)1 0.96 判别分析及R使用6.3 距离判别法6 判别分析及R使用6.3 距离判别法2. 二次判别(异方差)1 0.956 判别分析及R使用6.4 Bayes 判别法6.4.1
53、 Bayes判别准则Fisher判别缺点Bayes判别准则一是判别方法与各总体出现的概率无关二是判别方法与错判后造成的损失无关以个体归属于某类的概率(或判别值)最大或错判总平均损失最小为标准6 判别分析及R使用6.4 Bayes 判别法6.4.1 Bayes判别准则一、概率判别k个总体的先验概率密度函数分别为x来自第j类的后验概率为 (Bayes公式) 6 判别分析及R使用6.4 Bayes 判别法6.4.1 Bayes判别准则二、损失判别 x错判为第g总体的平均损失6 判别分析及R使用6.4 Bayes 判别法6.4.2 正态总体的Bayes判别一、Bayes判别函数求解k个总体的先验概率密
54、度函数分别为6 判别分析及R使用6.4 Bayes 判别法6.4.2 正态总体的Bayes判别二、协方差阵相等情形6 判别分析及R使用6.4 Bayes 判别法6.4.2 正态总体的Bayes判别三、后验概率的计算6 判别分析及R使用6.4 Bayes 判别法【例6.4】对例6.3数据应用Bayes判别法进行判别(1)先验概率相等:6 判别分析及R使用6.4 Bayes 判别法【例6.4】对例6.3数据应用Bayes判别法进行判别(2)先验概率不等6 判别分析及R使用6.4 Bayes 判别法两种结果比较:两种结果比较6 判别分析及R使用6.4 Bayes 判别法两种结果比较6 判别分析及R使
55、用小结1. 判别分析方法是按已知所属组的样本确定判别函数,制定判别规则,然后再判断每一个新样品应属于哪一类。2. 常用的判别方法有Fisher判别、距离判别、贝叶斯判别等,每个方法根据其出发点不同各有其特点。3. Fisher类判别对判别变量的分布类型并无要求,而Bayes类判别要变量的分布类型。因此,Fisher类判别较Bayes类判别简单一些。4. 当两个总体时,若它们的协方差矩阵相同,则距离判别和Fisher判别等价。当变量服从正态分布时,它们还和Bayes判别等价。5. 判别分析中的各种误判的后果允许看作是相同的,通常将犯第一类错误的后果看得更严重些,但本章对此关注的不够。6 判别分析
56、及R使用第六章讲到这里就结束了欢迎大家继续学习第七章!第7章 聚类分析及R使用多元统计分析及R语言建模 多元统计分析及R语言建模7 聚类分析及R使用多元统计分析及R语言建模7 聚类分析及R使用内容与要求聚类分析的目的和意义聚类分析中所使用的几种尺度的定义初步掌握选用聚类方法与对应距离的原则六种系统聚类方法的定义及其基本性质R语言程序中有关聚类分析的算法基础掌握R语言中kmeans聚类的方法和用法多元统计分析及R语言建模7 聚类分析及R使用基本要求理解聚类分析的目的意义及统计思想了解变量类型的几种尺度定义熟悉Q型和R型聚类分析的统计量的定义了解六种系统聚类方法及它们的统一公式掌握R语言中六种方法
57、的具体使用步骤了解R语言中kmeans聚类的基本思想和用法7 聚类分析及R使用7.1 聚类分析的概念和类型概念和方法基本概念聚类分析法(Cluster Analysis)是研究“物以类聚”的一种现代统计分析方法,在众多的领域中,都需要采用聚类分析作分类研究。差异方法7 聚类分析及R使用7.1 聚类分析的概念和类型 7 聚类分析及R使用7.1 聚类分析的概念和类型 【例7.1】两个变量、九个样品数据及其散点图7 聚类分析及R使用7.2 聚类统计量7 聚类分析及R使用7.2 聚类统计量相关系数矩阵:cor(X)7 聚类分析及R使用7.2 聚类统计量D=dist(X); D R=cor(X); R7
58、 聚类分析及R使用7.3 系统聚类法首先将个样品分成类,每个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有的样品归为一类为止,并把这个过程做成一张系统聚类图。系统聚类法的基本思想7 聚类分析及R使用7.3 系统聚类法类间距离计算方法(1)最短距离法(single)(2)最长距离法(complete)(3)中间距离法(median)(4)类平均法(average)(5)重心法(centroid)(6)离差平方和法(Ward)类间距离计算公式7 聚类分析及R使用7.3 系统聚类法7 聚类分析及R使用7.3 系统聚类法基本步骤:计算n个样品两两
59、间的距离构造n个类,每类包含1个样品合并距离最近的两类为1个新类计算新类与当前各类的距离,若类个数为1,转到第5步,否则回到第3步绘制系统聚类图确定类的个数和样品名称例7-1数据的系统聚类最短距离法(采用欧氏距离)例7-1数据的系统聚类最长距离法(采用欧氏距离)例7-1数据的系统聚类7 聚类分析及R使用7.3 系统聚类法2.Ward法(采用欧氏距离)hc-hclust(dist(X),ward) #ward距离法 cbind(hc$merge,hc$height) #分类过程plot(hc) #聚类图7 聚类分析及R使用7.3 系统聚类法【例7.2】续例3.1,为了研究全国31个省、市、自治区
60、2007年城镇居民生活消费的分布规律,根据调查资料做区域消费类型划分。指标名及原始数据见表3.1 自编系统聚类函数H.clust()的用法H.clust-function(X,d=euc,m=comp,proc=F,plot=T)X数值矩阵或数据框,d 距离计算方法(见上),m系统聚类方法(见上)proc是否输出聚类过程,plot 是否输出聚类图#在mvstats.xls:d7.2中选取A1:I32区域,然后拷贝plot(d7.2)结果输出:7 聚类分析及R使用7.3 系统聚类法library(mvstats)H.clust(d7.2,euclidean,single,plot=T) #最短距
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 现代企业的绿色责任高层办公楼设计的环境考量
- 版权法规在在线教育中的应用与挑战
- 现代企业机房的物理环境与安全防护
- 电子商务中的网络安全防护技术探索
- 现代职场中的多元文化沟通策略与实践
- 长春2025年吉林长春市各县(市)区事业单位招聘36人笔试历年参考题库附带答案详解
- 现代物流园区的规划与管理
- 电商平台物流与供应链管理实务
- 未来网络技术构建智能城市的基础
- 浙江浙江工业职业技术学院资产管理处采购中心编外人员招聘笔试历年参考题库附带答案详解
- 2025年电力铁塔市场分析现状
- GB 12158-2024防止静电事故通用要求
- 《教育强国建设规划纲要(2024-2035年)》全文
- 山东省滨州市2024-2025学年高二上学期期末地理试题( 含答案)
- 化学-江苏省苏州市2024-2025学年2025届高三第一学期学业期末质量阳光指标调研卷试题和答案
- 蛋鸡生产饲养养殖培训课件
- 运用PDCA降低住院患者跌倒-坠床发生率
- 海底捞员工手册
- 立春气象与生活影响模板
- 中国服装零售行业发展环境、市场运行格局及前景研究报告-智研咨询(2025版)
- 2024年广东省公需课《新质生产力与高质量发展》考核答案
评论
0/150
提交评论