R语言基础培训第二讲常用统计分析ppt课件_第1页
R语言基础培训第二讲常用统计分析ppt课件_第2页
R语言基础培训第二讲常用统计分析ppt课件_第3页
R语言基础培训第二讲常用统计分析ppt课件_第4页
R语言基础培训第二讲常用统计分析ppt课件_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于R的根本统计分析内容提要描画统计频数表分析方差分析t检验卡方检验线性回归相关分析描画分析(Descriptive statistics)描画统计就是把数据集所包含的信息加以简要地概略,如计算数据的数字特征、制造频数表和频数图等等,用所获得的统计量和图表来描画数据集所反映的特征和规律,使得研讨的问题更加简单、直观。 描画性统计主要包括反映数据集中趋势的特征值(比如平均数、中位数、众数、分位数)、数据离散程度的特征值(比如方差、规范差、值域、变异系数)和数据分布形状的特征值(比如偏度、峰度)。 规范差std.dev和规范误SE.mean规范差std.dev真实均值SE样本均值当样本含量 n 足

2、够大时,规范差趋向稳定;而规范误随n的增大而减小,甚至趋于0 。 规范差std.dev和规范误SE.mean 比如,某学校共有500名学生,如今要经过抽取样本量为30的一个样本,来推断学生的身高。这时可以根据抽取的样本信息,计算出样本的均值与规范差。假设我们抽取的不是一个样本,而是10个样本,每个样本30人,那么每个样本都可以计算出均值,这样就会有10个均值。也就是构成了一个10个数字的数列,然后计算这10个数字的规范差,此时的规范差就是规范误。但是,在实践抽样中我们不能够抽取10个样本。所以,规范误就由样本规范差除以样本量来表示。当然,这样的结论也不是随心所欲,而是经过了统计学家的严密证明的

3、。 SE.mean= std.dev / n1/2在实践的运用中,规范差主要有两点作用,一是统计量样本离散程度的表征;二是用来对样本进展规范化处置,即样本察看值减去样本均值,然后除以规范差,这样就变成了规范正态分布。规范误的作用主要是用来做区间估计,常用的估计区间是均值加减n倍的规范误例如95%的置信区间是:均值+1.96*SE规范差std.dev和规范误SE.mean95% CI:假设上面这个随机抽样估计学生身高的例子,抽样100次,每次抽10个学生丈量身高,均值估计值及规范误为 152cm12cm。但有时需求表示为估计量的95%的置信区间152cm-1.96*12cm,152cm+1.96

4、*12cm。可以解释为,假设从再从总体中抽样100次每次抽样10个,产生100个平均值,这100个平均值将有95次落在152cm-1.96*12cm,152cm+1.96*12cm这个范围内,5次落在这个范围外,假设抽样次数越多,这个推断越准确。这个来源于中心极限定理的运用:任何分布(总体)抽样n次,每次抽样的和符合正态分布。通俗一点说, 不论是学校的学生身高是怎样分布, 每次随机抽取10个求和, 抽取n次,这n个身高总和是符合正态分布的。平均身高为身高总和除于10,所以平均身高也是正态分布的。正态分布双尾95%的分界点所对应的值刚好是1.96。峰度Kurtosis峰度Kurtosis是描画某

5、变量一切取值分布形状陡缓程度的统计量。 它是和正态分布相比较的。Kurtosis=0 与正态分布的陡缓程度一样。Kurtosis0 比正态分布的顶峰更加峻峭尖顶Kurtosis0 正偏向数值较大,为正偏或右偏。长尾巴拖在右边Skewness0 负偏向数值较大,为负偏或左偏。长尾巴拖在左边计算公式:Skewness 越大,分布形状偏移程度越大频数表(Frequency table)分析 频数表分析是对数据集按数据范围分成假设干区间,即分成假设干组,求出每组组中值,各组数据用组中值替代,计算各组数据的频数,并作出频数表。 频数表分析例子summary(oats$yield)# 计算频数A - ta

6、ble(cut(oats$yield, breaks = 40 + 20 * (0:7) round(prop.table(A) * 100,2) # 计算频数比例# 画频数表hist(oats$yield, # breaks = 7, xlim = c(40,180), xlab = yield, main = Frequency chart of yield)方差分析ANOVA方差分析是一种在假设干组能相互比较的实验数据中,把产生变异的缘由加以区分的方法与技术,其主要用途是研讨外界要素或实验条件的改动对实验结果影响能否显著。类型:单要素方差分析(One-way ANOVA)、双要素方差分析

7、(Two-way ANOVA) 。方差分析的根本模型是线性模型,并假设随机变量是独立、正态和等方差的。方差分析是根据平方和的加和原理,利用 F 检验,进而判别实验要素对实验结果的影响能否显著。单要素方差分析# Tukey HSD 方法 #install.packages(multcomp)library(multcomp)tuk - glht(fit, linfct = mcp(Treat = Tukey)summary(tuk) # standard displaytuk.cld - cld(tuk) # letter-based displayopar chisq.test(freq,p=

8、probs) Chi-squared test for given probabilitiesdata: freqX-squared = 6.7, df = 5, p-value = 0.2423卡方检验28x = c(100,110,80,55,14)probs = c(29, 21, 17, 17, 16)/100 chisq.test(x,p=probs) chisq.test(x,p=probs) Chi-squared test for given probabilitiesdata: xX-squared = 55, df = 4, p-value = 2.685e-11卡方检验列

9、联表29yesbelt = c(12813,647,359,42)nobelt = c(65963,4000,2642,303)chisq.test(data.frame(yesbelt,nobelt) chisq.test(data.frame(yesbelt,nobelt) Pearsons Chi-squared testdata: data.frame(yesbelt, nobelt)X-squared = 59, df = 3, p-value = 8.61e-13练习四以数据stu.data.csv为例,试对体重做频数分析。请分析身高能否符合正态分布?试分析性别对体重有无影响。问题

10、4:请检验总体平均体重与60kg有无显著差别?男生和女生的平均体重有无显著差别?问题5:男女生比例能否符合 1.2 : 1.0?练习四 答案df-read.csv(file=stu.data.csv,header=T)#问题1A - table(cut(df$weight, breaks = 40 + 15 * (0:7) round(prop.table(A) * 100,2) # 计算频数比例hist(df$weight, breaks = 7, xlim = c(40,140), xlab = weight, main = Frequency chart of weight)#问题2sh

11、apiro.test(df$height)#问题3fit-aov(weight Sex,data=df)summary(fit)library(agricolae)duncan.test(fit, Sex, alpha=0.05)$groups#问题4t.test(df$weight, mu = 60, alternative = two.sided)wt.m-subset(df$weight,df$Sex=男)wt.f-subset(df$weight,df$Sex=女)var.test(wt.m,wt.f) #等方差检验t.test(wt.m,wt.f, paired=F) #问题5sum

12、mary(df$Sex)ct-c(87, 33)pt 0,公式是有效的。多项式回归fit - lm( weight N + I(N2), data = df ) # 二次项回归模型 summary( fit ) # 回归分析结果 plot( df$N, df$weight ) # 绘制散点图 lines( df$N, fitted(fit) ) # 添加回归线 添加光滑曲线require(graphics)plot(cars, main = lowess(cars)lines(cars)lines(lowess(cars), col = 2)多元线性逐渐回归最优线性回归方程为: y= -649

13、.779 + 14.592x1 + 6.841x2 + 9.329x3 回归方程阐明:对于川农 16 号小麦而言,当 x2 和 x3 固定时,穗数 x1 每添加 1万/亩,产量 y 将平均添加 14.592Kg/亩;当 x1 和 x3 固定时,每穗粒数 x2 每添加 1粒,产量 y 将平均添加 6.841Kg/亩;当 x1 和 x2 固定时,千粒重 x3 每添加 1g,产量y 将平均添加 9.329 Kg/亩。自变量的作用主次第一种方法:计算通径系数(path coefficient, p)。df.2 - as.data.frame( scale(df) ) #对数据集做规范化处置 lmfit

14、 round(coef(lmfit),3) (Intercept) x1 x2 x3 0.000 0.777 0.410 0.609 第二种方法:根据 x1、x2、x3 回归系数的 t 值大小,也可判别自变量 x 的主次顺序,凡是 t 值较大者就是较重要的因子。结论:自变量 x 的主次顺序为:穗数 x1 千粒重 x3 每穗粒数 x2。交互作用多元线性回归练习四以数据stu.data.csv为例,试对体重做频数分析。请分析身高能否符合正态分布?试分析性别对体重有无影响。问题4:请检验总体平均体重与60kg有无显著差别?男生和女生的平均体重有无显著差别?问题5:男女生比例能否符合 1.2 : 1.

15、0?练习四 答案df-read.csv(file=stu.data.csv,header=T)#问题1A - table(cut(df$weight, breaks = 40 + 15 * (0:7) round(prop.table(A) * 100,2) # 计算频数比例hist(df$weight, breaks = 7, xlim = c(40,140), xlab = weight, main = Frequency chart of weight)#问题2shapiro.test(df$height)#问题3fit-aov(weight Sex,data=df)summary(fi

16、t)library(agricolae)duncan.test(fit, Sex, alpha=0.05)$groups#问题4t.test(df$weight, mu = 60, alternative = two.sided)wt.m-subset(df$weight,df$Sex2=1)wt.f-subset(df$weight,df$Sex2=2)var.test(wt.m,wt.f) #等方差检验t.test(wt.m,wt.f, paired=F) #问题5summary(df$Sex)ct-c(87, 33)pt corr.test(df, use = complete)Call

17、:corr.test(x = df, use = complete)Correlation matrix h dbh v cpro wd wpro tl tw lrth 1.00 0.86 0.90 -0.43 -0.29 0.32 -0.20 -0.04 -0.17dbh 0.86 1.00 0.98 -0.41 -0.35 0.39 -0.18 -0.15 -0.07v 0.90 0.98 1.00 -0.43 -0.38 0.43 -0.20 -0.11 -0.12cpro -0.43 -0.41 -0.43 1.00 0.22 -0.25 0.18 -0.08 0.20wd -0.29

18、 -0.35 -0.38 0.22 1.00 -0.98 -0.09 -0.08 0.00wpro 0.32 0.39 0.43 -0.25 -0.98 1.00 0.02 -0.02 0.01tl -0.20 -0.18 -0.20 0.18 -0.09 0.02 1.00 0.16 0.79tw -0.04 -0.15 -0.11 -0.08 -0.08 -0.02 0.16 1.00 -0.47lrt -0.17 -0.07 -0.12 0.20 0.00 0.01 0.79 -0.47 1.00Sample Size 1 30Probability values (Entries ab

19、ove the diagonal are adjusted for multiple tests.) h dbh v cpro wd wpro tl tw lrth 0.00 0.00 0.00 0.53 1.00 1.00 1.00 1.00 1.00dbh 0.00 0.00 0.00 0.63 1.00 0.85 1.00 1.00 1.00v 0.00 0.00 0.00 0.53 0.92 0.53 1.00 1.00 1.00cpro 0.02 0.02 0.02 0.00 1.00 1.00 1.00 1.00 1.00wd 0.12 0.06 0.04 0.24 0.00 0.00 1.00 1.00 1.00wpro 0.08 0.03 0.02 0.18 0.00 0.00 1.00

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论