数据的初步分析 R软件_第1页
数据的初步分析 R软件_第2页
数据的初步分析 R软件_第3页
数据的初步分析 R软件_第4页
数据的初步分析 R软件_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章 数据的初步分析 一个数据可能有很多变量和观测值,这些变量和观测值可以通过一些简单的表格、图形以及少数的特征统计量来进行描述。这些方法在统计学中称为描述性统计分析方法,其目的在于帮助我们整理、展示数据,使得我们可以了解数据的特征,进而为进一步的统计推断做好准备。 通过计算机软件做数据的描述性分析,可以使我们更加直观、便捷地了解数据特征,有利于对统计描述的理解。本章的实验重点是介绍如何运用R软件来对数据进行描述性分析,并掌握描述性统计的基本方法和概念。实验一 数据的统计量描述一、 实验目的初步了解数据的特点、分布形状;熟悉R软件的程序结构;学会使用R软件计算数据的描述统计量。二、 实验内容

2、掌握通过R软件读入或输入数据,并能够计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。三、 准备知识1. 位置的度量所谓位置的度量就是那些用来描述数据集中趋势的统计量。常用的有均值、众数、中位数、百分位数等。平均数(Mean):中位数(Median):一组数据按从小到大(或从大到小)的顺序依次排列,处在中间位置的一个数,即me=xn+12 当n为奇数时12xn2+xn2+1 当n为偶数时 中位数描述的是数据的中心位置不受数据分布的影响,具有稳健性,是数据分析中相当重要的统计量。众数(Mode):在一组数据中,出现次数最多的那个数据。百分位数:百分位数是中位数的推广

3、。将数据按从小到大排序后,对于0p<1,它的分位点定义为mp=xnp+1 当np不是整数时12x(np)+x(np+1) 当n是整数时其中np为np的整数部分。2. 离散趋势度量表示数据分散或变异程度的特征统计量,常用的有方差、标准差、变异系数等样本方差(Sample Variance):描述数据取值分散性的一个度量,即样本标准差(Standard Deviation):样本方差的开方,即变异系数(CV):变异系数是刻画数据相对分散性的一种度量CV=100×sx(%)是一个无量纲的量,用百分数表示。3. 分布形状的度量数据分布形状的度量包括偏度系数和峰度系数。偏度系数:计算公式

4、为g1=nn-1n-2s3i=1n(xi-x)3=n23n-1(n-2)s3s是标准差,3是样本三阶中心矩,即3=1ni=1n(xi-x)3.偏度系数是刻画数据的对称性指标。关于均值对称的数据偏度系数为0.数据左偏时,对称系数为正,右偏时为负。峰度系数:计算公式g2=n(n+1n-1n-2(n-3)s4i=1n(xi-x)4-3(n-1)2n-2(n-3) =n2(n+1)4n-1n-2(n-3)s4-3(n-1)2n-2(n-3) s是标准差,4是样本四阶中心矩,即3=1ni=1n(xi-x)4.来自正态总体的数据峰度近似为0;如果样本数据的峰度大于0,则该数据的总体分布比正太分布的尾部更分

5、散;如果一个样本数据的峰度小于0,则总体分布较正太分布更集中。四、 实验背景某灯泡生产厂商测试某种新型灯泡的燃烧寿命,如下数据表格列出了200个灯泡样本的可使用小时数。107736897767994599857799863656662798668746479787977868976748592788877103886368888174708561658175629471936165629265646683707866669477636675687661717791967564767277817185995992946268728567878084936976897573815465718084

6、886261618265986371621166588738068788972586982726473759062897171747085848363926881627983708177728467595873837376907871101784359677465828679746686968977608784757751456310259778368726792898296计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。五、 实验过程1. 读入数据。首先通过R软件中的read.table()命令来读入实验数据(也可以通过函数scan()来读入数据)。以本实验为

7、例,我们假定数据的存储路径为:I:非参数实验教材教材第一章 描述性统计分析,数据名称为”测试.txt”,则具体读入过程如下:> x<-read.table("I:非参数实验教材教材第一章 描述性统计分析测试.txt")> x=t(x)2. 均值。读入数据后,可以通过”mean()”这一函数求数据的均值,记为x.mean,过程如下:> x.mean=mean(x);x.mean1 76.053. 数据排序。在R软件中,对原始数据进行排序,可以通过”sort()”函数(具体用法可以参考help文件)对数据进行排序,例如,分别对数据进行降序和升序排列,过程

8、如下:> sort(x,decreasing=T) 1 116 107 103 102 101 99 98 98 98 97 96 96 96 94 94 94 94 93 19 93 92 92 92 92 92 91 90 90 89 89 89 89 89 89 88 88 88 37 88 88 87 87 86 86 86 86 85 85 85 85 85 84 84 84 84 84 55 83 83 83 83 83 82 82 82 82 81 81 81 81 81 81 80 80 80 73 79 79 79 79 79 79 79 78 78 78 78 78

9、78 77 77 77 77 77 91 77 77 77 77 76 76 76 76 76 76 75 75 75 75 75 75 74 74109 74 74 74 74 73 73 73 73 73 73 72 72 72 72 72 72 71 71127 71 71 71 71 71 71 70 70 70 70 69 69 68 68 68 68 68 68145 68 68 67 67 67 67 66 66 66 66 66 66 65 65 65 65 65 65163 65 65 64 64 64 64 63 63 63 63 63 63 62 62 62 62 62

10、62181 62 62 61 61 61 61 61 60 59 59 59 59 59 58 58 57 54 51199 45 43> sort(x,decreasing=F) 1 43 45 51 54 57 58 58 59 59 59 59 59 60 61 61 61 61 61 19 62 62 62 62 62 62 62 62 63 63 63 63 63 63 64 64 64 64 37 65 65 65 65 65 65 65 65 66 66 66 66 66 66 67 67 67 67 55 68 68 68 68 68 68 68 68 69 69 70

11、70 70 70 71 71 71 71 73 71 71 71 71 72 72 72 72 72 72 73 73 73 73 73 73 74 74 91 74 74 74 74 75 75 75 75 75 75 76 76 76 76 76 76 77 77109 77 77 77 77 77 77 77 78 78 78 78 78 78 79 79 79 79 79127 79 79 80 80 80 81 81 81 81 81 81 82 82 82 82 83 83 83145 83 83 84 84 84 84 84 85 85 85 85 85 86 86 86 86

12、87 87163 88 88 88 88 88 89 89 89 89 89 89 90 90 91 92 92 92 92181 92 93 93 94 94 94 94 96 96 96 97 98 98 98 99 101 102 103199 107 1164. 中位数。在R软件中,求数据中位数的命令函数为median(),可以通过以下命令求中位数。> median(x)1 75.55. 分位数。求分位数的函数命令为quantile(),我们可以通过quantile()求某一个具体的分位点值,也可以同时求多个分位点值,例如> quantile(x) 0% 25% 50% 7

13、5% 100% 43.00 66.75 75.50 84.00 116.00> quantile(x,0.05)5% 59> quantile(w, probs = seq(0, 1, 0.2)0% 20% 40% 60% 80% 100%47.40 56.98 62.20 64.00 67.32 75.006. 方差和标准差。在R软件中求方差和标准差的命令函数为var()和sd(),通过这两个命令可以很容易的求出数据的方差、标准差。具体如下:> var(x)1 145.4548> sd(x)1 12.060467. 变异系数、峰度和偏度。在R软件中没有专门的函数用来求

14、数据的变异系数、峰度以及偏度,不过我们可以根据公式,自己编写命令或函数来求这些统计量的值。例如,变异系数可以通过以下命令求得:> cv=100*sd(x)/mean(x); cv1 15.8586而样本数据的峰度和偏度可以通过以下命令求得:n<- length(x)m <- mean(x)s <- sd(x)g1 <- n/(n-1)*(n-2)*sum(x-m)3)/s3g2 <- (n*(n+1)/(n-1)*(n-2)*(n-3)*sum(x-m)4)/s4-(3*(n-1)2)/(n-2)*(n-3) 我们也可以编写一个完整的函数来将以上所有特征统计

15、量求出来,以下给出了一个简单的函数(具体见附录),用法如下:> data.outline(x) N Mean V1 std_dev Median std_mean CV CSS USS R1 200 76.05 145.4548 12.06046 75.5 0.8528035 15.8586 28945.5 1185666 73 R1 Skewness Kurtosis1 17.25 0.2770275 0.03557146六、 练习实验1. 以下数据为非洲44个国家的人均收入(单位为美元):1890.00640.00660.00320.00290.001870.007480.00290

16、.00740.001490.00100.00430.00170.00200.00150.00380.00440.00260.00190.00140.00290.00320.002780.003430.00250.0090.00390.00430.00220.001350.00300.00450.003580.00590.004090.00320.00310.00100.00640.00310.00130.00210.00550.00240.00计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。2. 以下数据为福布斯杂志的全球最好的125个公司的利润数据(单位为美元

17、):10.934.081.460.910.730.840.860.560.420.308.752.771.021.360.670.540.390.410.390.415.892.781.610.881.080.470.490.320.220.2812.432.771.491.130.590.430.460.410.300.344.542.312.431.541.140.520.280.430.350.253.541.830.870.630.440.510.810.420.270.241.801.681.070.730.841.110.280.450.380.263.303.672.851.90

18、0.520.370.310.370.270.235.093.230.911.360.930.550.360.550.931.031.070.550.470.330.333.341.481.770.340.290.420.250.390.313.551.580.871.080.340.750.6031.530.910.911.261.000.420.430.16计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。附录:data_outline <-function(x)n<- length(x)m <-

19、mean(x)v <- var(x)s <- sd(x)me <- median(x)cv <- 100*s/mg1 <- n/(n-1)*(n-2)*sum(x-m)3)/s3g2 <- (n*(n+1)/(n-1)*(n-2)*(n-3)*sum(x-m)4)/s4-(3*(n-1)2)/(n-2)*(n-3)data.frame(N=n, Mean=m, Var=v, std.dev=s,Median=me, CV=cv, Skewness=g1, Kurtosis=g2, s=1)实验二 数据分布一、实验目的掌握判断样本数据是否来自正

20、太总体的方法;对于给定的样本数据,会通过R软件画出样本数据的直方图、经验分布图以及Q-Q图。二、实验内容通过R软件画出样本数据的直方图、经验分布图以及Q-Q图。三、准备知识想要了解样本数据的总体分布情况,仅有特征统计量是不够的,还需要研究数据的分布。而研究数据的总体分布的一个主要问题就是想知道数据是否来自于某一个正太总体,也就是所谓的分布的正态性检验问题。研究这一问题常用到的方法包括直方图、经验分布图Q-Q图以及下一个实验内容所包括的茎叶图、箱线图等直方图:直方图是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量。直方图是用面积而非高度来表示数量。直方图由一组块形组成,

21、每一个块形的面积表示在相应的小组区间中事例的百分数。采用密度尺度,每一个块形的高度等于相应小组区间中事例的百分数除以该区间的长度。其面积呈现为百分数,总面积为100%。直方图下两个数值之间的面积给出了落在那个区间内的事件的百分数。经验分布图:直方图的制作适合于总体为连续分布的场合。对于一般的总体分布,若要估计它的总体分布函数,可以采用经验分布函数。经验分布函数是指根据样本构造的概率分布函数. 设x1,xn为一组样本, 定义函数m(x)表示样本中小于或者等于x的样本个数, 则称函数Fn*x=m(x)n为样本x1,xn为的经验分布函数.Q-Q图:Q-Q图是一种散点图,对应于正态分布的Q-Q图,就是

22、由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图. 要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值. 用QQ图还可获得样本偏度和峰度的粗略信息.Q-Q图可以用于检验数据的分布,所不同的是,Q-Q图是用变量数据分布的分位数与所指定分布的分位数之间的关系曲线来进行检验的。四、实验背景某灯泡生产厂商测试某种新型灯泡的燃烧寿命,如下数据表格列出了200个灯泡样本的可使用小时数。107736897767994599857799863656662798668746479787977868976748592788877103

23、886368888174708561658175629471936165629265646683707866669477636675687661717791967564767277817185995992946268728567878084936976897573815465718084886261618265986371621166588738068788972586982726473759062897171747085848363926881627983708177728467595873837376907871101784359677465828679746686968977608784

24、757751456310259778368726792898296根据给定的样本数据画出数据的直方图、经验分布图以及Q-Q图。五、实验过程数据的读入可以参见实验一,这里不再重复。1. 直方图。软件中直方图的命令为hist()(具体可以参考R软件文档),如果不输入其它参数,则可以采取默认分组,具体为> hist(x)也可以指定分组、颜色等其它参数,例如> hist(x,breaks=15)在本实验中,为了观察数据的分布特征,以及判断数据是否来自正太总体,可以同时绘出直方图和密度估计曲线和正太分布的概率密度曲线进行比较。> hist(x, freq = FALSE)> li

25、nes(density(x), col = "blue")> w <- min(x):max(x)> lines(w, dnorm(w, mean(x), sd(x), col = "red")2.经验分布图。在这一实验中,我们同样可以通过绘出200个灯泡使用时间的经验分布图和相应的正态分布图来进行比较,以判断数据是否来自于正太总体,例如> plot(ecdf(x),verticals = TRUE, do.p = FALSE)> w <- min(x):max(x)> lines(w, pnorm(w, mea

26、n(x), sd(x)3. QQ图。QQ图同样可以用来判断数据的总体情况,画出数据的正态QQ图和正太QQ曲线,判断样本是否来自正态总体,过程如下:> qqnorm(x);qqline(x)七、练习实验1. 以下数据为非洲44个国家的人均收入(单位为美元):1890.00640.00660.00320.00290.001870.007480.00290.00740.001490.00100.00430.00170.00200.00150.00380.00440.00260.00190.00140.00290.00320.002780.003430.00250.0090.00390.0043

27、0.00220.001350.00300.00450.003580.00590.004090.00320.00310.00100.00640.00310.00130.00210.00550.00240.00计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。2. 以下数据为福布斯杂志的全球最好的125个公司的利润数据(单位为美元):10.934.081.460.910.730.840.860.560.420.308.752.771.021.360.670.540.390.410.390.415.892.781.610.881.080.470.490.320.220.

28、2812.432.771.491.130.590.430.460.410.300.344.542.312.431.541.140.520.280.430.350.253.541.830.870.630.440.510.810.420.270.241.801.681.070.730.841.110.280.450.380.263.303.672.851.900.520.370.310.370.270.235.093.230.911.360.930.550.360.550.931.031.070.550.470.330.333.341.481.770.340.290.420

29、.250.390.313.551.580.871.080.340.750.6031.530.910.911.261.000.420.430.16计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。实验三 数据的茎叶图、盒子图以及五数总括一、实验目的掌握判断样本数据是否来自正太总体的方法;对于给定的样本数据,会通过R软件画出样本数据的茎叶图、盒子图以及能够计算五数总括。二、实验内容 通过R软件画出样本数据的茎叶图、箱线图,并计算五数总括。三、准备知识 1.茎叶图 茎叶图有三列数:左边的一列数统计数,它是上(或下)向中心累积的值,中心的数(带括号)

30、表示最多数组的个数;中间的一列表示茎,也就是变化不大的位数; 右边的是数组中的变化位,它是按照一定的间隔将数组中的每个变化的数一一列出来,像一条枝上抽出的叶子一样,所以人们形象地叫它茎叶图。茎叶图是一个与直方图相类似的特殊工具,但又与直方图不同,茎叶图保留原始资料的资讯,直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转90度,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的频率或百分比。从而可以看出分布是否与正态分布或单峰偏态分布逼近。 2.箱线图箱线图(Boxplot)也称箱图、盒形图等,是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据

31、的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。3.五数总括直方图、茎叶图虽然包含了大量的样本信息,但是没有做任何加工或简化。有时,我们需要用少数几个统计量来对大量的原始数据进行概括。而最有代表性的、能够反映数据重要特征的五个数为:中位数、下四分位数、上四分位数、最小值和最大值。这五个数称为样本数据的五数总括。四、实验背景某灯泡生产厂商测试某种新型灯泡的燃烧寿命,如下数据表格列出了200个灯泡样本的可使用小时数。1077368977679945998577998636566627986687464797879778689767485927

32、888771038863688881747085616581756294719361656292656466837078666694776366756876617177919675647672778171859959929462687285678780849369768975738154657180848862616182659863716211665887380687889725869827264737590628971717470858483639268816279837081777284675958738373769078711017843596774658286797466869689

33、77608784757751456310259778368726792898296根据给定的样本数据画出数据的直方图、经验分布图以及Q-Q图。五、实验过程数据的读入可以参见实验一,这里不再重复。1. 绘出数据的茎叶图。在R中茎叶图的绘制命令为stem(),过程为> stem(x) The decimal point is 1 digit(s) to the right of the | 4 | 3 4 | 5 5 | 14 5 | 78899999 6 | 011111222222223333334444 6 | 5555555566666677778888888899 7 | 0000

34、11111111222222333333444444 7 | 5555556666667777777778888889999999 8 | 00011111122223333344444 8 | 5555566667788888999999 9 | 00122222334444 9 | 66678889 10 | 123 10 | 7 11 | 11 | 62.绘出箱线图。箱线图的绘制命令为boxplot(),输入这一命令,得到直方图如下:> boxplot(x) 我们同样可以会出多个数据的箱线图,示例间附录。3.计算五数总括。在R软件中,自带了计算五数总括的命令函数fivenum(),计算过程如下:> fivenum(x)1 43.0 66.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论