《数据分析基础-R语言实现》数据的描述分析_第1页
《数据分析基础-R语言实现》数据的描述分析_第2页
《数据分析基础-R语言实现》数据的描述分析_第3页
《数据分析基础-R语言实现》数据的描述分析_第4页
《数据分析基础-R语言实现》数据的描述分析_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据的描述分析贾俊平2024/3/94.1数据水平的描述4.2数据差异的描述4.3分布形状的描述4.4R的综合描述函数

数据的描述分析学习目标掌握各描述统计量的特点和应用场合使用R函数计算各描述统计量利用各统计量分析数据并能对结果进行合理解释思政目标数据的描述性分析主要是利用各种统计量来概括数据的特征。描述性分析中,要根据各统计量的特点和应用条件进行合理使用和分析描述性分析要结合我国的宏观经济和社会数据,分析社会和经济发展的成就和公平与合理程度,避免以偏概全等不恰当应用学习目标和思政目标学习目标和思政目标

平均数简单平均数加权平均数

4.1

数据水平的描述R函数mean\\weighted.mean【例4-1】随机抽取30个大学生,得到他们在“双十一”期间的网购金额数据,如表所示。计算30个人的平均网购金额平均数——简单平均数——例题分析479.0721.2672.4728.7443.2381.3527.0500.0586.0500.0528.2633.8705.9423.5590.1353.6447.4565.3557.1481.3561.1620.1477.1436.2562.9505.1515.4502.7487.5675.4

4.1

数据水平的描述【例4-2】假定将表4-1的数据分成组距为50的组,分组结果如表4-2所示,计算网购金额的平均数平均数——加权平均数——例题分析

分组人数350~4002400~4504450~5004500~5507550~6006600~6502650~7002700~7503合计30分组350~4003752750400~45042541700450~50047541900500~55052573675550~60057563450600~65062521250650~70067521350700~75072532175合计

3016250

4.1

数据水平的描述分位数——中位数——例题分析分位数——一组数据按从小到大排序后,可以找出排在某个位置上的数值,该数值可以代表数据水平的高低。这些位置上的数值就是相应的分位数(quantile)。常用的分位数有中位数、四分位数、百分位数等中位数——排序后处于中间位置上的值。不受极端值影响位置确定数值计算

4.1

数据水平的描述R函数median分位数——四分位数——例题分析四分位数一组数据排序后处在25%和75%位置上的数值用3个点将全部数据等分为4部分,其中每部分包含25%的数据中间的四分位数就是中位数,通常所说的四分位数是指处在25%位置上和75%位置上的两个数值位置确定

4.1

数据水平的描述R函数quantile分位数——百分位数百分位数(percentile)是用99个点将数据分成100等分,处于各分位点上的数值就是百分位数百分位数提供了各项数据在最小值和最大值之间分布的信息中间的四分位数就是中位数,通常所说的四分位数是指处在25%位置上和75%位置上的两个数值

4.1

数据水平的描述位置确定

R函数quantile分位数——百分位数——例题分析

4.1

数据水平的描述众数

4.1

数据水平的描述R函数#DescTools包//Mode各度量值的比较平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性接好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好

4.1

数据水平的描述极差和四分位差——极差

4.2

数据差异的描述极差和四分位差——四分位差

4.2

数据差异的描述方差和标准差——例题分析【例4-7】沿用例4-1。计算30个人网购金额的极差和四分位差和标准差解:使用R函数得极差=375.1四分位差=109.5

4.2

数据差异的描述R函数IQR方差和标准差方差——各变量值与均值的平均差异标准差——上四分位数与下四分位数之差

样本标准差s

样本标准差s

原始数据分组数据

4.2

数据差异的描述方差和标准差——例题分析

【例4-9】沿用例4-2。根据表4-2的分组数据,计算网购金额的标准差

4.2

数据差异的描述分组350~400375227777.7955555.58400~450425413611.1254444.48450~50047544444.4517777.80500~5505257277.781944.45550~60057561111.116666.65600~65062526944.4413888.88650~700675217777.7735555.54700~750725333611.10100833.30合计—30105555.55286666.67R函数#var;#sd离散系数——例题分析离散系数——标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较计算公式为【例4-10】

为分析不同行业上市公司每股收益的差异,在互联网服务行业和机械制造行业各随机抽取10家上市公司,得到某年度的每股收益数据如表4-5所示。比较两类上市公司每股收益的离散程度

4.2

数据差异的描述互联网公司机械制造公司0.320.680.470.430.890.280.970.030.870.421.090.240.730.660.960.290.960.020.630.59统计量互联网公司机械制造公司平均数0.7890.364标准差0.2470020.236606离散系数0.3130570.650015标准分数标准分数也称标准化值。对某一个值在一组数据中相对位置的度量可用于判断一组数据是否有离群点(outlier)用于对变量的标准化处理计算公式为

4.2

数据差异的描述R函数scale标准分数——例题分析【例4-11】沿用例4-1。计算30个人网购金额的标准分数网购金额标准分数网购金额标准分数网购金额标准分数479.0-0.6141672.41.3670443.2-0.9808527.0-0.1224586.00.4820528.2-0.1101705.91.7102590.10.5240447.4-0.9378557.10.1859561.10.2269477.1-0.6336562.90.2453515.4-0.2412487.5-0.5270721.21.8669728.71.9438381.3-1.6149500.0-0.3990500.0-0.3990633.80.9716423.5-1.1826353.6-1.8987565.30.2699481.3-0.5906620.10.8313436.2-1.0526505.1-0.3468502.7-0.3713675.41.3978

4.2

数据差异的描述偏度系数和峰度系数

峰度(kurtosis)——指数据分布峰值的高低由统计学家K.Pearson于1905年首次提出峰度系数—测度一组数据分布峰值高低的统计量是(coefficientofkurtosis),记作K计算公式

4.3

数据形状的描述偏度系数和峰度系数——例题分析

4.3

数据形状的描述R函数#e1071包//

skewness//

kurtosis

pastecs包中的stat.desc函数和psych包中的describe函数【例4-13】

沿用例4-10。计算互联网服务行业和机械制造行业上市公司每股盈的各描述统计量,并进行综合分析#使用pastecs包中的stat.desc函数计算描述统计量

4.4

R的综合描述函数互联网公司机械制造公司nbr.val10.000010.0000nbr.null0.00000.0000nbr.na0.00000.0000min0.32000.0200max1.09000.6800range0.77000.6600sum7.89003.6400median0.88000.3550mean0.78900.3640SE.mean0.07810.0748CI.mean.0.950.17670.1693var0.06100.0560std.dev0.24700.2366coef.var0.31310.6500

pastecs包中的stat.desc函数和psych包中的describe函数【例4-13】

沿用例4-10#使用psych包中的describe函数计算描述统计量varsnmeansdmediantrimmedmadminmaxrangeskewkurtosisse互联网公司1100.790.250.880.810.180.321.090.77-0.63-1.110.08机械制造公司2100.360.240.360.370.260.020.680.66-0.09-1.500.07

4.4

R的综合描述函数综合分析互联网类上市公司的每股平均盈利高于机械制造类上市公司,虽然从标准差看互联网类上市公司大于机械制造类上市公司,但离散系数(互联网类上市公司0.3131,机械制造类上市公司为0.6500)离散系数看,互联网类上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论