版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章描述性统计分析5.1统计常用的名词术语5.2描述性统计分析练习第五章描述性统计分析5.1统计常用的名词术语15.1常用的名词术语总体:
根据研究目的而确定的、符合指定条件的全体观察对象所构成的集合称为总体。1.总体与样本样本:在抽样调查中观察的所有个体的集合称为样本。
样本容量:
样本中的个体数称为样本容量,记为n。
5.1常用的名词术语总体:根据研究目的而确定的、符合指2连续型随机变量
在定义域范围内可以取任意实数值的变量是连续型随机变量
离散型随机变量
在定义域范围内只可以取一些不连续实数值的变量是离散型随机变量。
2.变量反映总体某一性状的数量标法叫变量。其测定数值叫观察值。变量分两类型:
数值型变量:用数值进行记录
字符型变量:用字符进行记录数值型变量又分:连续型随机变量在定义域范围内可以取任意实数值的变量是连续33.参数与统计量参数:指由总体的全部观察值而算得的总体特征数。统计量:指由样本的全部观察值而算得的样本特征数。统计分析的核心在于由样本的情况推断集团的信息,保证一定精确度、可靠度。
计算统计量描述抽样推断总体样本统计量3.参数与统计量统计分析的核心在于由样本的情况推断集团的信息44.常用的统计量(1).表现数据的集中趋势-----平均数(2).反映资料变异度(离散特性)的统计量---极差、方差、标准差、变异系数等(3).
描述分布形状的量---峰度系数和偏度系数4.常用的统计量(1).表现数据的集中趋势-----平均数5几何平均数(G):是n个数值乘积的n次方根。对计算平均增长率具有独特的应用价值。中位数(Md):如果一组数据按大小顺序排列,中间位置的数值即为中位数。众数(Mo):是样本里具有次数最多的那个数值。算术平均数:(1).表现数据的集中趋势的量-----平均数应用最普遍的是算术平均数。(复习)几何平均数(G):是n个数值乘积的n次方根。算术平均数:(16(2)反映资料变异度(离散特性)的统计量---极差、方差、标准差、变异系数复习:1.标准差:S:刻画平均到每一独立数据的变异度,估计试验误差。CV:比较两个样本的变异度(由于单位不同或均数不同)
2.变异系数:3.标准误:反映同一个集团内抽样所得的样本平均数间的差异。
实例(2)反映资料变异度(离散特性)的统计量复习:1.标准差:S7(3)描述分布形状的量2.峰度系数(Kurtosis)分布在均值两侧极端数据有多少的度量。峰度>0两侧极端数据较多,呈偏平式分布.峰度<0两侧极端数据较少,呈尖峰式分布偏度系数≈0-->分布对称右偏分布的偏度为正数;左偏分布的偏度为负数。
(复习)1.偏度系数(Skewness)
是以正态分布为标准来描述样本数据对称性的统计量。(3)描述分布形状的量2.峰度系数(Kurtosis)偏度系8一、常用SAS过程1、MEANS过程
格式:procmeans选项;var分析变量表;by分组变量;class分类变量表;freq频数变量;outputout=数据集;例:procmeansmeanstdmaxdec=2;varx1;一、常用SAS过程1、MEANS过程例:procmean92、UNIVARIATE过程格式:procunivariate选项;var分析变量表;3、两过程比较:UNIVARIATE过程除可计算基本统计量外,重点在于描述变量的分布。其中选项:freq产生频数和累积频数分布表。normal进行正态性检验plot生成统计图2、UNIVARIATE过程3、两过程比较:其中选项:fr104、MEANS过程所计算的统计量(关键词)及其含义:关键词统计量关键词统计量MinMaxRangeSumMeanVarStdStderrCssuss最小值最大值极差和均值方差标准差标准误平方和平方总和NNmissCVKurtosisskewnesstPrtClmUclmLclm样本容量缺值个数变异系数峰度系数偏度系数在H0:μ=0时的t值t值概率μ的95%置信区间单侧可信区间上限
单侧可信区间下限4、MEANS过程所计算的统计量(关键词)及其含义:关键词统111、DATA=(SAS数据集):指出SAS数据集的名称,若省略,则使用最近产生的数据集。2、MAXDEC=(数字):指出所输出的结果中,小数部分的最大位数(0-8),缺省时为8位。3、FW=(域宽):指出打印的结果中每个统计量的域宽,缺省时为12。在PROCMEANS语句中几个主要选项如下:1、DATA=(SAS数据集):指出SAS数据集的名称,12二、应用举例例5.3:某单位对100名健康的女大学生测定了血清总蛋白含量(g/L),试做单变量描述性统计分析。p52dataaa;inputx@@;cards;74.378.8……70.4;procmeans;procmeansnminmaxmeanstdstderrcvmaxdec=2;procunivariatefreqnormal;procchart;/*制作次数分布表、图*/hbarx;run;SAS程序例5.3二、应用举例例5.3:某单位对100名健康的女大学生测定了血13MEANS过程分析变量:xN均值标准偏差最小值最大值10073.66000003.940081564.300000084.3000000procmeans;默认的5个统计量其SAS输出结果与说明MEANS过程分析变量:xN均值标准偏差最小值最大值1014procmeansnminmaxmeanstdstderrcvmaxdec=2;输出结果:MEANS过程分析变量:xN最小值最大值均值标准偏差标准误差偏差系数10064.3084.3073.663.940.395.35procmeansnminmaxmeanstd15过程3输出:UNIVARIATE过程变量:x矩N100权重总和100均值73.66观测总和7366标准偏差3.94008153方差15.5242424偏度0.06007521峰度0.03386864未校平方和544116.46校正平方和1536.9变异系数5.34901103标准误差均值0.39400815过程3输出:UNIVARIATE过程变量:x矩N100权16基本统计测度位置变异性均值73.66000标准偏差3.94008中位数73.50000方差15.52424众数73.50000极差20.00000
四分位极差4.60000基本统计测度位置变异性均值73.66000标准偏差3.94017位置检验:
Mu0=0检验----统计量------------P值---------学生tt186.9504Pr>|t|<.0001符号M50Pr>=|M|<.0001符号秩S2525Pr>=|S|<.0001位置检验:
Mu0=0检验----统计量----------18正态性检验检验----统计量-------------P值---------Shapiro-WilkW0.990367Pr<W0.6943Kolmogorov-SmirnovD0.065517Pr>D>0.1500Cramer-vonMisesW-Sq0.061361Pr>W-Sq>0.2500Anderson-DarlingA-Sq0.362469Pr>A-Sq>0.2500W=0.990367,P=Pr(<W)=0.6943>0.05,接受H0,说明该资料服从正态分布。正态性检验检验----统计量-------------P值19分位数(定义
5)分位数估计值100%最大值84.3099%82.9595%80.5090%79.1575%Q375.8050%中位数73.5025%Q171.2010%68.405%67.301%64.650%最小值64.30分位数(定义
5)分位数估计值100%最大值84.3099204第五章描述性统计分析课件21频数统计值计数百分比单元格累积64.311.01.065.022.03.067.211.04.067.344.08.068.022.010.068.833.013.069.733.016.0……84.311.0100.0频数统计值计数百分比单元格累积64.311.01.065.0224第五章描述性统计分析课件234第五章描述性统计分析课件244第五章描述性统计分析课件25例测得某地3岁儿童10人的体重与体表面积的数据如下表将数据资料建成一个Excel电子表格文件,然后导入成SAS数据文件。体重(x)11.011.812.012.313.1体表面积(y)5.2835.2995.3585.2925.602体重(x)13.714.414.915.216.0体表面积(y)6.0145.8306.1026.0756.411导入外部数据(略,自学)例测得某地3岁儿童10人的体重与体表面积的数据如下表26实例理解反映资料变异度的统计量组别年龄平均甲组24252625乙组1492525单位:岁标准差124实例理解反映资料变异度的统计量组别年龄平均甲组242527葡萄品种果穗上有许多性状,其平均数、标准差及单位各不相同,判断以下性状变异大小。性状平均数标准差一穗上小穗数一穗上果粒数一穗果粒重18小穗42粒6.8g2穗8粒2.0g变异系数11.1%19.0%29.4%分析结果:以全穗重的变异最大,其次是果粒重,再则为果粒数。葡萄品种果穗上有许多性状,其平均数、标准差及单位各不相同,判28第五章描述性统计分析5.1统计常用的名词术语5.2描述性统计分析练习第五章描述性统计分析5.1统计常用的名词术语295.1常用的名词术语总体:
根据研究目的而确定的、符合指定条件的全体观察对象所构成的集合称为总体。1.总体与样本样本:在抽样调查中观察的所有个体的集合称为样本。
样本容量:
样本中的个体数称为样本容量,记为n。
5.1常用的名词术语总体:根据研究目的而确定的、符合指30连续型随机变量
在定义域范围内可以取任意实数值的变量是连续型随机变量
离散型随机变量
在定义域范围内只可以取一些不连续实数值的变量是离散型随机变量。
2.变量反映总体某一性状的数量标法叫变量。其测定数值叫观察值。变量分两类型:
数值型变量:用数值进行记录
字符型变量:用字符进行记录数值型变量又分:连续型随机变量在定义域范围内可以取任意实数值的变量是连续313.参数与统计量参数:指由总体的全部观察值而算得的总体特征数。统计量:指由样本的全部观察值而算得的样本特征数。统计分析的核心在于由样本的情况推断集团的信息,保证一定精确度、可靠度。
计算统计量描述抽样推断总体样本统计量3.参数与统计量统计分析的核心在于由样本的情况推断集团的信息324.常用的统计量(1).表现数据的集中趋势-----平均数(2).反映资料变异度(离散特性)的统计量---极差、方差、标准差、变异系数等(3).
描述分布形状的量---峰度系数和偏度系数4.常用的统计量(1).表现数据的集中趋势-----平均数33几何平均数(G):是n个数值乘积的n次方根。对计算平均增长率具有独特的应用价值。中位数(Md):如果一组数据按大小顺序排列,中间位置的数值即为中位数。众数(Mo):是样本里具有次数最多的那个数值。算术平均数:(1).表现数据的集中趋势的量-----平均数应用最普遍的是算术平均数。(复习)几何平均数(G):是n个数值乘积的n次方根。算术平均数:(134(2)反映资料变异度(离散特性)的统计量---极差、方差、标准差、变异系数复习:1.标准差:S:刻画平均到每一独立数据的变异度,估计试验误差。CV:比较两个样本的变异度(由于单位不同或均数不同)
2.变异系数:3.标准误:反映同一个集团内抽样所得的样本平均数间的差异。
实例(2)反映资料变异度(离散特性)的统计量复习:1.标准差:S35(3)描述分布形状的量2.峰度系数(Kurtosis)分布在均值两侧极端数据有多少的度量。峰度>0两侧极端数据较多,呈偏平式分布.峰度<0两侧极端数据较少,呈尖峰式分布偏度系数≈0-->分布对称右偏分布的偏度为正数;左偏分布的偏度为负数。
(复习)1.偏度系数(Skewness)
是以正态分布为标准来描述样本数据对称性的统计量。(3)描述分布形状的量2.峰度系数(Kurtosis)偏度系36一、常用SAS过程1、MEANS过程
格式:procmeans选项;var分析变量表;by分组变量;class分类变量表;freq频数变量;outputout=数据集;例:procmeansmeanstdmaxdec=2;varx1;一、常用SAS过程1、MEANS过程例:procmean372、UNIVARIATE过程格式:procunivariate选项;var分析变量表;3、两过程比较:UNIVARIATE过程除可计算基本统计量外,重点在于描述变量的分布。其中选项:freq产生频数和累积频数分布表。normal进行正态性检验plot生成统计图2、UNIVARIATE过程3、两过程比较:其中选项:fr384、MEANS过程所计算的统计量(关键词)及其含义:关键词统计量关键词统计量MinMaxRangeSumMeanVarStdStderrCssuss最小值最大值极差和均值方差标准差标准误平方和平方总和NNmissCVKurtosisskewnesstPrtClmUclmLclm样本容量缺值个数变异系数峰度系数偏度系数在H0:μ=0时的t值t值概率μ的95%置信区间单侧可信区间上限
单侧可信区间下限4、MEANS过程所计算的统计量(关键词)及其含义:关键词统391、DATA=(SAS数据集):指出SAS数据集的名称,若省略,则使用最近产生的数据集。2、MAXDEC=(数字):指出所输出的结果中,小数部分的最大位数(0-8),缺省时为8位。3、FW=(域宽):指出打印的结果中每个统计量的域宽,缺省时为12。在PROCMEANS语句中几个主要选项如下:1、DATA=(SAS数据集):指出SAS数据集的名称,40二、应用举例例5.3:某单位对100名健康的女大学生测定了血清总蛋白含量(g/L),试做单变量描述性统计分析。p52dataaa;inputx@@;cards;74.378.8……70.4;procmeans;procmeansnminmaxmeanstdstderrcvmaxdec=2;procunivariatefreqnormal;procchart;/*制作次数分布表、图*/hbarx;run;SAS程序例5.3二、应用举例例5.3:某单位对100名健康的女大学生测定了血41MEANS过程分析变量:xN均值标准偏差最小值最大值10073.66000003.940081564.300000084.3000000procmeans;默认的5个统计量其SAS输出结果与说明MEANS过程分析变量:xN均值标准偏差最小值最大值1042procmeansnminmaxmeanstdstderrcvmaxdec=2;输出结果:MEANS过程分析变量:xN最小值最大值均值标准偏差标准误差偏差系数10064.3084.3073.663.940.395.35procmeansnminmaxmeanstd43过程3输出:UNIVARIATE过程变量:x矩N100权重总和100均值73.66观测总和7366标准偏差3.94008153方差15.5242424偏度0.06007521峰度0.03386864未校平方和544116.46校正平方和1536.9变异系数5.34901103标准误差均值0.39400815过程3输出:UNIVARIATE过程变量:x矩N100权44基本统计测度位置变异性均值73.66000标准偏差3.94008中位数73.50000方差15.52424众数73.50000极差20.00000
四分位极差4.60000基本统计测度位置变异性均值73.66000标准偏差3.94045位置检验:
Mu0=0检验----统计量------------P值---------学生tt186.9504Pr>|t|<.0001符号M50Pr>=|M|<.0001符号秩S2525Pr>=|S|<.0001位置检验:
Mu0=0检验----统计量----------46正态性检验检验----统计量-------------P值---------Shapiro-WilkW0.990367Pr<W0.6943Kolmogorov-SmirnovD0.065517Pr>D>0.1500Cramer-vonMisesW-Sq0.061361Pr>W-Sq>0.2500Anderson-DarlingA-Sq0.362469Pr>A-Sq>0.2500W=0.990367,P=Pr(<W)=0.6943>0.05,接受H0,说明该资料服从正态分布。正态性检验检验----统计量-------------P值47分位数(定义
5)分位数估计值100%最大值84.30
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论