连续变量的描述统计原理_第1页
连续变量的描述统计原理_第2页
连续变量的描述统计原理_第3页
连续变量的描述统计原理_第4页
连续变量的描述统计原理_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

连续变量的描述统计原理1.连续变量的统计描述概述2.集中趋势的描述指标3.离散趋势的描述指标4.实例操作Part2:第四章01连续变量的描述统计连续变量的描述统计原理学习要求掌握SPSS软件中用于连续变量统计描述的Explore、Frequencies、Descriptive过程学习要求理解连续变量的均值、方差等统计描述指标连续变量的描述统计原理4.1连续变量的统计描述概述统计描述的工具统计图

统计表统计描述指标

连续变量的描述统计原理数据分布的特征集中趋势(位置)离中趋势

(分散程度)偏态和峰度(形状)连续变量的描述统计原理连续变量统计描述的常用指标均值众数中位数极差四分位差方差统计描述指标集中趋势离散趋势连续变量的描述统计原理4.2集中趋势的描述指标一组数据向其中心值靠拢的倾向和程度;测度集中趋势就是寻找数据一般水平的代表值或中心值;连续变量的描述统计原理集中趋势测度-均值集中趋势的测度值之一;最常用的测度值;一组数据的均衡点所在;设一组数据为:x1

,x2

,…,xn

,简单算术平均数的计算公式为:连续变量的描述统计原理集中趋势测度-中位数集中趋势的测度值之一;排序后处于中间位置上的值:Me50%50%连续变量的描述统计原理集中趋势测度-众数集中趋势的测度值之一;出现次数最多的变量值;连续变量的描述统计原理数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型分类数据顺序数据数值数据(定距数据)数值数据(定比数据)适用的测度值※众数※中位数※均值※均值—四分位数众数调和平均数—众数中位数几何平均数——四分位数中位数———四分位数———众数连续变量的描述统计原理4.3离中趋势的描述指标数据分布的另一个重要特征;离中趋势的各测度值是对数据离散程度所作的描述;反映各变量值远离其中心值的程度从另一个侧面,从令一侧面说明了集中趋势测度值的代表程度;连续变量的描述统计原理离中趋势测度-极差离散程度的测度值之一;一组数据的最大值与最小值之差,计算公式为:

R=max(xi)-min(xi)连续变量的描述统计原理离中趋势测度-方差离散程度最常用的测度值;反映了各变量值与均值的平均差异;计算公式:连续变量的描述统计原理离中趋势测度-四分位差离中趋势的测度值之一;排序后处于75%和25%位置上的值的差QU-QL

:QLQMQU25%25%25%25%连续变量的描述统计原理数据类型与离中趋势测度值数据类型和所适用的离散程度测度值数据类型分类数据顺序数据数值数据适用的测度值—※四分位差

※方差或标准差——

※离散系数(比较时用)——平均差——极差——四分位差连续变量的描述统计原理4.4数据分布的形状测度扁平分布尖峰分布峰度左偏分布右偏分布与标准正态分布比较!偏态连续变量的描述统计原理数据分布的形状测度-偏态数据分布偏斜程度的测度;计算公式:偏态系数=0为对称分布;偏态系数>0为右偏分布;偏态系数<0为左偏分布。连续变量的描述统计原理算例【例】已知2007年我国农村居民家庭按纯收入分组的有关数据如下表。试计算偏态系数。2007年农村居民家庭纯收入数据按纯收入分组(元)户数比重(%)500以下500~10001000~15001500~20002000~25002500~30003000~35003500~40004000~45004500~50005000以上2.2812.4520.3519.5214.9310.356.564.132.681.814.94连续变量的描述统计原理计算过程农村居民家庭纯收入数据偏态及峰度计算表按纯收入分组(百元)组中值xi户数比重(%)fi(xi-x)fi3(xi-x)fi45以下5—1010—1515—2020—2525—3030—3535—4040—4545—5050以上2.57.512.517.522.527.532.537.542.547.552.52.2812.4520.3519.5214.9310.356.564.132.681.814.94-154.64-336.46-144.87-11.840.1823.1689.02171.43250.72320.741481.812927.154686.511293.5346.520.20140.60985.492755.005282.948361.9846041.33合计—1001689.2572521.25连续变量的描述统计原理计算结果根据上表数据计算得:将计算结果代入公式得:结论:偏态系数为正值,说明农村居民家庭纯收入的分布为右偏分布。

连续变量的描述统计原理农村居民家庭纯收入数据的直方图1000500←15002000250030003500400045005000→结论:说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数。

按纯收入分组(元)252015105户数比重(%)连续变量的描述统计原理数据分布的形状测度-峰度数据分布扁平程度的测度;计算公式:峰度系数=3扁平程度适中;峰度系数<3为扁平分布;峰度系数>3为尖峰分布。连续变量的描述统计原理4.5连续变量的统计描述实例操作【例】:某班30名学生《统计学》期末考试成绩如下,试对该考试进行统计描述分析。117122124129107117130122110118123126127123118112100125117122126122118108112127123119113120连续变量的描述统计原理描述统计过程SPSS软件中用于连续变量统计描述的工具主要有频率分析、描述分析、

探索分析三大过程。连续变量的描述统计原理频率分析过程频数分布表是描述性统计中最常用的方法之一,频率分析过程就是专门为产生频数表而设计的。频率分析过程不仅可以产生详细的频数表,还可以按要求给出百分位点的数值,以及常用的条图、圆图等统计图。频率分析过程还提供了多变量的比较连续变量的描述统计原理《统计学》成绩【例】:某班30名学生《统计学》期末考试成绩如下,试对该考试进行分析。117117123112126127122130126100122123124122127125118119129110123117108113107118118122112120连续变量的描述统计原理主对话框候选变量待分析变量连续变量的描述统计原理统计量子对话框连续变量的描述统计原理Std.deviation标准差Variance方差Range极差(全距)均值的标准误Median中位数Mode众数Skewness偏度Kurtosis峰度连续变量的描述统计原理结果输出-表格频数分析过程的表格输出不仅主要有均值、中位数、众数、标准差等等常用的描述统计指标。连续变量的描述统计原理图表子对话框图表子对话框主要是定义输出的图形类型:条图、饼图、直方图。连续变量的描述统计原理结果输出-直方图连续变量的描述统计原理格式子对话框限制分组数选择两个以上变量作频数表,并对统计量进行对比定义频数表排列顺序格式

子对话框主要是定义输出频数表的格式。连续变量的描述统计原理请完成对奥运会射击比赛8名选手决赛成绩分布特征以及离散趋势和集中趋势的对比分析。连续变量的描述统计原理连续变量的描述统计原理连续变量的描述统计原理连续变量的描述统计原理连续变量的描述统计原理描述分析过程它可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,这和其他过程相比并无不同。该过程可将原始数据转换成标准正态分值,并以变量的形式存入数据库供以后分析,特别是离群点的分析。连续变量的描述统计原理复习:标准分数

(standardscore)1.也称标准化值2. 对某一个值在一组数据中相对位置的度量3. 可用于判断一组数据是否有离群点(outlier)4. 用于对变量的标准化处理5.计算公式为连续变量的描述统计原理标准分数

(性质)z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1连续变量的描述统计原理标准分数

(例题分析)9个家庭人均月收入标准化值计算表家庭编号人均月收入(元)标准化值z

12345678915007507801080850960200012501630

0.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996连续变量的描述统计原理作用:经验法则经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内连续变量的描述统计原理作用:切比雪夫不等式

(Chebyshev’sinequality)如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数连续变量的描述统计原理切比雪夫不等式

(Chebyshev’sinequality)对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内连续变量的描述统计原理主对话框候选变量计算标准分值存储在新的变量待分析变量连续变量的描述统计原理选项子对话框选项子对话框主要是选择需要输出的描述统计指标:均值、中位数、众数、标准差等等。连续变量的描述统计原理结果输出-表格连续变量的描述统计原理请完成对奥运会射击比赛8名选手决赛成绩的离群点分析。连续变量的描述统计原理Z庞伟Z荣国Z金荣洙Z贾森.特纳Z布赖恩.比曼Z列昂尼德.叶基莫夫Z瓦尔特.拉佩尔Z乍吉.巴尼巴滴功-1.81359-1.23499-1.32288-1.5732-.25538.59781-.43806.17678.15770-.33682.56695.71510.51075.76861.70471-.35355.551961.234991.133891.00114.51075-1.96423-1.0094-1.06066.15770.56136.00000.28604-.25538-.085401.46656.00000.35483-1.45954.75593.85812.76613.93941-1.0094-.17678.15770.33682-.75593-.57208-2.5537-.59781.70471.88388.94622.11227.56695-.28604-.25538-1.11021-.628521.06066.354831.68408-1.889821.28717.00000.25620-1.3903-1.23744.94622-.33682.75593-1.4301.766131.28102.895171.76777-1.81359-.56136.18898-.28604.76613-.08540.70471-1.06066连续变量的描述统计原理探索分析过程可对变量进行更深入详尽的描述性统计分析,主要用于对资料的性质、分布特点等完全不清楚时。在常用的描述性统计指标的基础上,它增加了有关数据详细分布特征的文字与图形描述,如茎叶图、箱式图等。连续变量的描述统计原理主对话框选入所需分析变量选定分组变量选定标签变量选定结果中包括的内容候选变量连续变量的描述统计原理统计量子对话框所有以上两个过程有的指标总体均值的估计值输出5个最大与最小值百分位数连续变量的描述统计原理绘制子对话框箱式图的绘制方式茎叶图和直方图正态图和正态检验判断离散程度是否相同(比较合适的变量变换方法)连续变量的描述统计原理结果输出-表格连续变量的描述统计原理结果输出-表格连续变量的描述统计原理结果输出-茎叶图连续变量的描述统计原理结果输出-箱图离群点最小值最大值中位数上四分位数下四分位数连续变量的描述统计原理请完成对奥运会射击比赛8名选手决赛成绩的探索性分析。连续变量的描

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论