spss第四章描述统计简介_第1页
spss第四章描述统计简介_第2页
spss第四章描述统计简介_第3页
spss第四章描述统计简介_第4页
spss第四章描述统计简介_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/2/51

第四章描述统计量简介2023/2/52第四章样本统计量描述

一、样本数据位置特征的统计量二、样本分布特征的统计量三、样本数据离散程度特征的统计量调查杭州市居民收入情况,得到100个样本数据,根据这些数据,你最想得到哪些信息?统计量:用来描述样本特征的概括性数字度量调查顾客对产品的满意度情况,获得100个样本数据,能分析出哪些信息?调查大学生群体中对手机品牌的偏好程度,你如何描述调查结果?2023/2/53一、样本数据的位置特征

——对数据中心的描述

样本众数(SampleMode)——分类数据

样本中位数(samplemedian)——定序数据

样本均值(Samplemean)——定比数据2023/2/54(一)分类数据集中趋势度量——众数样本众数定义1:样本数据集合中出现频次最高的那个样本值为众数。

众数单一众数复众数2023/2/55众数的计算

可以简单地从频次统计表中查出(频次最大的样本值就是该样本数据集合的众数)。也可以从条形图上看出(最高竖条所代表的样本值就是该样本数据集合的众数)。如:一次调查结果显示,大学生对垃圾分类行为的认识状况如下:没必要,没必要,没必要,有必要,有必要,有必要,有必要,有必要,有必要,无所谓2023/2/562023/2/57样本众数定义2

对于刻度级的样本数据集合,在对数据等区间分组的直方图中,最高的矩形所表示的数据区间,称为该数据集合的众数区间,简称众数。众数区间也有单一众数与复众数之分。如:10个样本收入情况如下:2000,2200,2300,2400,3000,3400,3400,4000,4500,4500。

2023/2/582023/2/59频次与频率:描述样本数据结构的基本特征一、频次与频率的基本概念1.频次(Frequency):在有限的样本数据集合中,同样的数据值出现的次数。2.频率(PercentageorRelativeFrequency):如果样本容量为n,那么,某个样本值出现的频率=该样本值出现的频次/n2023/2/510分类数据或顺序数据描述频次与频率的图形方法饼图(PieChart)#条形图#2023/2/5112023/2/512图3.1.5调查中不同受教育程度出现的频率2023/2/513样本数据集合的基本特征的延伸:累积频率(CumulativePercentage)

累积频率的概念与表格表示:

设X1<X2<…<Xm,

m≤n,n是样本数据集合中的样本值的总个数。若把样本值小于等于某个样本数据Xi的频率都累加起来,就得到“小于等于Xi”的累积频率。

2023/2/514

累积频率(CumulativePercentage)的计算

以例3.1.1为分析对象,按照上述原则,可以计算出小于等于各个Xi的累积频率,见表3.1.8表3.1.8某品牌牙膏价格≤Xi的累积频率

价格9.939.959.969.979.989.991010.0110.0210.0310.0410.0510.06频次1112344423221频率3.333.333.336.671013.3313.3313.336.67106.676.673.33累积频率3.336.671016.6726.674053.3366.6773.3383.339096.67100注意:只有顺序级以上的样本数据才存在累积频率的问题名义级样本数据不存在累计频率的问题2023/2/5152023/2/5162023/2/517频数分析过程的spss操作(1)建立或打开一个数据文件,执行Analyze—Descriptive—Statistics—Frequencies。打开Frequencies对话框频数定类分析2023/2/518频数分析过程(2)确定输出选择项单击Statistics按钮,打开统计量选择对话框选择PercentileValues栏中的选项,输出所选变量的百分值Dispersion(离差)栏,用于指定输出反映变量离散程度的统计量CentralTendency(集中趋势)栏,用于指定输出反映变量集中趋势的统计量Distribution(分布特征)栏,用于指定输出描述分布形状和特征的统计量2023/2/519频数分析过程(3)单击chart按钮。打开统计图对话框,对图形类型进行设置。(4)单击Format按钮,打开格式对话框Orderby排序组栏,用于指定频数表中变量的排序2023/2/520频数实习1:打开数据文件:“规划调查资料.sav”统计调查对象的基本信息,完成下表:基本信息频数频率性别男性女性地区农村省会城市中小城市县镇所在年级大一大二大三大四2023/2/521频率分析实习2一家电脑公司为了对比不同品牌的电脑在一季度和二季度的销售情况,搜集到下列数据,试绘制图表比较不同品牌电脑的销售情况;不同季度电脑的销售情况。电脑品牌一季度二季度联想256468IBM285397康柏247328戴尔5636882023/2/522频数实习3:某行业管理局所属40个企业2002年的产品销售收入数据见数据文件:40企业产品销售收入.sav1.如果按照规定:销售收入在125万元以上为先进企业,115—125万元为良好企业,105-11万元为一般企业,105万元以下为落后企业,请按先进企业、良好企业、一般企业、落后企业进行分组并统计频率与累积频率。并用饼状图表示。2023/2/523

(二)定序数据集中趋势度量

——中位数

定义:设,对样本数据集合中的所有数据的排序结果为X1≤X2≤…≤Xn,n为样本容量,则上述排序的序列中,处于“正中间位置”上的数据,称为样本中位数。当n为奇数时:正中间位置号码=(n+1)/2

样本中位数=X(n+1)/2当n为偶数时:正中间位置号码=(n+1)/2是小数,处于n/2与(n/2)+1之间。样本中位数=(Xn/2+X(n/2)+1)/2如5位同学的学习成绩:3,3,3,4,5。中间位置是第三位,中位数:3。如果六位同学:3,3,4,5,5,5。中间位置是3与4位中间的位置,中位数为:(4+5)/2=4.52023/2/524频数分析主对话框中点击statistics功能按钮2023/2/525Ststistic对话框2023/2/526(三)定比数据集中趋势度量——均值

样本均值仅适用于刻度级的数据计算公式为:式中,xi,i=1,2,…,n,是样本观察值(样本数据),所以样本均值是一个数值。2023/2/527均值计算的spss操作Analyze主菜单下—Descriptivestatistics—Descriptive。打开Descriptive对话框定比2023/2/528点击options按钮,定义统计量选项2023/2/529Savestandardizedvalueasvariables选项:将标准化值作为新变量保存。标准化值给出了一组数据中各数值的相对位置,比如,如果某个数值的标准分数为1.5,表示该数值高于平均数的1.5倍的标准差。标准分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而是将该组数据变为平均数为0,标准差为1。2023/2/530

2023/2/5312023/2/532二、描述样本分布特征的统计量

1.峰度:描述某变量所有取值分布形态陡缓程度的统计量。峰度为0表示其数据分布与正态分布的陡缓程度相同;峰度大于0表示比正态分布高峰要更陡峭,为尖顶峰;峰度小于0表示比正态分布的高峰要平坦,为平顶峰。2023/2/533二、描述样本分布特征的统计量

2.偏度:描述某变量所有取值分布形态的对称性的统计量简称SK。偏度为0表示其数据分布形态与正态分布偏度相同,左右对称;偏度大于0表示正偏差数值较大,为正偏和称右偏,有一条长尾拖在右边;偏度小于0则相反。SK的绝对值大于1时,被称为高度偏态分布,当SK的绝对值大于0.5小于1时被称为中等偏态分布。2023/2/5342023/2/5352023/2/536三样本数据的离散特征

本部分应掌握的主要内容(一)对样本数据离散特征的点状描述:极值、四分点与百分位点(二)对样本数据离散特征的区间描述:极差、四分位距与离差(三)离散状况的统计描述:样本方差2023/2/537(一)样本数据的离散特征

离散特征点状描述区间描述极值四分点百分位点极差极差四分位距离差平方和样本离差2023/2/5381.对样本数据的离散特征点状描述

1)极大值(Maximum)与极小值(Minmum):这两个样本值从一定视角反映了样本数据集合中样本值的离散状况。2)下四分点(LowerQuartile)与上四分点(UpperQuartile)3)上下百分位点(Percentile)2023/2/539下四分点与上四分点

下四分位点:把排序后的样本数据集合分成左右两部分,使左面部分包含25%的样本总个数,右边部分包含75%的样本总个数。下四分位点Q1的位置=(n+1)*0.25Q12023/2/540下四分点与上四分点

上四分位点:把排序后的样本数据集合分成左右两部分,使左面部分包含75%的样本总个数,右边部分包含25%的样本总个数。上四分位点Q3的位置=(n+1)*0.75Q32023/2/541下四分点Q1的值与上四分点Q3的值

当下四分位点与上四分位点的位置为整数时,相应整数位置上的样本值就是Q1,Q3的值。当下四分位点的位置与上四分位点的位置不为整数时,Q1,Q3的计算公式:Q1=Q1位置左边的样本值+(Q1位置右边的样本值-Q1位置左边的样本值)*0.25Q3=Q3位置左边的样本值+(Q3位置右边的样本值-Q3位置左边的样本值)*0.752023/2/542(二)对样本数据离散特征的区间描述:极差、四分位距与离差

1.极差(range):极大值与极小值之差。极差受到极端值的影响,只利用了一组数据两端的信息,不能反映出中间数据的分散情况,所以有一定的局限性。2023/2/543顺序数据离散程度的度量3.四分位距(InterquartileRange):样本数据排序后的上四分位点与下四分位点之差。四分位距反映了中间50%数据的离散程度:其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位距不受极值的影响。2023/2/544Q3Q12023/2/545数值型数据离散程度的度量4.样本离差与离差平方和(SampleDeviationsOrSumofSquaredDeviations)2023/2/546(三)离散状况的统计值描述:样本方差

样本方差(SampleVariance):离差平方和与n-1的比值。样本方差的含义:通过消除样本个数对“偏离情况”的影响,以便较为客观地反映样本数据对样本均值的平均偏离情况。样本方差s2的计算公式:2023/2/547

2023/2/548(四)分类数据离散程度的度量异众比率:非众数组的频数占总频数的比率。用来衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性就越大。2023/2/549异众比率的计算如:一次调查结果显示,大学生对垃圾分类行为的认识状况如下:没有必要,没有必要,没有必要,有必要,有必要,有必要,有必要,有必要,有必要,无所谓频数:没有必要(3),有必要(6),无所谓(1)众数=6,非众数=4,异众比率=4/10=40%表示“有必要”选项这一众数对垃圾分类行为的认识状况的代表性中有40%无法代表。仅

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论