SPSS基础第2部分学习资料_第1页
SPSS基础第2部分学习资料_第2页
SPSS基础第2部分学习资料_第3页
SPSS基础第2部分学习资料_第4页
SPSS基础第2部分学习资料_第5页
已阅读5页,还剩160页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章连续性变量的统计描述与参数估计4.1连续变量的统计描述概述4.1.1统计描述中的可用工具(1)各种初步汇总描述方法频数、百分位数。(2)各种统计描述指标均值、标准差、四分位数间距。(3)统计表(4)统计图4.1.2连续变量的统计描述指标体系(1)集中趋势(CentralTrend):均数(Mean)中位数(Median)众数(Mode)总合(Sum)(4)其他趋势百分位数指标(Percentile)、M统计量(M-Estimators)、极端值(Outlier)。(2)离散趋势(DispersionTrend)标准差(Std.Deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.Mean)(3)分布特征(DistributionTendency)偏度系数(Skewness)和峰度系数(Kurtosis)4.1.3spss中的相应功能1、Spss的用于连续变量统计描述的过程,均集中在DescriptiveStatistics子菜单中。(1)Frequencies:产生原始数据的频数表,并能计算各种百分位数。控制频数表输出范围类型的最大数目(2)Descriptive过程该过程用于一般性的统计描述,相对于Frequencies过程而言,它不能绘制统计图。(3)Explore过程该过程用于对连续性资料分布状况不清楚时的探索性分析,它可以计算许多描述统计量,给出各种统计图,并进行简单的参数估计。(4)Ratio过程用于对两个连续性变量计算相对比指标。2、Comparesmeans均值比较means过程:means过程的优势在于各组的描述指标被放在一起便于相互比较,并且如果需要,可以直接输出结果,无须再次调用其它过程。4.2集中趋势的的描述指标4.2.1算术平均算术平均(ArithmeticMean)是最常用的描述输送距分布的集中趋势的统计良。总体均数(PopulationMean)用希腊字母表示,样本均数常用表示。一、算术平均数的定义和性质二、均数的意义任何一个平均数值首先是同类现象的平均数。任何一个平均数总是一个平衡点。但平均数在高度概括观测数据从而使问题简化的同时,却丢失了某些有用的信息,一方面它把各个观测数据之间的差异性掩盖了起来,另一方面由于平均数对于个别极端值反应比较灵敏,因而平均数在某些情况下可能具有一定的欺骗性。三、均数的适用范围严格的讲平均数指示用于定距变量。但有时对于定序变量,求平均等级也可以使用平均数。4.2.2中位数中位数(Median)是将总体各单位的标志值按大小顺序排列,处于中间位置的那个标志。一、中位数的定义对于未分组的原始资料,首先必须将标志值按大小顺序。设排序结果为:则中位数就可以按下列方式确定:二、中位数的适用范围4.2.3其他集中趋势指标一、截尾均数由于均数较易受极端之的影响,因此可以考虑将数据排序后,按照一定的比例去掉最两端的数据,只是用中部的数据来求均数。如果截尾均数河源均数相差不大,则说明数据不存在极端值,或者两侧极端值的影响正好抵消;反之,则说明数据中有极端值,此时截为均数更好地反映数据的集中趋势。常用的截尾均数有5%截尾均数,即两端各去掉5%的数据。二、几何均数几何均数适用于原始数据分布不对称,但经过对数转换后称对称分布的资料。几何均数世纪上就是对数转换后的数据lgX的算术平均数的反对数。四、调和均数它实际上是观察值X倒数之均数的倒数。三、众数(Mode)众数指的是样本数据中出现频次最多的那个数。众数适用于任何层次的变量,特别适用于单峰对称的情况,是比较两个分布是否接近首先要考虑的参数。在SPSS中,众数可以在Report子菜单和Tables子菜单的全部报表过程和制表过程中计算出来。在SPSS中,调和均数可以在Report子菜单的4个报表过程过程中计算出来。4.3离散趋势的描述指标4.3.1全距(Range)又称为极差,是一组数据中最大值(Maximun)与最小值(Minimum)之差。极差反映的是变量分布的差异范围或离散程度,在总体中,任何两个标志值之差都不可能超过极差。极差存在两点不足:一是它仅仅取决于两个极端之的水平,不能反映其间的变量分布情况,提供的信息太少。二是它容易受个别极端值的影响,不符合稳健型的要求。4.3.2方差和标准差一、方差(Variance)和标准差(StandardDeviation)的定义将离均差平方和(SumofSquaresofDeviationfromMean,SS)除以观察例数N,就得到方差:方差越大,数据分布离散程度越大。对于样本数据而言,方差的计算公式为:将方差开方,就得到标准差。对于同性质的数据来说,标准差越小,表明数据的变异程度越小,即数据越整齐,数据的分布范围越集中;标准差越大,表明数据的变异程度越大,即数据越参差不齐,分布越分散。二、方差和标准差的适用范围:方差和标准差的适用范围应当是正态分布。4.3.3百分位数、四分位数与四分位数间距分位差是对极差指标的一种改进,是从变量数列中剔除了一部分极端值后重新计算的类似于极差的指标。常用的分位差有四分位差、十分位差、百分位差。一、分位数分位数:是一种位置指标,用PX表示。一个百分位数PX将一组观测之分为两部分,理论上有x%的观测值比它小,(100-x)%的观测值比它大。四分位数(quartile)、十分位数(decile)、百分位数(percentile),他们分别是用3个点、9个点、99个点将数据4等分、10等分和100等分后各分位点上的值。二、四分位数四分位数:实际上是三个数值的总称,分别是P25、P50、P75分位数。很显然,中间的分位数是中位数,因此通常所说的四分位数是指第一个四分位数(下四分位数)和第三个四分位数(上四分位数)。上下四分位数的差值称为四分位数间距:QR=Q3-Q14.3.4变异系数当需要比较两组数据离散程度大小的时候,往往直接使用标准差来进行比较并不合适。这可以被分为两种情况:(1)测量尺度相差太大;(2)数据量纲不同。在以上情形中,就应当消除测量尺度和量纲的影响,而变异系数(CoefficientofVariance),它是标准差和其平均数的比率。4.4连续变量统计描述实例4.4.1数据背景介绍4.4.2使用Explore过程进行分析探索分析是对数据进行初步的观察分析,主要的分析项目有:观察数据的分布特征:可通过绘制箱图和茎叶图等图形直观地反映数据的分布形式和数据的一些规律性,包括考察数据中是否存在异常值等。正态分布检验:检验数据是否服从正态分布。方差齐性的检验:用Levene检验比较各组的方差是否相等。1、单击Analyze->Descriptivestatistics->Explore,打开Explore主对话框:一、分析操作(3)在Display栏中选择输出项,依次是Both选择项,输出图形与描述统计量(系统默认),只输出描述统计量和只输出图形。本例中选择默认项。(1)从左侧的变量列表中选出变量”身高”,送入DependentList栏。(2)选择”性别”作为因子变量,送入FactorList栏。有了因子变量,SPSS会把所有的观测个体按照因子变量的取值分成若干各组,再分组考察DependentList中的各个变量,如果不选择因子变量,SPSS会对全部观测来做探索分析。2、单击Statistics统计量按钮,打开Statistics对话框,选择统计输出量。(1)Descriptives基本统计描述。同时指定均值的置信区间的置信度,系统默认为95%。(2)M-估计(M估计在计算时对所有观测量赋予权重,随观测量距分布中心的远近而变化)。(3)Outliers输出分析数据中五个最大值和五个最小值。(4)Percentiles输出百分数。3、单击Plots图形按钮,打开Plots对话框。(1)Boxplot箱图选择栏Factorlevelstogether因变量按因素水平分组(系统默认);Dependentstogether所有因变量生成一个并列箱图(本例中选择项);None不显示箱图。(2)Descriptive描述图形栏Stem-and-leaf茎叶图Histogram直方图(3)Normalityplotswithtest(复选项),正态分布检验并输出Q-Q图。None:不产生回归直线的斜率和方差齐性检验;PowerEstimation转换幂值估计(对每组数据产生一个中位数自然对数及四个分位数的自然对数的散点图)选项;Transformed变换原始数据选择项;Untransformed不变换变换原始数据选择项。(4)SpreadvslevelwithLeveneTest栏,对所有的散布—层次图,同时输出回归直线的斜率以及方差齐性的Levene

s检验。4、单击Option按纽,打开Option对话框如图所示。可选择缺失值的处理方式,SPSS提供三种处理方式:(1)Excludecaseslistwies剔除带缺失值的观测量(系统默认)。(2)Excludecasespairwise剔除带缺失值的观测量时还一并剔除与缺失值有成对关系的观测量。(3)Reportvalues输出频数表时同时输出缺失值。5、单击OK,得到相应的输出结果如表所示。二、基本的分析结果三、输出百分位数和极端值列表身高Stem-and-LeafPlotforsex=男

FrequencyStem&Leaf1.0015.9.0016.9.0016.55577899920.0017.0000000001111233444424.0017.55555555555667777778888912.0018.0000001222343.0018.668Stemwidth:10Eachleaf:1case(s)箱图中,最底部的水平线段是数据的最小值(奇异点除外),顶部的水平线段是数据的最大值(奇异点除外),中间矩形箱子的底所在位置是数据的第一个四分位数(即25%分位数),箱子顶部所在位置是数据的第三个四分位数据(即75%分位数)。箱子中间的水平线段刻画的是数据的中位数(即50%分位数)。4.4.3使用其他过程过程进行分析一、Descriptive过程的结果二、Frequencies过程的结果4.5连续性变量的参数估计根据样本数据对总体的客观规律性作出合理估计的过程被称为统计推断(StatisticalInference),它可以被分为参数估计和假设检验两大类。4.5.1正态分布一、正态分布的定义若连续性随即变量X的概率分布密度函数为则称随机变量X服从正态分布(NormalDistribution)二、正态分布的特征(1)正态分布是一条对称曲线,关于均数对称,因此均数被称为正态分布的位置参数。(2)曲线是单峰,在均值出达到最高点。(3)正态分布曲线的尖削与标准差有关。因此标准差被称为正态分布曲线的尺度参数。(4)曲线无论向左或向右延伸,都越来越接近横轴,但不会与横轴相交,以横轴为渐近线。(5)约68%的个体的取值与平均数在距离一个标准差之内。(6)约95%的个体取值与平均数的距离在1.96个标准差之内。(7)99%个体的取值与平均数的距离在2.58个标准差。三、标准正态分布(StandardNormalDistribution)将原来的正态分布转换为标准正态分布。在SPSS中的Descriptive过程可以将原变量转换为标准正态分布的得分,只需要选中主对话框左下角的Savestandardizedvaluesasvariables复选框即可。四、偏度和峰度(1)偏度(Skewness):偏度是用来描述变量取值分布形态的统计量,只分布不对称的方向和程度。样本偏度系数:偏态的方向指的应当是长尾的方向,而不是高峰的位置。(2)峰度(Kurtosis):峰度用来描述变量取值分布形态陡缓的统计量,是指分布图形的的尖削程度或峰凸程度。样本的峰度系数:4.5.2参数的点估计参数的点估计就是选定一个适当的样本统计量作为参数的估计量,并计算出估计值。对于所选统计量是否适于作参数估计量,有无偏性、一致性和有效性三个评选标准。无偏性是指虽然估计量的值不全等于参数,但应在真实值附近摆动。一致性是指样本容量越大,估计值离真实值的差异应当越小。有效性是指如果两个统计量都符合上述要求,则应当选取误差更小的一个作为估计值。在许多种情况下,样本统计量本身往往就是相应的总体参数的最佳估计,此时就可以直接取相应的样本统计量作为总体参数的点估计。一、矩法二、极大似然估计法该方法的原理是在已知总体的分布,但未知其参数值时,在待估参数的可能取值范围内进行搜索,使似然函数值最大的那个数值为极大似然估计值。三、稳健估计值稳健估计值的是该统计量具有稳健性,当数据存在异常值时受影响较小,而且对大部分的分布而言都很好。文件估计有M估计、R估计等不同方法。SPSS中数出的M估计量有4种,它们分别是Huber、Andrews、Hampel和Tukey所提出的,实际上就是所用的函数不同。一般而言,Huber适用于数据接近正态分布的情况,另外三种则适用于数据中许多异常值的情况。如果M估计量里平均数和中位数较远,则数据中可能存在异常值。此时,应该用M估计量替代平均数以反映集中趋势。。4.5.3参数的区间估计一、标准误标准误就是用来描述参数估计值可能离真实值究竟有多远的统计量。二、区间估计的计算结合样本统计量和标准误可以确定一个具有较大的可信度包含总体参数的区间,该区间称为总体参数的1-a可信区间或置信区间(ConfidenceInterval)。对于任意可信度的区间情况,总体均值在100(1-a)%可信区间为:第5章分类变量的统计描述与参数估计5.1分类变量的统计描述概述5.1.1分类变量的统计描述指标体系一、频数分布情况描述各个类别的样本数和所占比例分别称为频数(绝对频数)和百分比(构成比)。累计频数是指本类别及较低类别出现的次数之和,累计百分比则是指本类别及较低类别出现的次数之和占总次数的百分比。根据类别的有序性,分类变量可以分为有序分类变量(OrdinalVariable)和无序分类变量(NominalVariable)。当集中趋势显著时,用众数(Mode)作为总体的代表值。二、集中趋势的描述所谓众数,使之出现次数最多的那个数。如果只有一个众数称为单众数,多于一个的称为复众数。(1)比(Ratio):比指的是两个有关指标之比A/B,用于反映两个指标在数量/频数上的大小关系。三、使用相对数进行深入描述(2)构成比(Proportion)率是一个时间概念,或者说具有速度、强度含义的指标,用于说明某个时间发生的频率或强度。分观察对象为K部分(A1、A2、……Ak),其中某一个/多个部分的例数占总例的比例未构成比,它描述某个事物内部各构成部分所占的比重。(3)率(Rate)5.1.2分类变量的联合描述当一共有两个分类变量时,这汇总因分类变量的各类别交叉而成的复合频数表被称为行*列表,也称列联表。当观察的现象与两个因素有关时,如某种服装的销量受价格和居民收入影响;某种产品的生产成本受原材料价格和产量的影响等等,交叉列联表分析可以比较好的反映出两个因素之间有无关联性,两因素与现象之间的相关关系。因此,数据交叉列联表分析主要包括两个基本任务:1、根据收集的样本数据,产生二维或多维交叉列联表;2、在交叉列联表的基础上,对两两变量间是否存在关联性进行检验。5.2分类变量的统计描述实例5.2.1使用Frequencies过程输出频数表具体操作:AnalysisDescriptiveStatisticsFrequencies1、打开数据,单击Analyze

DescriptiveStatistics

Crosstabs对话框。2、如果是二维列联表分析,可以将行变量选择进入Row(s)中,将列变量选择进入Column(s)框中。如进行三维以上的列联表,可以将其它变量作为控制变量选到Layer框中。多控制变量可以是同层次的也可以是逐层叠加的。5.2.2使用Crosstabs过程输出列联表3、Displayclusteredbarchart选择项,可以指定绘制各变量交叉频数分布柱形图。Suppresstable表示不输出列联表,只有在分析行列变量间关系时选择此项。此例中不选择这一项。4、单击Cell按纽,打开Crosstabs:CellDisplay对话框,如图所示。从对话框中指定列联表单元格中的输出内容。在Counts框中选择Observed观察值(系统默认)或Expected期望频数。在Percentages框内选择Row行百分比、Column列百分比及Total总百分比。在Residuals框中选择输出残差。其中Standardize为标准化残差。Adj.standardize为修正的标准化残差。5.3多选题的统计描述5.3.1多选题的描述指标体系在多选题分析中比较特别的描述指标有:(1)应答人数:是指选择了本项人数。(2)应答人数百分比(PercentofCases):选择该项的人占总人数的比例。(3)应答人次:选择本选项的人次。(4)应答次数百分比(PercentofResponses):在作出的选择中,选择该项的人数占总次数的比例。5.3.2分析实例操作步骤:AnalyzeMultipleResponseFrequencies1、DefineSets过程该过程指定变量组成一个多重响应或多重两分数集,并应用于频数表和交叉列表。2、Frequencies过程该过程对定义的多重响应或多重两分数提供一个频数表。3、Crosstabs过程该过程提供带有另一种变量的,已定义的多重或多重两分数据集交叉表。5.4分类变量的参数估计5.4.1二项分布的参数估计一、二项分布二项分布又称为贝努里(Bernoulli)分布,是一种具有广泛应用的离散型随机变量的概率分布。二项分布研究的是试验仅有两种结果的分布(这种试验称为贝努里试验),如某产品质量合格与不合格等。其定义为:设有n次试验,各次试验是相互独立的,每次试验某事件出现的概率都是p,某事件不出现的概率都是1-p,记为q,则对于某事件出现k(k=0,1,2,⋯,n)次的概率分布为:二、二项分布检验(BinomialTest)当研究对象属于二项总体时,可以用二项分布来检验假设,判断所抽取的样本是否来自具有既定值的总体。其检验步骤如下:1、提出假设2、计算统计量值和p值3、根据p值作出统计判断。[例]掷一枚球类比赛用的挑边器40次,出现A面和B面在上的次数。如表所示,试问这枚挑边器是否均匀?解:(1)在SPSS中输入表中的数据(变量名为Y)。选择主菜单的[Analyze]=>[NonparametricTests]=>[BinomialTest]。(2)显示如图所示的[BinomialTest(二项检验)]主对话框,把Y选入[TestVariable],其它选项采用默认值。(3)单击主对话框中的[OK]按钮,输出结果如下:从结果可以看出,p=0.017<α=0.05,认为该挑边器不是均匀的。第6章数据报表的呈现6.1spss报表概述6.1.1spss中的报表功能1、base模块2、original模块3、CustomTables模块6.1.2报表的基本绘制步骤6.2表格入门6.2.1表格基本框架行(Row)指的是形成表格的横行元素;列(Column)指的是形成表格纵列的元素;行、列元素相交就会形成一个最简单的二维表,行、列元素不同取值的组合就确定了一个单元格(Cell)。层(Layer)指的是表格中的第三个维度。6.2.3单元格的数据类型1、分类变量.包括了名义型和有序尺度两大类。2、连续变量包括间距尺度和比率尺度两大类。(1)集中趋势指标:均数、中位数、众数、最大值、最小值。(2)离散趋势指标:全距、标准误、标准差、方差。(3)百分位数:第5、25、75、95、99百分位数其任一指定的百分位数。(4)百分比:按相应合计方向当前变量的行、列、层、表格合计百分比。(5)其他:例数、有效例数、综合等。3、汇总项6.2.4集中基本表格类型1、叠加表(Stacking)叠加表指的是在同一张表格中对两个变量进行描述,或者说表格中有一个维度的元素是由两个以上的变量构成。2、交叉表(Crosstabulation)它的两个维度都是由两个分类变量的各类别构成。3、嵌套表(Nesting)两个变量被放置在同一个表格维度中,即该维度是由两个变量的各种类别组合而成。4、多层表(Layers)如果制定了层元素,表格就由二维扩展到三维,即多层表。5、复合表格6.3用OriginalTables模块制表6.3.1功能简介(1)MultipleResponseSets(2)BasicTables(3)GeneralTables(4)MultipleResponseTables(5)TablesofFrequencies6.3.2BasicTables过程例2:请将数据文件Cars.sav中的汽车数据分为不同的产地和气缸数计算其引擎功率、引擎重量的频数和均数,用适当的报表形式给出,并要求给出类别合计。1、表格框架的设定2、统计量的添加与格式的设置3、添加汇总项4、空单元格的设置5、添加标题与说明文字6、标签排列格式的调整7、最终完成表格绘制6.3.3GeneralTables过程1、表格框架的设定2、添加汇总项6.4用CustomTables模块自由制作6.4.1操作主界面6.4.2简单实例分析1、表格框架的绘制:选中左侧列表中变量的图标,按下左键不放,移动鼠标,此时鼠标携带着变量图标一起移动。将其拖入画布内,当鼠标接近行/列边框时,相应地边框会变红,表明该变量已经找到位置。2、连续变量统计量的设置(1)选中画布上的Horsepower图标,此时界面左下方Define框组中的SummaryStatistics浮动钮已经可以用,单击该钮后即弹出连续变量汇总统计量设定的对话框图。(2)如果计算某一个统计量,使用连接两框的统计按钮将其移入右侧。例如如果希望先计算频数,则在用最右侧的上下移动钮将其移动到均数上方即可。3、分类变量汇总项的设置选择分类变量Cylinder,则Define框组中的该浮动按钮可用,单击后弹出如下界面:TotalsandSubtotalsAppear框组:用于设定汇总和子项汇总的标签是在左上部显示还是在右下部显示。Show框组:用于设定某项是否显示,Ttotal选项用于要求计算汇总栏,Missing选项要求将用户定义的的缺失值按缺失值处理方式处理,该选择不影响系统缺失。Empty选项用于控制是否在表格中输出无案例的类别。而最右侧的Other选项则控制是否显示未提供值标签的类别。Exclude框:用于指定部显示某些类别。Display框组:直观的显示该分类变量各类的显示方式、顺序、汇总等。4、显示标签的调整将表格画布切换为正常视图,然后在Cylingder的变量名标签出单击右键,则弹出相应的右键菜单。6.4.3其他选项卡功能1、TestStatistics功能2、Titles选项卡3、Options选项卡6.5表格的编辑6.5.1基本编辑操作1、两种不同的编辑窗口(1)嵌套窗口编辑模式选中相应表格使用右键菜单上的SPSSPivottableObjectEdit,或者双击鼠标左键。(2)单独窗口编辑模式选中相应表格使用右键菜单上的SPSSPivottableObjectOpe。,2、表格元素的选择方式3、单元格内容编辑6.5.2主要编辑菜单功能介绍1、Edit菜单2、format菜单对单元格的字体、阴影、颜色等属性修改对表格进行各个选项的精细设置对单元格的字体、阴影、颜色等属性修改对表格进行各个选项的精细设置选用新的表格模版表格的行、列自动按内容多少调整为最小。将列标题纵向显示3、View菜单和Insert菜单4、Pivot菜单6.5.3表格属性的详细设置单击菜单Format到TableProperties即可弹出表格属性对话框。(1)general选项卡(2)Footnotes选项卡(3)CellFormats选项卡(4)Borders选项卡6.6参数估计6.6.1参数估计的一般问题一、估计量与估计值所谓参数估计(Parameterestimation)就是用样本统计量去估计总体的参数。如果我们将总体参数笼统地用一个符号来表示,参数估计也就是如何用样本统计量来估计总体参数。用于估计的样本统计量用符号表示,我们把称为统计量(estimator)。估计值(estimatedvalue)就是用来估计总体参数时计算出来的估计量的具体数值。二、点估计与区间估计参数的估计方法有点估计(pointestimate)和区间估计(intervalestimate)两种。(一)点估计所谓点估计就是由样本x1,x2,…xn确定一个统计量

用它来估计总体的未知参数,称为总体参数的估计量。当具体的样本抽出后,可求出样本统计量的值。用它作为总体参数的估计值,称作总体参数的点估计。

某连续生产线上生产的灯泡的使用寿命X服从正态分布N(μ,δ2),其中μ和δ2是未知总体参数。从中随机抽取5只灯泡,测得使用寿命分别为1529小时、1513小时、1600小时、1527小时、1111小时。试估计μ和δ2。从总体中抽取一个样本,构造适当的统计量,来估计对应的总体参数。评价点估计量优劣的标准:1、无偏性(unbiasedness)无偏性是指估计量的抽样分布的数学期望等于被估计的总体参数。参数θ不等于抽样分布的均值(有偏估计量)参数θ等于抽样分布的均值(无偏估计量)偏差2、有效性(Efficiency)参数的抽样分布的抽样分布

自正态总体抽样时,总体均值与总体中位数相同,而中位数的标准误差大约比均值的标准误差大25%。因此,样本均值更有效。的抽样分布的抽样分布3、一致性(consistency)两个不同容量样本的点估计量的抽样分布(二)区间估计的样本使得置信度1-α区间估计是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常是由样本统计量加减抽样误差得到的。6.6.2一个总体参数的区间估计(一)总体方差已知时总体均值的区间估计一、总体均值的区间估计当总体服从正态分布且方差已知时,或者总体不是正态分布但大样本时,样本均值的抽样分布均为正态分布,期数学期望为总体均值,方差为。而样本均值经过标准化以后的随机变量则服从标准正态分布。显著性水平置信度显著性水平α下,μ在1-α置信水平下的置信区间:例题:一批零件的长度服从正态分布,从中随机抽取9件,测得其平均长度为21.4毫米。已知该批零件长度的标准差为0.15毫米,试以95%的把握程度,估计该批零件平均长度的存在区间。例题:某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼为26分钟。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36)。例题:一家保险公司收集到36个投保人组成的随机样本,得到每个投保人的年龄如表:233539273644364246433133425345544724342839364440394938344850343945484532试建立投保人年龄的90%置信区间。(二)总体方差未知时总体均值的区间估计如果总体服从正态分布,则无论样本容量如何,样本均值的抽样分布都服从正态分布。这时,只要总体方差已知,即使在小样本的情况下,也可以建立总体均值的置信区间。但是,如果总体方差未知,而且是在小样本的情况下,则需要用样本方差替代总体方差,这时样本均值经过标准化以后的随机变量则服从自由度为(n-1)的t分布。-3-2-101230.00.10.20.30.4标准正态分布自由度为20的t-分布自由度为10的t-分布显著性水平α下,μ的1-α置信区间:例题:已知某灯泡的寿命副总正态分布,现从一批灯泡中随机抽取16只,测得其寿命如下:1510145014801460152014801490146014801510153014701500152015101470试建立该批灯泡使用寿命95%的置信区间。是否为大样本n≥30σ值是否已知σ值是否已知总体是否近似正态分布用样本标准差s估计δ用样本标准差s估计δ将样本容量增加到n≥30以便进行区间估计是是是是否否否否总体均值区间估计程序二、总体比例的区间估计显著性水平α下,P在1-α置信水平下的置信区间:

某企业在一项关于职工流动原因的研究中,从企业前职工的总体中随机抽选了200人组成一个样本。在对其进行访问时,有140说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开企业的人员的真正比率构造95%的置信区间。三、总体方差的区间估计自由度为50自由度为2自由度为10显著性水平α下,σ2的置信区间0=2.7044=19.02280.0250.025自由度为9的χ2分布

对某种金属的10个样品所组成的一个随机样本作抗拉强度试验。从试验数据算出的方差为4,试求σ2的95%值信区间。四、样本容量的确定允许误差(permissible)

用历史数据代替。若有若干个历史数据,应以较大者代替。

一家广告公司想估计某类商店去年所花的平均广告费有多少。经验表明,总体方差为1800000。如置信度取95%,并要使估计值处在总体平均值附近500元的范围内,这家广告公司应取多大的样本?

一家市场调研公司想估计某地区有彩色电视机的家庭所占的比率。该公司希望对P的估计误差不超过0.05,要求可靠程度为95%,应取多大容量的样本?总体方差最大值为0.5×0.5=0.25关键术语无放回抽样(samplingwithoutreplacement)一个元素一旦选入样本,就从总体中剔除,不能再次被选入放回抽抽样(samplingwithreplacement)一个元素一旦被选入样本,仍被放回总体中。先前被选入的元素可能再次被抽到,并且在本样中可能出现多次抽样分布(samplingdistribution)样本统计量所有可能值构成的概率分布点估计(pointestimate)用做总体参数估计量的值。它是点估计量的具体的取值点估计量(pointestimator)提供总体参数点估计的样本统计量标准误差(standarderror)点估计量的标准差中心极限定理(centrallimittheorem)当样本容量大的时候,用正态分布近似样本均值的分布和样本比率的抽样分布区间估计(intervalestimate)总体参数估计值的一个范围,确信该范围包括参数的值在内抽样误差(sampleerror)无偏估计值(如样本均值)与所估计的总体值(如总体均值)之差的绝对值置信水平(confidencelevel)与区间估计相联系的置信度边际误差(marginerror)置信区间中从点估计值中所加上或减去的值t分布(tdistribution)概率分布的一族,当总体是正态或者近似正态概率分布,并且总体标准差未知情况下,对总体均值进行区间估计时常用到该分布自由度(degreesoffreedom)t分布的参数,计算总体均值的区间估计中所用的t分布的自由度为n-1,其中n是简单单随机样本的样本容量第十章统计绘图@文彤老师SPSS提供的统计绘图功能SPSS统计图的三种版本12.0版以前的统计图系统、8.0版之后新增的交互图系统,以及目前采用的统计图系统。统计图的三种对话框操作方式可视化的图形生成器。图形的可视化模版:是一个类似于绘图向导的可视化界面,很多操作细节非常类似与交互图。继承自老版本的传统对话框:注意有些特殊图形只能用该界面生成2025年3月19日@文彤老师1302025年3月19日@文彤老师131132标题文本区数据区(内框区)图例区外框区自由灵活的图形框架外框区和内框区选中后出现控制框,利用鼠标可进行框区大小的改变和位置的移动改变外框区大小时将对称的改变除文本外所有图形元素的大小在改变大小时图形长宽比例不再固定,完全做到了随心所欲2025年3月19日@文彤老师133自由灵活的图形框架其余各区域区域的相对位置完全自由,可拖动到任意位置,区域内元素的各种设置保持不变从右侧示意图可见标题和图例均被自由拖动到了图形中的其他位置上2025年3月19日@文彤老师134自由的元素选择方式单击图形元素,选中所有同类元素二次单击,则选中同组元素三次单击,则只选中该图形元素对图例元素的选择方式不在此列,单击图例则选中所有相应的图形元素2025年3月19日@文彤老师135自由的元素选择方式单独设置某一个图形元素的格式包括单独标出具体的数值、ID号等注意:并非所有操作都可以用于单独的图形元素,许多选项只能整个图形一起使用三维效果等2025年3月19日@文彤老师136统计图的分类统计图的分类方法有许多种,但和统计学体系最为贴近的分类方法是首先按照其呈现变量的数量,从而可以将统计图大致分为单变量图、双变量图、多变量图等,随后再根据相应变量的测量尺度进行更细的区分。2025年3月19日@文彤老师137单变量图连续性变量2025年3月19日@文彤老师138单变量图分类变量2025年3月19日@文彤老师139双变量图连续应变量2025年3月19日@文彤老师140双变量图分类应变量自变量为连续时,常见的处理方式是将自/应变量交换后使用条图来进行呈现。自变量也是分类变量时,

基本以条图为主。复式条图:呈现两个分类

变量各个类别组合情况下

的频数2025年3月19日@文彤老师141双变量图其它双变量条图分段条图:主要突出一个分类变量各类别的频数,并在此基础上表现两个类别的组合频数情况马赛克图:呈现在一个变量不同类别下,另一个变量各类别的百分比变化情况2025年3月19日@文彤老师142更复杂的多变量图形最常见的方式为采用图例对二维图进行扩充组合统计图:根据实际需要自行设计统计地图:与地图数据相结合其他特殊用途的统计图质量控制图、ROC曲线等2025年3月19日@文彤老师143注意:图形并非越复杂越好!Themostcommondisasterinillustratingistoincludetoomuchinformationinonefigure.Themorepointsmadeinanillustration,themoretheriskofconfusinganddiscouragingthereviewer.

--Briscoe,19902025年3月19日@文彤老师144直方图与茎叶图案例:绘制消费者信心值的直方图直方图组的绘制累积直方图的绘制分段直方图(StackedHistogram)面积直方图(频数多边形,FrequencyPolygon)人口金字塔(PopulationPyramid)茎叶图2025年3月19日@文彤老师145箱

图案例:用箱图分月份考察消费者信心的分布每个箱形都由最中间的粗线,一个方框、外延出来的两条细线和最外端可能有的单独散点组成。在箱图中,凡是与四分位数值(图中即为方框上下界)的距离超过1.5倍四分位间距的都会被定义为异常值,其中离方框上/下界的距离超过四分位数间距1.5倍的为离群值,在图中以“O”表示;超过3倍的则为极值,用“*”表示。散点旁边默认标出相应案例号备查。特色功能选择性显示某些标签2025年3月19日@文彤老师146饼

图案例:分城市、月份考察样本性别比例由于需要分城市、月份进行考察,因此可以考虑将这两个变量分别设定为行面板和列面板变量,且从使用习惯上讲,月份这一有序分类变量应当被设置为列面板变量更为妥当。特色功能旋转方向饼块的突出显示与合并2025年3月19日@文彤老师147条图与误差图案例:比较不同职业人群的消费者信心值案例:分职业进一步比较不同人群的现状和预期指数分段条图与百分条图案例:比较不同月份的A3a选项比例分布特色功能条图与其他统计图形的相互转换复式条图和分段条图的相互转换分段条图和百分条图的相互转换带误差线的条图与误差图2025年3月19日@文彤老师148线图、面积图、点图与垂线图案例:分城市比较信心指数随时间的变化趋势基本波动趋势。北上广三地的信心指数变化规律。三地信心的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论