




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三讲SPSS的主要窗口和菜单1SPSS的3个主要窗口1-1数据编辑器窗口(SPSSDataEditor):用来编辑和显示数据;在此窗口中的文件名称为*.sav。1-2程序语句编辑器窗口(SPSSSyntaxEditor):用来编写各种程序;在此窗口中的文件名称为*.sps。1-3结果观看窗口(SPSSViewer):显示统计运算结果;在此窗口中的文件名称为*.spo。第三讲SPSS的主要窗口和菜单1SPSS的3个主要窗口12SPSS数据编辑器的主要菜单2-1File菜单:文件管理New;Open;Save;Saveas;Exit。2-2Edit菜单:编辑Undo;Cut;Copy;Paste;Clear;Find;2-3View菜单:视图Fonts;Gridlines;Valuelabels。2SPSS数据编辑器的主要菜单22-4Data菜单:数据整理definevariables;Insertvariables;Insertcase;gotocase;sortcase;selectcase。2-5Transform菜单:数据转换recode;compute;count。2-6Statistics菜单:统计2-7Graphs菜单:统计图2-8Utilities菜单:工具附件2-9Windows菜单:窗口2-10Help菜单:帮助2-4Data菜单:数据整理3第四讲SPSS的单变量描述统计1单变量描述统计介绍A变量的尺度:a定类CategoryScale:只能计次b定序OrdinalScale:计次、排序c定距IntervalScale:计次、排序、加减d定比RatioScale:计次、排序、加减、乘除第四讲SPSS的单变量描述统计1单变量描述统计介绍4B变量的统计描述:分布Distribution集中趋势Centraltendency离散趋势DispersionB变量的统计描述:5分布平均数中位数众数离散程度分布平均数中位数众数离散程度6SPSS的主要菜单与基础统计课件72SPSS的单变量描述统计命令
AFrequencies:频数统计Statistics—Summarize—Frequencies2SPSS的单变量描述统计命令8变量值频数百分比有效百分比累计百分比变量值频数百分比有效百分比累计百分比9中位数中位数10百分比和有效百分比百分比和有效百分比11BDescriptives:定距变量描述统计Statistics—Summarize—DescriptivesBDescriptives:定距变量描述统计12变量名平均数标准差最小值最大值变量名平均数标准差最小值最大值13第四讲SPSS的双变量关系描述统计(一)列联与方差分析1、变量关系概述寻找变量间的关系是科学研究的首要目的。变量间的关系最简单的划分即是有关与无关。在统计学上,我们通常这样判断变量之间是否有关:如果一个变量的取值发生变化,另外一个变量的取值也相应发生变化,则这两个变量有关。如果一个变量的变化不引起另一个变量的变化则二者无关。第四讲SPSS的双变量关系描述统计(一)1、变量关系概述14性别与四级英语考试通过率的相关统计表述:统计结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。自变量的不同取值在因变量上无差异,两变量无关。自变量的不同取值在因变量上有差异,两变量有关。因变量自变量性别与四级英语考试通过率的相关统计表述:统计结果显示,当性别15表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。自变量因变量表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变162、双变量关系的统计类型2、双变量关系的统计类型173、列联统计3-1列联表的格式自变量因变量人数行百分比列百分比总百分比边缘百分比边缘百分比条件百分比3、列联统计自变量因变量人数行百分比列百分比总百分比边缘百分183-2列联分析的原理:自变量发生变化,因变量取值是否也发生变化。比较边缘百分比和条件百分比的差别。3-2列联分析的原理:194-1)变量关系强度的含义:指两个变量相关程度的高低。统计学中是以准实验的思想来分析变量相关的。通常从以下的角度分析:A)两变量是否相互独立。B)两变量是否有共变趋势。C)一变量的变化多大程度上能由另一变量的变化来解释。4列联变量的关系强度测量4-1)变量关系强度的含义:4列联变量的关系强度测量204-2)双变量关系强度测量的主要指标4-2)双变量关系强度测量的主要指标214-3)卡方测量的原理:卡方测量用来考察两变量是否独立(无关)。其原理是根据这一概率定理:若两变量无关,则两变量中联合事件发生的概率应等于各自独立发生的概率乘积。在列联表中,这一定理就具体转化为:若两变量无关,则两变量中条件概率应等于各自边缘的概率乘积。反之,则两变量有关,或,两变量不独立。4-3)卡方测量的原理:在列联表中,这一定理就具体转化为:若22示例1515655观察值边缘概率边缘概率期望条件概率99-9-9残差示例1515655观察值边缘概率边缘概率期望条件概率923由此可见,期望值(独立模型)与观察值的差距越大,说明两变量越不独立,也就越有相关。因此,卡方的表达式如下:卡方的取值在0~∞之间。卡方值越大,关联性越强。在SPSS中,有PearsonX2和相似比卡方(LikelihoodRatioX2)两种。由此可见,期望值(独立模型)与观察值的差距越大,说明两变量越244-4)的改进标准化系数:为使值有一固定的区间,便于比较,采用了以下几个修正:A、φ系数(Phi):(0~1),适用于2×2表。B、列联系数(ContingencyCoefficient):(0~1),适用任意表。C、CramerV系数:(0~1),适用任意表。D、λ系数(Lambda):(0~1),适用任意表。E、Goodman&Kruskal-tau系数:(0~1),适用任意表。4-4)的改进标准化系数:A、φ255列联统计命令:Statistics—Summarize—Crosstabs5列联统计命令:26第五讲SPSS的双变量关系描述统计(二)分组平均数比较(方差分析)1、分组平均数比较的含义当一个变量为定类变量,另一变量为定距变量时,两变量间是否有关,通常以分组平均数比较的方法来考察。即按照定类变量的不同水平来分组,看每个分组的定距变量的平均数是否有差异。不同组间的平均数差异越小,两个变量间的关系越弱;相反,平均数差异越大,变量间关系越强。第五讲SPSS的双变量关系描述统计(二)1、分组平均数比272、分组平均数比较的格式2、分组平均数比较的格式28SPSS的主要菜单与基础统计课件293、定类—定距变量的关系强度测量定类变量和定距变量的关系强度测量采用F统计的方法,即方差分析。3-1F统计的原理F统计的目的是分析分组的平均数是否相等。如果相等,说明组间没有差别;如果不相等,说明组间平均数有差异,这时分组是有效的。但F统计独特的地方是,它并不直接利用平均数来比较,而是利用与方差有关的统计指标总变差(SST)、组间变差(SSB)、组内变差(SSW)的关系来进行判别。3、定类—定距变量的关系强度测量3-1F统计的原理30男女收入Y总=800元Y女=800元Y男=800元男收入Y总=800元Y女=800元Y男=800元31男女收入Y总=800元Y女=600元Y男=1000元男收入Y总=800元Y女=600元Y男=1000元32收入YiYi男女SST=SSB+SSW收入YiYi男SST=SSB+SSW33三者的关系是:SST是总变差,即未分组的数据的变差,总方差的分子。SST=SSB+SSWSSB是组间变差,各组平均数与总平均数的离差平方和SSW是组内变差,每组数据和该组平均数的离差平方和。三者的关系是:SST是总变差,即未分组的数据的变差,总方差的34SPSS的主要菜单与基础统计课件35SPSS的主要菜单与基础统计课件36由于方差和变差标志着每一数据对其平均数的偏离(即异质性),因此,F值(F=SSB/SSW)含义就可理解为组间异质性和组内异质性的比较。F值的范围在0到正无穷大之间。当F值>1,则说明组与组间的差别大于组内的差别,也就说明这时组间平均数的差异是存在的。由于方差和变差标志着每一数据对其平均数的偏离(即异质性),因37SPSS的主要菜单与基础统计课件383-2定类—定距变量的关系强度系数Eta2F值和列联统计中的X2一样,取值范围在0到正无穷大之间。因此,也需要对F值加以修正,形成一个标准化的关系系数。Eta2就是这样的一个系数。Eta2=SSB/SST即在总变差中,组间变差所占的比例。Eta2的取值范围在0~+∞之间,越接近1,就表明组间差异越大;越接近0,就表明组间平均数趋于一致。3-2定类—定距变量的关系强度系数Eta239Eta2=0.026Eta2=0.02640SPSS的主要菜单与基础统计课件41SPSS的主要菜单与基础统计课件424SPSS中分组平均数和方差分析的统计命令Statistics—CompareMeans—Means4SPSS中分组平均数和方差分析的统计命令43第六讲SPSS的双变量关系描述统计(三)相关1定距—定距尺度(PearsonCor.)1)相关的含义:相关(Correlation)是用来作两个定距变量关系的统计分析,考察两变量是否存在共同变化的趋势。如年龄与收入。2)积矩相关的统计原理:两变量共同变化的趋势在统计中用共变异数(Covariance)来表示。即A变量的取值从低到高(或从高到低)变化时,B变量是否也同样发生变化。第六讲SPSS的双变量关系描述统计(三)1定距—定距尺44当两变量在同一方向上变化,称为有正相关;相反方向变化,称为负相关;无变化即无相关。相关系数即用来表示相关的程度。如:当两变量在同一方向上变化,称为有正相关;相反方向变化,称为负45X(丈夫收入);Y(妻子收入)YXP(xi,yi)Y=kkX(丈夫收入);Y(妻子收入)YXP(xi,yi)Y46P(xi,yi)+--+共变异数(协方差)=P(xi,yi)+--+共变异数(协方差)=47+--+散点越集中于1、3象限,共变异数的和正值约大;散点越集中于2、4象限,共变异数的和负值约大;散点越均匀分布于各象限,共变异数的和越趋近于0。+--+散点越集中于1、3象限,共变异数的和正值约大;483)相关系数的计算公式:由此公式可看出:1相关就是共变异数的标准化。2相关系数r的取值范围在(-1,+1)之间。+1代表完全正相关;-1表示完全负相关;0表示无相关。3)相关系数的计算公式:由此公式可看出:49示例:通过此题来演算相关系数。示例:通过此题来演算相关系数。502定序—定序尺度(SpearmanCor.)积差相关的公式:积差相关又称等级相关,用来考察两个定序变量间的相关关系。它的公式是由积矩相关转变而来,其中,D是每一对因变量和自变量的序数的差值;N是总的排序的序数。2定序—定序尺度(SpearmanCor.)其51示例:示例:523SPSS中的相关统计命令Statistics--Correlate--Bivariate3SPSS中的相关统计命令534相关统计的输出格式相关系数人数4相关统计的输出格式相关系数人数541回归的含义:回归(Regression,或LinearRegression)和相关同样都用来分析两个定距变量间的关系,但回归有明确的因果关系假设。即要假设一个变量为自变量,一个为因变量,自变量对因变量的影响就用回归表示。如年龄对收入的影响。由于回归构建了变量间因果关系的数学表达,它具有统计预测功能。第六讲SPSS的双变量关系描述统计(四)线性回归1回归的含义:第六讲SPSS的双变量关系描述统计(四)552回归的统计原理:两个定距变量的回归是用函数y=f(x)来分析的。我们最常用的是一元回归方程其中x为自变量;y为因变量;a为截距,即常量;b为回归系数,表明自变量对因变量的影响程度。2回归的统计原理:其中x为自变量;y为因变量;a为截距,即56Y=350+20xY=350+20x57在统计学中,这一方程中的系数是靠x与y变量的大量数据拟合出来的。XYY=a+bx(x,y)在统计学中,这一方程中的系数是靠x与y变量的大量数据拟合出来58由图中可以看出,回归直线应该是到所有数据点最短距离的直线。该直线的求得即使用“最小二乘方法”,使:在拟合的回归直线方程中,回归系数:表示x每变化一个单位时,x与y共同变化的程度(共变异数)。常数由图中可以看出,回归直线应该是到所有数据点最短距离的直线。该59SPSS的主要菜单与基础统计课件60比如通过上学年数和工资的关系计算得出下列的回归公式:y=472+14.8x就可知上学年数每增长1年,工资会增加14.8元;也可推测,上学年数为15年的人,工资收入应为472+14.8*15=694元。比如通过上学年数和工资的关系计算得出下列的回归公式:613SPSS线性回归的统计命令Statistics—Regression—Linear3SPSS线性回归的统计命令62自变量因变量回归方式自变量因变量回归方式634SPSS线性回归的输出格式:常数自变量回归系数标准化回归系数每月工资=823.3-3.487年龄4SPSS线性回归的输出格式:常数自变量回归系数标准化回归641推断统计的一般概念1.1推断统计的含义及类型:(1)含义:推断统计是指用概率分布的方法,由样本的统计量推断总体参数的统计方式。第七讲:SPSS的推断统计(一)参数估计和单变量的假设检验1推断统计的一般概念第七讲:SPSS的推断统计(一)65样本统计量:样本中某个变量的统计值。如此次调查中高中文化程度的人占32%。样本32%总体参数:与样本中某个变量的统计值相对应的总体中的统计值。如全市人口中高中比例为38%。总体38%样本统计量:样本中某个变量的统计值。如此次调查中高中文化程度66样本统计量有可能等于总体参数,也有可能不等于总体参数,但二者之间有着某种概率关系。推断统计就是教会我们如何利用这种概率关系来由样本统计量推估总体参数。为了区别样本和总体的不同,样本的平均数用来表示,标准差用S表示;总体的平均数用μ表示,标准差用σ表示。因此,推断统计往往可以看作是由推断μ。样本统计量有可能等于总体参数,也有可能不等于总体参数,但二者67样本32%总体μ=?(2)类型:推断统计分为参数估计和假设检验两大类。参数估计:根据一个随机样本的统计值来估计总体参数。即已知样本,估计总体。样本32%总体(2)类型:推断统计分为参数估计和假设检68假设检验:先假定总体参数为μ,用一个随机样总体μ=38%样本32%来检验总体参数为μ的假设是否成立。本的统计量?假设检验:先假定总体参数为μ,用一个随机样总体样本3691.2推断统计的原理:参数估计和假设检验都是利用正态分布的概率特征来进行的。(1)正态分布(μ,σ):正态分布是一种统计分布,它有如下几个特征:A单峰对称;B平均数、中位数、众数合一,都在峰点;Cμ±1.96σ包含了95%的面积;
μ±1.65σ包含了90%的面积;即面积和标准差之间有一个固定换算。1.2推断统计的原理:70正态分布N(μ,σ)μ±1.96σ平均数μ正态分布N(μ,σ)μ±1.96σ平均数μ71170±1.96*10(170,10)例:某校同学的身高为正态分布,平均值为170cm,标准差为10cm。问:1)高于平均数1.5个标准差的同学身高是多少?2)162cm身高的同学距平均数有几个标准差?3)95%的同学身高会在什么范围内?170±1.96*10(170,10)例:某校同学的身高为72解1:Xi=μ+Z*σ=170+1.5*10=185cm;解2:Z=(Xi-μ)/σ=(162-170)/10=-0.8;解3:Xi=μ-Z*σ=170-1.96*10=150.4Xi=μ+Z*σ=170+1.96*10=189.6(150.4~189.6)由上可得出:其中Xi为分布中任何一个值,μ是平均数;σ是标准差。Z是Xi距离平均数μ的标准差单位,又称Z分数,同时也表示Xi与平均数μ之间的面积。解1:Xi=μ+Z*σ=170+1.5*10=185cm;由73(2)标准正态分(Z分布):N(0,1)标准化了的正态分布。即平均数=0,标准差=1的正态分布。(0,1)σ=1(2)标准正态分(Z分布):N(0,1)(0,1)σ=174(3)总体分布:D(μ,σ)总体中某变量的几何分布。有可能是正态分布,也可能不是正态分布。(3)总体分布:D(μ,σ)总体中某变量的几何分布。有75(4)样本分布:D(,S)样本中某变量的统计分布,和总体分布一样,它有可能是正态分布,也可能不是正态分布。(4)样本分布:D(,S)样本中某变量的统计分布,和总体76(5)样本平均数的抽样分布:N(μ,)从总体中多次重复抽取容量为n的样本,每个样本平均数的所形成的统计分布。是由多个组成的。总体分布样本平均数的抽样分布D(μ,σ)N(μ,)(5)样本平均数的抽样分布:N(μ,)从总体中多次重复抽77样本平均数的抽样分布的特点:B正态分布。C它的平均数就等于总体的平均数μ,标准差则是A是由多个组成,因此,我们所作的任何一次抽样的平均数都可看作是样本平均数的抽样分布中的一个点。它会有95%的概率落在μ±1.96总体标准差σ的倍。即的范围内。,又被称作标准误(StandardError,S.E)样本平均数的抽样分布的特点:B正态分布。A是由多个组成,78总体分布(μ,σ)样本分布(,s)样本平均数的抽样分布(μ,)三种分布的关系总体分布(μ,σ)样本分布(,s)79推断统计的原理就是:利用样本平均数的抽样分布的正态特征,以及与μ的包含关系,来从样本统计量推估总体参数(即参数估计),或用样本统计量检验有关总体参数的假设(假设检验)。由此可见,参数估计和假设检验实际是相同的。在实际调查中,我们便是利用这一原理,用一次调查的结果来推断总体的参数。我们把某一次调查的结果看作是同样样本规模的无数次调查中的一次,它是样本平均数的抽样分布中的一个点,可用来估计总体参数μ。推断统计的原理就是:在实际调查中,我们便是利用这一原理,用一802参数估计的步骤1)求出样本的平均数、标准差;2)求出总体的标准差(如未知,可用样本的标准差代替)3)设定参数估计的置信区间[即参数估计的把握性](90%?95%?)的Z值(1.65?1.96?)4)根据计算出μ的所在范围。2参数估计的步骤1)求出样本的平均数、标准差;4)根据计算81例:已知某学校的学生每天课外活动时间的标准差为15分钟。现从学生中随机抽取25人,得知他们的课外活动时间平均为60分钟,问该校学生总体平均每天的课外活动时间会是多少?(选择95%的置信区间)解:=60S.E=15/251/2Z=1.96=60±5.88≈60±654<μ<66例:已知某学校的学生每天课外活动时间的标准差为15分钟。现从82例:在此次调查中,男性共630人,平均年龄为45岁,标准差为15;女性共620人,平均年龄为44岁,标准差为14。问:1)男性与女性各自平均年龄的总体参数是多少?(95%的置信区间)解:男性=45±1.17643.824<μ<46.176例:在此次调查中,男性共630人,平均年龄为45岁,标准差为83女性:=44±1.142.9<μ<45.12)从总体上看,男女年龄是否有差异?解:比较男女平均年龄的总体参数的区间,μ男(43.8,46.1)μ女(42.9,45.1)二者有交集,故总体年龄在95%的置信度上没有差异。女性:=44±1.142.9<μ<45.12)从总体上看84答案:1(652.339,709.561)(646.97,714.93)2(5.8364,6.0436)(6.574,6.766)(7.827,8.053)答案:(652.339,709.561)(646.97,853比例数的参数估计:当样本的统计量不是平均数,而是以比例的形式出现时,比如,共青团员在调查中占9.4%,也可以用μ=Xi±Z*S.E公式的变形:P总=Pi±Z*S.E来推断总体参数。其中,Pi为比例数形式的样本统计量,3比例数的参数估计:86示例:在此次抽样调查的1254人中,共青团员的比例为9.4%,求总体中共青团员的比例参数(置信度为95%)。解:P总=Pi±Z*S.E(0.078,0.11)总体中共青团员的比例有95%的可能性在7.8%~11%的区间内。示例:(0.078,0.11)874假设检验的步骤:示例:纳税起征线的规定是根据当地居民的平均月收入制定的。有关部门认为某地的起征线应为800元,因为根据经验当地居民平均月收入应不低于此数。在当地进行的一次400人的随机抽样表明,居民月收入为790元,标准差为100元,请用此调查结果在95%的置信水平上检验居民月收入为800元的说法是否成立。4假设检验的步骤:示例:88
假设m=800800!1.96*5m=800,样本容量为400时的样本平均数的抽样分布:N(800,5)样本:X=790假设m=800800!1.96*5m=800894.1假设检验的分布算法1)确定有关总体参数m的假设;如假设总体平均收入为800元;2)确定检验此假设的概率标准,即置信区间为P=90%?P=95%?(Z=1.65?Z=1.96?)
(平均数、标准差、标准误,即样本平均数抽样分布的标准差)。4)以m为中心,作出样本平均数抽样分布的给定概率区间。3)抽取一个随机样本,计算出、S、S.E5)看在这一区间内是否包括了,如果包括,就可以说,在给定的置信区间中(或在给定的概率条件下),验证(接受)了原假设;如未包含,则说明原假设在给定的概率水平上不成立(被否定),或说原假设在给定的显著度水平(1-给定概率)上被否定。4.1假设检验的分布算法(平均数、标准差、标准误,即90解:1)确定有关总体参数的假设H0:m
=800;H1:m
!800;2)确定检验此假设的概率标准:置信度为95%,显著度为5%,即Z=1.963)计算样本的有关统计量=790;S=100;S.E==100/20=54)以m为中心,作出样本平均数抽样分布的给定概率区间。(800±1.96×5),即(790.2~
809.8)5)结论:此区间未包含样本统计量790,因此在5%的显著水平上推翻原假设。当地居民的平均月收入小于800元。解:914.2假设检验的公式算法:从上一算法中可以看出,Xi距m的距离是检验假设的关键指标:Xi如果落在m的95%的置信区间之外,这时|Zxi|〉Z95%,即|Zxi|〉1.96。则原假设被否定的概率〉95%,或者说,原假设成立的概率〈5%,我们称为在5%的显著水平上否定了原假设。Xi如果落在m的95%的置信区间之内,这时|Zxi|〈Z95%,即|Zxi|〈1.96。我们称为在5%的显著水平上不能否定原假设。因此,可以利用4.2假设检验的公式算法:从上一算法中可以看出,Xi距m的92来直接计算出|Zxi|是否大于Z95%。解:1)确定有关总体参数的假设H0:m
=800;H1:m
!800;2)确定检验此假设的概率标准:置信度为95%,显著度为5%,即Z=1.963)计算Zxi4)判定:Zxi=-2,绝对值大于Z95%,因此在5%的显著水平上否定原假设m
=800。来直接计算出|Zxi|是否大于Z95%。4)判定:Zxi=-93
假设m=800样本1:X1=795;S=10m!1.96S.E样本2:X2=790;S=10接受区95%拒绝区5%假设m=800样本1:X1=795;S=10m941双变量统计关系假设检验概述变量间关系的统计和变量关系强度的测量也同样存在统计推断问题。即从样本中统计出的变量关系强度系数(如X2、各种相关系数)是否在总体上也有效。比如:根据我们的调查1254人的统计结果得知性别)与文化程度的卡方值为27.89,W19.1与W19.2的相关系数r=0.367,那么总体上这些变量之间是否也会有同样的相关?这就要依靠变量关系的假设检验。第八讲:SPSS的推断统计(二)双变量关系的假设检验1双变量统计关系假设检验概述第八讲:SPSS的推断统计(二952双变量统计关系假设检验的步骤双变量的假设检验和单变量很相似,通常采用以下的步骤:1)确定双变量总体参数的假设:如假设总体中性别与文化程度无关,即卡方值=0;W19.1与W19.2不相关,即r=0;2)确定检验此假设的概率标准,即置信区间为95%或90%(即显著度为0.05或0.1);3)抽取一个随机样本,计算出样本中双变量关系的统计量,如性别与文化程度的卡方值为27.89,W19.1与W19.2的相关系数r=0.367;2双变量统计关系假设检验的步骤964)选择用来检验这些假设的概率分布,如标准正态分布(Z分布)、卡方分布、t分布、F分布等,并根据置信区间或显著度设立接受原假设的区间(接受域)或拒绝区间(拒绝域);5)观察样本的统计量的概率值是否落在接受区内,从而判断是接受/拒绝原假设。一般而言,显著度(即拒绝域)一般都定在0.05或0.10。当检验的结果小于此,原假设就落在了拒绝域中,因此就可以得出结论:变量间统计关系为0的假设在总体上是不成立的;而作出这一结论的显著性(或者说,犯错误的概率)<5%或10%;换言之,样本中变量关系统计不为0的结果在总体上是成立的,而作出这一结论的显著性(或者说,犯错误的概率)也同样<5%或10%;4)选择用来检验这些假设的概率分布,如标准正态分布(Z分布)973变量关系的显著性检验类型3变量关系的显著性检验类型98B卡方计算公式:4SPSS中变量关系的显著性检验
1)定类—定类尺度:X2检验
卡方检验是用来检验样本中两个定类变量的关系强度测量结果(卡方值)是否能推断总体。
AX2检验的假设:H0:X2=0;H1:X2≠0;B卡方计算公式:4SPSS中变量关系的显著性检验
1)99C卡方分布形状拒绝域接受域C卡方分布形状拒绝域接受域100DSPSS中卡方检验示例(性别与文化程度)步骤:1)确定双变量总体参数的假设:
H0:X2=0;H1:X2≠0;2)确定检验此假设的概率标准:显著度为0.05。3)抽取一个样本容量为1254的随机样本,计算出样本中性别与文化程度的X2=27.89。4)选择用来检验H0的分布:X2分布,并根据显著度0.05设立接受域(P>0.05)或拒绝域(P<0.05);5)观察样本的统计量的概率值是否落在接受域内,从而判断是接受/拒绝原假设。从下表看出,样本统计量X2=27.89,概率值(Significance)=0.000<0.05,落在拒绝域,因此,否定H0;接受总体中X2=27.89的判断。此判断犯错误的概率)=0.000<0.05。DSPSS中卡方检验示例(性别与文化程度)101显著性检验结果卡方值显著性检验结果卡方值1022)定类—定距尺度:F检验F检验是用来检验样本中一个定类变量和一个定距变量的关系强度测量结果(分组平均数)是否能推断总体。如不同职业的人在收入上是否有差异(即职业分组的平均收入是否不同)。AF检验的假设:H0:μ1=μ2=μ3=...μk;H1:μ1
≠μ2
≠μ3≠...μk;BF值计算公式:2)定类—定距尺度:F检验103CF分布的形状接受域拒绝域拒绝域CF分布的形状接受域拒绝域拒绝域104DSPSS中F
检验示例(文化程度与收入)步骤:1)确定双变量总体参数的假设:
H0:μ1=μ2=μ3=...μk;H1:μ1
≠μ2
≠μ3≠...μk;2)确定检验此假设的概率标准:显著度为0.05。3)抽取一个样本容量为1254的随机样本,计算出样本中文化程度与收入的F
=6.006。4)选择用来检验H0的分布:F分布,并根据显著度0.05设立接受域(P>0.05)或拒绝域(P<0.05);5)观察样本的统计量的概率值是否落在接受域内,从而判断是接受/拒绝原假设。从下表看出,样本统计量F
=6.006。概率值(Significance)=0.000<0.05,落在拒绝域,因此,否定H0;拒绝总体中H0:μ1=μ2=μ3=...μk
的判断。即由样本可以推断总体,不同的文化程度,收入有差别;文化程度与收入有关。DSPSS中F检验示例(文化程度与收入)105F值显著度F值显著度1063)定距—定距尺度相关系数r的显著性检验:Z检验Z检验也可用来检验样本中一对定距变量的相关系数r在总体上是否有效。其检验的方式与前面的假设检验大同小异。在此我们只略述检验的原假设以及检验结果。A相关系数检验的原假设:H0:r=0;H1:r
≠0;B检验结果:检验结果的概率值若小于给定的显著度,如0.05,则推翻原假设,说明两变量总体上有相关。即样本种的相关系数在总体中也有效。3)定距—定距尺度相关系数r的显著性检验:107CSPSS中相关系数r的Z检验示例:CorrelateBivariateCSPSS中相关系数r的Z检验示例:Correlate108显著性检验结果显著性检验结果109相关系数样本量Z检验概率值相关系数样本量Z检验概率值1104)回归系数B的显著性检验:t检验样本中的回归公式中计算出的自变量回归系数B在总体中是否有效,需要用t分布来检验。检验步骤同于前述的假设检验。A原假设:H0:B=0;H1:B≠0;B检验结果:检验结果的概率值若小于给定的显著度,如0.05,则推翻原假设,则样本中的回归公式可用于说明总体。4)回归系数B的显著性检验:t检验111Ct分布形状:拒绝域拒绝域Ct分布形状:拒绝域拒绝域112回归系数t值t值的显著度回归系数t值t值的显著度113SPSS的主要菜单与基础统计课件114演讲完毕,谢谢观看!演讲完毕,谢谢观看!115第三讲SPSS的主要窗口和菜单1SPSS的3个主要窗口1-1数据编辑器窗口(SPSSDataEditor):用来编辑和显示数据;在此窗口中的文件名称为*.sav。1-2程序语句编辑器窗口(SPSSSyntaxEditor):用来编写各种程序;在此窗口中的文件名称为*.sps。1-3结果观看窗口(SPSSViewer):显示统计运算结果;在此窗口中的文件名称为*.spo。第三讲SPSS的主要窗口和菜单1SPSS的3个主要窗口1162SPSS数据编辑器的主要菜单2-1File菜单:文件管理New;Open;Save;Saveas;Exit。2-2Edit菜单:编辑Undo;Cut;Copy;Paste;Clear;Find;2-3View菜单:视图Fonts;Gridlines;Valuelabels。2SPSS数据编辑器的主要菜单1172-4Data菜单:数据整理definevariables;Insertvariables;Insertcase;gotocase;sortcase;selectcase。2-5Transform菜单:数据转换recode;compute;count。2-6Statistics菜单:统计2-7Graphs菜单:统计图2-8Utilities菜单:工具附件2-9Windows菜单:窗口2-10Help菜单:帮助2-4Data菜单:数据整理118第四讲SPSS的单变量描述统计1单变量描述统计介绍A变量的尺度:a定类CategoryScale:只能计次b定序OrdinalScale:计次、排序c定距IntervalScale:计次、排序、加减d定比RatioScale:计次、排序、加减、乘除第四讲SPSS的单变量描述统计1单变量描述统计介绍119B变量的统计描述:分布Distribution集中趋势Centraltendency离散趋势DispersionB变量的统计描述:120分布平均数中位数众数离散程度分布平均数中位数众数离散程度121SPSS的主要菜单与基础统计课件1222SPSS的单变量描述统计命令
AFrequencies:频数统计Statistics—Summarize—Frequencies2SPSS的单变量描述统计命令123变量值频数百分比有效百分比累计百分比变量值频数百分比有效百分比累计百分比124中位数中位数125百分比和有效百分比百分比和有效百分比126BDescriptives:定距变量描述统计Statistics—Summarize—DescriptivesBDescriptives:定距变量描述统计127变量名平均数标准差最小值最大值变量名平均数标准差最小值最大值128第四讲SPSS的双变量关系描述统计(一)列联与方差分析1、变量关系概述寻找变量间的关系是科学研究的首要目的。变量间的关系最简单的划分即是有关与无关。在统计学上,我们通常这样判断变量之间是否有关:如果一个变量的取值发生变化,另外一个变量的取值也相应发生变化,则这两个变量有关。如果一个变量的变化不引起另一个变量的变化则二者无关。第四讲SPSS的双变量关系描述统计(一)1、变量关系概述129性别与四级英语考试通过率的相关统计表述:统计结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。自变量的不同取值在因变量上无差异,两变量无关。自变量的不同取值在因变量上有差异,两变量有关。因变量自变量性别与四级英语考试通过率的相关统计表述:统计结果显示,当性别130表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。自变量因变量表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变1312、双变量关系的统计类型2、双变量关系的统计类型1323、列联统计3-1列联表的格式自变量因变量人数行百分比列百分比总百分比边缘百分比边缘百分比条件百分比3、列联统计自变量因变量人数行百分比列百分比总百分比边缘百分1333-2列联分析的原理:自变量发生变化,因变量取值是否也发生变化。比较边缘百分比和条件百分比的差别。3-2列联分析的原理:1344-1)变量关系强度的含义:指两个变量相关程度的高低。统计学中是以准实验的思想来分析变量相关的。通常从以下的角度分析:A)两变量是否相互独立。B)两变量是否有共变趋势。C)一变量的变化多大程度上能由另一变量的变化来解释。4列联变量的关系强度测量4-1)变量关系强度的含义:4列联变量的关系强度测量1354-2)双变量关系强度测量的主要指标4-2)双变量关系强度测量的主要指标1364-3)卡方测量的原理:卡方测量用来考察两变量是否独立(无关)。其原理是根据这一概率定理:若两变量无关,则两变量中联合事件发生的概率应等于各自独立发生的概率乘积。在列联表中,这一定理就具体转化为:若两变量无关,则两变量中条件概率应等于各自边缘的概率乘积。反之,则两变量有关,或,两变量不独立。4-3)卡方测量的原理:在列联表中,这一定理就具体转化为:若137示例1515655观察值边缘概率边缘概率期望条件概率99-9-9残差示例1515655观察值边缘概率边缘概率期望条件概率9138由此可见,期望值(独立模型)与观察值的差距越大,说明两变量越不独立,也就越有相关。因此,卡方的表达式如下:卡方的取值在0~∞之间。卡方值越大,关联性越强。在SPSS中,有PearsonX2和相似比卡方(LikelihoodRatioX2)两种。由此可见,期望值(独立模型)与观察值的差距越大,说明两变量越1394-4)的改进标准化系数:为使值有一固定的区间,便于比较,采用了以下几个修正:A、φ系数(Phi):(0~1),适用于2×2表。B、列联系数(ContingencyCoefficient):(0~1),适用任意表。C、CramerV系数:(0~1),适用任意表。D、λ系数(Lambda):(0~1),适用任意表。E、Goodman&Kruskal-tau系数:(0~1),适用任意表。4-4)的改进标准化系数:A、φ1405列联统计命令:Statistics—Summarize—Crosstabs5列联统计命令:141第五讲SPSS的双变量关系描述统计(二)分组平均数比较(方差分析)1、分组平均数比较的含义当一个变量为定类变量,另一变量为定距变量时,两变量间是否有关,通常以分组平均数比较的方法来考察。即按照定类变量的不同水平来分组,看每个分组的定距变量的平均数是否有差异。不同组间的平均数差异越小,两个变量间的关系越弱;相反,平均数差异越大,变量间关系越强。第五讲SPSS的双变量关系描述统计(二)1、分组平均数比1422、分组平均数比较的格式2、分组平均数比较的格式143SPSS的主要菜单与基础统计课件1443、定类—定距变量的关系强度测量定类变量和定距变量的关系强度测量采用F统计的方法,即方差分析。3-1F统计的原理F统计的目的是分析分组的平均数是否相等。如果相等,说明组间没有差别;如果不相等,说明组间平均数有差异,这时分组是有效的。但F统计独特的地方是,它并不直接利用平均数来比较,而是利用与方差有关的统计指标总变差(SST)、组间变差(SSB)、组内变差(SSW)的关系来进行判别。3、定类—定距变量的关系强度测量3-1F统计的原理145男女收入Y总=800元Y女=800元Y男=800元男收入Y总=800元Y女=800元Y男=800元146男女收入Y总=800元Y女=600元Y男=1000元男收入Y总=800元Y女=600元Y男=1000元147收入YiYi男女SST=SSB+SSW收入YiYi男SST=SSB+SSW148三者的关系是:SST是总变差,即未分组的数据的变差,总方差的分子。SST=SSB+SSWSSB是组间变差,各组平均数与总平均数的离差平方和SSW是组内变差,每组数据和该组平均数的离差平方和。三者的关系是:SST是总变差,即未分组的数据的变差,总方差的149SPSS的主要菜单与基础统计课件150SPSS的主要菜单与基础统计课件151由于方差和变差标志着每一数据对其平均数的偏离(即异质性),因此,F值(F=SSB/SSW)含义就可理解为组间异质性和组内异质性的比较。F值的范围在0到正无穷大之间。当F值>1,则说明组与组间的差别大于组内的差别,也就说明这时组间平均数的差异是存在的。由于方差和变差标志着每一数据对其平均数的偏离(即异质性),因152SPSS的主要菜单与基础统计课件1533-2定类—定距变量的关系强度系数Eta2F值和列联统计中的X2一样,取值范围在0到正无穷大之间。因此,也需要对F值加以修正,形成一个标准化的关系系数。Eta2就是这样的一个系数。Eta2=SSB/SST即在总变差中,组间变差所占的比例。Eta2的取值范围在0~+∞之间,越接近1,就表明组间差异越大;越接近0,就表明组间平均数趋于一致。3-2定类—定距变量的关系强度系数Eta2154Eta2=0.026Eta2=0.026155SPSS的主要菜单与基础统计课件156SPSS的主要菜单与基础统计课件1574SPSS中分组平均数和方差分析的统计命令Statistics—CompareMeans—Means4SPSS中分组平均数和方差分析的统计命令158第六讲SPSS的双变量关系描述统计(三)相关1定距—定距尺度(PearsonCor.)1)相关的含义:相关(Correlation)是用来作两个定距变量关系的统计分析,考察两变量是否存在共同变化的趋势。如年龄与收入。2)积矩相关的统计原理:两变量共同变化的趋势在统计中用共变异数(Covariance)来表示。即A变量的取值从低到高(或从高到低)变化时,B变量是否也同样发生变化。第六讲SPSS的双变量关系描述统计(三)1定距—定距尺159当两变量在同一方向上变化,称为有正相关;相反方向变化,称为负相关;无变化即无相关。相关系数即用来表示相关的程度。如:当两变量在同一方向上变化,称为有正相关;相反方向变化,称为负160X(丈夫收入);Y(妻子收入)YXP(xi,yi)Y=kkX(丈夫收入);Y(妻子收入)YXP(xi,yi)Y161P(xi,yi)+--+共变异数(协方差)=P(xi,yi)+--+共变异数(协方差)=162+--+散点越集中于1、3象限,共变异数的和正值约大;散点越集中于2、4象限,共变异数的和负值约大;散点越均匀分布于各象限,共变异数的和越趋近于0。+--+散点越集中于1、3象限,共变异数的和正值约大;1633)相关系数的计算公式:由此公式可看出:1相关就是共变异数的标准化。2相关系数r的取值范围在(-1,+1)之间。+1代表完全正相关;-1表示完全负相关;0表示无相关。3)相关系数的计算公式:由此公式可看出:164示例:通过此题来演算相关系数。示例:通过此题来演算相关系数。1652定序—定序尺度(SpearmanCor.)积差相关的公式:积差相关又称等级相关,用来考察两个定序变量间的相关关系。它的公式是由积矩相关转变而来,其中,D是每一对因变量和自变量的序数的差值;N是总的排序的序数。2定序—定序尺度(SpearmanCor.)其166示例:示例:1673SPSS中的相关统计命令Statistics--Correlate--Bivariate3SPSS中的相关统计命令1684相关统计的输出格式相关系数人数4相关统计的输出格式相关系数人数1691回归的含义:回归(Regression,或LinearRegression)和相关同样都用来分析两个定距变量间的关系,但回归有明确的因果关系假设。即要假设一个变量为自变量,一个为因变量,自变量对因变量的影响就用回归表示。如年龄对收入的影响。由于回归构建了变量间因果关系的数学表达,它具有统计预测功能。第六讲SPSS的双变量关系描述统计(四)线性回归1回归的含义:第六讲SPSS的双变量关系描述统计(四)1702回归的统计原理:两个定距变量的回归是用函数y=f(x)来分析的。我们最常用的是一元回归方程其中x为自变量;y为因变量;a为截距,即常量;b为回归系数,表明自变量对因变量的影响程度。2回归的统计原理:其中x为自变量;y为因变量;a为截距,即171Y=350+20xY=350+20x172在统计学中,这一方程中的系数是靠x与y变量的大量数据拟合出来的。XYY=a+bx(x,y)在统计学中,这一方程中的系数是靠x与y变量的大量数据拟合出来173由图中可以看出,回归直线应该是到所有数据点最短距离的直线。该直线的求得即使用“最小二乘方法”,使:在拟合的回归直线方程中,回归系数:表示x每变化一个单位时,x与y共同变化的程度(共变异数)。常数由图中可以看出,回归直线应该是到所有数据点最短距离的直线。该174SPSS的主要菜单与基础统计课件175比如通过上学年数和工资的关系计算得出下列的回归公式:y=472+14.8x就可知上学年数每增长1年,工资会增加14.8元;也可推测,上学年数为15年的人,工资收入应为472+14.8*15=694元。比如通过上学年数和工资的关系计算得出下列的回归公式:1763SPSS线性回归的统计命令Statistics—Regression—Linear3SPSS线性回归的统计命令177自变量因变量回归方式自变量因变量回归方式1784SPSS线性回归的输出格式:常数自变量回归系数标准化回归系数每月工资=823.3-3.487年龄4SPSS线性回归的输出格式:常数自变量回归系数标准化回归1791推断统计的一般概念1.1推断统计的含义及类型:(1)含义:推断统计是指用概率分布的方法,由样本的统计量推断总体参数的统计方式。第七讲:SPSS的推断统计(一)参数估计和单变量的假设检验1推断统计的一般概念第七讲:SPSS的推断统计(一)180样本统计量:样本中某个变量的统计值。如此次调查中高中文化程度的人占32%。样本32%总体参数:与样本中某个变量的统计值相对应的总体中的统计值。如全市人口中高中比例为38%。总体38%样本统计量:样本中某个变量的统计值。如此次调查中高中文化程度181样本统计量有可能等于总体参数,也有可能不等于总体参数,但二者之间有着某种概率关系。推断统计就是教会我们如何利用这种概率关系来由样本统计量推估总体参数。为了区别样本和总体的不同,样本的平均数用来表示,标准差用S表示;总体的平均数用μ表示,标准差用σ表示。因此,推断统计往往可以看作是由推断μ。样本统计量有可能等于总体参数,也有可能不等于总体参数,但二者182样本32%总体μ=?(2)类型:推断统计分为参数估计和假设检验两大类。参数估计:根据一个随机样本的统计值来估计总体参数。即已知样本,估计总体。样本32%总体(2)类型:推断统计分为参数估计和假设检183假设检验:先假定总体参数为μ,用一个随机样总体μ=38%样本32%来检验总体参数为μ的假设是否成立。本的统计量?假设检验:先假定总体参数为μ,用一个随机样总体样本31841.2推断统计的原理:参数估计和假设检验都是利用正态分布的概率特征来进行的。(1)正态分布(μ,σ):正态分布是一种统计分布,它有如下几个特征:A单峰对称;B平均数、中位数、众数合一,都在峰点;Cμ±1.96σ包含了95%的面积;
μ±1.65σ包含了90%的面积;即面积和标准差之间有一个固定换算。1.2推断统计的原理:185正态分布N(μ,σ)μ±1.96σ平均数μ正态分布N(μ,σ)μ±1.96σ平均数μ186170±1.96*10(170,10)例:某校同学的身高为正态分布,平均值为170cm,标准差为10cm。问:1)高于平均数1.5个标准差的同学身高是多少?2)162cm身高的同学距平均数有几个标准差?3)95%的同学身高会在什么范围内?170±1.96*10(170,10)例:某校同学的身高为187解1:Xi=μ+Z*σ=170+1.5*10=185cm;解2:Z=(Xi-μ)/σ=(162-170)/10=-0.8;解3:Xi=μ-Z*σ=170-1.96*10=150.4Xi=μ+Z*σ=170+1.96*10=189.6(150.4~189.6)由上可得出:其中Xi为分布中任何一个值,μ是平均数;σ是标准差。Z是Xi距离平均数μ的标准差单位,又称Z分数,同时也表示Xi与平均数μ之间的面积。解1:Xi=μ+Z*σ=170+1.5*10=185cm;由188(2)标准正态分(Z分布):N(0,1)标准化了的正态分布。即平均数=0,标准差=1的正态分布。(0,1)σ=1(2)标准正态分(Z分布):N(0,1)(0,1)σ=1189(3)总体分布:D(μ,σ)总体中某变量的几何分布。有可能是正态分布,也可能不是正态分布。(3)总体分布:D(μ,σ)总体中某变量的几何分布。有190(4)样本分布:D(,S)样本中某变量的统计分布,和总体分布一样,它有可能是正态分布,也可能不是正态分布。(4)样本分布:D(,S)样本中某变量的统计分布,和总体191(5)样本平均数的抽样分布:N(μ,)从总体中多次重复抽取容量为n的样本,每个样本平均数的所形成的统计分布。是由多个组成的。总体分布样本平均数的抽样分布D(μ,σ)N(μ,)(5)样本平均数的抽样分布:N(μ,)从总体中多次重复抽192样本平均数的抽样分布的特点:B正态分布。C它的平均数就等于总体的平均数μ,标准差则是A是由多个组成,因此,我们所作的任何一次抽样的平均数都可看作是样本平均数的抽样分布中的一个点。它会有95%的概率落在μ±1.96总体标准差σ的倍。即的范围内。,又被称作标准误(StandardError,S.E)样本平均数的抽样分布的特点:B正态分布。A是由多个组成,193总体分布(μ,σ)样本分布(,s)样本平均数的抽样分布(μ,)三种分布的关系总体分布(μ,σ)样本分布(,s)194推断统计的原理就是:利用样本平均数的抽样分布的正态特征,以及与μ的包含关系,来从样本统计量推估总体参数(即参数估计),或用样本统计量检验有关总体参数的假设(假设检验)。由此可见,参数估计和假设检验实际是相同的。在实际调查中,我们便是利用这一原理,用一次调查的结果来推断总体的参数。我们把某一次调查的结果看作是同样样本规模的无数次调查中的一次,它是样本平均数的抽样分布中的一个点,可用来估计总体参数μ。推断统计的原理就是:在实际调查中,我们便是利用这一原理,用一1952参数估计的步骤1)求出样本的平均数、标准差;2)求出总体的标准差(如未知,可用样本的标准差代替)3)设定参数估计的置信区间[即参数估计的把握性](90%?95%?)的Z值(1.65?1.96?)4)根据计算出μ的所在范围。2参数估计的步骤1)求出样本的平均数、标准差;4)根据计算196例:已知某学校的学生每天课外活动时间的标准差为15分钟。现从学生中随机抽取25人,得知他们的课外活动时间平均为60分钟,问该校学生总体平均每天的课外活动时间会是多少?(选择95%的置信区间)解:=60S.E=15/251/2Z=1.96=60±5.88≈60±654<μ<66例:已知某学校的学生每天课外活动时间的标准差为15分钟。现从197例:在此次调查中,男性共630人,平均年龄为45岁,标准差为15;女性共620人,平均年龄为44岁,标准差为14。问:1)男性与女性各自平均年龄的总体参数是多少?(95%的置信区间)解:男性=45±1.17643.824<μ<46.176例:在此次调查中,男性共630人,平均年龄为45岁,标准差为198女性:=44±1.142.9<μ<45.12)从总体上看,男女年龄是否有差异?解:比较男女平均年龄的总体参数的区间,μ男(43.8,46.1)μ女(42.9,45.1)二者有交集,故总体年龄在95%的置信度上没有差异。女性:=44±1.142.9<μ<45.12)从总体上看199答案:1(652.339,709.561)(646.97,714.93)2(5.8364,6.0436)(6.574,6.766)(7.827,8.053)答案:(652.339,709.561)(646.97,2003比例数的参数估计:当样本的统计量不是平均数,而是以比例的形式出现时,比如,共青团员在调查中占9.4%,也可以用μ=Xi±Z*S.E公式的变形:P总=Pi±Z*S.E来推断总体参数。其中,Pi为比例数形式的样本统计量,3比例数的参数估计:201示例:在此次抽样调查的1254人中,共青团员的比例为9.4%,求总体中共青团员的比例参数(置信度为95%)。解:P总=Pi±Z*S.E(0.078,0.11)总体中共青团员的比例有95%的可能性在7.8%~11%的区间内。示例:(0.078,0.11)2024假设检验的步骤:示例:纳税起征线的规定是根据当地居民的平均月收入制定的。有关部门认为某地的起征线应为800元,因为根据经验当地居民平均月收入应不低于此数。在当地进行的一次400人的随机抽样表明,居民月收入为790元,标准差为100元,请用此调查结果在95%的置信水平上检验居民月收入为800元的说法是否成立。4假设检验的步骤:示例:203
假设m=800800!1.96*5m=800,样本容量为400时的样本平均数的抽样分布:N(800,5)样本:X=790假设m=800800!1.96*5m=8002044.1假设检验的分布算法1)确定有关总体参数m的假设;如假设总体平均收入为800元;2)确定检验此假设的概率标准,即置信区间为P=90%?P=95%?(Z=1.65?Z=1.96?)
(平均数、标准差、标准误,即样本平均数抽样分布的标准差)。4)以m为中心,作出样本平均数抽样分布的给定概率区间。3)抽取一个随机样本,计算出、S、S.E5)看在这一区间内是否包括了,如果包括,就可以说,在给定的置信区间中(或在给定的概率条件下),验证(接受)了原假设;如未包含,则说明原假设在给定的概率水平上不成立(被否定),或说原假设在给定的显著度水平(1-给定概率)上被否定。4.1假设检验的分布算法(平均数、标准差、标准误,即205解:1)确定有关总体参数的假设H0:m
=800;H1:m
!800;2)确定检验此假设的概率标准:置信度为95%,显著度为5%,即Z=1.963)计算样本的有关统计量=790;S=100;S.E==100/20=54)以m为中心,作出样本平均数抽样分布的给定概率区间。(800±1.96×5),即(790.2~
809.8)5)结论:此区间未包含样本统计量790,因此在5%的显著水平上推翻原假设。当地居民的平均月收入小于800元。解:2064.2假设检验的公式算法:从上一算法中可以看出,Xi距m的距离是检验假设的关键指标:Xi如果落在m的95%的置信区间之外,这时|Zxi|〉Z95%,即|Zxi|〉1.96。则原假设被否定的概率〉95%,或者说,原假设成立的概率〈5%,我们称为在5%的显著水平上否定了原假设。Xi如果落在m的95%的置信区间之内,这时|Zxi|〈Z95%,即|Zxi|〈1.96。我们称为在5%的显著水平上不能否定原假设。因此,可以利用4.2假设检验的公式算法:从上一算法中可以看出,Xi距m的207来直接计算出|Zxi|是否大于Z95%。解:1)确定有关总体参数的假设H0:m
=800;H1:m
!800;2)确定检验此假设的概率标准:置信度为95%,显著度为5%,即Z=1.963)计算Zxi4)判定:Zxi=-2,绝对值大于Z95%,因此在5%的显著水平上否定原假设m
=800。来直接计算出|Zxi|是否大于Z95%。4)判定:Zxi=-208
假设m=800样本1:X1=795;S=10m!1.96S.E样本2:X2=790;S=10接受区95%拒绝区5%假设m=800样本1:X1=795;S=10m2091双变量统计关系假设检验概述变量间关系的统计和变量关系强度的测量也同样存在统计推断问题。即从样本中统计出的变量关系强度系数(如X2、各种相关系数)是否在总体上也有效。比如:根据我们的调查1254人的统计结果得知性别)与文化程度的卡方值为27.89,W19.1与W19.2的相关系数r=0.367,那么总体上这些变量之间是否也会有同样的相关?这就要依靠变量关系的假设检验。第八讲
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- T-ZNZ 264.1-2024 重金属中度污染农田土壤修复和安全利用技术规范 第1部分:超积累东南景天与油葵轮作
- 二零二五年度车辆转让与二手车交易及金融服务协议
- 2025年度蛋糕店与体育赛事合作赞助协议
- 2025年度道路桥梁维修施工安全协议书
- 2025年度网络安全产品销售提成与技术服务合同
- 二零二五年度企业员工宿舍三方租赁协议
- 二零二五年度临时厨房工作人员聘用合同
- 二零二五年度个体商户劳动合同(体育赛事组织与运营)
- 中学生环保行动策划案解读
- 监控项目合作合同监控施工合同
- 药品GMP指南(第2版)
- 普通诊所污水、污物、粪便处理方案及周边环境情况说明
- 成功人士的七个习惯课件
- 粤教版必修二《向心力》评课稿
- 中国建筑史PPT(东南大学)完整全套教学课件
- 2022年水利监理规划
- 哈弗汽车品牌全案策略及营销推广方案
- 04J008 挡土墙(重力式 衡重式 悬臂式)
- (学校教育论文)人工智能下的教育变革研究
- 2023年湖南工程职业技术学院单招笔试职业技能考试题库及答案解析
- 春天的气息-教学设计教案
评论
0/150
提交评论