




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
资料审核与初步统计课件1第十二章调查资料的审核与整理
资料的审核资料的整理统计表
第十二章调查资料的审核与整理资料的审核2第一节资料的审核
资料的审核资料的审核是资料处理的第一步工作。它是指研究者对所收集的原始资料(主要是问卷)进行初步的审阅,校正错填、误填的答案,剔出乱填、空白和严重缺答的废卷。其目的是使得原始资料具有较好的准确性、完整性和真实性,从而为后续资料整理录人与统计分析工作打下较好的基础。资料的审核工作包含两方面的内容:一是检查出问卷资料中的问题;二是重新向被调查者核实。资料的审核工作有两种不同的做法:
边收集边审核集中审核
第一节资料的审核资料的审核3第二节资料的整理
一、资料整理
资料整理是根据研究目的将经过审核的资料进行分类汇总,使资料更加条理化和系统化,为进一步深入分析提供条件。二、定性资料的整理
整理笔记与建立档案
资料的编码
编码类型:开放式编码、轴心式编码选择式编码
第二节资料的整理一、资料整理4三、定量资料的整理
资料的编码(见下表一)
资料的录入(见下表二)数据清理
有效范围清理逻辑一致性清理
数据质量抽查
三、定量资料的整理5编码手册列问题号码变量名称内容说明1-6a1期刊年月编号91年6月第二个个案为9106027a2性别1.男2.女8-9a3年龄如实填写10a4学历1.小学以下2.中学3.高中4.中专5.大专6.大学7.硕士8博士9.其他11-13a5身高cm14-15a6职业1.工人2.农民3.党政机关公务员4.私营企业主5.离退休人员6,教师医生7.公安,司法,军人8.企业白领9专业技术人员10其他16a7婚姻状况1.
未婚2离婚3.丧偶4.其他表一编码手册列问题号码变量名称内容说明1-6a1期刊年月编号916择偶标准调查数据登录表个案编号A1A2A3A4A5A6A7…1-678-91011-1314-1516…05259210011355176031…05269210022246165042…052792100312771773…05289210041286167092….05299210052318158121…05309210062247155101……………………..…06表二择偶标准调查数据登录表个案A1A2A3A4A5A6A7…1-7第三节统计表一、统计表的结构从外表形式上看,统计表由总标题、横行标题、纵栏标题、指标数值四部分组成。总标题是表的名称;横行标题在表的左端,它代表所说明的对象;纵栏标题在表的上方,它代表统计指标的名称。它们分别对横行或纵栏内的统计值作出说明。
第三节统计表一、统计表的结构8二、统计表的种类1.简单表某村历年人均收入
年份1977197819791980收入20284045二、统计表的种类1.简单表年份1977197819791992.简单分组表
是总体仅按一个标志进行分组,即运用简单分组形成的表格。某村各户年人均收入统计表年人均收入村百分比(%)60—8080—120120—1605911203842合计20
2.简单分组表年人均收入村百分比(%)60—80520合计103.复合分组表
是总体按两个以上标志进行层叠分组的统计表,它又称为交互分类表,它能表现两个分组标志之间的关系。
某村家庭规模和经济情况统计表
经济水平家庭规模大小合计高低30501201015060合计801302103.复合分组表经济水平家庭规模大小合计高30120150合计11第十三章资料的统计分析统计分析方法是一种定量分析。它是进行科学预测的重要方法。 统计分析的特点:(1)统计分析要以定性分析为基础;(2)统计分析方法必须和其他分析结合运用;统计分析有一套专门的方法和技术。第十三章资料的统计分析统计分析方法是一种定量分析。它是进12观察调查实验12229986489如何使用各种统计表与统计图来描述一组数据的分组与分布情况如何通过一组数据计算一些特征数,简缩数据,进一步显示与描述一组数据的全貌(集中情况、分散情况、分布特征)数据如何分组收集方法原始数据表达形式作用分析过程(图示)观调实12229986489如何使用各种统计表与统计13主要内容单变量描述统计单变量推论统计相关与回归分析双变量统计分析多变量统计分析主要内容14第一节、单变量描述统计
由一种变量的全部分数或观察值组成的一组或一批数据称为一个分布。单变量数据的描述统计就是对其分布情况进行说明。单变量描述统计包括集中量数分析、离散量数分析。第一节、单变量描述统计由一种变量的全部分数或观察值组成的一15一.频数分布与频率分布频数分布(FrequencyDistribution),就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。
频率分布(percentagesdistribution),是一组数据中不同取值的频数相对于总数的比率分布情况.常以百分比的形式来表达.
一.频数分布与频率分布频数分布(FrequencyDis16
编制频数分布表,画出频数分布图
某中学初三甲班60人期中英语考试分数
826093938972859768777698564577766146605189437569896080747467858755877191746488578491606159637879889687895289857656545890案例编制频数分布表,画出频数分布图某中学17某中学初三甲班60人英语期中考试成绩
累积频数(频率)分布表
某中学初三甲班60人英语期中考试成绩
累积频数(频率)分布表18资料审核与初步统计课件19二、集中量数分析集中量数就是代表数据分布集中趋势的量数。集中量数分析指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。
最常见的集中量数有算术平均数(简称平均数,也称为均值)、众数和中位数三种。
二、集中量数分析集中量数就是代表数据分布集中趋势的量数。20中位数(Md)中位数(Md),又称中数,是频数分布上50%处的数值,即将观察总数一分为二的变量值。在这个值的两边各有相同个数的数据。当数据的个数为偶数时,取分布50%(最中心)处的两个数据的平均数作为中数。中位数(Md)中位数(Md),又称中数,是频数分布上50%处21中位数(Md)中位数(Md),又称中数,是频数分布上50%处的数值,即将观察总数一分为二的变量值。在这个值的两边各有相同个数的数据。当数据的个数为偶数时,取分布50%(最中心)处的两个数据的平均数作为中数。中位数(Md)中位数(Md),又称中数,是频数分布上50%处22几何平均数(Mg)
是n个数据的连乘积开n次方的根。常用作速率的集中量数,如学龄儿童人数的增加率、学校经费的增加率、阅读能力的进步率等。
Mg=几何平均数(Mg)是n个数据的连乘积开n次方的根。常23算术平均数通常称平均数,又称均数或均值。英文为Mean,故以M表示。如果是由变量X计算得来的就记为(读X杠),现在一般都以表示样本的平均数,以U表示总体的平均数。算术平均数就是各个变量值相加求和再除以变量的总次数。==算术平均数通常称平均数,又称均数或均值。英文为Mean,故以24算术平均数的计算方法1、用原始数据计算平均数。当一组数据个数不多时,可直接用原始数据来计算。如某实验小组10人的实验成绩为11,13,15,16,16,16,17,18,18,20。其平均数为:===16算术平均数的计算方法1、用原始数据计算平均数。当一组数据个252、用频数分布表求平均数。如果样本的数据很多,达到数十个或数百个,则需编制频数分布表,用频数分布表求平均数。=Xc为各组的组中值,f为各组的频数,N为总次数()
2、用频数分布表求平均数。如果样本的数据很多,达到数十个或26某中学初三甲班60人英语期中考试成绩
平均数、标准差计算表
==73.5
73.5
73.5
73.5
73.5某中学初三甲班60人英语期中考试成绩
平均数、标准差计算表27中位术与平均数的比较(1)平均数要求计算所有的数值,而中位数只用到数值的相对位置,一般说来平均数利用了更多的信息,更全面和准确.¬(2)平均数容易受到极端值的影响,中位数则不会受到这种影响.平均数是一种比中位数更为稳定的量度,它随样本的变化比较少.(3)当资料是定序,定类测量或者是有开口组的定居测量时,中位数能够拟补不足.中位术与平均数的比较(1)平均数要求计算所有的数值,而中位数28三.离散量数分析
离散(中)量数分析指的是用一个特别的数值来反映一组数据相互之间的离散(中)程度.即各组数据相对于平均数的差异程度(离中程度)。差异程度小,平均数的代表性高;差异程度大,代表性低。它与集中量数一起分别从两个不同的侧面描述和揭示一组数据的分布情况.共同反映出资料分布的全面特征,同时它还对现各集中量数的代表性做出补充说明.常见的离散量数统计量有全距,标准差,异众比率,和四分位差.三.离散量数分析离散(中)量数分析指的是用一个特别的数29
示例:某三个班各选5名同学参加测试.他们的成绩分别如下中文系:78,79,80,81.82X=80数学系:65,72,80,88,95X=80外语系:35,78,89,98,100X=80如果仅以集中量数来衡量,这三个队的水平一样高,但是很明显.这80分对中文系队的同学代表性最高,而对外语系的同学代表性最低.示例:301.全距(R)全距也叫极差,它是一组数据中,最大值与最小值之差.
它是表示数据分布离散程度最简单的方式,即一组数据中最大数与最小数差,故称两极差。R=Xmax-Xmin当数据较多时,应用频数分布表求全距。其方法为:最大组与最小组的组中值之差或最大组上限与最小组下限之差。R=Xcmax-XcminR=Umax-Lmin1.全距(R)全距也叫极差,它是一组数据中,最大值与最小值之31R=98(最大值)—43(最小值)
=551.求全距步骤R=98(最大值)—43(最小值)1.求全距步32视数据资料的性质和数据多少而定。组数不宜太多,如太多不能明显表示出分布的主要趋势。但也不宜太少,太少则把很多不同事实归于一组,其分配的主要特征将因此而被蒙蔽。2.定组数
分组参考表
n5080100150200300500100020005000分组数9111214161822303956视数据资料的性质和数据多少而定。组数不宜太多,如太多不能明显33组距就是每一组的间距,即每组所包含的单位。组距以“i”表示。3、求组距
组距i
=
=9.3
i=本例组数为6,组距一般地,为计算方便,组距取10为宜
组距就是每一组的间距,即每组所包含的单位。组距以“i”表示。34组限是分组的界限,其底数为下限(L),其顶数为上限(U)。组限的写法有很多,有的用上下限表示,有的用组中值表示。如以“10”为组距,一般多用首尾相接,间隔为10的形式表示。即60~70,70~80,80~90。其中每组上限即为下一组的下限,通常将组下限包含在本组中,而不包含在上限所在的组。因为分组的实际界限应是这一组的精确界限,如“80~90”这一组的精确界限为“79.5~89.4999……”。4.定组限组限是分组的界限,其底数为下限(L),其顶数为上限(U)。组355.求组中值
组中值XC=精确下限L+
如以10为组距,则”80~90”一组的组中值为:组中值=79.5+=84.5
5.求组中值组中值XC=精确下限L+如以10为组36某中学初三甲班60人英语期中考试成绩频数分布表6.归类划记
某中学初三甲班60人英语期中考试成绩频数分布表6.归类划372.标准差标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。一般以S(或来表示)式中S(样本统计值)为标准差,X为各学生的成绩分数,为学生成绩的平均数,x为各学生成绩分数的离差,n为学生(数据)数。S==2.标准差标准差:一组数据对其平均数的偏差平方的算术平均38例1:某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:7879808182数学系:6572808895英语系:35788998100平均成绩=80
标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。S(中文系)=1.414(分)S(数学系)=10.8(分)S(英语系)=23.8(分)S=例1:某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如39例2.例:有某生三次数学考试的成绩分别为70、57、45,三次考试的班平均为70、55、42,标准差分别为8、4、5。如何看待该生的三次考试成绩的地位?(如果仅从原始分数看,肯定认为第一次最好,其实不然,要计算出各次的标准分数,才能说明问题。)Z1=(70-70)/8=0Z2=(57-55)/4=0.5Z3=(45-42)/5=0.6这说明,原始分数为70,其位置正在平均线上,而原始分数为57的,其位置在平均线上0.5处,而原始分数为45的,其位置在平均线上0.6处。
例2.例:有某生三次数学考试的成绩分别为70、57、45,三403.异从比率
是指非众数的次数与总体内全部总体单位的比率。异众比率越小,众数的代表性越大。4.四分位差
把一组数据按大小排列成序列,然后分成四个数据数目相等的段落,各段落分界点上的数,叫四分位数。(即每组占25%)
舍去资料中数值最高的25%和最低的25%,仅就中间50%数据求其量数作为离中量数,就是四分位差。
四分位差之间的间距越小,中位数的代表性越大。(1)对定序类资料计算四分位差。 Q=Q3-Q1
(2)对定距类资料计算四分位差。3.异从比率41使用说明:众数与异众比率配合;中位数与四分位差配合;平均数与标准差配合。使用说明:众数与异众比率配合;中位数与四分位差配合;平均数与42四、相对差异(离散或离中)量数
1.离散系数
离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数进行比较,或者对两个不同总体中的同一离散量数进行比较。。离散系数的定义是:标准差与平均数的比值,用百分比表示。CV=S/XCV=×100CV=×100
四、相对差异(离散或离中)量数1.离散系数43例1:一项调查得到下列结果,某市人均平均收入为92元,标准差为17元,人均住房面积7.5平方米,标准差为1.8平方米。试比较该市人均收入和人均住房情况哪一个差异程度比较大。[解]人均收入的离散系数为CV=S/×100%=18.5%人均住房面积的离散系数为CV=1.8/7.5×100%=24%例2:对广州和武汉两地居民生活质量调查发现,广州居民平均收入为680元,标准差为120元;武汉居民平均收入为360元,标准差为80元。问广州居民相互之间的差异程度,与武汉居民相互之间在收入上的差异程度哪一个更大一些?[解]广州居民收入的离散系数为CV=120/680×100%=17.6%武汉居民收入的离散系数为CV=80/360×100%=22.2%例1:一项调查得到下列结果,某市人均平均收入为92元,标准差44五、标准分数
是用来描述变量分布中某一分数在整个分布中所处的位置,它是以标准差为单位的相对量数。其计算公式为:
z
==从公式可以得知标准分数是一个分数与其平均数之差除以标准差所得的商。平均数以上各点的分数为正值,平均数以下各点的分数为负值,平均数的分数为零。五、标准分数是用来描述变量分布中某一分数在整个分布中所处的45例如:某班语文平均考试成绩为75分,标准差为8.5分。甲生得92分,乙生得70分,问甲乙二生的分数各为多少?
Z甲=Z乙=
=2=-.59据正态分布理论可知的取值范围在-3到+3之间。为了使标准分数变成正值并减少小数位数,以便于比较,我们可将标准分数进一步经线性转换成标准分数。其计算公式为:T=10Z+50
例如:某班语文平均考试成绩为75分,标准差为8.5分。甲生得46目前,我国各类学校招考新生和对学生进行学习成绩考查评定的主要手段是考试。而对考试成绩的评分一般是用百分制来表示,并用各科成绩相加按总分来决定被试者的优劣取舍。这种做法开来似乎公平,实际上很不合理。因为各科试题的难易程度不同,造成评分标准的宽严不一,因此各科考试成绩的统计量数,如平均数、标准差也不相等。我们不能说语文的考分80分等价于数学的考分的80分,也不能说英语考分75分等价于物理的考分75分,在这种情况下,把考生的各科考分等量齐观地相加起来,凭个考生的总分来决定优劣取舍,显然是十分不合理的。科学的方法,就是把考生是各科分数,经过一个标准化的转化过程,把每个考生的各科分数变成标准分数,然后再进行相加和比较。目前,我国各类学校招考新生和对学生进行学习成绩考查评47甲乙两位考生七科分数的标准化表
甲乙两位考生七科分数的标准化表48练习1.根据各小组调查的问卷,先进行数据清理工作,然后对某些问题进行单变量的统计描述,绘制频数分布表。2.在一个社区诊所,10天内来排队看病的人数分别是52,68,39,47,57,32,75,25,31和93,求算术平均数和中位数,以及标准差练习1.根据各小组调查的问卷,先进行数据清理工作,然后对某些49
第二节单变量统计推论
统计推断,是指根据样本所提供的详细,运用概率的理论进行分析、论证,在一定的可靠程度上,对总体分布的特征进行估计、推测。具体内容包括:
(一)总体参数的估计(二)假设检验第二节单变量统计推论统计推断,是指根据样本所提供的50一、区间估计
以样本统计量的抽样分布为理论依据,按一定概率要求,由样本统计量的值来估计总体参数的值所在的范围,叫做总体参数的区间估计。
一、区间估计以样本统计量的抽样分布为理论依据,按一定概率要511、平均数抽样分布与总体均数的区间估计从正态分布中随机抽取容量为的一切可能样本的平均数抽样分布是以总体平均数为中心的正态分布。当总体标准差已知时,一切可能样本平均数与总体平均数的离差统计量呈标准正态分布。区间估计:区间估计的实质就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来估价总体的参数值。范围的大小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性的问题。1、平均数抽样分布与总体均数的区间估计从正态分布中随机抽取52
其中,表示样本平均数的标准分数,表示样本平均数,表示总体平均数,表示平均数标准误。
其中,表示样本平均数的标准分数,53资料审核与初步统计课件54资料审核与初步统计课件55课堂练习题例:调查某厂职工的工资状况,随机抽取900名工人做样本,调查得到他们的月平均工资为186元,标准差为42元。求95%的置信度下,全厂职工的月平均工资的置信取间是多少?[解]将调查资料代入总体均值的区间估计公式得总体均值的置信区间为183.26-188.74当将置信度提高到99%,总体的置信区间为182.39-189.61元(随着可靠性的提高,所估计的区间扩大了,但估计的精确性就相应地降低了。例:从某工厂随机抽取400名工人进行调查,结果表明女工的比例为20%。现在要求在90%的置信度下,估计全厂工人中女工比例的置信区间。[解]带入总体百分数的区间估计公式得16.7%-23.%课堂练习题56小结:要对总体均数进行区间估计,即在一定的可靠程度上求出总体均数的置信区间的上下限,首先,要知道与所要估计的参数相对应的样本统计量的值,以及样本统计量的抽样分布;其次,要求出该统计量的标准误;最后,要明确在多大的可靠度上对总体均数作估计,再通过查抽样分布概率分布表,找出与该可靠度所对应的该分布在横轴上记分的临界值,从而计算出总体均数的置信区间。小结:要对总体均数进行区间估计,即在一定的可靠程度上求出总体57二、假设检验利用样本信息,根据一定的概率,对总体参数或分布的某一假设作出拒绝或保留的决断,称为假设检验。二、假设检验利用样本信息,根据一定的概率,对总体参数或分布58当对某一总体参数进行假设检验时,首先从该总体中随机抽取一个样本,然后计算统计量的值,并根据经验对相应的总体参数提出一个假设值,这个假设是说这个样本统计量的值是由这个假设总体参数值的一个随机样本,即这个样本来源于这个总体,而样本统计量的值与总体参数值之间的差异是由抽样误差所致。根据这一假设,可以认为像这样的一切可能样本统计量的值应当以总体参数值(假设的)为中心形成该统计量的一个抽样分布。如果这个随机样本统计量的值在其抽样分布上出现的概率较大时,就得保留这个假设,即承认这个样本来自这个总体,而样本统计量的值与总体参数值之间的差异是由抽样误差所致。此时称样本统计量的总体参数与假设的总体参数差异不显著。否则就拒绝这个假设,否认这个样本来自这个总体,样本统计量的总体参数与总体参数值之间有显著差异。当对某一总体参数进行假设检验时,首先从该总体中随机抽取一个样59假设检验先对总体的某一参数作出假设,然后用样本的统计量去进行验证,以决定假设是否为总体做接受。依据的概率论中的小概率原理,即“小概率事件在一次观察中不可能出现”的原理。步骤:(1)建立虚无假设和研究假设,通常是将原假设作为虚无假设;(2)根据需要选择适当的显著性水平α(即概率的大小),通常有α=0.01等;(3)根据样本数据计算出统计值,并根据显著性水平查出对应的临界值;(4)将临界值与统计值进行比较,若临界值大于统计值的绝对值,则接受虚无假设;反之,则接受研究假设。假设检验60资料审核与初步统计课件61例:某单位职工上月平均收入为210元,标准差为15元。问该单位职工本月平均收入与上月相比是否有变化?[解]建立虚无假设(H0)和研究假设H1
H0:μ=210H1:μ≠210选择显著性水平a=0.05,带入样本数据计算统计值Z,得=6.67>1.96所以拒绝虚无假设,接受研究假设,即从总体上来说,该单位职工月平均收入与上月相比有变化。例:某单位职工上月平均收入为210元,标准差为15元。问该单62Z检验Z检验是用正态分布的理论差异发生的概率(误差发生的概率),从而比较两个平均数(样本平均数与总体平均数或两个样本平均数)的差异是否显著。Z检验适用于大样本(n>30)Z检验可分为单总体检验和双总体检验。Z检验Z检验是用正态分布的理论差异发生的概率(误差发生的63单总体的检验单总体的检验64t
检验单总体的检验
单总体的检验是检验一个样本平均数与一已知的总体平均数的差异是否显著。其检验统计量的计算公式为:
式中t为检验的样本平均数与已知总体平均数的标准离差分数,df为t分布的自由度。
t检验单总体的检验65例如:某校初中三年级学生期中英语考试成绩平均数为73分,标准差为17分。期终考试后,从该年级学生中随机抽取20人的英语成绩,其平均数为79.4分,问该年级学生的英语成绩是否真有进步?例如:某校初中三年级学生期中英语考试成绩平均数为73分,标准66第三节相关与回归分析
对两变量间关系进行描述,最常用的是相关量。相关就是指二列变量之间的相互关系。如身高和体重、学习成绩与思想品德等的相互关系。类型:单相关、一元回归与多元相关、多元回归;回归又分为线性与非线性回归。第三节相关与回归分析对两变量间关系进行描述,最常用的是67一种是两列变量的变动方向相同,即一种变量变动时,另一种变量也发生或大或小的相同方向的变动,如身高与体重的关系,一般来说,身高越高,体重越重,这叫正相关;
另一种相关情况是当一种变量变动时另一种变量是或大或小地向相反方向变动,如身体健康状况与患病率的关系,身体越好,患病率越小,这叫负相关。
第三种是零相关,即两列变量变化方向无一定规律,一个变量变动时,另一变量的变动方向可能与其相同,也可能与其相反,且相同与相反的机会趋于相等,如人的相貌与其思想品德之间是毫无关系的零相关。
一种是两列变量的变动方向相同,即一种变量变动时68第三节相关与回归分析相关系数回归分析及测定方法第三节相关与回归分析相关系数69一、相关系数◆相关系数是用来表示相关程度的量的指标,用r表示。其数值范围在-1至+1之间,◆r的正负号表示变化的方向,
正号表示变化的方向相同,是正相关;负号表示变化的方向相反,是负相关。
◆r的绝对值表示两变量之间的密切程度(强度),
绝对值越接近1,表示两变量之间的关系越密切;越接近0,表示两变量之间的关系越不密切。◆如r=1表示完全正相关;r=-1表示完全负相关;r=0表示零相关。一、相关系数◆相关系数是用来表示相关程度的量的指标,用r表示70计算相关系数时,要求二列变量必须成对,而且变量的性质不同亦应计算不同的相关系数,即不同的相关系数适用于不同的变量类型。●如皮尔逊积差相关系数适用于两列等距变量;●斯皮尔曼等级相关系数适用于两列等级变量;●点二列相关系数适用于反映一等距变量与另一真正二分变量间相关程度;●二列相关系数适用于反映一等距变量与另一人为二分变量间相关程度,计算相关系数时,要求二列变量必须成对,而且变量的性质不同亦应71积差相关系数式中:,,n为成对变量的数目,SX为X变量的标准差,SY为Y变量的标准差。积差相关系数式中:,,n为72若用原始分数直接求r,其计算公式为:若用标准分数计算r,其公式为:
若用原始分数直接求r,其计算公式为:若用标准分数计算r,735名大学生身高提高相关系数计算表5名大学生身高提高相关系数计算表74
不同层次变量的相关测量与检验1.定类变量与定类变量消减误差比例,指的就是知道X的值时所减少的误差(E1-E2)与总误差的比。2.定序变量与定序变量3.定类变量(或定序变量)与定距变量4.定距变量和定距变量两变量层次相关系数取值范围是否对称有无消减误差的比例意义检验方法SPSS有无该系数定类-定类定类-定序λ[0,1]对称有x2有定序-定序G[-1,1]对称有Z有定类-定距定序-定距EE2
[0,1]不对称无有F有定距-定距rr2
[-1,1][0,1]对称无有F(t检验)有不同层次变量的相关测量与检验两变量层次相关系数取值75二、回归分析及测定方法
相关系数是一种广泛使用的描述统计量,用以描述两个变量间的关系,除此以外,它还具有预测功能,即根据一个变量的情况去预测另一个变量。如果我们把存在相关的两个变量中的一个作为自变量(预测变量),另一个作为因变量(标准变量),并且把两者之间并不十分准确、稳定的关系用数学方程式表达出来,则可以利用该方程自变量来估计预测因变量的估计值。这一过程称为回归分析。相关分析的目的在于了解两个变量间的关系强度,即用相关系数来描述X和Y两个变量之间的共变特征。回归分析则是对相关关系的现象,根据其关系的形态找出一个合适的数学模型,即建立回归方程,来近似地表达变量间的平均变化关系,以便依据回归方程对未知的情况进行估计和预测。建立回归方程的基础是最小二乘法。
二、回归分析及测定方法相关系数是一种广泛使用的描述统76两个变量(预测变量X与标准变量Y)间的回归分析,是只有一个自变量的线性回归,也叫一元线性回归。其回归方程为:
其中a,b、对一对特定数据来说是常数:
第四节双变量统计分析两个变量(预测变量X与标准变量Y)间的回归分析,是只有一个自77例:以前例数据计算由(身高)预测(体重)的回归方程。有了这一回归方程后,我们就可以由预测变量的值经回归方程计算出标准变量的预测值。如另一名大学生的身高为170厘米,则其体重的预测值为65.78公斤。
例:以前例数据计算由(身高)预测(体重)的回归方程。有了这一78第五节多变量统计分析一、阐释模式(elaboration)所关心的是两个变量之间的关系,它是通过引进并控制第三变量,来进一步了解和探讨原来两个变量之间关系性质的统计分析方法。因果分析阐明分析条件分析第五节多变量统计分析一、阐释模式(elaboration79因果分析的目标是检定被看作自变量的X与被看作因变量的Y之间,是否确实存在因果关系。引进若干前置变量(第三变量),以判明X与Y之间的因果关系是否为虚假的,即二者的关系是否为前置变量影响的结果。(例如,住户的拥挤程度对夫妻间冲突的影响)阐明分析的目标则是探讨因果关系的作用方式与作用途径。条件分析所关注的则是原关系在不同条件下是否会有所不同。因果分析的目标是检定被看作自变量的X与被看作因变量的Y之间,80住户拥挤对夫妻冲突的影响(%)
夫妻冲突住户拥挤程度高低高低63.8%36.2%41.6%58.4%(n)(599)(401)G=0.423Z=5.333P<0.05住户拥挤对夫妻冲突的影响(%)
夫妻冲突住户拥挤程度高低高681控制家庭经济水平后住户拥挤程度对夫妻冲突的影响(%)
夫妻冲突经济水平高经济水平中经济水平低拥挤程度拥挤程度拥挤程度高低高低高低高低61.462.238.637.881.080.719.019.310.69.689.490.4(n)(220)(90)(294)(85)(197)(114)G=-0.018G=0.008G=0.052Z=0.099(不显著)Z=0.040(不显著)Z=0.171(不显著)控制家庭经济水平后住户拥挤程度对夫妻冲突的影响(%)
经济水82二、复相关分析复相关分析是一种以一个统计值来简化多个自变量与一个因变量之间关系的统计分析方法。要求所有的变量都是定距以上层次的变量三、多元回归分析Y=b1x1+b2x2+…+bkxk+aB值称为净回归系数,它表示的是在控制了其他自变量以后,某一变量对因变量的单独效果。二、复相关分析复相关分析是一种以一个统计值来简化多个自变量与83资料审核与初步统计课件84资料审核与初步统计课件85第十二章调查资料的审核与整理
资料的审核资料的整理统计表
第十二章调查资料的审核与整理资料的审核86第一节资料的审核
资料的审核资料的审核是资料处理的第一步工作。它是指研究者对所收集的原始资料(主要是问卷)进行初步的审阅,校正错填、误填的答案,剔出乱填、空白和严重缺答的废卷。其目的是使得原始资料具有较好的准确性、完整性和真实性,从而为后续资料整理录人与统计分析工作打下较好的基础。资料的审核工作包含两方面的内容:一是检查出问卷资料中的问题;二是重新向被调查者核实。资料的审核工作有两种不同的做法:
边收集边审核集中审核
第一节资料的审核资料的审核87第二节资料的整理
一、资料整理
资料整理是根据研究目的将经过审核的资料进行分类汇总,使资料更加条理化和系统化,为进一步深入分析提供条件。二、定性资料的整理
整理笔记与建立档案
资料的编码
编码类型:开放式编码、轴心式编码选择式编码
第二节资料的整理一、资料整理88三、定量资料的整理
资料的编码(见下表一)
资料的录入(见下表二)数据清理
有效范围清理逻辑一致性清理
数据质量抽查
三、定量资料的整理89编码手册列问题号码变量名称内容说明1-6a1期刊年月编号91年6月第二个个案为9106027a2性别1.男2.女8-9a3年龄如实填写10a4学历1.小学以下2.中学3.高中4.中专5.大专6.大学7.硕士8博士9.其他11-13a5身高cm14-15a6职业1.工人2.农民3.党政机关公务员4.私营企业主5.离退休人员6,教师医生7.公安,司法,军人8.企业白领9专业技术人员10其他16a7婚姻状况1.
未婚2离婚3.丧偶4.其他表一编码手册列问题号码变量名称内容说明1-6a1期刊年月编号9190择偶标准调查数据登录表个案编号A1A2A3A4A5A6A7…1-678-91011-1314-1516…05259210011355176031…05269210022246165042…052792100312771773…05289210041286167092….05299210052318158121…05309210062247155101……………………..…06表二择偶标准调查数据登录表个案A1A2A3A4A5A6A7…1-91第三节统计表一、统计表的结构从外表形式上看,统计表由总标题、横行标题、纵栏标题、指标数值四部分组成。总标题是表的名称;横行标题在表的左端,它代表所说明的对象;纵栏标题在表的上方,它代表统计指标的名称。它们分别对横行或纵栏内的统计值作出说明。
第三节统计表一、统计表的结构92二、统计表的种类1.简单表某村历年人均收入
年份1977197819791980收入20284045二、统计表的种类1.简单表年份19771978197919932.简单分组表
是总体仅按一个标志进行分组,即运用简单分组形成的表格。某村各户年人均收入统计表年人均收入村百分比(%)60—8080—120120—1605911203842合计20
2.简单分组表年人均收入村百分比(%)60—80520合计943.复合分组表
是总体按两个以上标志进行层叠分组的统计表,它又称为交互分类表,它能表现两个分组标志之间的关系。
某村家庭规模和经济情况统计表
经济水平家庭规模大小合计高低30501201015060合计801302103.复合分组表经济水平家庭规模大小合计高30120150合计95第十三章资料的统计分析统计分析方法是一种定量分析。它是进行科学预测的重要方法。 统计分析的特点:(1)统计分析要以定性分析为基础;(2)统计分析方法必须和其他分析结合运用;统计分析有一套专门的方法和技术。第十三章资料的统计分析统计分析方法是一种定量分析。它是进96观察调查实验12229986489如何使用各种统计表与统计图来描述一组数据的分组与分布情况如何通过一组数据计算一些特征数,简缩数据,进一步显示与描述一组数据的全貌(集中情况、分散情况、分布特征)数据如何分组收集方法原始数据表达形式作用分析过程(图示)观调实12229986489如何使用各种统计表与统计97主要内容单变量描述统计单变量推论统计相关与回归分析双变量统计分析多变量统计分析主要内容98第一节、单变量描述统计
由一种变量的全部分数或观察值组成的一组或一批数据称为一个分布。单变量数据的描述统计就是对其分布情况进行说明。单变量描述统计包括集中量数分析、离散量数分析。第一节、单变量描述统计由一种变量的全部分数或观察值组成的一99一.频数分布与频率分布频数分布(FrequencyDistribution),就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。
频率分布(percentagesdistribution),是一组数据中不同取值的频数相对于总数的比率分布情况.常以百分比的形式来表达.
一.频数分布与频率分布频数分布(FrequencyDis100
编制频数分布表,画出频数分布图
某中学初三甲班60人期中英语考试分数
826093938972859768777698564577766146605189437569896080747467858755877191746488578491606159637879889687895289857656545890案例编制频数分布表,画出频数分布图某中学101某中学初三甲班60人英语期中考试成绩
累积频数(频率)分布表
某中学初三甲班60人英语期中考试成绩
累积频数(频率)分布表102资料审核与初步统计课件103二、集中量数分析集中量数就是代表数据分布集中趋势的量数。集中量数分析指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。
最常见的集中量数有算术平均数(简称平均数,也称为均值)、众数和中位数三种。
二、集中量数分析集中量数就是代表数据分布集中趋势的量数。104中位数(Md)中位数(Md),又称中数,是频数分布上50%处的数值,即将观察总数一分为二的变量值。在这个值的两边各有相同个数的数据。当数据的个数为偶数时,取分布50%(最中心)处的两个数据的平均数作为中数。中位数(Md)中位数(Md),又称中数,是频数分布上50%处105中位数(Md)中位数(Md),又称中数,是频数分布上50%处的数值,即将观察总数一分为二的变量值。在这个值的两边各有相同个数的数据。当数据的个数为偶数时,取分布50%(最中心)处的两个数据的平均数作为中数。中位数(Md)中位数(Md),又称中数,是频数分布上50%处106几何平均数(Mg)
是n个数据的连乘积开n次方的根。常用作速率的集中量数,如学龄儿童人数的增加率、学校经费的增加率、阅读能力的进步率等。
Mg=几何平均数(Mg)是n个数据的连乘积开n次方的根。常107算术平均数通常称平均数,又称均数或均值。英文为Mean,故以M表示。如果是由变量X计算得来的就记为(读X杠),现在一般都以表示样本的平均数,以U表示总体的平均数。算术平均数就是各个变量值相加求和再除以变量的总次数。==算术平均数通常称平均数,又称均数或均值。英文为Mean,故以108算术平均数的计算方法1、用原始数据计算平均数。当一组数据个数不多时,可直接用原始数据来计算。如某实验小组10人的实验成绩为11,13,15,16,16,16,17,18,18,20。其平均数为:===16算术平均数的计算方法1、用原始数据计算平均数。当一组数据个1092、用频数分布表求平均数。如果样本的数据很多,达到数十个或数百个,则需编制频数分布表,用频数分布表求平均数。=Xc为各组的组中值,f为各组的频数,N为总次数()
2、用频数分布表求平均数。如果样本的数据很多,达到数十个或110某中学初三甲班60人英语期中考试成绩
平均数、标准差计算表
==73.5
73.5
73.5
73.5
73.5某中学初三甲班60人英语期中考试成绩
平均数、标准差计算表111中位术与平均数的比较(1)平均数要求计算所有的数值,而中位数只用到数值的相对位置,一般说来平均数利用了更多的信息,更全面和准确.¬(2)平均数容易受到极端值的影响,中位数则不会受到这种影响.平均数是一种比中位数更为稳定的量度,它随样本的变化比较少.(3)当资料是定序,定类测量或者是有开口组的定居测量时,中位数能够拟补不足.中位术与平均数的比较(1)平均数要求计算所有的数值,而中位数112三.离散量数分析
离散(中)量数分析指的是用一个特别的数值来反映一组数据相互之间的离散(中)程度.即各组数据相对于平均数的差异程度(离中程度)。差异程度小,平均数的代表性高;差异程度大,代表性低。它与集中量数一起分别从两个不同的侧面描述和揭示一组数据的分布情况.共同反映出资料分布的全面特征,同时它还对现各集中量数的代表性做出补充说明.常见的离散量数统计量有全距,标准差,异众比率,和四分位差.三.离散量数分析离散(中)量数分析指的是用一个特别的数113
示例:某三个班各选5名同学参加测试.他们的成绩分别如下中文系:78,79,80,81.82X=80数学系:65,72,80,88,95X=80外语系:35,78,89,98,100X=80如果仅以集中量数来衡量,这三个队的水平一样高,但是很明显.这80分对中文系队的同学代表性最高,而对外语系的同学代表性最低.示例:1141.全距(R)全距也叫极差,它是一组数据中,最大值与最小值之差.
它是表示数据分布离散程度最简单的方式,即一组数据中最大数与最小数差,故称两极差。R=Xmax-Xmin当数据较多时,应用频数分布表求全距。其方法为:最大组与最小组的组中值之差或最大组上限与最小组下限之差。R=Xcmax-XcminR=Umax-Lmin1.全距(R)全距也叫极差,它是一组数据中,最大值与最小值之115R=98(最大值)—43(最小值)
=551.求全距步骤R=98(最大值)—43(最小值)1.求全距步116视数据资料的性质和数据多少而定。组数不宜太多,如太多不能明显表示出分布的主要趋势。但也不宜太少,太少则把很多不同事实归于一组,其分配的主要特征将因此而被蒙蔽。2.定组数
分组参考表
n5080100150200300500100020005000分组数9111214161822303956视数据资料的性质和数据多少而定。组数不宜太多,如太多不能明显117组距就是每一组的间距,即每组所包含的单位。组距以“i”表示。3、求组距
组距i
=
=9.3
i=本例组数为6,组距一般地,为计算方便,组距取10为宜
组距就是每一组的间距,即每组所包含的单位。组距以“i”表示。118组限是分组的界限,其底数为下限(L),其顶数为上限(U)。组限的写法有很多,有的用上下限表示,有的用组中值表示。如以“10”为组距,一般多用首尾相接,间隔为10的形式表示。即60~70,70~80,80~90。其中每组上限即为下一组的下限,通常将组下限包含在本组中,而不包含在上限所在的组。因为分组的实际界限应是这一组的精确界限,如“80~90”这一组的精确界限为“79.5~89.4999……”。4.定组限组限是分组的界限,其底数为下限(L),其顶数为上限(U)。组1195.求组中值
组中值XC=精确下限L+
如以10为组距,则”80~90”一组的组中值为:组中值=79.5+=84.5
5.求组中值组中值XC=精确下限L+如以10为组120某中学初三甲班60人英语期中考试成绩频数分布表6.归类划记
某中学初三甲班60人英语期中考试成绩频数分布表6.归类划1212.标准差标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。一般以S(或来表示)式中S(样本统计值)为标准差,X为各学生的成绩分数,为学生成绩的平均数,x为各学生成绩分数的离差,n为学生(数据)数。S==2.标准差标准差:一组数据对其平均数的偏差平方的算术平均122例1:某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:7879808182数学系:6572808895英语系:35788998100平均成绩=80
标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。S(中文系)=1.414(分)S(数学系)=10.8(分)S(英语系)=23.8(分)S=例1:某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如123例2.例:有某生三次数学考试的成绩分别为70、57、45,三次考试的班平均为70、55、42,标准差分别为8、4、5。如何看待该生的三次考试成绩的地位?(如果仅从原始分数看,肯定认为第一次最好,其实不然,要计算出各次的标准分数,才能说明问题。)Z1=(70-70)/8=0Z2=(57-55)/4=0.5Z3=(45-42)/5=0.6这说明,原始分数为70,其位置正在平均线上,而原始分数为57的,其位置在平均线上0.5处,而原始分数为45的,其位置在平均线上0.6处。
例2.例:有某生三次数学考试的成绩分别为70、57、45,三1243.异从比率
是指非众数的次数与总体内全部总体单位的比率。异众比率越小,众数的代表性越大。4.四分位差
把一组数据按大小排列成序列,然后分成四个数据数目相等的段落,各段落分界点上的数,叫四分位数。(即每组占25%)
舍去资料中数值最高的25%和最低的25%,仅就中间50%数据求其量数作为离中量数,就是四分位差。
四分位差之间的间距越小,中位数的代表性越大。(1)对定序类资料计算四分位差。 Q=Q3-Q1
(2)对定距类资料计算四分位差。3.异从比率125使用说明:众数与异众比率配合;中位数与四分位差配合;平均数与标准差配合。使用说明:众数与异众比率配合;中位数与四分位差配合;平均数与126四、相对差异(离散或离中)量数
1.离散系数
离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数进行比较,或者对两个不同总体中的同一离散量数进行比较。。离散系数的定义是:标准差与平均数的比值,用百分比表示。CV=S/XCV=×100CV=×100
四、相对差异(离散或离中)量数1.离散系数127例1:一项调查得到下列结果,某市人均平均收入为92元,标准差为17元,人均住房面积7.5平方米,标准差为1.8平方米。试比较该市人均收入和人均住房情况哪一个差异程度比较大。[解]人均收入的离散系数为CV=S/×100%=18.5%人均住房面积的离散系数为CV=1.8/7.5×100%=24%例2:对广州和武汉两地居民生活质量调查发现,广州居民平均收入为680元,标准差为120元;武汉居民平均收入为360元,标准差为80元。问广州居民相互之间的差异程度,与武汉居民相互之间在收入上的差异程度哪一个更大一些?[解]广州居民收入的离散系数为CV=120/680×100%=17.6%武汉居民收入的离散系数为CV=80/360×100%=22.2%例1:一项调查得到下列结果,某市人均平均收入为92元,标准差128五、标准分数
是用来描述变量分布中某一分数在整个分布中所处的位置,它是以标准差为单位的相对量数。其计算公式为:
z
==从公式可以得知标准分数是一个分数与其平均数之差除以标准差所得的商。平均数以上各点的分数为正值,平均数以下各点的分数为负值,平均数的分数为零。五、标准分数是用来描述变量分布中某一分数在整个分布中所处的129例如:某班语文平均考试成绩为75分,标准差为8.5分。甲生得92分,乙生得70分,问甲乙二生的分数各为多少?
Z甲=Z乙=
=2=-.59据正态分布理论可知的取值范围在-3到+3之间。为了使标准分数变成正值并减少小数位数,以便于比较,我们可将标准分数进一步经线性转换成标准分数。其计算公式为:T=10Z+50
例如:某班语文平均考试成绩为75分,标准差为8.5分。甲生得130目前,我国各类学校招考新生和对学生进行学习成绩考查评定的主要手段是考试。而对考试成绩的评分一般是用百分制来表示,并用各科成绩相加按总分来决定被试者的优劣取舍。这种做法开来似乎公平,实际上很不合理。因为各科试题的难易程度不同,造成评分标准的宽严不一,因此各科考试成绩的统计量数,如平均数、标准差也不相等。我们不能说语文的考分80分等价于数学的考分的80分,也不能说英语考分75分等价于物理的考分75分,在这种情况下,把考生的各科考分等量齐观地相加起来,凭个考生的总分来决定优劣取舍,显然是十分不合理的。科学的方法,就是把考生是各科分数,经过一个标准化的转化过程,把每个考生的各科分数变成标准分数,然后再进行相加和比较。目前,我国各类学校招考新生和对学生进行学习成绩考查评131甲乙两位考生七科分数的标准化表
甲乙两位考生七科分数的标准化表132练习1.根据各小组调查的问卷,先进行数据清理工作,然后对某些问题进行单变量的统计描述,绘制频数分布表。2.在一个社区诊所,10天内来排队看病的人数分别是52,68,39,47,57,32,75,25,31和93,求算术平均数和中位数,以及标准差练习1.根据各小组调查的问卷,先进行数据清理工作,然后对某些133
第二节单变量统计推论
统计推断,是指根据样本所提供的详细,运用概率的理论进行分析、论证,在一定的可靠程度上,对总体分布的特征进行估计、推测。具体内容包括:
(一)总体参数的估计(二)假设检验第二节单变量统计推论统计推断,是指根据样本所提供的134一、区间估计
以样本统计量的抽样分布为理论依据,按一定概率要求,由样本统计量的值来估计总体参数的值所在的范围,叫做总体参数的区间估计。
一、区间估计以样本统计量的抽样分布为理论依据,按一定概率要1351、平均数抽样分布与总体均数的区间估计从正态分布中随机抽取容量为的一切可能样本的平均数抽样分布是以总体平均数为中心的正态分布。当总体标准差已知时,一切可能样本平均数与总体平均数的离差统计量呈标准正态分布。区间估计:区间估计的实质就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来估价总体的参数值。范围的大小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性的问题。1、平均数抽样分布与总体均数的区间估计从正态分布中随机抽取136
其中,表示样本平均数的标准分数,表示样本平均数,表示总体平均数,表示平均数标准误。
其中,表示样本平均数的标准分数,137资料审核与初步统计课件138资料审核与初步统计课件139课堂练习题例:调查某厂职工的工资状况,随机抽取900名工人做样本,调查得到他们的月平均工资为186元,标准差为42元。求95%的置信度下,全厂职工的月平均工资的置信取间是多少?[解]将调查资料代入总体均值的区间估计公式得总体均值的置信区间为183.26-188.74当将置信度提高到99%,总体的置信区间为182.39-189.61元(随着可靠性的提高,所估计的区间扩大了,但估计的精确性就相应地降低了。例:从某工厂随机抽取400名工人进行调查,结果表明女工的比例为20%。现在要求在90%的置信度下,估计全厂工人中女工比例的置信区间。[解]带入总体百分数的区间估计公式得16.7%-23.%课堂练习题140小结:要对总体均数进行区间估计,即在一定的可靠程度上求出总体均数的置信区间的上下限,首先,要知道与所要估计的参数相对应的样本统计量的值,以及样本统计量的抽样分布;其次,要求出该统计量的标准误;最后,要明确在多大的可靠度上对总体均数作估计,再通过查抽样分布概率分布表,找出与该可靠度所对应的该分布在横轴上记分的临界值,从而计算出总体均数的置信区间。小结:要对总体均数进行区间估计,即在一定的可靠程度上求出总体141二、假设检验利用样本信息,根据一定的概率,对总体参数或分布的某一假设作出拒绝或保留的决断,称为假设检验。二、假设检验利用样本信息,根据一定的概率,对总体参数或分布142当对某一总体参数进行假设检验时,首先从该总体中随机抽取一个样本,然后计算统计量的值,并根据经验对相应的总体参数提出一个假设值,这个假设是说这个样本统计量的值是由这个假设总体参数值的一个随机样本,即这个样本来源于这个总体,而样本统计量的值与总体参数值之间的差异是由抽样误差所致。根据这一假设,可以认为像这样的一切可能样本统计量的值应当以总体参数值(假设的)为中心形成该统计量的一个抽样分布。如果这个随机样本统计量的值在其抽样分布上出现的概率较大时,就得保留这个假设,即承认这个样本来自这个总体,而样本统计量的值与总体参数值之间的差异是由抽样误差所致。此时称样本统计量的总体参数与假设的总体参数差异不显著。否则就拒绝这个假设,否认这个样本来自这个总体,样本统计量的总体参数与总体参数值之间有显著差异。当对某一总体参数进行假设检验时,首先从该总体中随机抽取一个样143假设检验先对总体的某一参数作出假设,然后用样本的统计量去进行验证,以决定假设是否为总体做接受。依据的概率论中的小概率原理,即“小概率事件在一次观察中不可能出现”的原理。步骤:(1)建立虚无假设和研究假设,通常是将原假设作为虚无假设;(2)根据需要选择适当的显著性水平α(即概率的大小),通常有α=0.01等;(3)根据样本数据计算出统计值,并根据显著性水平查出对应的临界值;(4)将临界值与统计值进行比较,若临界值大于统计值的绝对值,则接受虚无假设;反之,则接受研究假设。假设检验144资料审核与初步统计课件145例:某单位职工上月平均收入为210元,标准差为15元。问该单位职工本月平均收入与上月相比是否有变化?[解]建立虚无假设(H0)和研究假设H1
H0:μ=210H1:μ≠210选择显著性水平a=0.05,带入样本数据计算统计值Z,得=6.67>1.96所以拒绝虚无假设,接受研究假设,即从总体上来说,该单位职工月平均收入与上月相比有变化。例:某单位职工上月平均收入为210元,标准差为15元。问该单146Z检验Z检验是用正态分布的理论差异发生的概率(误差发生的概率),从而比较两个平均数(样本平均数与总体平均数或两个样本平均数)的差异是否显著。Z检验适用于大样本(n>30)Z检验可分为单总体检验和双总体检验。Z检验Z检验是用正态分布的理论差异发生的概率(误差发生的147单总体的检验单总体的检验148t
检验单总体的检验
单总体的检验是检验一个样本平均数与一已知的总体平均数的差异是否显著。其检验统计量的计算公式为:
式中t为检验的样本平均数与已知总体平均数的标准离差分数,df为t分布的自由度。
t检验单总体的检验149例如:某校初中三年级学生期中英语考试成绩平均数为73分,标准差为17分。期终考试后,从该年级学生中随机抽取20人的英语成绩,其平均数为79.4分,问该年级学生的英语成绩是否真有进步?例如:某校初中三年级学生期中英语考试成绩平均数为73分,标准150第三节相关与回归分析
对两变量间关系进行描述,最常用的是相关量。相关就是指二列变量之间的相互关系。如身高和体重、学习成绩与思想品德等的相互关系。类型:单相关、一元回归与多元相关、多元回归;回归又分为线性与非线性回归。第三节相关与回归分析对两变量间关系进行描述,最常用的是151一种是两列变量的变动方向相同,即一种变量变动时,另一种变量也发生或大或小的相同方向的变动,如身高与体重的关系,一般来说,身高越高,体重越重,这叫正相关;
另一种相关情况是当一种变量变动时另一种变量是或大或小地向相反方向变动,如身体健康状况与患病率的关系,身体越好,患病率越小,这叫负相关。
第三种是零相关,即两列变量变化方向无一定规律,一个变量变动时,另一变量的变动方向可能与其相同,也可能与其相反,且相同与相反的机会趋于相等,如人的相貌与其思想品德之间是毫无关系的零相关。
一种是两列变量的变动方向相同,即一种变量变动时152第三
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教师个人申请合同范本
- 部编版高一上学期家校沟通工作计划
- 虚拟销售合同范本
- 2021儿内科(副)高级职称考试题库及答案
- 植物病害基础知识
- 家庭防性侵意识提升计划
- 购物中心沥青路面施工工艺及环保措施
- 钢结构施工的安全风险与质量控制措施
- 银行安全保卫工作个人计划
- 2025大学教师年度考核个人总结-团队合作经验范文
- 八颗行星课件-科学六年级下册教科版
- 2025年上半年福建福州平潭综合实验区文旅发展集团限公司招聘11人易考易错模拟试题(共500题)试卷后附参考答案
- 2025湖南长沙振望投资发展有限公司招聘8人笔试参考题库附带答案详解
- 承插型盘扣式钢管脚手架安全技术标准JGJT231-2021规范解读
- 企业安全风险分级管控和隐患排查治理工作指南
- 2025年4月自考15040习概押题及答案
- 湖北省十一校2025届高三第二次联考数学试卷(含答案)
- 2025年安阳职业技术学院单招职业技能测试题库附答案
- DB33 1121-2016 民用建筑电动汽车充电设施配置与设计规范
- 北京市第一○一中学2023-2024学年八年级下学期期中英语试题
- 六年级下册语文《狱中联欢》课件
评论
0/150
提交评论