已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
。统计第一章一、心理与教育统计的定义与性质 定义:在心理与教育研究中,通过调查、实验、测量等手段有意地获取一些数据,并将得到的数据按照统计学的原理和步骤加以整理、计算、绘制图表、分析、判断、推理,最后得到结论的一种研究方法。 性质:应用统计学。二、心理与教育科学研究数据的特点 (1)数据与结果多用数字呈现 (2)数据具有一定的随机性和变异性 (3)数据具有一定的规律性 (4)通过部分数据来推测总体的特征三、心理与教育统计学的内容1、描述统计(descriptive stastics)主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。包括:A、数据如何分组、使用统计图表描述一组数据的分布情况; B、计算一组数据的特征值(集中量数和差异量数),进而描述一组数据的全貌; C、表示一事物两种或两种以上属性间的相互关系(相关分析)。2、推论统计(inferential statistics)主要研究如何通过局部数据所提供的信息,推论总体的情形。包括:A、如何进行假设检验,如z检验、t检验、卡方检验、F检验、回归分析等; B、总体参数特征值的估计方法; C、各种非参数检验的统计方法。3、实验设计(experimental design)主要目的在于研究如何科学地、经济地以及有效地进行实验,它是统计学近几十年发展起来的一部分内容。四、心理与教育的基础概念 数据类型1、从数据的观测方法和来源来划分 计数数据(count data)是指计算个数的数据,如人口数、学校数、男女数等等。一般取整数形式; 测量数据(measurement data)是指借用一定的测量工具或具有一定的测量标准而获得的数据,如身高、考试成绩、金钱数额、智力测验等。2、根据数据的测量水平划分: 称名数据(nominal data) 顺序数据(ordinal data) 等距数据(interval data) 比率数据(ratio data)3、根据数据是否具有连续性划分: 离散数据(discrete data) 连续数据(continuous data)5、 变量、观测值、随机变量 变量(variables)是指实验、观察、调查中想要获得的数据; 而一旦确定某个值,就称这个值为某一变量的观测值(observation),即为具体的数据; 在统计学中,把取值之前不能预料取到什么值的变量,称之为随机变量。 与变量相反的是常量,它在一定范围内其数值不会随意改变。6、 总体、样本与个体 总体(population)又称母全体、全域,指具体有某种特征的一类事物的全体; 构成总体的每个基本单元称为个体(individual); 从总体中抽取一部分个体,称之为总体的一个样本(sample)。7、 次数、比率、频率与概率 在一项研究中,我们对随机现象进行观察试验,在一定条件下,本质不同的事物可能出现,也可能不出现,这种事情称为随机事件; 次数是指某一事件在某一类别中出现的数目,又称为频数(frequency),用f表示; 两个数的比例称为比率; 频率又称相对次数,即某一事件发生的次数被总的事件数目除,通常用比例或百分数表示; 概率又称机率、或然率(probability)用p表示,表示一事件在无限的观测中所能预料的相对出现的次数,也就是某一事件在总体中出现的比率,通常用比例表示。8、 参数与统计量 在科学研究中,我们探寻的是关于所有事物的说明和解释。能说明和解释总体特征的那些特性称之为参数(parameter),又称为总体参数;与之相对的是,样本的那些特征值称为统计量(statistics)。 参数是从总体中计算得到;一般是个常量;一般用希腊字母表示; 统计量是从样本中得到;一般随样本的变化而变化,是个变量;一般用英文字母(斜体)表示。第二章1、 统计图表 统计表和统计图是对数据进行初步整理,以简化的形式加以表现的两种最简单的方式。统计表具有简明、清晰、准确的特点,数据易于比较分析;统计图具有简明、直观、可视化等特点。在制定统计图表时首先要完成最基本的两步:a、数据排序(sort or order)是指按照某种标准,对收集到的杂乱无章的数据按照一定的顺序标准进行排序。 升序(ascending) 降序(descending)b、统计分组是指根据被研究对象的特征,将所得的数据划分到各个组别中去。 步骤: 1)统计分组前的准备(进一步地核对和校检数据、删除受过失影 响数据、删除3个标准差之外的数据) 2)统计分组应注意事项(分组要以被研究对象的本质特性为基础;分类标志要明确,既要包含数据的所有范围,同时分类不能重合) 3)分组的标志(性质类别和数量类别)2、 次数分布表次数分布(frequency distribution)显示初步整理后一组数据的分布情况。它主要表示数据在各个分组区间内的散布情况。简单次数分布表(适用于计数数据)(simple frequency table)就是依据每一个分值在一列数据中出现的次数或总计数资料编制成的统计表。分组次数分布表(重点)(适用于测量数据)当数据量很大时,应该把所有的数据划分若干区间,然后再按数据按其值大小划分到相应的区组内,分别统计各个组别中的个数,再用列表形式呈现出来,就构成了分组次数分布表(grouped frequency table)。具体步骤如下:A、求全距全距(range)是指最大值和最小值两个数据之间的差距。B、决定组距和组数组距(interval)是指任意一组的起点和终点之间的举例,用符号i表示。全距除以组距即为组数。C、列出分组区间分组区间即一个组的起点值和终点值之间的距离,又叫组限。起点值称为组下限,终点值称为组上限,组限又可以分为表述组限和精确组限。D、登记次数E、计算次数 相对次数分布表累加次数分布表双列次数分布表(难点)双列次数分布表又称相关次数分布表,是对有联系的两列变量用同一个表表示其次数分布。编制双列次数分布表的步骤:首先按照分组次数分布表的编制方法,分布列出各变量的分组区间,将一列变量的分组区间竖列,将另一列变量为横列;然后再登记、计数。3、 次数分布图 在次数分布表的基础上,若对分布进行粗略分析、动态趋势、差异细节,获得更为直观印象就要绘制次数分布图。通常使用的主要有:1、直方图(histogram)也叫等距直方图,是以矩形的面积表示连续性随机变量次数分布的图形。一般用纵轴表示数据的频数,横轴表示数据的等距分组点。2、次数多边形图(frequency polygon)是一种连续性随机变量次数分布的线形图。绘制图时,横坐标是用各分组区间组中值表示的连续变量,纵坐标是数据的频数,连接各点,就成为一条折线。3、累加次数分布图累加次数分布图可以分为累加直方图和累加曲线。四、其他常用的统计图表类型表:A、简单表 B、分组表 C、复合表 图:A、条形图(bar charts)也叫直条图,主要用于表示离散型数据资料,即计数资料。 B、圆形图(circle graph)又叫饼图(pie),主要用于描述间断性的资料,目的是为了显示各部分在整体中所占有的比重大小,以及各部分之间的比较。 C、线形图(line graph)更多用于连续性资料,凡欲研究两个变量之间的函数关系,或描述某种现象在时间上的发展趋势,或一种现象随着另一种现象的变化情形,用线性图表示是最后的方法。同时还可以在图表中画两条线或多条线,用于比较两组或多组数据资料。 D、散点图(scatter plots),它是用相同大小圆点的多少或疏密表示统计资料数量大小以及变化趋势的图。第三章一、集中趋势(central tendency)和离中趋势(divergence tendency)是次数分布的两个基本特性。 数据的集中趋势是指数据分布中大量数据向某方向集中的程度; 离中趋势是指数据分布中的数据彼此分散的程度。 这两种趋势分别用集中量数(measures of central tendency)和离中量数(measures of divergence tendency)来表示。一)、算术平均数(arithmetic average),一般简称平均数或均值(mean)。1、 平均数的计算方法(1)未分组数据的计算平均数的方法(2)用估计平均数技术平均数(3)计算次数分布表中的平均数2、平均数的特点 1)一组数据中每个变量与平均数之差(离均差)的总和等于0; 2)在一组数据中,每个数据都加上C,则所得的平均数为原来的平均数加上C; 3)在一组数据中,每一个数都乘以一个常数C,所得的平均数为原来的平均数乘以C.3、 平均数的优缺点 优点:1、反应灵敏;2、计算严密;3、计算简单;4、简明易解; 5、适合做进一步的代数运算;6、较少受抽样的影响; 缺点:1、易受极端数据的影响;2、若出现模糊不清的数据时,无法计算平均数。4、 计算和应用平均数的原则 同质性原则 平均数与个体数值相结合的原则 平均数与标准差、方差相结合的原则2) 、中数(median),又称中点数,符合Md或Mdn,它是指按顺序排列在一起的一族数据中居于中间位置上的数,即在这组数据中,有一半的数据比它大,一半的数据比它小。 中数的优缺点 优点:计算简单快捷,容易理解,概念简单明白,不受极端值的影响; 缺点:没有充分利用数据,反应不够灵敏;容易受抽样的影响,不如平均数稳定;不能做进一步的代数运算;三)、众数(mode)又称范数,密集数,通常数等,用符号Mo表示,它是指在次数分布中出现次数最多的那个数的数值。1、计算方法 直接观察法 利用公式求2、意义 众数的概念简单明了,容易理解,但它不稳定,受样本变动的影响,不能进一步做代数运算。4) 、平均数、中数、众数三者之间的关系在一个正态分布中,平均数、中数、众数三者相等:M=Md=Mo;在正偏态数据中,三者之间的关系为:MMdMo;在负偏态数据中,三者之间的关系为:MMdMo。 在偏态分布中,平均数用于位于尾端,中数位于中间,众数位于首端,三者之间的关系为:MMd0表示正相关, r=+1.00表示完全正相关;r30) ;正态双变量:两列变量各自总体的分布都是正态分布或接近正态的单峰分布(已有研究资料;正态性检验) ;两列数据都是连续性测量数据;两列变量之间的关系是线性关系(相关散点图;已有研究结果) ;7、 计算积差相关系数的基本公式1)运用标准差与离均差计算2)用标准分数计算积差相关系数3)用原始数据计算积差相关系数8、 计算积差相关系数的差法公式a.减差法b.加差法9、 相关系数的合并第一步 查表8,适用费舍Z-r转换表,将r值转换为费舍Z分数;第二步 求费舍Z分数的加权平均数;第三步 将Z分数的平均数再转换成r值即可。10、 等级相关等级相关是以等级次序排列的变量之间的相关,这种相关对变量的总体分布不作要求,故这类相关为非参数相关。斯皮尔曼等级相关 当两列变量值是以等级次序排列或以等级次序表示时,且两个相应总体并不一定呈正态分布,样本容量也不一定大于30,表示这两列变量之间的相关称为等级相关。常用符号rR表示。计算方法:肯德尔等级相关肯德尔W系数,又称肯德尔和谐系数,是表示多列等级变量相关程度的一种方法,适用于两列以上的等级变量。常用符号W表示。计算方法: 肯德尔U系数又称一致性系数,适用于对K个评价者的一致性进行统计分析。它与肯德尔W系数所处理的问题相同,但所处理的资料的获得方法不同,计算的结果也不一样。计算方法:11、 质量相关 质量相关:指一列变量为等比或等距的测量变量,另一列变量是按性质划分的变量,求这两个变量之间的直线相关称为质量相关。它主要包括: 点二列相关:如果在两个变量中,一个变量是等比或等距的测量变量且其总体为正态,另一变量为“二分”称名变量(如男女、已婚与未婚等), 这两个变量之间的直线相关称做点二列相关。二列相关:当两个变量为正态连续变量,其中一个变量被人为地划分为二分变量,这两个变量之间的相关称为二列相关。多系列相关:两个正态连续变量,其中一个变量被人为地划分成多种类别,如学习成绩被分为优、良、中、差四类,表示这两种变量之间的相关称为多系列相关。12、 品质相关四分相关 相关:适用:两列变量均为真正的二分变量。列联相关:系数相关计算第六章1、 概率1、 随机事件是指在一定条件下可能出现也可能不出现的事件,表明随机事件出现可能性大小的客观指标就是概率。概率可以分为先验概率和后验概率。 后验概率:在对随机事件进行n次观测时,其中某一随机事件A出现了m次,则m/n称为事件A出现的频率。随着试验次数的增加,事件A的频率将稳定在某一常数p,则此常数p就是事件A出现概率的近似值,可表示为: P(A)=m/n 以随机事件A在大量重复试验中出现的稳定频率值作为随机事件A的概率估计值,这种求得的概率叫做后验概率。 先验概率(prior probability) : 先验概率是通过古典概率模型加以定义的,故又称之古典概率。古典概率要求满足两个条件:试验的所有可能结果(即基本事件)是有限的;每一种基本事件出现的可能性相等。如果基本事件的总次数为n,事件A包括m个基本事件, 则事件A的概率为:P(A)=m/n 先验概率是在特定条件下计算出来的,是随机事件的真实概率,不是由频率估计出来的。当试验重复次数较多时,后验概率也就接近先验概率。2、 概率的基本性质与定理A.基本性质任一随机事件A的概率取值范围都在0与1之间,即必然事件(是指在一定条件下必然发生的事件,记做)的概率等于1,即 P() =1 。不可能事件(是指在一定条件下必然不发生的事件,记做)的概率等于0,即P()=0。3、 定理:加法定理:两个互不相容事件A、B之和的概率,等于两个事件概率之和。即:P(A+B)=P(A)+P(B).乘法定理:两个独立事件同时都发生的概率,等于这两个事件概率的乘积。用公式表示:P(AB)=P(A).P(B)所谓互不相容事件是指在一定试验中,若事件A发生,则事件B就一定不发生。此定理可推广到有限多个互不相容事件中。所谓独立事件是指一个事件的出现对另一个事件 的出现不发生影响,如果事件A的概率随事件B是否出现而改变,事件B的概率随事件A是否出现而改变,则这两个事件称为相关事件。4、 概率分布(probability distrbution)是指对随机变量取值的概率分布情况用数学方法(函数)进行描述。 离散分布:随机变量只取孤立的数值时,这种随机变量称之离散型随机变量,离散随机变量的概率分布,简称离散分布。常见的离散分布是二项分布。 连续分布:指连续随机变量的概率分布, 也就是测量数据的概率分布,它用连续随机变量的分布函数描述其分布规律。常见的连续随机变量的分布为正态分布。 经验分布(empirical distribution):是指根据观察或试验所获得的数据而编制的次数分布或相对频率分布。 理论分布(theoretical distribution):有两个含义,一是指随机变量的次数函数数学模型;二是指按照某种数学模型计算出的总体的次数分布。 基本随机变量分布:是指理论分布中描述总体的基本变量的分布,在教育界统计学中常用 的基本随机变量分布有二项分布和正态分布(normal distribution)。 抽样分布(sampling distribution):是样本统计量的理论分布,样本统计量有;平均数、两平均数之差、方差、标准差、相关系数、百分比率等等。样本统计量是基本随机变量的函数,所以抽样分布又叫随机变量函数的分布。5、 正态分布概念:正态分布也称常态分布或常态分配,是连续随机变量概率分布的一种。有时称正态分布为高斯分布。特征: 正态曲线在X=点取得最大值,即 标准正态分布曲线在Z=0点取得最大值,即正态曲线关于直线X=对称(但对称的不一定是正态的),即随机变量X在的对称区间上取值的概率相等。显然标准正态分布关于直线Z=0对称。正态曲线下的面积为1,过平均数点的垂线将正态曲线下的面积划分为相等的两部分,即各为0.50. 编制与使用6、 测验分数正态化a.T分数:T分数是从Z分数转换而来的一种正态化的标准分数。它是将标准分数扩大10倍,再加上50。 即:T=10Z+50 T分数由美国教育测量学家麦柯尔(W.A.Mecall)提出的,其取值范围为0,100。b.T分数的计算步骤:如果原始分数的分布是一正态分布,由原始分数转换为标准分数; 如果原始分数的分布不是正态分布:将原始数据整理成次数分布表,计算各分组上限以下的累加次数,计算各组中点以下的累积比率,将各组中点以下累积比率视为正态分布的概率查正态表找出对应的Z值,这个Z值就是正态化的标准分数。将Z分数代入公式,计算T分数.第七章1、推断统计就是指由样本资料去推测相应总体情况的理论与方法。也就是由部分推全体,由已知推未知的过程。推断统计分为参数估计和假设检验两方面。参数估计是用样本去估计相应总体的状况,其具体方法有点估计和区间估计。假设检验的主要用途是对出现差异的两个或多个现象或事物进行真实性情况的检验,又称统计检验。它又为参数检验和非参数检验。参数检验法在检验时对总体分布和总体参数有所要求,而非参数检验法在检验时则不依赖于总体的分布形态和总体参数的情况。点估计是指在进行参数估计时,直接用一个特定点值作为总体参数的估计值。区间估计是根据样本统计量,利用抽样分布的原理,在一定的可靠程度上,估计出总体参数所在的范围,即以数轴上的一段距离表示未知参数可能落入的范围。置信区间:也称置信间距,指在一定可靠程度上,总体参数所在的区域距离或区域长度。显著性水平:指估计总体参数落在某一区间时,可能犯错误的概率,用符号表示。有时也称为意义阶段、信任系数等。置信度(置信水平):1。区间估计是根据样本分布理论,用样本分布的标准误计算区间长度,解释总体参数落入某置信区间可能的概率。标准差:总体平均数估计的计算步骤:利用抽样的方法抽取样本,计算出样本的平均值 和标准差S。计算样本平均数的标准误 :当总体方差已知时,样本平均数的标准误的计算为:当总体方差未知时,样本平均数的标准误的计算为:确定显著性水平和置信水平根据样本平均数的抽样分布确定查何种分布表,确定理论值。确定置信区间:解释总体平均数的置信区间。第八章1、假设检验(hypothesis testing)是指通过样本统计量得出的差异作出一般性结论,判断总体参数之间是否存在显著的推论过程。2、假设是根据已知理论与事实对研究对象所作的假定性说明。3、假设检验中一般有两个相互对立的假设,即零假设和备择假设。 零假设是研究者根据样本信息期望拒绝的假设,以H0表示。 备择假设与零假设相互排斥,是研究者根据样本信息期望证实的假设,以H1表示。4、假设检验中的两类错误: 型错误:假设H0本来正确,但我们却拒绝它,这种“弃真”错误称为第类错误。第类错误的概率为。型错误:假设H0本来不正确,但我们却接受它,这种“存伪”的错误称为第类错误。第类错误的概率为。5、两类错误的关系(1)+不一定等于1;(2)在其他条件不变的情况下,与不可能同时减小或增大。(3)统计检验力(1-)。6、双侧检验:只强调差异而不强调方向性的检验称为双侧检验。 单侧检验:强调某一方向的检验称为单侧检验。又分左侧检验和右侧检验。7、 假设检验的步骤 a.根据问题要求,提出虚无假设和备择假设。 b.选择适当的检验统计量。 c.规定显著性水平。 d.计算检验统计量的值。 e.做出决策。8、9、方差差异显著性检验 1、 样本方差与总体方差的差异检验(卡方检验)二、两个样本方差之间的差异显著性检验 1、独立样本(F检验) 2、相关样本(t检验)第九章方差分析又称做变异数分析(缩写ANOVA),它是一种应用非常广泛的变量分析方法。其作用就是对引起方差变化的各种因素进行分析和比较,从而确定各个因素对因变量是否有显著的影响。优点:功效高;功能强。1、 因素:是指实验因素,即在实验中准备考察的刺激变量自变量。 水平:所谓水平是指实验因素的水平,即每一个因素所处的状态或等级。也就是实验因素这个变量所取的“值”。 实验处理:所谓实验处理是指各种实验因素的不同水平的组合。2、 基本原理基本原理是变异的可加性,即把实验数据之间的总的差异分解为若干个不同来源的分量。自由度:指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。3、 方差分析的步骤建立假设:求F值:求平方和:即求组间平方和,组内平方和及总平方和求自由度:求方差(均方):求F值:判断结果:4、 完全随机设计(complete randomalized design)的方差分析,就是对单因素组间设计的方差分析,在这种实验设计中,各种处理的分类仅以单个实验变量为基础,因而也叫单因素方差分析。5、 随机区组设计是指在实验中将实验对象按一定的标准分成不同的区组,然后用随机的方式决定每个区组内的被试接受何种处理的设计方法。随机区组设计在教育和心理实验中经常采用。6、 为什么不能用t检验对多个平均数的差异进行比较?如果用t检验对多组平均数进行分别检验,那么差异较大的一对所得到的t值超过原定临界值的概率也就越大,这时本来没有达到显著水平的差异就很容易被说成显著了。第十章比较适合计数数据的分析方法为卡方检验。实际频数简称实计数或实际数,是指在实验或调查中得到的计数资料,又称为观察频数。理论次数是指根据概率原理、某种理论、某种理论次数分布或经验次数分布计算出来的次数,又称为期望次数。卡方检验公式:1、 卡方检验的类别a.配合度检验:配合度检验是应用卡方检验方法的一种,主要用于检验实际观测次数与某理论次数是否有差别的情况。它适用一个因素多项分类的计数资料,所以又称做单因素分类卡方检验或单向表的卡方检验。这种假设检验有时也称无差假说检验;b.独立性检验:主要用来检验两个或两个以上因素各种分类之间是否有关联或是否具有独立性的问题;c.同质性检验:在教育与心理研究中,经常要分析集中因素之间是否真有实质性的差异,或者判断几次重复实验的结果是否同质,这类问题的卡方检验称之为同质性检验。2、 配合度检验1) 自由度确定:自由度=资料分类的数目计算理论次数时所用的统计量的个数。2) 理论次数的计算,一般是根据某种理论,按一定的概率通过样本即观测次数计算。通常用到无差假说、正态分布、二项分布等理论模型。应用:a.检验无差假说无差假说是指各项分类的次数没有差异,即假设各项分类之间的机会均等,或概率相等。b.检验假设分布的概率检验还可以检验某些实得次数是否合乎正态分布。不过,在计算时,要注意把常态分布的概率,转换为理论次数的数值。即要用常态分布的概率乘以总次数得出理论次数的分配。c.连续变量分布的吻合性检验(是否符合正态分布)d.两项分类且某类理论次数小于5的连续性校正当只有两项分类(自由度为1)并且某项的理论次数小于5时,比率的检验不能用正态近似,而应用二项分布概率计算。若用卡方检验,就要运用耶茨(yetes)连续性校正法,即在每一组实际频数与理论频数差数的绝对值平方之前,各减去0.5,用公式表示:3、 独立性检验a. 独立性检验的一般问题二维列联表的卡方检验步骤1)、建立假设: H0:二因素之间是独立的或无关联; H1:二因素之间是有关联的或者说差异显著。2)、计算理论次数:3)、确定自由度:4)、计算统计量:5)、统计决断b. RC列联表独立性检验目的是判断两种分类特征是否有依存关系。c.22列联表(四格表)独立性检验 独立样本四格表的卡方检验:四格表独立样本,即从总体中随机取样,然后按两个因素对个体进行分类,将观测结果分别填入四个格内,便得到独立样本四格表,当各格的理论次数fe5 时,可用基本公式: 相关样本四格表的卡方检验:相关样本比率差异的显著性检验公式:当df=1时,式中:b、c是四格表中分类项目不同的格内数字故相关样本四格表卡方检验公式为:四格表卡方的校正:当四格表中任一格的理论次数小于5时,用亚茨连续性校正公式:对于独立样本四格表:对于相关样本四格表:4、 同质性检验a. 基本步骤:第一步,计算各样本组的卡方值与自由度;第二步,累加各样本的卡方值,计算其总和并计算自由度总和;第三步,将个样本组原始数据按相应的类别合并,产生一个总的数据表,计算卡方值和自由度;第四步,计算各样本组的累积卡方值与总测试次数合并获得的卡方值之差,称为异质性卡方值,也自由度为各样本组累计自由度与合并数据的自由度之差;第五步,查表,判断卡方值之差是否显著。b.计数数据的合并方法(一)两格表及四格表数据的合并1、简单合并法2、卡方相加法3、值相加法4、加权法5、分表理论次数合并法(二)RC表数据合并1、简单合并法2、分表理论次数合并法第十一章非参数检验(non-parametric test)。一般这种统计方法不对总体分布做严格假定,特别适用于计量信息较弱的资料,如等级数据和计数数据。前面我们讲的皮尔逊等级相关以及卡方检验均属于非参数检验。1、非参数概念非参数可以从以下几个角度来进行理解:第一,它是指非参数模型第二,非参数检验主要面临两类问题:一是探索数据的模型;二是检验数据的差异。第三,在非参数统计中使用的统计量与参数统计中使用的统计量也有所不同(检验的过程中,数据损失多少;统计量的检验与分布形态无关)。2、 非参数检验的特点a.它一般不需要严格的前提假设b.非参数检验特别适用于顺序资料(等级资料)c.非参数检验很适用于小样本,且方法简单d.非参数方法最大的不足是未能充分利用资料的全部信息e.非参数方法目前还不能处理交互作用3、 两个独立样本的非参数检验方法1) 秩和检验法a适用资料:独立样本t检验,当“总体正态”不成立时。b计算过程(两种情况): 1.两样本容量均小于10时(n110,n210) 步骤:(1)将两个样本数据混合由大到小作等级排列; (2)设n1n2,将容量较小的样本(n1)中个数据的等级相加,以T表示; (3)把T值与秩和检验表中的临界值进行比较,若T1TT2,则表明两组之间没有显著差异。注意:a、在秩统计量的定义中,如果样本中存在“结”,即两个数据值相同时,通常把原来的样本中序号小的数据排在前面。 b、如果n1=n2,用第二组计算等级T; 如果n1n2,用min(n1,n2)计算等级T。 2.两样本容量均大于10时(n110,n210)一般认为当两样本容量均大于10时,秩和T的分布接近正态分布,其平均数,标准差:检验公式:2) 中数检验法a适用资料:与秩和检验法的适用条件基本相同,对应于参数检验中 两平均数之差的t检验。b计算过程:混合排序;求混合排序的中数;绘制四格表;求卡方值。4、 相关样本的非参数检验1) 符号检验法是通过两个相关样本的每对数据之差的符号(正号或负号)进行检验,从而比较两个样本差异的显著性。符号检验法的零假设H0为“差值的中数等于零”。1) 适用资料:符号检验法是以正负号作为资料的一种非参数检验,它适用于相关样本的差异检验。它与参数检验中相关样本差异显著性 t 检验相对应,当资料不满足参数检验的条件时,可以采用此法来检验两相关样本的差异显著性。2) 符号检验法的计算过程a. 样本容量n25时当样本容量大于25时,二项分布接近正态分布。在单侧符号检验表中给出了n从1到90,这个范围内的临界值,人们可以附表15的方法来进行检验,然而在实际中当n25时,常用近似正态法来进行检验。则:2) 、符号等级检验法1)适用范围:与符号检验法相同,但它比符号检验法的精度高。2)计算过程a样本容量n25时,一般认为T的分布接近正态分布,其:第十二章 回归分析(analysi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论