版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
心理统计
教学计划1.绪论、统计图表、统计量数2.相关分析、概率与分布3.抽样与参数估计4.假设检验5.方差分析、回归分析6.卡方检验、非参数检验、复习和测验注意事项统计是一门不易理解的“数学”人为的规定抽象的术语繁多的公式如何学习听课、看书、做题、多思考上课带纸、笔、计算器(机)尽可能地在工作中应用学到的知识绪论什么是统计学为什么需要统计学统计学的分类描述统计和推论统计 现代统计理论的发展预备知识变量、连续变量和离散变量、符号1.什么是统计统计是任何方面的专家们用以支持其论点的一大堆数据统计是计算用以代表和解释一堆数据的量数(如平均数与标准差)的方法统计是依少量数据(样本)所提供的资料以估计预测某研究对象(总体)的方法统计为面对不确定状况制定决策提供方法的科学2.为什么需要统计学?数据不能说明一切,但是是某种事实InGodwetrust.Othersbringdata.绩效评定、升级留级我们需要概率来理解抽奖,保险,医学试验,工业质量控制,天气预报,运动创伤,基因和现代物理在面对不确定情况下,统计是一种能够帮助我们做出聪明决策的科学方法2.1趣味统计问题父亲高儿子一定高赌徒的谬论仓促的结论出租车问题估计野生动物的存量赌徒的谬论甲:我准备可以买车了!乙:哦,你升职了吗?甲:没有,但你知道这些年我一直在买彩票。乙:是的,每次你都买。甲:但我每次都没有中奖。乙:那你为什么觉得你这次会中奖呢?甲:以前都没中过,这次该轮到我了!仓促的结论英格兰的Smith到美国的俄亥俄州某大学读研究生。他从来没有到过美洲,很多东西对他来说都很新奇。有一天,他从学校礼堂回宿舍时看到了两只松鼠,令人惊奇的是两只松鼠都是白色的。晚上email的时候,他把这个发现告诉了他的父母,他兴奋地写道:“…美国的松鼠都是白色的…”出租车问题国外某地的出租车较少,一位统计学者在该地的某街角等候出租车,眼看来了几部出租车都载客而过,这位统计学者开始怀疑这个城市到底有几部出租车,以致于不够用。于是他开始记下载客而过的出租车车号,依次如下:
405,280,73,440,179
接着来了一部空车,载走了统计学者。
假如该城市出租车的编号是从1号开始连续编排下来,而且空的出租车走在城里做随机性的环绕,那么,你若是这位统计学者,你将如何从上述记录的资料来推测该城市共有几部出租车?估计野生动物的存量在报纸杂志上,我们经常看到某种动物已濒临灭绝边缘的报导。科学家如何知道那些野生动物的数量呢?例如:鲸漫游在占全球表面积约2/3强的海洋内,而且大部分的时间又都潜伏在水底,我们如何来估计各类鲸的存量呢?2.2常见统计问题本批产品是否是合格品?吸烟与得癌症有关吗?张三会于下届选举中获胜吗?3.统计的分类
3.1描述统计和推论统计描述统计我们的兴趣只限于手头现有的数据,而不准备把结果用来推论总体则称为描述统计。例:每年来京旅游的人数,平均每人在京停留的日数,平均每人每天在京的花费,十年内那一年创最高记录推论统计任何对数据(即样本)的处理导致预测或推论总体的统计称为推论统计例:根据历年数据预测来年可能来京旅游的人数3.2推论统计的分类估计张三想竞选香港某区议员,他想估计一下可能有多少人会投票给他,于是他以随机抽样的方式,询问100位有投票权的市民的意见,而后根据所得结果推论可能全区有多少人会选他检验某家庭主妇想知道她心中怀疑洁王牌洗衣粉的洗净力是否比爱王牌洗衣粉强分类与选择新制造的三种药品中那几种比目前所用的这种药品有效4.现代统计理论发展的四个阶段
4.1高尔顿和皮尔逊1899年高尔顿(SirFrancisGalton,1822~1911)的《NatureInheritance》一书的出版所有知识都基于统计基础引入中数、创立相关概念、把成绩评分和正态分布联系起来卡尔.皮尔逊(KarlPearson,1857~1936)众数、标准差、相关系数我不记得那时是几岁,但是我记得是坐在高椅子上吮吸着大拇指,有人告诉我最好停止吮它,不然被吮的大拇指会变小。我把两手的大拇指并排看了很久,它们似乎是一样的,我对自己说:我看不出被吸吮的大拇指比另一个小,我怀疑她是否在骗我4.2费雪1915年,费雪(RonaldAylmerFisher,1890~1962)发表关于样本相关系数统计量的精确分布的论文小样本统计、估计量的判定准则、最大似然估计抽样技巧和随机程序《StatisticalMethodsforResearchWorkers》和《DesignofExperiments》分别于1925年和1935年出版,对于统计有重大的影响费氏提到有一位女士声称她能分辨出她的茶中牛奶是在泡茶之前或之后加入的,而后他描述一种实验计划来证明或否定该女士的声称据说费雪是个早熟的孩子,在很小的时候就已精通如球面三角之类艰深的学问。他曾对物理科学深感兴趣,1912年自剑桥大学得到天文学的学士学位。4.3聂曼和伊根·皮尔逊第三个时期以1928年聂曼(JerzyNeyman)和伊根·皮尔逊(EgonPearson,卡尔·皮尔逊之子)的共同论文多篇的发表为开端介绍和强调诸如假设检验中的第二种错误,检验的power和置信区间之类的观念4.4华德1939年,华德(AbrahamWald,1902~1950)论文关于顺序抽样(sequentialsampling)的论文的发表最大的贡献之一是他介绍一种对统计问题的新看法(1945),那就是以对局的观点去处理统计方面的问题,这就是今日所称的统计决策理论(statisticaldecisiontheory)统计被视为以自然为对手的对局的艺术5.预备知识
5.1几个概念和术语(1)随机变量(P6)在一定的条件下观测结果不确定(2)随机变量的分类称名变量、顺序变量、等距变量、比率变量因变量和自变量Y=f(X)连续变量和离散变量连续变量在任何两个取值之间都还可以细分离散变量在任何两个取值之间只有有限个可能的取值(3)总体、个体和样本(P7)总体(population):指具有某种特征的一类事物的全体,又称母体个体(unit):构成总体的每个基本单元样本(sample):从总体中抽取的一部分个体,即总体的一个子集(4)参数和统计量总体参数样本统计量5.2符号变量:大写英文字母变量的取值(观测到的结果,数据):小写英文字母如18周岁中国人的身高:X170,180,172,168,…x1,x2,x3,x4数据和图表内容基础知识变量、尺度、数据数据类型与分析方法类别数据、顺序数据、等距数据、比例数据数据的来源数据的整理和统计图表次数分布表、条形图、饼图、线图、直方图1.基础知识
1.1变量、尺度、数据身高高、矮、中等个头180cm变量variable:事物的某种特征,这种特征在不同个体之间有差异
尺度scale:测量的标准
数据data:测量的结果对同一个研究对象,用不同的尺度进行测量,也可以得到不同的结果变异variation研究对象中各观察个体之间的差异1.2四种测量尺度(P6~7)类别尺度(NominalScale)顺序尺度(OrdinalScale)等距尺度(IntervalScale)比例尺度(RatioScale)类别尺度(NominalScale)例子性别(男、女)、企业性质、职业、地区检验(阴性、阳性)、血型特性也叫称名尺度或列名尺度只能按照事物的某种属性对其进行平行的分类或分组只能区分事物是同类或不同类(=和
)通常计算每一类别中各元素或个体出现的“次数”或“频率”来进行分析顺序尺度(OrdinalScale)例子绩效评定:优、良、中、及格、不及格病情:轻、中、重特性对事物之间等级差别或顺序差别的一种测度可以将事物分成不同的类别,还可以确定这些类别的优劣或顺序该尺度具有“>和<”、“=和≠”的数学特性,但不能进行加、减、乘、除运算等距尺度(IntervalScale)例子温度特性测量结果表现为数值,有相等的单位,但没有绝对零点等距尺度具有类别尺度、顺序尺度的数学特性外,其结果还可以进行加、减运算比例尺度(RatioScale)例子长度、重量、收入、心率特性测量结果表现为数值,有相等的单位,且有绝对的零点比例尺度具有类别尺度、顺序尺度和等距尺度的数学特性外,其结果还可以进行乘、除运算2.数据类型和分析方法
2.1数据的类型四分法类别数据、顺序数据、等距数据、比例数据二分法定性数据(QualitativeData)类别数据、顺序数据定量数据(QuantitativeData)等距数据、比例数据四类数据的比较有个从未管过自己孩子的统计学家,在一个星期六下午妻子要外出买东西时,勉强答应照看一下四个年幼好动的孩子。当妻子回家时,他交给妻子一张纸条,上面写着:“擦眼泪11次;系鞋带15次;给每个孩子吹玩具气球各5次;每个气球的平均寿命10秒钟;警告孩子不要横穿马路26次;孩子坚持要穿马路26次;我还要再过这样的星期六0次。”不同类型数据之间的变换一般的变化方向数值型等级(顺序)类别偶尔顺序数值2.2数据类型与统计方法统计量数统计检验类别数据频数、频率,众数、异众比率列联分析
2检验顺序数据中数、四分位差、等级相关系数非参数分析等距、比例数据平均数、方差、标准差、积差相关系数参数估计、参数检验3.统计数据的来源直接来源调查普查、抽样调查观察与实验间接来源(二手数据)不是自己亲自调查的,是别人的数据、公开出版或报道的数据统计年鉴;报刊、杂志、图书、广播、电视传媒中的各种数据资料4.数据的整理和统计图表
4.1数据的整理数据整理通过各种渠道搜集到统计数据之后,首先应对其进行加工整理,使之系统化、条理化,以符合分析的需要。整理可以大大简化数据,更容易理解和分析。数据整理的步骤数据的预处理数据的审核与筛选——检查每个样本点是否完整、准确;将不符合要求的数据删除,符合条件的选出来。数据的排序——便于发现数据特征或趋势,也有助于检查错误分类或分组汇总数据整理的原则对定性数据主要做分类整理对定量数据主要做分组整理4.2类别数据的整理与图表展示整理列出事物的类别,计算出每一类别的次数、频率或比例、比率图表展示次数分布表列出不同类别所对应的次数或比例条形图、饼图次数分布frequencydistribution条形图bargraph(P28)饼图piegraph(p30)4.3顺序数据的整理与显示类别数据的整理和显示的内容都适用于顺序数据。除此之外顺序数据还可以计算累积次数,图形显示用到累积次数分布图和环形图累积次数(cumulativefrequencies)
将各类别的次数逐级累加起来向上累积:从类别顺序开始一方向最后一方累加频数向下累积:从类别顺序最后一方向开始一方累加频数累积百分比(cumulativepercentages)条形图bargraph环形图向上累加分布图
cumulativedistribution向下累加分布图4.4定量数据的整理和图表显示数据的分组定量数据包括等距数据和比例数据,在整理时通常要进行分组,然后再计算出各组中出现的次数。分组方法一般用组距分组法图表显示次数分布表直方图、次数多边形图、累加直方图4.4.1组距分组的步骤(P12)1.求全距R=Max-Min2.定组数组数过多过少都不合适经验公式
组数k=1.87(N-1)0.4,
N为数据个数3.定组距组距是一个组的上限与下限之差
组距=(最大值-最小值)/组数
4.写出组限建议用精确组限(P14表1-2)5.求组中值组中值=(精确上限+精确下限)÷26.归类划记7.登记次数4.4.2定量数据的图表展示直方图histogram次数多边形累加直方图cumulativehistogram(P23)频数分布图的形态
正态分布正偏态分布右偏分布(右尾巴比较长)负偏态分布(左尾巴比较长)左偏分布J型分布U型分布
反J型分布思考题在某小镇对下面变量进行调查父母双方均小于25岁的家庭中所有成员的身高已婚夫妇的身高全体居民的身高所有汽车的高度把变量与其直方图相匹配,并解释理由205080(英寸)思考题1960和1980年,对美国妇女进行调查:“你有几个孩子?”结果如下所示。变量是离散的还是连续的?画直方图(“9或更多可以”可以取为9)从图中能得出什么结论?思考题:不等距分组的直方图绘制1973年美国家庭收入分布如下,请绘制直方图。不等距分组时不能以绝对频次/百分比绘制直方图不等距分组时应该采用密度尺度相关分析本节要点1.相关和相关系数的概念2.各种相关系数的计算(适用条件、计算方法)2.1积差相关2.2等级相关2.2.1斯皮尔曼相关2.2.2肯德尔和谐系数2.3质量相关2.3.1点二列相关2.3.2二列相关思考题什么情况下我们对两个变量之间的关系感兴趣?1.什么是相关事物之间的关系因果关系、共变关系和相关关系因果:A→B下雨地上会湿共变:C→A,C→B
严格的说不叫相关,只是A和B之间有某些共同点婴儿身高和树苗高度的关系相关:指两类现象在发展变化的方向和大小方面存在一定的关系,不能确定是否为因果关系,但不存在共变关系广告费支出与商品销售额的关系相关系数相关系数:两列变量间相关程度的数量化指标总体
(读rou希腊字幕)样本r|r|≤1相关数量的值总是小于等于1的。几个概念完全相关:-1.00或1.00不完全相关:0<|r|<1不(零)相关:r≈0正相关:两个变量的变化方向一致,0<r≤1负相关:两个变量的变化方向相反,-1≤
r<0(a)完全正相关(b)完全负相关(c)无相关关系(d)非线性关系(e)正相关(f)负相关计算相关系数时应注意的问题相关系数受样本容量n的影响如果n很小,可能完全没有相关的两事物,却计算出较大的相关系数。一般以N大于30为宜相关系数不是等距数据也不是比例数据计算相关系数要求成对数据
没有线性相关,不一定没有关系,可能是非线性的相关系数的计算不受以下因素影响互换两个变量某一变量的所有值都增加同一数值某一变量的所有值都乘以同一正数散点图scatterdiagram2.1积差相关也称积矩相关、皮尔逊相关适用条件两列变量为正态等距或等比,且具有线性关系。积差相关系数(P58)Sx为x的样本标准差,SY为Y的样本标准差P59例2-132.2等级相关斯皮尔曼等级相关肯德尔和谐系数2.2.1斯皮尔曼等级相关适用条件两列变量是等距或比例变量,但不是正态分布两列顺序变量斯皮尔曼等级相关系数P61例2-14一家广告代理商想了解一家公司产品质量等级是否与其商场份额等级有关。斯皮尔曼等级相关系数的修正P63例2-152.2.2肯德尔和谐系数(肯德尔W系数)ssRi表示Ri的平方和,Ri的离均差的平方和多列等级变量P65
例2-16肯德尔W系数的校正t表示相同等技数当出现相同等级时(P65例2-17)2.3质量相关P66一列变量为正态的等距或比例数据,另一列变量为类别变量,求两列变量的直线相关,称为质量相关。点二列相关二列相关多系列相关2.3.1点二列相关缩写PB
point-biserialcorrelation适用条件两列变量中一列为等距或等比的测量数据而且总体分布为正态,另一列变量为二分的类别变量。应用点二列相关多用于编制是非测验题评价测验内部一致性等问题。注:每个题目(二分类别变量)与总分(数值)变量的相关,称为每个题目的区分度。相关高说明该题答对答错与总分的一致性高,即区分度高。点二列相关系数P67例2-182.3.2二列相关biserialcorrelation适用条件两列变量都为正态等距(比例)变量,但其中一列变量被人为地划分成两类。应用教育和心理测量中问答题的区分度指标二列相关与点二列相关的主要区别在于二分变量是否正态。二列相关系数P68例2-19概率与分布本章主要内容概率古典和统计定义、概率的性质、加法和乘法定理二项分布适用条件正态分布性质、查表、应用标准正态分布、标准分数1.概率probability
1.1几个概念
确定性现象:一定条件下必然发生某种结果必然现象 沸腾乙肝,乙肝表面抗原一定为阳性不可能现象 随机现象randomevent:一定条件下结果不定如:掷硬币后哪面朝上?某患者服用某降压新药后:降?不变?生偶然性和必然性随机试验和随机事件随机试验对随机现象的一次观察随机事件简称事件,指随机现象中出现的各种可能的结果必然事件:包含所有可能结果不可能事件:不包含任何结果试验
试验结果(事件)抛掷一枚硬币 正面,反面对某一零件进行检验 合格,不合格投掷一颗骰子 1,2,3,4,5,6进行一场足球比赛 获胜,失利,平局频率和概率频率frequencyN次重复试验中A事件发生的次数为n,那么事件A发生的频率概率probability当N趋向于无穷大时,事件A发生的频率趋向于一个固定值,这就是事件发生的概率P(A)实验者 N nH nH/N德·摩根 2048 1061 0.5181蒲丰 4040 2048 0.5069K·皮尔逊 12000 6019 0.5016K·皮尔逊 24000 12012 0.5005N为投掷硬币的次数,nH为正面朝上的次数1.2概率的定义
1.2.1概率的统计定义(P74)当试验次数N无限增大时,事件A发生的频率n/N稳定在一个确定的常数附近,这就是事件A发生的概率注:试验满足条件每次试验中某一事件发生的可能性不变试验能大量重复,且每次试验相互独立1.2.2概率的古典定义如果某一随机试验的结果有限(注:任何一个可能的结果就是一个基本事件),且各个结果出现的可能性相等,则某一事件A发生的概率为注:概率的统计定义是后验概率,而古典定义为先验概率思考题:判断以下哪些试验符合概率的古典定义的要求?试验
试验结果(事件)抛掷一枚硬币 正面,反面对某一零件进行检验 合格,不合格投掷一颗骰子 1,2,3,4,5,6进行一场足球比赛 获胜,失利,平局求掷一颗骰子其点数小于5的概率是多少解:投掷骰子试验中,可能的点数{1,2,3,4,5,6},试验结果有限,6个试验结果以均等的可能发生
事件A={1,2,3,4},P(A)=4/6=2/31.3概率的性质对任意事件A,0≤P(A)≤1必然事件的概率为1,即P(W)=1
不可能事件的概率为0,P(
)=0逆事件的概率P(Ā)=1-P(A)什么是逆事件?1.4概率的加法定理和乘法定理加法定理若A、B是两个相互独立的事件,则A和B至少有一个发生的概率是
P(A+B)=P(A)+P(B)推广到n个独立事件P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)例求掷一颗骰子其点数小于5的概率某一考生完全凭猜测答两道是非题,求其答对一题的概率乘法定理若A、B是两个相互独立的事件,则A和B同时发生的概率是
P(A·B)=P(A)·P(B)推广到n个独立事件
P(A1A2…An)=P(A1)P(A2)…P(An)例求掷两颗骰子其点数为12的概率和为11的概率求掷两颗骰子其点数不等的概率凭猜测完全答对10题4选1选择题的概率二战中飞行员在每次轰炸任务中被击中的机会是2%,那么执行50次任务“在数学上”就一定被击中吗?因为50×2%=100%N个人当中至少有两个人的生日是同一天的概率是多少?2.二项分布
2.1排列permutation从n个不同的元素中,任取m(m≤n)个不同的元素,按一定顺序排成一列P78例3-6用四个数字1,2,3,4可以组成多少个没有重复数字的二位数?多少个没有重复数字的四位数?思考题:如果数字可以重复,上题的答案又是多少?2.2组合combination从n个不同的元素中,任取m(m≤n)个不同的元素,不管顺序并成一组组合的性质(P79例3-6)从100个元素中每次取97个不同元素的组合数是多少?2.3随机变量的期望和方差随机变量的方差方差的性质2.4二项分布
binominaldistribution离散型分布的一种每次随机试验只有两种可能的结果:A及Ā,P(A)=p,P(Ā)=1-p=q(0<p<1)。n次独立试验下,事件A发生的次数为x的概率分布医学中常见结果为两种互斥的情况之一的例子阴性、阳性治愈、未愈传染、未传染致死、存活P82例3-9全凭猜测答10道是非题,问分别答对5、6、7、8、9、10题的概率各为多少?至少答对5题的概率又是多少?P83例3-10全凭猜测答10道4选1选择题,问分别答对8、9、10题的概率各为多少?至少答对1题的概率又是多少?至少答对9题的概率是多少?马丁服装店问题商店经理估计进入该服装店的任一顾客购买服装的概率是0.30,那么三个顾客中有两个购买的概率是多少?分析:试验包含了三个相同的试验,进入商店的三个顾客中的任一个即为一次试验每次试验都有两个结果:顾客购买或不购买顾客购买的概率(0.30)或不购买的概率(0.70)被假设为对所有顾客都相等某个顾客的购买决定独立于其他顾客的购买决定某保险公司有2500个同一年龄同一阶层的人参加了寿命保险。已知1年内这批人的死亡水平为0.002,每个参加保险的人需在年初支付保险费12元,如果发生死亡,保险公司赔付2000元。保险公司亏本的概率是多少?保险公司获利不少于10000元的概率是多少?解:设X为死亡人数,如果12×2500<2000X,即X>15时,保险公司要赔本。p=0.002
获利10000元,即12×2500-2000X≥10000,即X≤101.当n趋向于无穷大时,二项分布趋向于正态分布
2.二项分布的均值、方差和标准差2.5其他离散型概率分布
2.5.1负二项分布某随机试验结果只有两种可能,出现某结果的概率为p,则不出现该结果的概率为q=1-p。现在一直进行试验,直至这一结果出现r次为止,以X表示试验共需要进行的次数,则有一个市场调查员需要完成500份调查表的访问任务,随机碰到的行人大约3/10的人乐意回答他的问题,每找到一个人需花6分钟的时间。问该调查员完成500份问卷约需多长时间?2.5.2多项分布现有一批产品,已知合格品占11/18,次品占2/9,废品占1/6,从中随机抽取6件,问抽到3件合格品、2件次品和1件废品的概率有多大?2.5.3几何分布在一个伯努利试验中,某个时间出现的概率为p,现在一个一个地进行试验,直至出现该事件为止,如果X表示试验所需进行的次数,则X服从几何分布,其概率分布函数
f(x)=qk-1p,k=1,2,…E(X)=1/p,Var(X)=q/p22.5.4超几何分布在50个零件中,已知有5个不合格,如果随机从中抽4个,问4个样品中恰好有1个不合格的概率是多少?不超过2个不合格零件的概率是多少?超几何分布的推广一家商业零售集团开设了100家分支商店,其经营业绩如下:
经营业绩 优 良 中 差
分店数 24 38 28 10
从100家分店中随机抽取20个,问其中有8个优、7个良、3个中、2个差的概率是多少?2.5.5泊松分布泊松分布的医学应用举例单位时间内某事件发生次数的分布,如细菌、血细胞等单位面积(容积)内计数结果的分布人群中某些发病率很低的传染病,如某恶性肿瘤的患病数或死亡数的分析放射医学中同位素计数的数据处理某些疾病的地区或家族集积性,某种基因突变而引起的遗传性疾病的分布世界杯中的统计学
作者:陈峰2002年韩日世界杯64场比赛中,各队进球数有多有少。大部分是0,1,2个进球,个别队是5个以上进球,最多的是8个进球。宏观上来说,各队进球数服从Poisson分布!下面是各队进球数(不包括点球),平均进球数1.2578,拟合Poisson分布结果如下:每场各队进球数 场数 理论数
0 37 36.391 47 45.772 27 28.783 13 12.074 2 3.795 1 0.95≥6 1 0.25合计 128 128.00
如果包括点球数,同样服从Poisson分布。3.正态分布
3.1连续型随机变量不可能一一列举可能的取值取任一指定实数值的概率为0我们对落入某个区间内的概率更感兴趣3.2正态分布
3.2.1正态分布的概率密度函数设连续型随机变量x具有概率密度
称x服从参数为
,
的正态分布normaldistribution或高斯分布Gaussiandistribution,记为x~N(
,
2)
其中,
为随机变量x的均值
为随机变量x的标准差
为圆周率3.14159…
e为自然对数的底2.71828…3.2.2正态(概率密度)曲线的特点概率密度曲线和x轴之间的面积等于1概率P{x1<x≤x2}关于x=
对称对任意h>0,有P{-h<x<
}=P{
<x<+h}当x=
时有最大值
x离
越远,f(x)的值越小并逐渐趋向0这表明对于同样长度的区间,当区间离
越远,X落入区间上的概率越小如果固定
改变
的值,则图形沿x轴平移,而不改变形状如果固定
改变
,由于最大值
可知当
越小时图形就变得越尖,因而x落在
附件的概率就越大如何理解概率密度曲线假设有一根无限长的棍子,总的质量为1。棍子的中心部分密度比较大,而两端较轻如果把棍子切成同样长度的一段一段,那么中间部分的一段比边上的重3.2.3标准正态分布
=0,
=1时,有3.2.3.1标准分数(P94)又称为Z分数,以标准差为单位,反映了一个原始分数在团体中所处的位置Z分数的性质Z分数的平均数为0Z分数的标准差为1标准分数的应用比较分属性质不同的观测值在各自数据分布中相对位置的高低.如:某人Z身高1.70=0.5,Z体重65=1.2,则该人在某团体中身高稍偏高,而体重更偏重些当已知各不同质的观测值的次数分布为正态时,可用Z分数求不同的观测值的总和或平均值,以表明在总体中的位置.3.2.3.2正态分布的标准化3.2.3.3标准正态分布表(P.466)仅给出Z为正值时的P和对应的Y当Z为负值时利用对称性求相应的P和Y对于X~N(
,
2)先化为标准正态分布再查表p(0<z<Z)=P例:X~N(0,1),求以下概率1)P(0<x<1)
2)P(x<1) 3)P(x<-1)4)P(1<x<2) 5)P(|x|
1) 6)P(x>-1)写出以下区间如果X~N(
,
2)X~N(0,1)平均数左右1个标准差平均数左右z个标准差需要记住的一些Z值P96例3-17
在某年高考的平均分数为500,标准差为100的正态总体中,某考生得到650分。设当年高考录取率为10%,问该生成绩能否入围?解:该生的标准分数为
Z=(650-500)/100=1.5
查正态分布表,
当Z=1.5时,p=0.433
从低分到高分的顺序中他处于93.3%的位置
从高分到低分的顺序中他处于6.7%的位置某市参加数学奥林匹克业余学校入学考试的人数为2800人,只录取学生150人,该次考试的平均分为75分,标准差为8,问录取分数应定为多少?解:考试成绩服从正态分布,即
X~N(75,82),转换成标准正态分布Z~N(0,1)。
根据题意招生人数的概率为
P(Z≥Z0)=150/2800=0.05357
P(0<Z<Z0)=0.5-0.05357=0.44643
查正态分布表,得Z0=1.6112
X0=75+1.6112×8=87.8894≈88假设成人智商服从均数为100,标准差为15的正态分布。如果智商大于160的都是天才,那么请问100万人里有几个天才?3
准则当X~N(
,
2)时,有P(|x-
|
)=0.6826P(|x-
|2
)=0.9545P(|x-
|
3
)=0.9973当X~N(0,1)时有P(|x|
1)=0.6826P(|x|
2)=0.9545P(|x|
3)=0.9973X的取值几乎全部集中在[-3,3]区间内,超出这个范围的可能性仅占不到0.3%
如果某个值在|x-
|3
之外,可以判定为异常值资料:例如根据我国国家体委、原教育部、卫生部1978年至1980年对全国16个省市20余万名青少年儿童进行的“中国青少年儿童身体形态、机能、素质调查研究”的资料,其中18~25岁男青年的平均身高是170.5厘米,标准差5.75厘米,这可以作为确定我国城市成年男性平均身高的重要依据。姚明的身高为224cm,求所对应的Z,以及身高在224cm以上的成年男性所占的比例。姚明:如果上天再给我一次机会我不要2米24身高但除了打篮球,长得高还有什么好处呢?“上面的空气新鲜一些。”这是姚明的回答。医学应用确定医学参考值范围生理、生化指标及其组织代谢产物含量中符合正态分布者如身高、体重、白细胞等其他3.2.4散点图和分布2Sx2Sx
2SY2SY大部分点散布在均值左右2个标准差内抽样理论和参数估计本章基本内容基本概念总体、个体、总体容量、样本、样本容量、抽样、参数、统计量抽样方法随机、等距、分层抽样分布样本平均数:Z分布、t分布样本方差:卡方分布、F分布参数估计点估计:充分性、无偏性、有效性、一致性区间估计:显著性水平、置信度、置信区间1.抽样的基本概念总体(population):要研究的事物或现象的全体个体(unit):组成总体的每个元素(成员)总体容量(populationsize):一个总体中所含个体的数量样本(sample):从总体中抽取的部分个体样本容量(samplesize):样本中所含个体的数量抽样(sampling):为推断总体的某些重要特征,需要从总体中按一定抽样技术抽取若干个体的过程参数(parameter):反映总体数据特征的量数统计量(statistic):反映样本数据特征的量数统计量是样本的函数,只依赖于样本;样本均值、样本方差等都是统计量放回抽样和不放回抽样放回抽样(重置抽样)从总体N个单位中抽取n个单位作为样本时,每次只从总体中抽取一个单位,进行登记后再把它放回原来的总体中去某次被抽取的单位在下一次还有可能被抽到总体单位数每次抽样都不变不放回抽样(不重置抽样)从总体N个单位中抽取n个单位作为样本时,每次从总体中抽取一个单位后,被抽取单位不放回总体中,仅从余下部分进行下一次抽取。相当于一次从N个总体单位中抽取n个单位抽样的实例血常规:用一滴外周血的化验结果,代表一个人的全血成分2.抽样方法
2.1简单随机抽样
simplerandomsampling完全随机地选取样本,要求有总体中每一个个体的详尽名单,给总体N个元素编号抽签随机数字表在农村推行联产承包责任制时,如何把地力、水利等各方面条件存有差异的田地分到各家各户,确实难上加难。最终还是采用“抽签”来确定挑选田地先后顺序的办法解决的。签号排在后面的自然挑不到理想的田地。但人们都认为“碰运气”的办法是最“公平”的。没有抽到好签,只能怨自己“倒霉”。有意见也不好说。2.2等距抽样又称系统抽样(systematicsampling)给总体N个元素编号抽样间距k=N/n随机确定起点a(1≤a≤k)a,a+k,a+2k,…,a+(n-1)k缺点:受总体数据的周期性的影响电话号码交通高峰期例:从N=800的总体中抽取50个样本2.3分层抽样stratifiedrandomsampling先将总体分成不同的“层”,然后在每一“层”内进行简单随机抽样分层原则:层内变异要小,层间的变异要大可防止简单随机抽样造成的样本构成与总体构成不成比例的现象。比例分层抽样例:总体20人,其中男5,女15,抽样4人
解:“男”在总体的比例为5/20=1/4
因此应抽取“男”4×0.25=1人,抽取“女”3人2.4其他抽样方法方便抽样(Conveniencesampling)由调查人员自由、方便地选择被调查者的非随机选样判断抽样(Judgementsampling)通过某些条件过滤选择某些被调查者参与调查的判断抽样法如:focusgroup3.抽样分布总体
3.1.1总体方差已知的样本平均数分布
3.1.1.1总体分布正态3.1.1.2总体分布未知中心极限定理CentralLimitTheorem设从均值为,方差为
2(有限)的任意一个总体中抽取大小为n的样本,当n充分大时,样本均值X的抽样分布近似服从均值为,方差为
2/n的正态分布。注:什么叫n充分大呢?总体偏离正态越远,则要求n就越大。在实际应用中常要求n30或者n503.1.1.3标准误standarderror样本平均数的标准差称为标准误例:某电梯承受的最大拉力为1000千克,可乘坐13人。已知人群的平均体重为60千克,标准差为14千克,且服从正态分布。问电梯发生事故的概率是多少?例:某厂声称生产的电池
=54个月,=6个月的寿命分布。某消费团体为检验该厂的说法是否准确,购买了50个该厂生产的电池进行试验。
⑴若厂商声称是正确的,描述50个电池寿命的抽样分布;
⑵若厂商声称是正确的,则50个样品组成的样本的平均寿命不超过52个月的概率是多少?3.1.2总体方差未知的样本平均数分布当总体方差
2未知时,用S2作为
2的估计值3.2t分布3.2.1自由度degreeoffreedom可以自由取值的变量的个数任意说出三个整数任意说出三个和为100的整数3.2.2t分布的特点
student’stdistribution对称:左侧为负,右侧为正,均值为0-
<t<+
n→
时,t分布为正态分布,方差为1n>30时,t分布为接近正态分布,方差>1,n<30时,t分布与正态分布相差较大,随n-1减小方差越大n>45时,t分布与正态分布没有多大差异在小样本n<30时,t分布具有重要作用3.2.3t分布的一些推论P1123.3样本方差的分布样本方差的分布较复杂,它与总体分布有关。在这里只研究当总体为正态分布时,样本方差的分布。设x1,x2,…,xn为来自正态分布N(
,2)的样本,则从数学上可以推导出正态总体下样本方差S2的分布为:3.4
2分布Chi-squaredistribution3.4.1
2分布的特点正偏态分布当df→∞时,
2分布为正态分布
2值都是正值可加性k个
2分布的和也是
2分布
2=df;22=2df(df>2)连续型分布3.4.2
2分布表P490例4-4P108
df=5,求
=0.05和
=0.01时的单侧临界值解:
3.5F分布Fdistribution3.5.1F分布的特点F(n1,n2)分布形态是正偏态分布,形式随n1,n2不同而不同,当n1,n2的增加而渐趋正态分布F为两个方差比率,所以为正值n1=1,n2任意时,F值与自由度为n2的t值的平方相等,即F(1,n2)=t2(n2)F
(n1,n2)=1/F1-(n2,n1)(114)3.5.2F分布的应用F分布是统计学家费歇尔(R.A.Fisher)于1924年首先发现的假设检验区间估计方差分析回归分析4样本容量的计算(115)根据最大允许误差确定样本容量样本容量n,总体方差
2,允许误差d,可靠性系数Z
/2的关系总体方差越大,需要的样本容量越大;允许误差越大,需要的样本容量越小;可靠性系数越大,需要的样本容量越大;例:要使95%置信区间的允许误差为5,应选取多大的样本容量?假定总体的标准差为25。例:一家广告公司想估计某类商店去年所花的平均广告费有多少。检验表明,总体方差约为1800000。如置信度取95%,并要使估计值处在总体平均值附近500元的范围内,这家广告公司应取多大的样本?例:一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对p的估计误差不超过0.05,要求的可靠程度为95%,应取多大容量的样本?例:一项调查中,总体比率的计划值为0.35,则当允许的最大绝对误差为0.05时,在求其95%置信区间时应采用多大的样本容量?5参数估计设总体有待估参数,自总体中抽取样本x1,x2,…,xn点估计pointestimate用样本的某一统计量估计
如用样本均值估计总体均值区间估计intervalestimate求出一定概率下的取值范围5.1点估计统计量作为估计量estimator充分性sufficiency用到样本的所有数据无偏性unbiasedness估计值的平均值与真值一致有效性efficiency当总体参数的无偏估计量有不止一个统计量时,无偏估计变异性最小者有效性高,变异大者有效性低一致性consistency当样本容量无限增大时,估计值越来越接近所估计的总体参数总体5.1.1有效性哪个是更好的估计量?算术平均数vs.中数5.1.2无偏估计量
unbiasedestimator5.2区间估计区间估计的原理样本统计量的分布规律5.2.1几个概念显著性水平
significancelevel指估计总体参数可能落入某区间时允许犯错误的概率
通常有三个标准:
:0.05,0.01,0.001
1-
:0.95,0.99,0.999置信水平、置信度confidencelevel1-
置信区间confidenceinterval指在某一置信水平时,总体参数所在的区域距离或区域长度5.2.2总体平均数的估计
5.2.2.1总体正态、方差已知5.2.2.2
总体正态、方差未知5.2.2.3总体非正态、方差未知5.2.3总体方差的区间估计5.2.4方差差异的区间估计假设检验本章基本内容假设检验的基本原理和步骤虚无假设和备择假设错误和错误单侧检验和双侧检验差异的显著性检验均值方差比例、相关系数1.假设检验的原理和步骤
1.1从一条听到的新闻谈起“昨天晚上A足球队以26:13大败了B队”这是一场足球赛吗?你的推理过程是怎样的?可能的推理过程如果是足球赛,那么比分(基本上)不可能是26:13因此(很可能)不是足球赛对以上过程的分析反证法有犯错误的可能1.2假设检验和参数估计
Hypothesistesting参数估计用样本统计量估计总体参数假设检验先对总体参数提出一个假设,然后利用样本信息检验这个假设是否成立根据以往的比分(总体信息)推断该比分是否足球赛比分从样本的差异推论总体差异的过程1.3假设检验的主要内容:
差异检验样本统计量与总体参数的差异两个样本统计量之间的差异该样本基本不属于已知总体两个总体的参数之间存在差异差异显著差异显著1.4假设检验的基本原理小概率原理小概率事件在一次试验中几乎不可能发生小概率一般指p<0.051.5假设检验的步骤P135建立虚无假设和备择假设确定适当的检验统计量指定检验中的显著性水平,计算检验统计量的值,建立拒绝虚无假设的规则作出统计决策将检验统计量的值与拒绝规则所指定的临界值相比较,确定是否拒绝虚无假设(计算p值,利用p值确定是否拒绝虚无假设)昨天晚上A足球队以26:13大败了B队1.5.1假设检验的一个例子某校一个班进行比奈智力测验,X=110,班级人数n=50,该测验常模
0=100,0=16。该班智力水平1(不是这一次测验结果)是否与常模水平有差异?研究假设和虚无假设
研究假设H1researchhypothesis
又叫备择假设alternativehypothesis,指待验证的假设,一般假设差异显著虚无假设H0nullhypothesis又叫零假设zerohypothesis,原假设,与研究假设对立的假设,一般假设差异不显著H1:1
0 H0:1=0Z检验取
=0.05
1.5.2错误和错误
错误(I型错误)typeIerrorH0为真时却被拒绝,弃真错误错误(II型错误)typeIIerrorH0为假时却被接受,取伪错误
假设检验中各种可能结果的概率
接受H0 拒绝H0,接受H1H0为真
1-
(正确决策) (弃真错误)H0为伪
(取伪错误) 1-(正确决策)
错误和错误的关系
+≠1对于固定的样本容量n,与不能同时减小减少与的一个方法是增大样本容量n1.5.3单侧检验和双侧检验问题的提法双侧检验:和已知常数0是否有显著性差异?单侧检验:是否显著高(低)于已知常数0?建立的假设双侧检验:H0:
=0 H1:0单侧检验:H0:
≤0 H1:>0
H0:
≥0 H1:<0拒绝域rejectionregion(相关概念:临界值)双侧检验:Za/2单侧检验:ZaP133例5-3某高校参加同专业的统一考试,随机抽查64份试卷,由此求得平均成绩为69分,标准差为9.5分。已知该科全体考生成绩服从正态分布,且总平均分为65分,问该高校考生的平均成绩是否显著高于全体考生的平均水平?用单侧检验还是双侧检验?做题根据题意做研究事先确定一般倾向于用双侧检验思考题某人怀疑他得了某种疾病,到医院检查待验证的假设是“有病”还是“没病”?医生什么时候犯错误?什么时候犯错误?认定实际没病的他“有病”认定实际有病的他“没病”取多大?能不能直接验证一个假设?所有天鹅都是白的如果检验结果接受了H0,我们可以说H0得到了证明吗有一只天鹅是黑的2.总体均值的显著性检验
2.1总体正态且总体方差己知P137例5-4全市统一考试的数学平均分
0=62分,标准差0=10.2,一个学校的90名学生该次考试的平均成绩为68分,问该校成绩与全市平均差异是否显著。(取=0.05)P137例5-4解答例:有人调查早期教育对儿童智力发展的影响,从受过良好教育的儿童中随机抽取70人进行韦氏儿童智力测验(
0=100,0=15)结果X=103.3,能否认为受过良好早期教育的儿童智力高于一般水平。2.2总体正态但总体方差未知P139例5-6学生的学习成绩与教师的教学方法有关。某校一教师采用了一种他认为新式有效的教学方法。经过一学年的教学后,从该教师所教班级中随机抽取了6名学生的考试成绩,分别为48.5,49.0,53.5,49.5,56.0,52.5,而在该学年考试中,全年级的总平均分数为52.0,试分析采用这种教学方法与未采用新教学方法的学生成绩有无显著的差异(已知考试成绩服从正态分布,取
=0.05)例:一个汽车制造商声称,某一等级的轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000公里,对一个120个轮胎的随机样本作了试验,测得平均值和标准差为X=41000,S=5000。已知轮胎寿命的公里数近似服从正态分布。该制造商的产品同他所说的标准相符吗?(=0.05)2.3总体非正态P140例5-7某省进行数学竞赛,结果分数的分布不是正态,总平均分43.5。其中某县参加竞赛的学生168人,X=45.1,S=18.7,该县平均分与全省平均分有否显著差异?(=0.05)Z检验和t检验两种检验的前提之一总体正态分布当n≥50时,两种检验的临界值差不多相等,即Za/2≈ta/2(n)
(Z0.05/2=1.960,Z0.01/2=2.576)小结P141思考题1、某市场研究有限公司假定电话调查可在15分钟以内结束。如果调查所需时间超过该值,则需要加收额外费用。假定由35个电话调查所组成的一个样本表明,其样本均值为17分钟,样本标准差为4分钟。取显著性水平=0.01,问是否需要额外收费?思考题2、据美国商业部的经济分析局报道,北加利福尼亚居民年收入的均值为18688美元。一名研究者想对南加利福尼亚州检验H0:=18688,H1
:18688,其中
为南加利福尼亚州居民年收入的均值。假定由400名南加利福尼亚州居民所组成的样本表明,其年收入的样本均值16868美元,样本标准差为14624美元,则假设检验的结论是什么?取显著性水平为0.05。3.两总体均值差异的显著性检验
3.1两总体方差已知3.1.1总体方差已知,独立样本附:例:某地区的六岁儿童中随机抽取男生30人,其平均身高为114cm,抽取女生27人,平均身高112.5cm。根据以往资料,该区六岁男女儿童身高的标准差男童为5cm,女童为6.5cm,问该区六岁男女儿童身高有无显著差异?(=0.05)3.1.2总体方差已知,相关样本例:某幼儿园在儿童入园时对49名儿童进行了比奈智力测验(=16),结果平均智商X1=106,一年后再对同组被试施测,结果X2=110,已知两次测验结果的相关系数r=0.74,问能否说随着年龄增长与一年的教育,儿童智商有了显著提高。(=0.01)3.2两总体方差未知
3.2.1两总体方差相等独立样本P144例5-9:某校进行一项智力速度测验,共有19名学生参加,其中男生12人,女生7人。测验共200道题目,在规定时间里,答对一题记1分,测验结束后,得到以下的测验成绩男生12人:83、146、119、104、120、161、134、115、129、99、123女生7人:70、118、101、85、107、132、94试确定男、女生的平均成绩有无显著的差异(取=0.05)3.2.2两总体方差不等,独立样本3.2.3两总体方差未知,相关样本,相关系数未知(p.148)3.2.4两总体方差未知,相关样本,相关系数已知3.3两个非正态总体
n>30或n>50时用Z’检验4方差的差异检验4.1样本方差与总体方差的差异检验4.2两个样本方差差异检验4.1样本方差与总体方差的差异检验P154例5-16全区统考中,全体学生的总方差为182,而某校51名学生成绩的方差为122,问该校学生成绩的方差与全区方差有无显著差异?(取=0.05)4.2两个样本方差的差异检验
4.2.1独立样本P156例5-17某次教改试验后,从施行两种不同教学方法的班级中随机各抽取10份和9份试卷,得到如下的成绩数据:
试验班:85,76,83,93,78,75,80,79,90,88
对比班:75,86,96,90,62,83,95,70,58
拟比较试验的效果,请先检验方差是否齐性,以便于选取恰当的检验方法(=0.05)P156例5-18随机抽取男生41人,女生31人进行测验,男女的样本标准差分别是7和6。问男女生测验结果的方差是否有显著差异?(=0.05)两个样本方差的差异检验
4.2.2相关样本5其他的假设检验5.1总体比例差异的假设检验5.2两总体比例差异的假设检验5.3总体相关系数的假设检验5.4两总体相关系数差异的假设检验5.1总体比例差异的假设检验例:一项调查结果表明某市老年人口比重为14.7%,该市老年人口研究会为了检查该项调查是否可靠,随机抽取了400名居民,发现其中有57人年龄在65岁以上。调查结果是否支持该市老年人口比重为14.7%的看法?(
=0.05)5.2两总体比例差异的假设检验P159例5-20
分别在初一40人和初二45人中征求对学科兴趣的意见,对外语表示爱好的比例分别为0.457和0.543。能否说明对外语的爱好同年级高低有关?5.3总体相关系数的假设检验
假设总体相关
=0时P160例5-21某年级25名学生进行了两门课程的测验,结果r=0.25,问该年级这两种课程是否存在相关?(
=0.05)实际应用查相关系数检验表P486df=23,
=0.05
0.396假设总体相关
≠0时r的样本分布不是正态,不能用t检验,这时将r转换成费舍Zr(P487),而
例:对于10岁儿童而言,比奈智力测验与韦氏儿童智力测验的相关为0.70。随机取出10岁儿童50名进行上述两种智力测验,结果相关系数r=0.54。问实测结果是否和总体相符。(
=0.05)5.4积差相关系数差异的显著性检验P161例5-22从某市的重点中学和一般中学各抽取50名和60名考生,分别计算其数学成绩和瑞文推理测验分数的相关系数为r1=0.79,r2=0.49,问两相关系数差异是否显著。(
=0.01)方差分析1.方差分析的原理估算误差方差平方和分解2.单因素方差分析完全随机随机区组3.多重比较4.多因素方差分析1.方差分析的原理
1.1什么是方差分析AnalysisofVariance简称ANOVA,检验多个总体均值是否相等分析实验数据中不同来源的变异对总体变异的贡献大小,从而确定实验中的自变量是否对因变量有重要影响(见P167第二段)比较两个以上的样本平均数可以把方差分析看成是t检验的扩展分析两个以上的自变量的效应及其变量之间的交互作用1.2从一个例子看方差分析的原理Craik&Lockhart(1972)记忆效果和加工方式有关Eysenck(1974)50名55~65岁的被试随机分组Counting计算字母的数目Rhyming想出押韵的词Adjective想出一个修饰词Imagery把词想象成画Intentional告知有记忆测验(前4组都不知道要测验)过程:包含27个词的表过3遍后要求被试写下记住的词1.2.1几个概念因素:自变量independentvariable,处理treatment
如:加工方式因素的水平:一个因素的不同情况或取值,不同的实验处理如:Counting,Rhyming,Adjective,Imagery,Intentional因变量:自变量影响的结果如:记忆效果单因素方差分析one-wayANOVA只有一个因素,一个因变量多因素方差分析two,three,…-wayANOVA多个因素,一个因变量1.2.2虚无假设、前提假设虚无假设H0:m1=m2=m3=m4=m5方差分析的前提假设正态normality方差齐性homogeneityofvariance误差方差errorvariance:和实验处理无关的方差某种实验处理的效果相当于在每个人的分数的基础上加一个常数独立independenceofobservations1.2.3估计总体方差的两种方法
方法一方法二方差分析的逻辑用两个方法来估计总体方差一种方法与虚无假设是否成立无关另一种方法以虚无假设成立为前提如果两种方法算出来的结果一致,接受H0,否则拒绝H0处理效应treatmenteffect1.2.4平方和的分解sumofsquares平方和的优越性在于其可加性均方和方差只有在自由度相等时才可加变异的分解均方如果当F≤1,数据的总变异中大部分是由实验误差或个体差异造成的,不同的实验处理之间差异不大,即实验处理基本无效如果F>1且落入F分布的临界区外,实验处理的作用显著大于组内变异的作用,可以确认实验处理的有效作用,至少有两个处理之间的差异显著方差分析就是检验组间变异在统计上是否显著地大于组内变异用原始数值计算方差分析表1.2.5方差分析的基本过程建立假设H0:无处理效应H1:有处理效应求平方和确定自由度求均方进行F检验,单侧列出方差分析表1.2.6方差齐性检验
哈特莱Hartley法1.2.7方差分析和实验设计因素单因素多因素设计完全随机设计随机区组设计1.2.7.1完全随机设计
Completerandomizeddesign把被试随机分成若干组,每个组随机指派一种实验处理。完全随机分组后,各实验组的被试之间是相互独立的,因而这种设计又称“独立组设计”或“被试间设计”不足之处误差项包括实验本身的误差又包括个体差异引起的误差1.2.7.2随机区组设计
randomizedblockdesign原则:同一组内的被试应尽量“同质”一个被试作为一个区组,不同的被试(区组)均需接受全部k个实验处理每一区组内被试的人数是实验处理的整数倍区组内的基本单元标识是以一个团体为单元同一区组接受所有实验处理,实验处理之间有相关,所以也称为“相关组设计”或“被试内设计”区组效应和误差变异的分离总平方和=组间平方和+区组平方和+误差平方和2.单因素方差分析
2.1单因素完全随机设计等重复设计各实验处理组的样本容量相同不等重复设计各实验处理组样本容量不同有各组均值、方差、样本容量而无原始数据2.1.1等重复设计各实验处理组的样本容量相同k个处理组,每个组样本容量均为n例为研究不同科目的教师当班主任,对学生某一学科的学习是否有影响。把40名学生随机分派到5名教不同科目的班主任负责的班级中,经过一段时间以后对这40名学生进行数学考试,结果见下表。请检验5组不同班主任的学生数学成绩是否有显著差异。2.1.2不等重复设计各实验处理组样本容量不同计算组间平方和时,注意公式中的各组的nj不同2.1.3有样本统计量无原始值(p.173)例:把20名被试随机分成4组,每组(5人)接受一种教学方法,问四种教学方法是否有显著差异? 教学方法:ABCD
每组人数:5555
每组平均数:55.487.2
每组方差:1.991.041.20 1.762.2单因素随机区组设计方差分析有四种小学语文实验教材,分别代号为A、B、C、D。为比较其教学效果,按随机区组设计原则,将小学分为城镇重点小学、城镇一般小学和乡村小学三个区组,分别代号为I、II、III,并分别在每个区组中随机地抽取4所小学,它们分别被随机地指派实验一种教材。经一年教学后通过统一考试得到各校的平均成绩如下表。问四种教材的教学效果是否一致?随机区组设计-平方和分解随机区组设计方差分析的步骤随机区组设计的方差分析表3.多重比较multiplecomparison如果方差分析的结果表明差异显著,只能说明多个平均数之间至少有两个之间的差异显著,但没有指出哪些平均数之间的差异显著是否可以用t检验对平均数两两比较来寻找哪些有显著差异的平均数对呢?
不行!因为犯a错误的概率增加若H0为真,一次比较犯错误的概率是a若一次实验中做了n次独立的比较,那么这n次比较中犯错误的次数是na这n次比较中至少有一次犯a错误的概率是
1-(1-a)nN-K法Newman-KeulP184例6-52×2肥料:A、B土壤:红、黑4多因素方差分析4.1几个基本概念析因设计factorialdesign实验处理包括所有自变量的所有水平之间的两两组合,如5×2,3×3×3,2×2×2×2因素和水平主效应maineffect单个自变量和单个因变量之间的基本关系交互作用interaction两个或多个自变量的效应是彼此依赖的4.2多因素方差分析总平方和分解在两因素的完全随机设计中SSt=SSA+SSB+SSAB+SSe在两因素的随机区组设计中
SSt=SSbk+SSA+SSB+SSAB+SSe4.3二因素完全随机设计方差分析例:研究不同的教学态度(因素A)和不同的教学方法(因素B)对儿童识字量的作用,将20名被试随机分成四组(每组5人),每组接受一种实验处理,结果见下表A因素:A1为“严肃”,A2为“轻松”B因素:B1
为集中识字,B2为分散识字因变量为“识字量”二因素完全随机设计方差分析表4.4交互作用和主效应两因素之间的交互作用非常显著,表明集中识字与分散识字效果的不同是受不同教学态度影响的。同样,不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度园林绿化设计与施工合同
- 2024年度店铺货架租赁与销售分成合同
- 2024年度房屋买卖合同标的、房屋位置、房屋面积及房屋价格详细规定
- 衣帽架市场需求与消费特点分析
- 2024年度国际集装箱运输服务合同
- 2024年度影视版权转让合同:标的为电视剧版权交易
- 天线用滤波器市场发展现状调查及供需格局分析预测报告
- 2024年度版权转让合同详细内容
- 2024年度物流行业大数据分析与应用合作合同
- 2024年度教育设备采购与技术支持合同
- 多图中华民族共同体概论课件第十一讲 中华一家与中华民族格局底定(清前中期)根据高等教育出版社教材制作
- 数据编码第二课时课件高中信息技术教科版必修1
- 2.贵州省地方标准项目申报书
- 小学三年级一位数乘两位数的乘法练习题(500道)
- “读思达”教学法在整本书阅读教学中的实践
- 盐酸右美托咪定鼻喷雾剂-临床用药解读
- 老旧小区燃气管道改造方案
- HSK 2标准教程(完整版)
- 生产制造企业车间管理实务课程
- 医院护理质控工作汇报
- 新HSK1-6词汇大纲文档
评论
0/150
提交评论