心理与应用统计学_第1页
心理与应用统计学_第2页
心理与应用统计学_第3页
心理与应用统计学_第4页
心理与应用统计学_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

心理统计学(红色标记常考内容)-51-第一章绪论第一节研究对象1统计学1.1统计学分为数理统计与应用统计,1.2应用统计分为心理统计、生物统计、医学统计、社会统计、经济统计等等…1.3心理统计分为描述统计、推论统计、研究设计。2.推论统计2.1推论统计常用于从局部数据估计总体情况。2.2心理与教育类实证研究的结果,基本上都不能直接得出结论,而需要运用推论统计。第二节为什么要学习统计学一、发现随机现象的运动规律二、贯穿整个心理学研究过程的方法与技术三、心理学研究资料分析的技术四、“行话”——方便交流、阅读与撰写五、心理学专业的应用技术之一第三节基础概念一、总体、样本和个案二、统计量(特征量)和参数(一)总体的特性称为参数,用希腊字母表示;样本的特性称为统计量,用英文字母表示(二)统计量(特征量)和参数统计指标统计量参数平均数标准差相关系数回归系数

三、数据(变量)的类型(1)根据数据反映的测量水平,可分为:“称名”,特点:起名称作用,不同的数字没有大小之分(不可比较),不能加减乘除。“顺序”,特点:可比较,不能加减乘除。“等距”,特点:可比较、可加减,不能乘除。“比率”,特点:可比较、可加减乘除。四种类型变量的数学关系比较数据类型数学关系=or≠>or<+or-×or÷称名√顺序√√等距√√√等比√√√√离散数据(又称间断数据)和连续数据A.离散数据的特点:a.离散数据,变量的数值在变化上是有限的,数值与数值之间无法找到跟小单位的数值(如人数、性别、国籍等)b.离散数据的所有取值在数学上是不连续的,所有取值的数目是有限的,可以一一列举,相邻的两个取值之间不能再取中间值。c.离散数据往往只能取整数,不能无限细分。B.连续数据的特点:a..连续数据,如果技术允许,数值可以无限分割(如身高、体重等)b.连续数据是指在一定范围内连续变化、取值无限多的变量,不能一一列举。如人数是离散数据c.长度、温度、重量、时间等都是连续数据Q:心理测验或教育考试中五分制得分和百分制得分属于哪一种数据(离散or连续)?A:五分制是离散数据。一般将百分制近似地看作连续数据。Q:心理测验或教育考试中五分制得分和百分制得分分别属于哪一种数据(称名、顺序、等距、等比)?A:五分制是顺序数据。一般将百分制近似地看作等距数据。通常将量表分数也近似看作等距数据。通常来说:称名数据和顺序数据是离散型数据(不可任何运算)等距数据和比率数据是连续型数据(可加、减)注意事项:数据类型:是本门课程的基础,是心理学量化研究的基础,务必烂熟于心!!离散/连续:正确区分连续变量(等距与比率)与离散变量(称名与顺序),方能选用正确的统计方法。2统计图表注意事项:统计表的标题位于上方统计图的图题位于下方常用统计图(1)条形图离散型data(2)圆形图间断性data(3)线性图连续性data(4)散点图两列变量均为连续性data3集中量数集中量,用来表现数据资料的典型水平或集中趋势(centraltendency)。常用的集中量包括算术平均数、加权平均数、调和平均数、中(位)数和众数等等。3.1算术平均数算术平均数(arithmeticaverage)一般简称为平均数(average)或均数、均值(mean)。一般用M,或者用表示。算术平均数是应用最普遍的一种集中量。3.1.1算术平均数的计算公式注:3.1.2平均数的性质(1)即:观测值与平均数之差(称为离差)的总和为零。(2)每个观测值都加上一个常数C后,计算得到的平均数等于原平均数加上这个常数。(3)每个观测值都乘以一个常数C后,计算得到的平均数等于原平均数乘以这个常数。(4)一组数据中最小的是:即:各观测值与算术平均数之差(离差)的平方和最小。3.1.3算术平均数的意义算术平均数是是“真值”(truescore)的最佳估计值。真值是反映某种现象的真实水平的分数。由于测量过程中的各种偶然因素的影响,真值往往很难得到。在实际测量中,往往采用“多次测量,取平均数”的方法,用平均数去估计真值。3.1.4算术平均数的优缺点算术平均数具备一个良好的集中量所应具备的一些特点:反应灵敏;严密确定;简明易懂;适合进一步代数运算;与中位数、众数相比,受抽样变动影响较小等等。主要不足:容易受两极端数值的影响;如有模糊不清的数值时,无法计算。3.1.5计算和应用算术平均数的原则同质性原则:算术平均数只能用于表示同类数据的集中趋势。平均数与个体数值相结合的原则:在解释个体特征时,既要看平均数,也要结合个体的数据。平均数与标准差、方差相结合原则:描述一组数据时既要分析其集中趋势,也要分析离散程度。3.2中位数中位数(median)又称为中数,是按顺序排列的一组数据中位于中间位置的数。中位数是常用集中量的一种。一般用Md或Mdn表示。3.2.1中位数的计算方法首先将一组数据按顺序排列:3.2.2中位数的优缺点中位数的优点中位数是根据全部数据的个数来确定其位置的,意义简明;对按顺序排列的数据来讲,计算中位数也比较容易;中位数不受两端极端数据的影响中位数的缺点反应不灵敏;不适合进一步代数运算的要求。3.2.3中位数的适用条件一组数据中有极端数据时;一组数据中有个别数据不确切、不清楚时;当需要快速估计一组数据的代表值时,也常用中数资料属于等级性质时。3.3众数众数(mode)用Mo表示,有两种定义:理论众数是指与频数分布曲线最高点相对应的横坐标上的一点;粗略众数是一组数据中出现次数最多的那个数。众数也是一种集中量,也可用来表示一组数据的集中趋势。3.3.1众数的计算方法观察法寻找粗略众数:数据中出现次数最多的数即为众数。公式法计算理论众数的近似值:用公式计算的众数称为理论众数。一般在心理与教育统计中常用的公式有皮尔逊的经验公式和金氏插补法公式。皮尔逊经验公式:皮尔逊经验公式只有当数据分布呈正态或接近正态时才能使用。当数据分布呈偏态时,一般用金氏插补法计算众数。第三节差异量数1.变异性(variability):反映数值与数值之间的不同。例如:第一组数据7,6,3,3,1第二组数据3,4,4,4,5具有与之相同的均值(4),但变异性呢?第三组数据4,4,4,4,4根本没有变异性——数值之间无差异,但和前面两组具有相同的均值。2.变异性(离散程度、离散度、离中趋势)可被视为:对不同数值之间的差异性的测量。2.1更精确地说:把变异性看作一组数据中每个数值与特定值的差异程度。通常来说,这个“特定值”就是均值。因此,变异性可看作一组数据中每一个数值与均值的差异性的量数。3.1集中量数(典型性/代表性),一组数据的代表数值3.2差异量数(变异性/离散度),不同数值和一个数值的差异性3.3集中、差异量数可共同用于描述数据分布的特征,并说明数据分布的差异第二章数据的图表描述与特征量引子某研究者得到以下两组成绩:两组分数是否一样?为什么?哪组均值的代表性更好?为什么?一、全距、平均差和四分位差(一)全距(range):(二)平均差(averagedeviation),平均差是总体所有单位与其算术平均数的离差绝对值的算术平均数。常用AD表示。普通平均差计算公式:加权平均差计算公式:负偏态和正偏态均数<中位数<众数众数<中位数<均数(三)四分(位)差又称四分位距,常用Q表示。剔除掉整组观测值中最高的1/4和最低的1/4的数据,然后计算中间的一半数据的全距,再除以2而得到。Q2正好是中位数Q1,Q2和Q3分别被称为第一、第二和第三四分位数。练习:计算过程:二、方差与标准差(一)定义A.方差(又称为变异数、均方)。是表示一组数据离散程度的统计指标。一般样本的方差用表示,总体的方差用表示。B.标准差(standarddeviation)是方差的算术平方根。一般样本的标准差用S表示,总体的标准差用表示。C.标准差和方差是描述数据离散程度的最常用的差异量。计算公式(考过选择题):一般样本的标准差另外,简便算法:一般样本的标准差=总体的方差的平方根。总体的标准差总体的方差?练习:(应用知识点:一般样本的标准差=总体的方差的平方根)为n个服从标准正态分布的随机变量的平方和(卡方分布)这时,总体的方差=卡方分布/n-1?练习:试估计49、50、51的均数和标准差。(三)标准差的性质性质1:每个观测值都加一个相同的常数C后,计算得到的标准差等于原标准差性质2:每个观测值都乘以一个相同的常数C后,计算得到的标准差等于原标准差乘以这个常数性质3:每一个观测值都乘以一个相同的常数C(C≠0),再加上一个常数d所得的标准差等于原标准差乘以一个常数比较:平均数与标准差的性质(四)方差与标准差的意义标准差度量的是观测值与平均数间的平均距离。∴S=0代表观测值完全没有散布(全都在同一点),否则必然有S﹥0。当观测值离平均数散布得越远,S就越大。(五)标准差的应用典例:一个班级男生身高的平均数是1.75米,标准差是0.10米;体重的平均数是60千克,体重的标准差是5千克,问身高和体重哪个差异大?答:单位不同,不能比较典例:同样是跳远,大学生的平均成绩是4米,标准差为0.3米;一年级学生的平均成绩是1米,标准差为0.3米,这两个差异是一样大小吗?答:显然也不是,因为大学生成绩的相对差异比较小,而小学生成绩的相对差异比较大。1.差异系数(1)当两组或几组数据资料单位不同时,不能直接用标准差来比较离散程度的大小;(2)当两组或几组数据资料单位相同时,但它们的平均数相差较大时,也不能直接根据标准差来比较它们的离散程度;差异系数的应用:(1)比较测量单位不同事物的差异程度;一个班级男生身高的平均数是1.75米,标准差是0.10米;体重的平均数是60千克,体重的标准差是5千克,问身高和体重哪个差异大?(2)比较单位相同,均数悬殊者例:初三甲乙两班的数学平均成绩分别为92和71,标准差分别为8.95和7.40。试问两班成绩谁的差异程度大一些?第四节地位量数百分位数百分等级数Q2正好是中位数Q1,Q2和Q3分别被称为第一、第二和第三四分位数。如果将数据分为100段,Q1,Q2和Q3分别被称为第25、第50和第75百分位数。一、百分位(分)数定义:团体分数高低排序,计算某个百分位数位置所对应的数值(观测值)。例:表示在该次数分布中,有20%的个案低于6060就是该组数据的第20个百分位数表示在该次数分布中,有75%的个案低于25表示在该次数分布中,有30%的个案低于55二、百分等级(分)数定义:是百分位数的逆运算。符号:例:小张某次考试成绩为85分,且PR=90含义是:此次考试有90%的人的成绩低于85分或此次考试中有10%的人成绩高于小张引子:概率Probability例:你买彩票中500万的机会很小(接近0),但有人中大奖的概率几乎为1你被流星击中的概率很小(接近0),但每分钟有流星击中地球的概率为1今天你被汽车撞上的概率几乎是0,但在地球每天发生车祸的概率是1第三章随机事件与概率分布第一节随机事件一、随机现象和随机事件(一)随机现象1.什么是随机现象2.随机现象的特点:偶然性、规律性偶然性VS.规律性——死亡的概率我们能预测特定的人明年会死亡吗?如果我们观察好几百万人呢?据美国国家卫生统计中心,20-24岁的男性当中,在任一年中死亡的比例大约是0.0015。同年龄层的女性,死亡概率大约是0.0005。(正因为男性理赔的比例要高一些,所以保险费会收得多一点)(二)随机事件(Randomevents)例:请判断下列事件是属于事件之和or事件之积:共8个题目,6个选择,2个判断,随机从中抽出一个题从中抽出选择题或判断题是属于事件之(和)计算从中抽出选择题或判断题的概率是属于(互不相容)事件?练习:请判断下列事件是否属于独立事件抛一枚硬币然后再掷一个骰子(独立)起床太晚和准时上课(非独立)认真学习和拿奖学金(非独立)例:假设从2223名登上泰坦尼克号的乘客中随机选出1人,思考下列问题:计算P(选出一个man或一个boy),是属于事件之(和),是属于(互不相容)事件提示:计算P:(1692+64)/2223=1756/2223?练习:将一枚硬币抛三次,得到的全部是国徽的概率是多少?如果从一组包含10名男性和15名女性的组中没有放回地随机选出3个不同的人,则选出3名男性的概率是多少?(提示:10/25*9/24*8/23)二、随机事件的概率对随机事件的观测或试验可能有多种结果?不仅想知道有哪些可能的结果,还想知某些结果出现的可能性的大小。这一可能性用数字来表示就是概率(一)频率与概率频率是大量试验的结果,随试验次数变化的值概率是一个确定值试验次数越多,频率将无限接近于概率频率是事件发生的外在表现,概率体现事件发生的内在实质。频率与概率间的关系:样本频率总是围绕概率上下波动样本含量n越大,波动幅度越小,频率越接近概率。说明:随机变量例:每次抛两个硬币,记录正、反面结果;结果可记录为:硬币1正面朝上,硬币2正面朝上;2个正面硬币1正面朝上,硬币2反面朝上;1个正面硬币1反面朝上,硬币2正面朝上;1个正面硬币1反面朝上,硬币2反面朝上;0个正面正面出现的次数就是一个随机变量,记为x,我们通常对x的每个取值的概率感兴趣。对于本例,x的取值为0、1、2。说明:离散型随机变量与连续型随机变量离散型随机变量:数据间有缝隙,其取值可以列举。例如:抛硬币10次,正面的可能取值x为0、1、2、3、4、5、6、7、8、9、10连续型随机变量(continousrandomvariable)数据间无缝隙,其取值充满整个区间,无法一一列举每一可能值。例如:身高、体重、百分制考试成绩三、概率分布(probabilitydistribution)概率分布:描述随机变量值及这些值对应概率的表格、公式或图形。离散型随机变量概率分布连续型随机变量概率分布例:离散型随机变量的概率分布:例:离散型随机变量的概率分布:连续型随机变量的概率分布变量的取值充满整个数值区间,无法一一列出其每一个可能值。一般将连续型随机变量整理成频数表,对频数作直方图,直方图的每个矩形顶端连接的阶梯形曲线来描述连续型变量的频数分布。如果样本量很大,组段很多,矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。大多数情况下,可采用一个函数拟合这一光滑曲线。引子:常用的概率分布离散型随机变量分布:二项分布、泊松分布连续型随机变量分布:正态分布第二节(一)二项分布毒性试验:白鼠死亡——生存临床试验:病人治愈——未愈回答题目:判断题答对——答错事件成功(A)——失败(非A)这类“成功─失败型”试验称为Bernoulli试验例:一位心理学家想了解儿童对于某种材料的再认能力。设计了10个记忆项目,先让儿童识记,然后进行再认测验。结果儿童能正确再认5个项目。请判断:该儿童对这种材料究竟有没有再认能力。答:10个项目认对了50%,完全可能是瞎猜的结果。可以认为该儿童对于这种材料完全没有什么再认能力。作为研究者,不能凭感觉说话。要研究类似上述问题有没有数量规律性,以便找出一个数字标准:超过这个标准,就认为有再认能力,未达到这个标准,就认为没有再认能力。(二)二项试验二项试验必须满足以下条件:这个过程包括一个固定次数的试验。每次试验的所有结果都可以分为两类;各次试验相互独立(即任何一次单独试验的结果都不影响其他试验中结果的概率);各次试验中概率必须是常数(即成功的概率恒定,失败的概率也恒定)。例:114查号台声称,当用户查询电话号码时,90%的情况下会得到正确的电话号码。假设回答的正确率为90%,假如我们想在5次查询中有3次回答正确的概率。(1)这个过程是一个二项分布吗?(2)如果这个过程的结果是一个二项分布,请说明n,x,p和q的值。解答:试验次数5是固定的;n=5,x=35次试验是独立的,使用的是不同的电话号码,接线员也不同;5次试验中的每个试验都有两类结果:要么对,要么错;p=q=1/25次试验中的每个试验,概率0.9(90%)是常数。例:假设每年9月份的降水概率为0.4。假设30天的降水次数为X,20年中9月份降水的分布即为一个二项分布。p=0.4,q=0.6,n=30;X取值[0,30]如果20年的X值分别为:15,18,11,12,11,16,14,12,10,12,13,14,13,14,12,8,9,10,12,13降水次数时间(三)二项分布函数用n次方的二项展开式来表达在n次二项试验中成功事件出现的不同次数(X=0,1…)的概率分布,叫做二项分布函数。1.二项式概率分布函数:2.二项展开式的要点:项数:二项展开式中共有n+1项。方次:p的方次,从n→0为降幂;q的方次从0→n为升幂。每项p与q方次之和等于n。系数:各项系数是成功事件次数的组合数。例:2道是非题的情况3道是非题的情况4道是非题的情况例:1、从男生占2/5的学校中随机抽取6个学生,问正好抽到4个男生的概率是多少?最多抽到2个男生的概率是多少?解:将n=6,p=2/5,q=3/5,X=4代入公式,则恰好抽到4个男生的概率为2、接上,最多抽到2个男生的概率,等于1个也没有抽到、抽到1个和抽到两个男生的概率之和,即3.二项分布曲线形成:以成功次数为X,组合数为Y绘制的多边图。特点(二项分布的性质):当时,不论n有多大,二项分布曲线都总是对称的;当时,且n相当小,图形呈偏态;当相当大(≥30)时,图形逐渐接近正态分布。4.二项分布的应用(1)求成功事件恰好出现X次的概率(2)在教育与心理中主要用来判断试验结果的机遇性与真实性的界限。5.二项分布的平均数和标准差如果二项分布满足p>q且nq≥5(或者p<q且np≥5时),二项分布接近于正态分布。(应用前提)可用下面的方法计算:注意——应用前提:可信度水平:应用——猜测性:例:某测验中有10道判断题,试分析学生的掌握情况或猜测的可能性。①条件分析:②求均数和标准差:③确定一定可信度时的掌握程度:④结果解释例:例:某测验有30个正误题,试问学生要做对多少题,才属掌握了所学的内容。例:一个教师对8个学生的作业成绩进行猜测,如果教师猜对的可能性为1/3,问:假如规定猜对95%,才算这个教师有一定的评判能力,那么这个教师至少要猜对几个学生?例:假设把一个质地均匀的硬币抛3次,这时你和朋友打赌:着地时出现“正面”会有2次,赌注为10元。如果这种结果出现了,你的朋友必须给你10元钱。谁更有可能赢呢?例:有20道四择一题,试问学生要做对多少题,才属掌握了所学的内容。可信度水平:6.二项试验必须满足的条件有:这个过程包括一个固定次数的试验;每次试验的所有结果都可以分为两类;各次试验相互独立(即任何一次单独试验的结果都不影响其他试验中结果的概率);各次试验中概率必须是常数(即成功的概率恒定,失败的概率也恒定)。7.二项(式概率)分布函数:例:从男生占2/5的学校中随机抽取6个学生,问正好抽到4个男生的概率是多少?最多抽到2个男生的概率是多少?解:将n=6,p=2/5,q=3/5,X=4代入公式,则恰好抽到4个男生的概率为最多抽到2个男生的概率:等于1个也没有抽到、抽到1个和抽到两个男生的概率之和例:一块均匀的硬币,A为正面朝上,B为反面朝上。假设n=2(抛两次),有多少可能的结果?①两次正面朝上的p?(1/4)②抛不到正面朝上的p?(1/4)③只有一次正面的p?(1/2)④至少一次正面的p(1/2+1/4=3/4)?什么条件下,二项分布可以近似为正态分布?n足够大的时候8.二项分布曲线形成:以成功次数为X,组合数为Y绘制的多边图。特点(二项分布的性质):当时,不论n有多大,二项分布曲线都总是对称的;当时,且n相当小,图形呈偏态;当相当大(≥30)时,图形逐渐接近正态分布。9.二项分布的应用(1)求成功事件恰好出现X次的概率?(2)在教育与心理中主要用来判断试验结果的机遇性与真实性的界限。第三节正态分布(NormalD.)一、正态分布的特征二、标准正态分布表利用积分公式可求出正态曲线下任何区间的面积,但需要计算,非常麻烦。统计学家已编制好了标准正态分布表,使其使用非常方便。(见教材后的附表)1.正态分布表的使用(详细看教材):Z→P,P→Z,P→Y或Z→Y①Z→P求某个Z值以上或以下的面积-1.2~2.4p=0.876730.6~1.5p=0.20744求某个Z值以上或以下的面积Z=2.4以上Pp=0.0082Z=-1.2以下Pp=0.1151②P→Z查表法:近似结果P=0.80,Z=?p=.29955,Z=.84p=.30234,Z=.85③P→Y查表法:P=0.80,Y=?P=.29955,Y=.28034P=.30234,Y=.27798④PR与Z的关系Z值的计算公式:例:在一正态分布中,若某人的标准分数为1,则他在该团体中的百分等级应当为a.34b.68c.84d.75三、标准分数标准分数(standardscore)又称基分数或Z分数(Z-score)是相对位置量数。标准分数从分数对平均数的相对地位、该组分数的离中趋势两个方面来表示原始分数的地位。标准分数的计算公式:(1)标准分数的实质:把单位不等距和缺乏明确参照点的分数转换成以标准差为单位,以均数为参照点的量表分数。(2)标准分数的优点:可比性:标准分数以团体的平均数为基准(参照点),以标准差为单位,因而具有可比性。可加性:标准分数使不同的原始分数具有相同的参照点。明确性:标准分数较原始分数的意义更为明确。合理性:标准分数保证了不同性质的分数在总分数中的权重相同,使分数更合理地反映事实。(3)标准分数的应用:用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低。(比较测量单位不同的变量的位置)计算不同质的观测值的总和或平均值,以表示在团体中的相对位置。表示测验分数d)比较单位不同变量的位置例:例:已知该班的成绩情况如下表例:某高考中两生各科成绩如下表。异常值的取舍:在一个正态分布中,平均数上下一定的标准差处,包含有确定百分数的数据个数。在平均数上下各三个标准差的范围内,分布着全部数据的99.73%,反言之,在三个标准差之外的数据不足0.27%,因此常把“三个标准差”做为判断可疑值取舍的依据。四、正态分布表及其应用:①韦氏智商分数:②选拔性测验:eq\o\ac(○,3)在能力分组或等级评定时确定人数eq\o\ac(○,4)测验分数的正态化(太复杂,不深究)例:假设对100名报考大学的学生进行分班考试,要按能力将这些学生分为A、B、C、D、E五个小组(或等级),每组能力组距相等,若考试成绩所测得的分数是正态的,问A、B、C、D、E各组应当分布几名学生?分析步骤:当时,不论n有多大,二项分布曲线都总是对称的标准分数的计算公式:例题:确定录取分数线(要求p/z/y中的哪一个?)某区要在2500名初三学生中选50名学生参加全市初中物理竞赛。已知该区初三上学期物理考试成绩近似正态分布,且平均数57分,标准差16分。若以这次考试为准来选拔参加竞赛的学生,分数线应定为多少?分数线是p、z还是y?分析:①求入选率:例:某次考试,学生成绩正态分布,n=200人,μ=66.78,σ=9.19,若表扬前20名,分数线应该是多少?①求入选率:例:已知某年级200名学生考试成绩呈正态分布,μ=85分,σ=10分,学生甲的成绩为70分,问全年级成绩比学生甲低的学生人数是多少?(学生人数是p、z还是y?)例:假设500名学生的数学成绩分布符合正态分布。且已知平均分70,标准差5分。试问60~80分学生的人数分布为多少?分析:已知:N=500,M=70,SD=5,(P←Z←M,SD,X)eq\o\ac(○,1)第四章抽样分布与参数估计第一节抽样分布总体分布(populationdistribution):总体内个体观察值的次数分布或概率分布。样本分布(sampledistribution):样本内个体观察值的次数分布或概率分布。抽样分布(samplingdistribution):样本统计量的概率分布。一、抽样分布与抽样误差估计(一)抽样分布的定义(二)抽样误差:由抽样的随机性引起的样本统计量与总体参数之间的差异。.标准误定义:统计量在抽样分布上的标准差。符号:SE(StandardError)解释:SE越小,样本统计量与总体参数越接近,样本对总体的代表性越好,用样本统计量推断总体也越可靠。?练习:请问下列标准误的含义是什么?思考:试比较标准误与标准差的异同。同:都是离中趋势的指标。异:S:一般变量值(原始数据)离中趋势的指标。SE:样本统计量离中趋势的指标。二、样本平均数的抽样分布(一)抽样分布形态的影响因素:总体的分布形态样本容量的大小要计算的统计量(二)中心极限定律若总体正态,则从中抽取容量为n的一切可能样本的均数分布也呈正态;无论总体是否正态,只要n足够大,样本均数的分布接近正态分布。(三)自由度定义:推断统计中,变量值独立自由变动数值的数目。符号:df(degreeoffreedom)例如:现有一个n=5的样本,其样本均值为6,若前4个数据可以随意确定为3,6,7,9则第五个数据必须为5,因为受到∑X=30的限制,即df=n-1其中的1表示只有一个限制因素∑X=30注意:统计方法不同,自由度算法不同(四)常用的抽样分布正态分布及渐近正态分布:t分布、F分布、1.正态及渐近正态分布总体正态,已知,样本均数分布为正态。2.t分布(1)定义:由小样本统计量形成的概率分布。(2)特点:对称分布曲线易变,不是一条而是一簇。n→∞时,t分布与标准正态分布完全吻合(3)t分布的使用总体正态,,n≤30时,样本平均数分布为t分布。总体非正态,,n>30,样本均数的分布为t分布或渐近正态分布。第二节参数估计的基本原理一、推论统计概述(一)推论统计的定义(二)推论统计的主要内容(三)统计推断的有关问题:统计推断的前提——随机抽样样本——一定的规模及代表性推断错误——一定限度二、参数估计的概念从不同的样本得到的结论也不会完全一样。虽然真实的平均数在这种抽样过程中永远也不知道;但可以知道估计的均数和真实的均数大致差多少。三、良好点估计量的特征(1)无偏性:是指每个样本产生的估计量的取值不一定等于参数,但当抽取大量样本时,那些样本产生的估计量的均值会接近真正要估计的参数。(2)有效性:找方差最小的估计量∵方差小,说明反复抽样产生的许多估计量差别不大,因此更加精确。……其他标准涉及大样本的极限性质四、区间估计的原理(置信度、可信度)术语:置信区间、置信度、显著性水平、置信限1.置信区间置信度,即置信概率,是指作出某种推断时正确的可能性(概率)。置信区间,也称置信间距(confidenceinterval,CI)是指在某一置信度时,总体参数所在的区域距离或区域长度。(置信区间是带有置信概率的取值区间)定义:特定可靠性下,估计总体参数所在的区间范围。置信区间公式:比较:可信度水平:2.置信度:定义:被估计参数落在置信区间内的概率。别名:置信水平、置信系数、置信概率、可信系数…3.显著性水平对总体平均数进行区间估计时,置信概率表示做出正确推断的可能性,但这种估计还是会有犯错误的可能。显著性水平(significancelevel)就是指估计总体参数落在某一区间时,可能犯错误的概率,用符号α表示。4.置信限定义:被估计总体参数所在区间的上、下界限。总结:(1.96为置信度或置信水平)置信度是人为给定的,心理统计中常用95%和99%置信水平为95%时,置信水平为99%时,?练习:某大学大学生睡眠时间平均为6小时。有95%的把握说这个大学的学生平均睡眠时间在5到7个小时之间。(1)这里的[5,7]是什么?(置信区间)(2)95%是什么?(置信度或置信水平)影响置信区间大小的因素:、、(三)置信度与置信区间简而言之:点估计给出一个数字,用起来很方便;区间估计给出一个区间,说起来留有余地;不像点估计那么绝对。思考:置信区间与置信度的关系如何?如果选择99%而不是95%的水平。提高了置信水平,则增加了置信区间的宽度,降低了估计的精确性。要求:区间适度、置信度较高推论统计的小概率原则:在一个已知假设下,如果一个特定观测事件的概率格外小,我们就认为,这个假设很可能是不对的。第五章平均数的差异性t检验在不同条件下测得不同的数据样本后,必须对样本数据的差异来源作出判断:该差异是否意味着他们各自所在的总体存在差异?平均数存在差异,则需要判断该差异是偶然因素引起的还是实验条件引起的第一节假设检验的原理一、(一)假设产生差异的情况:样本统计量与相应总体参数的差异;两个样本统计量之间的差异;差异性质:真实差异:实验条件(系统因素)引起的(抽样)误差:在统计上是忽略不计的,不被视为真正的差异,即偶然因素引起的注意:假设检验并不是对假设的正确性做出正确的判断,而是对一个不确定问题的决策过程,其结果从概率上很有可能是正确的,但不排除错误的可能性。零假设和备选假设哪一个正确,这是确定性的,没有概率可言。而可能犯错误的是人。<1>虚无假设(无差/零假设)定义:根据检验结果予以拒绝或接受的假设内容:假设两个均数之间差异是误差。表示:<2>研究假设(备择假设)定义:研究者希望证实的假设。内容:假设两均数之间存在真实的差异。表示:零假设(H0):“正在研究的两个变量无关”或“变量之间无差异”如:卡路里每天的摄入量与体重无关。反应时间与问题解决能力无关。1年级的CECT-4平均成绩与4年级无差异。男生与女生的平均数学成绩无差异。POPMusic与Classic组平均记忆成绩无差异。例(常考):想了解参与入学准备项目的儿童与没有参与的儿童在学习成绩上是否存在差异。零假设:参与入学准备的儿童与没有参与的平均成绩无差异研究假设:参与入学准备的儿童与没参与的平均成绩有差异作为优秀的工作者,就应尽最大可能地去解释:两个群体之间的差异仅仅是由于入学准备项目(系统因素)引起的,而不是其他任何因素或者因素的组合(误差,如如父母受教育程度、家庭孩子的数量等等)。一旦消除了其他潜在的解释变量,唯一留下的对差异的解释就是入学准备的影响。可以完全消除其他潜在的解释变量?不可以!为什么?不能确定样本的代表性——即所研究的样本是否很好地代表总体。即使样本能很好地代表总体,也始终存在影响结论的其他因素,而且在实验设计的过程中总会遗漏这些因素。因此,研究中始终存在错误的可能性。那么,如果推断考试成绩的不同是由于是否参与入学准备项目,就得承受一定的风险。实际上风险水平就是愿意执行的统计显著性水平。?思考:比较一组篮球队员和一组足球队员的跑步速度可能有一些我们不知道的偶然因素导致了差异。篮球队员更强壮?或足球队员进行了更多的跑步练习?或两组都进行了额外的训练?测定速度的方式就有很多偶然因素:秒表、测试当天的天气……作为好的研究者,应该——观察到差异时消除偶然性因素,并评价其他可能导致群体差异的因素。如有目的的训练或营养计划,并分析这些因素如何影响速度。注意:研究报告与毕业论文。通常来说:只报告研究假设,不报告零假设。考试时全写(二)假设检验假设检验是一种带有概率性质的反证法。其具体过程是:显著性的含义两个(或多个)变量之间的差异是由系统因素影响的,而不是偶然性因素。换句话:两个(或多个)变量之间的差异是稳定存在的,而不是抽样误差引起的。注意:差异的显著性不是指差异的大小。显著性:举例说明假定:母亲工作和不工作的大学生对就业的态存在显著差异。这里所说的显著性,是指两个群体态度之间的任何差异是由于系统因素的影响;而不是偶然因素。而本案例中的系统因素是母亲是否工作。需要表明:即使很确信两种大学生群体之间的差异是由于母亲的就业状态引起的,但始终不能100%、绝对地、肯定地、毫无疑问地或毫不含糊地确信这一点。这个结论是错误的可能性始终存在,不论这个可能性有多小,多么微不足道——但始终存在!显著性水平含义:拒绝零假设的概率。常用水平值:解释:直观分析法;理论分析——小概率事件直观分析:直观分析:?思考:为什么显著性有.05.01还有.001?好比一个身高180厘米的男生,可能愿意被认为高于或等于180厘米,而不愿意说他高于或等于155厘米,虽然这第二种说法数学上没有丝毫错误。(三)小概率原理小概率事件:一次试验中发生可能性很小,大量重复试验终究发生的事件。≤0.05的随机事件为小概率事件。检验:随机样本统计量在抽样分布上出现的p≤0.05(或0.01),则以小概率事件拒绝Ho。假设检验中,H0总是作为直接被检验的假设。二、误差分析,95%为真实差异,5%为误差(一)检验方法1、双侧(尾)检验定义:拒绝性概率置于理论分布两尾。使用:结果或方向不确定时。意义:只推断有无差异,不断言方向。例:2、单侧(尾)检验定义:拒绝性概率置于理论分布一尾。使用:结果或方向确定时。意义:即推断有无差异,又断言方向。类型:右尾检验、左尾检验a.右尾检验定义:拒绝性概率置于理论分布的右尾。使用:能确定一个总体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论