版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
绪论第一节为什么要学习心理与教育统计第二节心理与教育统计的主要内容第三节心理与教育统计中的基本概念与预备知识“从事教育的人,若不懂得教育统计,不能称为教育科学家。”(艾伟)“Statisticalthinkingwillonedaybeasnecessaryforeffectivecitizenshipasabilitytoreadandwrite。”(H.G.Wells1866-1946)
第一节为什么要学习心理与教育统计学一、有助于深刻理解所学的心理与教育方面的知识
二、获取心理与教育方面的新知识的重要条件。你在一本心理杂志上看到这样一段文字:“独立组的t检验表明,在训练之前,实验组与控制组之间,在三个方面无显著差异,三个t值分别是t(18)=0.39,P>0.05;t(18)=0.14,P>0.05;t(18)=1.35,P>0.05。”心理与教育测量、实验心理学三、为学校实施科学管理提供有效工具。例题:张老师是一位刚参加工作的年轻心理学教师,本学期期末所教班级的学生考试成绩如下:81,73,64,59,94,82,67,75,90,48,57,86,75,93,88,72,65,77,60,79,70,81,56,64,73,99,87,66,50,45,80,82,67,74,68,92,54,57,87,64,76,55,61,65,70,89,71,49,60,72,70,83,67,74。问题:张老师应该怎样比较全面地整理出这次考试分数?怎样初步评价这次考试结果?
检测项目结果参考标准考试人数:20
平均分数:76.100
成绩标准差:
4.047-10考试优良率%20.00%
考试合格率%100.0%
最高分:84.0
最低分:66.0
考试信度:
->0.7考试效度:
0.6162>0.4成绩分布正态性检验:成绩分布服从正态分布服从正态分布偏度:-0.3786
峰度:-0.3594
试卷总体难度:
0.7605
试卷总体区分度:
0.1000>0.2心理学考试质量分析表假如你在某个小学任校长,该校正在进行一项教学改革,如何评价改革的成败?四、从事心理与教育研究的重要工具。
第二节心理与教育统计的性质与
主要研究内容定义:应用统计学的原理和方法对心理与教育问题进行定量研究的一门学科。
运用……
研究……
数量关系的学科统计学应用统计心
理与教育统计学
人口统计学
经济统计学生物统计学……
一、性质数理统计原理与方法
学习心理与教育统计学应注意的问题克服畏难情绪注意重点掌握各种统计方法的使用条件与结果的正确解释做一定的练习
选择哪些方面作为衡量学生发展的指标(学习成绩、心理健康水平、身体素质、解决问题能力等)?(研究变量的确定)选择多少学生?(样本容量的确定)怎样选取学生?(抽样方法的选择)用什么统计方法进行分析?(统计方法的选择)二、内容实验设计:研究者为了科学、经济、有效的进行研究,在研究前所制定的研究计划。通常包括研究课题的确定、研究变量的确定、研究对象的抽取、研究方法、研究工具、研究结果的统计分析方法的选择等。获得了一批什么样的数据?其分布有何特征?(借用统计图表和一些统计量数)描述统计:对已获得的数据进行初步整理和概括,以统计图表和统计量数的形式将研究对象的全貌和分布特征清晰显现出来的统计方法。主要包括统计图表、集中量、差异量、峰态量、偏态量、位置量、相关量等。总体而言,推荐生与统考生的身心发展状况分别如何?(参数估计)推荐生身心发展是否显著好于统考生?(假设检验)推论统计:根据已获得的样本数据所提供的信息来推论总体的特征的统计方法。通常包括总体参数估计和假设检验(t、Z、F、
2检验等)两部分。三者关系:
推论统计可靠数据一般水平及关系样本
↓
总体描述统计实验设计(保障)
概率分布平均(基础)(核心)推论统计推论统计(核心)第三节心理与教育统计中的基本概念一、基本概念(一)
总体、样本、样本容量
总体(N)
样本容量样本包含的个体数目大样本n>30小样本n<30样本(n)
相对性总体(N)
(二)变量、观测值、随机变量常量变量:可以取不同数值的量观测值:变量所对应的各个具体数值。随机变量:在取值之前不能预料取什么值的变量。
平均数标准差相关系数统计量参数(三)参数与统计量参数:统计量:参数与统计量的符号系统量数总体特性样本特性二、近似计算与连加和(一)近似数的计算法则四舍五入法则偶数法则:若在0.5之前是奇数,则去五进一,若0.5之前是偶数,则把五舍去。保留小数位数:最终结果保留2位,计算过程中保留4位。
(二)连加和及其运算法则1、连加和的缩写式写出下列符号的展开式
2、连加和的几个运算法则一、抽样原则
随机性原则保证总体中的每一个体都有一个相等的机会入选到样本中。二、几种主要的随机抽样方法(一)简单随机抽样:
它是最符合随机原则的而又最基本、最简单的方法,因而又称为完全随机抽样或纯随机抽样。常用的具体抽取方式有抽签法、随机数字表法(见附表19)。
条件:对总体中的每一个成员编号特点:对于小样本的研究比较简便,但对于大规模的抽样研究比较繁琐,因此在实际研究中并不经常单独使用。(二)等距抽样法:先把总体中的所有个体编号并排序,而后按固定的间距抽取个体组成样本的方法。抽样间距=总体大小/样本大小抽样的起始点是第一个抽样间距内的任意位置。
特点:与简单随机抽样相比,这种方法更为简便易行,而且它能比较均匀地抽取到总体中各个部分的个体,所以其样本的代表性比简单随机抽样好。
应用这种方法应注意的问题:对于现成的已排好序的名单,应仔细考察其基本特征,以防止名单特定的顺序使样本不具备代表性。
(三)分层随机抽样:
步骤确定根据几个变量分层。为总体确定抽样框架:先根据一个变量把抽样框架组成几个层,然后根据另一个变量把每个层再分成几个层。
使用简单或等距随机抽样法,从各层取样。各层在总体中占多大比例,在样本中也应占多大比例。
使用条件被取样的总体是异质的。如性别、年级、籍贯等。对所研究的总体有详细的名单。特点:这种抽样更为充分地考虑了总体的多样化的信息,因而较前两种方法选择的样本更具代表性。练习:要对某大学新生入学适应状况进行调查,拟取150名学生作样本进行访谈,请设计一个分层抽样方案。(四)整群随机抽样:
如“济南市初中生网络成瘾状况及其对策的研究”特点:贯彻了随机原则,又不需要构成总体的最小单元名单,相对省时、省力。
三、非随机抽样的各种具体方法意外抽样(社会调查)滚雪球式抽样(抑郁症患者的父母教养方式)
小结究竟使用哪种抽样方法,要依研究的目的、样本的大小、对样本精确性的要求、总体的情况等来具体确定。
课堂练习题
1、某大城市的一个电台主持人在选举前通过热线电话调查选举人对市长的两个主要候选人的支持程度。在打进热线电话的800个听众当中,有500人支持A,250人支持B,50人无所谓,请问这是个随机样本吗?为什么?
四、样本的容量第一节数据的类型一、根据数据的来源计数数据:通过计算个数获得的数据。测量数据:借助于一定的测量工具而获得的数据。测量工具的要素:参照点:根据有无绝对零点分为绝对和相对参照点。单位:理想的单位应是等距的。名义量尺(nominalscale):最低水平的量尺,只用数字代表事物或对事物进行分类。顺序量尺(ordinalscale):次低水平的量尺,不仅能表示事物的类别,而且能表明不同类别的大小、等级或具有某种特征的程度。等距量尺(equalintervalscale):较高水平的量尺,有相等单位,但无绝对零点。比率量尺(ratioscale):最高水平的量尺,既有绝对零点,又有相等单位。
练习题
请判断下列测量分别采用的是何种量尺?
(1)用数字1-5表示美国人对移民的态度,其中1=不欢迎,…,5=非常欢迎,(2)某商店40名职员的性别,(3)同年出生的50个学生的出生日期,(4)女运动员百米冲刺的时间。
Dothenumbersexpressaquantitativevalueorruler?
Ifnothen→nominalscale
Ifyesthen
↓
Dothedifferencebetweenthenumbersrepresentsequalunitsofmeasurement?
Ifnothen→ordinalscale
Ifyesthen
↓
Dothescalehasanabsolutezero?
Ifnothen→intervalscale
Ifyesthen
↓
Ratioscale
名义数据:无实际数量意义顺序数据:分类和排序等距数据:加减运算比率数据:四则运算
表3-1
名义、顺序、等距与比例数据的比较数据类型适合的统计分析方法名义计算个数、比率、众数、卡方检验、品质相关等顺序中位数、百分位数、等级相关、秩次检验等等距平均数、标准差、积差相关、t检验、F检验等比率几何平均数、相对差异量等(二)根据数据是否具有连续性
离散数据:又称为间断或不连续数据。该类数据一般用整数表示。(人数、个数、名次)连续数据:该类数据可以用小数表示。(身高、体重、智商、百分制得分)
下列变量中哪些是连续变量,哪些是离散变量?①年龄()②性别()③家庭的大小()④职业()
⑤职员工作评定等级()
⑥智力测验分数()练习题
判断以下观察指属于何种数据类型?
(1)本班共有学生60名(2)某学生参加知识竞赛获第一名(3)王鹏跑100米用了16秒4(4)某被试做对20道选择(5)某学生珠算测验成绩为78分(6)不同的人思考问题表现出来的不同思维风格某校五年级一班50名学生的语文考试成绩的原始数据如下:
9996929090878684838382828079787878787777777676767675757474737272727171717070696968676767656462626157三、次数分布表简单次(频)数分布表相对次数分布表累积次数分布表大于制与小于制P37累积相对次数分布表分组次数分布表组别组中值次数(f)相对次数累积次数(cf)累积相对次数累积百分比95-9990-9485-8980-8475-7970-7465-6960-6455-5997928782777267625723261411741.04.06.04.12.28.22.14.08.0250484543372312511.00.96.90.86.74.46.24.10.02100969086744624102总和501.00表3-2分组次数分布表分组次数分布表:例2-1:某校50名学生心理系学生的心理与教育统计成绩为71,81,74,61,78,79,68,67,81,79,61,81,70,64,90,62,73,73,56,52,79,70,69,63,74,87,52,57,66,72,54,76,75,88,81,80,60,63,80,74,77,69,53,48,66,83,81,45,78,71。
问题:编制步骤?如何确定组距与组数?何为组限、组上限、组下限、表述组限、精确组限?列分组区间时应注意什么问题?如何计算组中值?表3-3组限的几种常见表述方法
组中值表述组限精确组限2220-20-2415-1910-1419.5-24.519.5-24.4991715-14.5-19.514.5-19.4991210-9.5-14.59.5-14.499次数f组中值
相对次数累积次数累积相对次数小于制大于制小于制大于制90-941920.02501100285-892870.0449398680-848820.164711942275-798770.163919783870-7410720.203129625865-696670.122135427060-647620.141542308455-592570.04844168850-544520.08648129645-492470.042504100∑50—1.00————表3-4心理与教育统计成绩分组次数分布表
四、次数分布图①间断型数据的次数分布图直条图(barchart)单式和复式、竖式和卧式。图3-2某校5年级学生语文成绩直方图圆形图(circlegraph)或饼图(piechart):用扇形面积表示各种类别在整体中所占比重大小的统计图。图3-3某校5年级一班语文成绩圆形图②连续型数据的次数分布图直方图(histogram):直方图与直条图的区别次数图3-3某校5年级一班语文成绩直方图次数多边图(frequencypolygon):在直方图的基础上,把相邻各组直方的上边线的中点连接起来,再把原来的直方去除形成的折线图。图3-4某校5年级一班语文成绩次数多边图累积次数分布图累积相对次数分布图课堂练习题1、请结合表3-4为下列各题选择合适的统计图(1)比较该班数学测验成绩各种等级的构成比。(2)比较三个小组数学测验成绩各种等级的人数百分比。表3-4某班数学测验成绩组别优良中差一4861二2483三181022、把下列甲、乙两组学生化学成绩的分布制在同一个直角坐标上,以资比较。
化学成绩20-25-30-35-40-45-50-55-甲组人数3161018212928乙组人数114201921211413化学成绩60-65-70-75-80-85-90-甲组人数4031321914104乙组人数54200003、统计表与统计图是否在使用中可以完全互换?小结一般而言,统计图更具有形象生动、直观、令人印象深刻的特点,但从统计图中通常不能获得确切的数字,因而不能完全代替统计表。在实际研究中要根据研究目的选择使用。五、用spss做统计图表统计表步骤:Analyze→DescriptiveStatistics→Frequencies统计图步骤:Graphs:
第二节思考与练习绘制统计图表的作用是什么?各种统计图表适用的数据类型是什么?以下为30名学生的英语分数,请尝试用统计图表对其次数分布情况进行描述。
767166638883777268647076817973716661556574867882748467727674集中量:描述数据集中趋势的统计量。它反映了次数分布中大量数据向某一个量集中的情况。算术平均数中位数众数特殊平均数一、算术平均数(mean)1、符号:M、2、计算方法:未分组数据:分组数据:表3-3某校心理系普通心理学的考试成绩分数组中值fcf统计量55-1160-3465-4870-614Md=75-193380-740M0=85-54590-34895-2503、平均数的特性是否任何情况下都可以使用平均数作为集中量的代表值?4、应用算术平均数时应注意的问题当数据中有极端值时,不宜使用算术平均数。(截尾平均数)当数据中有些数据缺失或模糊不清时,不宜使用平均数。当数据不同质时,不宜使用算术平均数。二、中位数(median)定义:一组按大小顺序排列的数据中位置居中的数值。计算方法未分组数据分组数据未分组数据当数据个数为奇数时:当数据个数为偶数时:17、15、14、12、11、10、9、63、4、4、5、5、6、6、9、10、11、11、13、13、13、13、18、18、18、19、19、20当中间的数值为重复数时:可将重复数看作一个连续区间,然后根据中间数在区间内的位置来确定中位数。4.555.512.51313.5课堂练习11、11、11、11、13、13、13、17、175、5、6、10、12、15、1711、11、11、11、13、13、13、17、17、18分组数据P58组别fcf↑cf↓85-89357380-848541175-7913462470-7415333965-699184860-64695455-59235650-541157∑57——三、众数(mode)定义:一组数据中出现次数最多的那个数的数值。M0计算:观察法:公式法:
M0=3Md-2M思考题:请判断以下各组数据的众数3、5、8、10、12、15、162、3、3、3、4、4、4、52、3、4、4、4、5、5、7、7、7、9四、平均数、中位数与众数的比较从对各种测量数据的适用性来看名义数据:顺序数据:等距数据:比率数据:从对数据次数分布形态的适用性来看对称分布:平均数非对称分布:中位数、众数从计算的精确性看平均数最精确、中位数次之、众数最差从对统计分析的适用性看平均数既可作描述统计量,又可作推论统计量。中位数与众数常用作描述统计量。
均数中数众数优点①②③④⑤⑥③④
③④应用1.加权平均数2.离差、相关计算3、统计推断1.有极端数值时2.模糊数据时3.快速估计集中量数时1.有极端数值时2、数据不同质时3、粗略估计数据的集中量时4.粗略估计次数分布时5、双峰分布时不足1.易受极端值的影响2.数据模糊不清、缺失时无法计算3、数据不同质时无法计算1、反应不够灵敏2、易受抽样变动影响3.不适合代数运算4、计算不严密1、反应不够灵敏2、易受抽样变动影响3.不适合代数运算4、计算不严密人数
一项研究发现婴儿发出第一个音节的年龄(月)分别为
9、10、10、11、11、11、12、12、13某一团体成员的年龄分布如下表所示。试问表示它们集中趋势的恰当指标是什么?为什么?并计算出你所选定的指标。
25岁以下25-34岁35-44岁45-54岁55-64岁64岁以上454030552815五、特殊平均数在学校里,学生整个学期的总平均成绩往往是平时成绩和考试成绩按照一定的比例折算而成的。假定这个比例是4:6,现有一个学生的平时成绩为80分,考试成绩为90分,问该生总评成绩应该是多少?(一)加权平均数(weightedmean)定义:具有不同权重的数据的平均数。计算:P69变式:(二)几何平均数(geometricmean)定义:N个数值连乘积的N次方根。计算:应用:数据呈不对称分布或倍数关系(后一个数据是以前一个数据为基础成比率增长)时例:2,2,
4,
4,
8,
8,
8,
16,
32,
64。(答案8)P72平均增长率=Mg-1(三)调和平均数(harmonicmean)定义:一组数据倒数的算术平均数的倒数。应用:求平均学习速度问题平均速度的概念:单位时间内的工作量表示单位工作量所用的时间一、全距、四分位距(一)全距(range):又称为两极差,用R表示。计算方法:未分组时:分组时:特点与应用:易理解,计算简单;但易受极端数值的影响,很不稳定和可靠,只能作为差异量的一种粗略指标。主要在对数据进行分组时应用,而并单独不使用它来考察数据的离散程度。解决办法:有人提出用中间50%的数据的距离计算差异量。四分位距(二)四分位距(quartilerange):又名四分位差,指在一组排序的数据中,中间50%的数据的全距的一半,通常用Q来表示。1/41/23/4Q1Q3
计算方法未分组数据:Q=(Q3-Q1)/2Q3表示第三个四分位数
Q1表示第一个四分位数分组数据:P83课堂练习题:求下列16个原始数据的四分位距
25,22,29,12,40,15,14,39,37,31,33,19,17,20,35,30求下列112个学生数学分数的Q
分组53-58-63-68-73-78-83-
88-93-总和频数5810928341422112特点与应用:与全距相比,较少受极端数值的影响,且能反映中间数值的分布情况,但由于它也未将全部数据考虑在内,因此也不够可靠,一般只在数据中存在极端值时,才用它和中位数一起反映数据的分布情况。二、方差与标准差
(平均差AD)方差(variance):离均差平方和的算术平均数,符号为S2或SD2(样本方差)。标准差(standarddeviation):方差的正的平方根,即离均差平方和求算术平均数后的正的平方根,符号为S或SD(样本标准差)。总体方差总体标准差总体方差的无偏估计量总体标准差的无偏估计量简捷公式:P89如何在计算器中计算S与S2总标准差的合成:P91总方差总标准差练习题:P107标准差的性质:P94方差与标准差的特点与应用:所有数据参与计算,因而更为精确,是较为常用的差异量。方差具有可加性的特点,常用于总标准差的合成和推论统计。标准差常与算术平均数一起描述数据的分布情况。
各年级中学生与父母关系质量的平均数与标准差
男生
MSD
女生
MSD初一33.486.9934.267.05初二32.296.8933.266.89初三32.466.5033.546.89高一32.436.6133.527.02高二31.866.6234.076.82高三32.806.3434.365.97例1:已知某小学一年级学生的平均体重为25千克,体重的标准差是3.7千克,平均身高110厘米,标准差为6.2厘米,问体重与身高的离散程度哪个大?例2:通过同一个测验,一年级学生的平均分为60分,标准差为4.02分,五年级学生的平均分为80分,标准差为6.04分,问这两个年级的测验分数中哪一个分散程度大?三、相对差异量相对差异量:又称为差异系数,指标准差与其算术平均数的百分比。它是没有单位的相对数。公式:
CV(coefficientofvariation)表示相对差异量用途:比较不同单位资料的差异程度比较单位相同而平均数相差较大的两组资料的差异程度可判断数据的可靠性
5%<CV<35%,如CV>35%,可怀疑平均数是否失去意义,如CV<5%,可怀疑平均数和标准差是否计算有误。可评价学生学习的分化程度
CV<9%表示基本无分化,CV>20%表示分化严重,9%<CV<20%表示有分化迹象,应引起重视。自学内容P102-106
在SPSS中计算差异量的方法Analyze→DescriptiveStatistics→FrequenciesAnalyze→DescriptiveStatistics→Descriptives一、偏态量(skew):是描述次数分布的偏态方向和程度的量数。计算公式:
当SK=0时分布呈对称形,当SK>0时分布为正偏态,当SK<0时分布为负偏态。SK的绝对值越大,偏斜度越大。二、峰态量(kurtosis):描述次数分布的高低宽窄特征的量数。高狭峰:S较小,分数分布高窄,集中在平均数两侧。低阔峰:S较大,分数分布低阔,散布较广。正态峰:分布介于高峰态和低峰态之间。
计算公式当Ku<0.263时,分布呈高狭峰,当Ku>0.263时,呈低阔峰,当Ku=0.263时,分布为正态峰。百分位数(percentile):是位于一组按大小顺序排列的数据中某一百分位置的数值。一般用Pp表示,称为第p个百分位数。
计算公式:
P83
表3-3××班语文成绩次数分布表分数简单次数相对次数(%)累积次数累积相对次数(%)95-290-385-580-775-1970-665-460-355-1例题:高考前某中学进行了一次模拟考试,结果李玉同学物理考了75分,数学考了90分,于是李玉同学的家长认为李玉同学数学成绩比物理成绩好,高考填写志愿时应报考某大学的数学专业。问题:这种考试分数的解释方法是否科学?
三、地位量(位置量数):表明某一观测值在其所处分布中的位置的量数。百分等级标准分数(二)百分等级(percentilerank):是百分位数的逆运算,指某个数值在按一定顺序排列的一组数据中所对应的百分位置,用PR表示。计算公式X表示给定的某一数值P83特点:具有可比性,但由于是顺序量数,所以不具有可加、减性。(三)标准分数(standardscore):又称为Z分数,是以标准差为单位表示一个原始分数在其团体中所处位置的相对位置量数。计算公式练习题某中学高三年级有三个班,高考前有一“免试保送”升学名额,于是学校决定,三个班各推荐1名品学兼优的同学为“免试保送的后选人,学校再根据每位同学“数学”、“语文“、“英语”的毕业会考成绩决定具体的推荐人选,3位同学的毕业会考成绩如下表所示:假设毕业会考全校的数学、语文、英语的平均分分别为:76、81、86,标准差分别为18、7、10,问:学校根据3位同学毕业会考的综合成绩,具体应推荐哪位同学为“免试保送生”?
科目人员数学语文英语
总分1班后选人A9575922622班后选人B8580912563班后选人C749185250标准分数的性质:P97-98特点:不仅具有可比性,而且具有可加减性,但经常出现小数和负数,使用起来不够方便。标准分数的变式:
Z’=A.Z+B美国大学入学考试委员会使用的标准分数,即CEEB分数,公式为:CEEB分数=100Z+500(TOEFL)我国出国人员英语水平考试即EPT所使用的分数转换公式为:EPT分数=20Z+90在SPSS中计算集中量、差异量的方法Analyze→DescriptiveStatistics→Frequencies→StatisticsAnalyze→DescriptiveStatistics→Descriptives→OptionsAnalyze→Reports→Casesummaries第五节思考与练习题偏态量与峰态量的作用分别是什么?百分位数与百分等级有何关系?标准分数的意义是什么?请描述下表中分组数据的分布形态,并使用标准分数判断观测值75在总体中的相对位置
分组区间fcf90-27480-67270-86660-105850-204840-112830-91720-5810-33第一节概率与概率分布基础一、概率基础后验概率先验概率概率的性质概率的加法和乘法定理小概率事件P<.05P<.01小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,不出现的可能性很大,以至于实际上可以看成是不可能发生的。在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率原理。小概率原理是统计学上进行假设检验(显著性检验)的基本依据。二、概率分布类型(一)根据随机变量的取值是否具有连续性连续分布——
正态分布
离散分布——
二项分布(二)根据分布的来源经验分布(样本分布)理论分布(总体分布)(三)根据概率分布所描述的数据特征基本随机变量分布抽样分布121.4119.2124.7125.0115.0112.8120.2110.2120.9120.1125.5120.3122.3118.2116.7121.7116.8121.6120.2122.0121.7118.8121.8124.5121.7122.7116.3124.0119.0124.5121.8124.9130.0123.5128.1119.7126.1131.3123.8116.7122.2122.8128.6122.0132.5122.0123.5116.3126.1119.2126.4118.4121.0119.1116.9131.1120.4115.2118.0122.4120.3116.9126.4114.2127.2118.3127.8123.0117.4123.2119.9122.1120.4124.8122.1114.4120.5120.0122.8116.8125.8120.1124.8122.7119.4128.2124.1127.2120.0122.7118.3127.1122.5116.3125.1124.4112.3121.3127.0113.5118.8127.6125.2121.5122.5129.1122.6134.5118.3132.8例某市1995年110名7岁男童的身高(cm)资料如下次数分布图与概率密度曲线要注意的是,密度函数f(x)在某点处a的高度,并不反映X取值的概率.但是,这个高度越大,则X取a附近的值的概率就越大.也可以说,在某点密度曲线的高度反映了概率集中在该点附近的程度。
f(x)xo第二节正态分布(normaldistribution)正态分布是一种很重要的连续型随机变量的概率分布。心理与教育研究中有许多变量是服从或近似服从正态分布的,如智商、学业成绩、能力、心理健康水平等,许多统计分析方法也都是以正态分布为基础的。因此正态分布无论在理论研究上还是实际应用中,均占有重要的地位。
德莫佛高斯
高斯分布高斯(Gauss1777-1855)
德国数学家、天文学家和物理学家,他和牛顿、阿基米德,被誉为有史以来的三大数学家。高斯是近代数学奠基者之一,有“数学王子”之称。其祖父是农民,父亲是泥水匠,母亲是一个石匠的女儿。高斯幼时家境贫困,但聪敏异常,表现出超人的数学天才。1795~1798年在格丁根大学学习1798年转入黑尔姆施泰特大学,翌年因证明代数基本定理获博士学位。从1807年起担任格丁根大学教授兼格丁根天文台台长直至逝世。高斯的成就遍及数学的各个领域,在数论、非欧几何、微分几何、超几何级数、复变函数论以及椭圆函数论等方面均有开创性贡献。(一)正态分布特征正态分布的形式是左右对称的,对称轴是经过平均数的垂线。正态分布的中央点最高,然后逐渐向两侧下降,并无限延伸,但永不与基线相交。正态分布随变量的平均数、标准差的大小而呈不同的分布形态。正态分布曲线下,标准差与概率间有一定的数量关系。X轴上用标准分Z代替原始分数,则根据标准分的性质,该分布的平均数为0、标准差为1标准正态分布(二)正态分布表的使用
根据Z值求概率P根据概率求Z值根据Z值或概率P查找纵线高度Y值根据Z值求概率PP(0—Z)
P(Z—±∞)P(Z—Z)
计算步骤:Ifyouarebeginningwitharawscore,firstconvertittoaZscore.Drawapictureofthenormalcurve,wheretheZscorefallsonit,andshadeintheareaforwhichyouarefindingtheprobability.Findtheexactprobabilityusingthenormalcurvetable.课堂练习题
问:若从中随机抽取一人,其智商高于125的可能性有多大?低于95的可能性有多大?例题:如果已知其智商处于总人群中的前5%,问:其智商至少是多少?如果已知其智商处于总人群中的后1%,其智商最高不超过多少?若已知其智商处于中间50%,其智商得分应处在什么范围内?
2.根据概率求Z值计算步骤:Drawapictureofthenormalcurve,wheretheprobabilityfallsonit,andshadeinthearea.FindtheexactZscoreusingthenormalcurvetable.Ifyouwanttofindarawscore,converttoitfromtheZscore.几个常用概率值双尾概率值︱Z0.05/2︱=1.96,︱Z0.01/2︱=2.58,这里下标中的0.05和0.01表示的是两端概率之和,斜杠2表示双尾概率。单尾概率值︱Z0.05︱=1.645,︱Z0.01︱=2.333.根据Z值或概率P查找纵线高度Y值(三)正态分布在实践中的应用确定录取分数线在能力分组或等级评定时确定人数将能力、品行等的等级评定转化为数量化分数确定录取分数线
例题:某项职业录取考试,在参加考试的1600人中准备录取200人,考试分数接近正态分布,平均分为74,标准差为11,问录取分数是多少?计算步骤根据参考人数和录取人数确定录取比率;将录取比率视为正态曲线上端(右侧)的面积,找出相应的Z值;根据公式Z=X-/
计算出原始分数XX=+Z
在能力分组或等级评定时确定人数例如:假设对100名报考研究生的学生按能力分为甲、乙、丙、丁四个组,问各组应有多少人才能使分组构成等距量尺?计算步骤:将正态分布基线上Z=-3至Z=3之间6个标准差的距离分成相等的几份;根据正态分布表查找各段Z值间的概率;再用各概率乘以学生总人数,即为各等级人数。3.将能力、品行等的等级评定转化为数量化分数
计算步骤:计算各等级人数的概率;求各等级中点所对应的Z值求各等级中点以下(上)的累加概率,并求出其与0.5的差;根据计算出的概率查找相应的Z值,该值就是各等级的数量化分数;练习题某年高考平均分500,标准差100,考分呈正态分布,某考生得到650分。设当年高考录取率为10%,问该生能否被录取?录取分数线:500+1.28*100=628某地区47000人参加高考,物理学平均分为57.08,标准差为18.04。问:(1)成绩在90以上有多少人?(2)成绩在80-90之间有多少人?(3)60分以下有多少人?(1)成绩在90以上有多少人?0.03438,1615.86(2)成绩在80-90之间有多少人?0.06766,3180(3)60分以下有多少人?0.56356,26487期中考试题张老师是一位刚参加工作的年轻历史教师,本学期期末所教班级的学生考试成绩如下:81,73,64,59,94,82,67,75,90,48,57,86,75,93,88,72,65,77,60,79,70,81,56,64,73,99,87,66,50,45,80,82,67,74,68,92,54,57,87,64,76,55,61,65,70,89,71,49,60,72,70,83,67,74。问题:张老师应该怎样比较全面地整理出这次考试分数?怎样初步评价这次考试结果?名词解释积差相关系数、斯皮尔曼相关系数、肯德尔和谐系数、质与量相关系数、品质相关系数第一题考试分数的整理一般从两个侧面进行描述:一方面是图表描述,另一方面是数字描述,数字描述主要包括集中量与差异量的计算。制作次数分布表和图由次数分布表与次数分布图可以看出,本次历史考试成绩基本呈两头小、中间大的正态分布,这说明试题的难易程度比较适中,同时也说明我们可以使用平均数与标准差作为这次历史成绩的集中与分散情况的代表值。2.计算平均数与标准差
3.计算分化程度由于9%<17.97%<20%,所以说明该班历史成绩有分化迹象。第二题积差相关系数:如果两个变量都是正态连续变量,且呈线性关系,那么这两个变量间的相关系数称为积差相关系数。斯皮尔曼相关系数:如果两个变量的取值都是顺序数据,那么这两个变量间的相关系数称为斯皮尔曼相关系数。肯德尔和谐系数:如果两个以上变量的取值均是顺序数据,那么这几个变量间的相关系数称为肯德尔和谐系数或评分者信度。质与量的相关系数:如果一个变量是连续型变量,另一个变量是分类型变量,那么这两个变量间的相关系数为质与量的相关系数。它又包括二列、点二列和多列相关系数品质相关系数:如果两个变量都是分类型变量,那么这两个变量间的相关系数为品质相关系数。它又包括四分、phi和列联相关系数第三节二项分布一、定义:重复进行n次二项试验后不同“成功”次数的概率分布称为二项分布。例1:一名学生作答2道三择一的选择题,每作答1题正确的概率为1/3,错误的概率为2/3,问该生作答正确1题的概率是多少?例2:一名儿童对10个记忆项目进行再认,每个项目再认正确的概率为1/2,错误的概率为1/2,问该生再认正确6个项目的概率是多少?。例3:设生男孩的概率为p,生女孩的概率为q=1-p,令X表示随机抽查出生的4个婴儿中“男孩”的个数,求X的概率分布。一次试验只有两种可能结果,即“成功”和“失败”(只说明两种结果或状态而已);各次试验中“成功”(失败)的概率相等成功概率:p失败概率:q=1-p各次试验相互独立,互不影响;凡是满足以上条件的试验称为二项试验。随机抽查2个婴儿中男婴的概率分布可能结果012次数x121概率P1/42/41/4X=0X=1X=2男女随机抽查3个婴儿中男婴的概率分布
可能结果0123次数x1331概率P1/83/83/81/8男女X=0X=1X=2X=3男女随机抽查的4个婴儿中男孩的概率分布X=0X=1X=2X=3X=4女P178可能结果01234次数x14641概率p1/164/166/164/161/16二项展开式的通式就是二项分布函数,运用这一函数式可以直接求出在n次二项试验中成功事件恰好出现X次的概率
假设把一个质地均匀的硬币抛掷3次,这时你和朋友打赌:着地时会有2次出现“正面”,赌注为10元。如果这种结果出现了,你的朋友必须给你10元钱。但谁最有可能赢得这10元钱呢?你还是你朋友?二项分布图
二、二项分布的特点二项分布的概率之和等于1。二项分布随n和p的变化而成一簇分布:当P=0.5时,无论n的大小,均为对称分布;当P≠0.5,n较小时为偏态分布,n较大时(np≥5或nq≥5)逼近正态分布。
当二项分布接近正态分布时,在二项试验中成功事件出现次数的1、平均数2、标准差推导过程见王孝玲《教育统计学》三、在心理与教育研究中的用途二项分布是一种离散型随机变量的概率分布。二项分布在心理与教育研究中,主要用于解决含有机遇性质的问题。所谓机遇问题,是指实验结果可能由猜测而造成的。为了区分是猜测的结果还是真实的结果,就可用二项分布来解决。例题:在一项有关儿童认知发展的研究中,为了考察2岁儿童是否理解“最大”的概念,随机抽取了15名年龄在30-32个月之间的儿童,并分别对他们进行测试。测试的内容是让他们在三个物体中挑选出最大的一个。结果发现15名儿童中有9名能正确作答。问:该研究结果能否表明2岁儿童理解了“最大”的概念或能否排除猜测因素在作答中的作用。解法1二项分布法首先假设是猜测的结果,并计算猜测作答正确的概率(利用二项分布函数)。判断是否小概率事件,如果是则表明不是猜测的结果,表明被试理解或掌握了相应的概念或知识。解法2正态分布法先求出二项分布的平均数与标准差而后利用正态分布计算如果要确定猜测作答正确是小概率(5%)事件至少需要正确作答几次(临界次数)。X=+1.645
最后用实际作答正确的次数与其相比较,如果实际作答正确的次数多于与小概率事件对应的临界次数,则排除猜测因素的作用。
第四节抽样分布前言
统计学研究问题的方法是从特殊到一般,从部分到全局,即用样本来推断总体。从一个总体中可以抽取出很多很多的样本,而实际中一般只选取一个样本进行研究,所以你所选取的那一个具体的样本只是你随机选中的一个,你完全有可能选中另外的样本。统计学就是用你随机选中的一个样本来推断总体,为了让这种推断有根有椐,我们必须清楚这种随机的规律是什么?而抽样分布理论给出了答案。总体分布样本分布抽样分布下面是某班25名同学的某科成绩,它就是要研究的总体:
1~13号819966985592100846974776610014~25号8410068597160949192957884
X1X2X3X4X5平均数第一次抽样学8成绩711009910084第二次抽样学号102312151778.8成绩74956610059第三次抽样学号5152211083.8成绩55100999174…………………………………………常用的抽样分布
平均数的抽样分布方差的抽样分布两个样本平均数差的抽样分布两个样本方差比的抽样分布一、样本平均数的抽样分布
一个正态总体中的抽样分布(一)总体正态且方差已知时的样本平均数的抽样分布
…正态分布(Z-distribution)一个正态总体中的抽样分布数据2342(2,2)(2,3)(2,4)3(3,2)(3,3)(3,4)4(4,2)(4,3)(4,4)应用:大样本或总体方差已知时的总体平均数的估计、样本平均数与总体平均数差异的检验随机抽取的一个样本平均数在其抽样分布中的位置为:一个正态总体中的抽样分布(二)总体正态且方差未知时的样本平均数的抽样分布
…t分布(t-distribution)应用:小样本或总体方差未知时的总体平均数的估计、样本平均数与总体平均数差异的检验
t分布的来源:
1900年左右,统计学家开始觉得标准正态分布并不总是用来寻找概率的正确分布。WilliamGosset(高赛特)是在爱尔兰一家啤酒厂工作的一名化学分析技术人员,他也是对此感到怀疑的人之一。于是他决定检验在概率问题中使用标准正态分布是否总是正确的。令人不可思义的是,Gosset以收集犯人的身高和左手中指长度开始了他的探索。他以每4个犯人作为一个样本,共收集了750个不同的样本,并对每一个样本都计算了一个数值。然后他绘制了两个直方图(身高和左手中指长度),想看一看每一个样本的所有的数值的分布是什么样的?他们与标准正态分布有多类似?结果Gosset发现两个直方图形状非常接近,但是与标准正态分布有很大不同。他将这个新分布命名为t分布,计算出的值也叫做t值。由于他的雇主害怕员工泄露酿造啤酒的秘密而禁止员工发表文章,所以Gosset在1908年发表上述研究结果时,使用了假名“学生”。正因为如此,t分布又名学生分布(student’sdistribution)。特点:t分布以Y轴为对称轴,呈单峰对称状,且在t=0时,分布密度函数(纵线高度)取值最大。t分布受自由度的制约,每一个自由度都有一条t分布密度曲线。与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。df越小这种趋势越明显。df越大,t分布越趋近于标准正态分布。当n>30时,t分布接近标准正态分布,当n→∞时,t
分布与标准正态分布完全一致。
自由度(degreeoffreedom):变量值可以自由变化的个数,常缩写为df。X1+X2=10df=1X1
X2=4df=0X1与X2之间一个条件也没有df=2df=变量个数-限制条件数t分布中变量取值只受离差之和等于0的限制,故df=n-1t分布表的使用:(附表2P452)按自由度及相应的概率去找到对应的t值
例:t0.05/2(15)其意义是:
P(-∞<t<-2.131)=P(2.131<t<+∞)=0.025;
P(-∞<t<-2.131)+P(2.131<t<+∞)=0.05。(三)总体呈非正态,方差未知,n>30时,则样本均数的分布呈渐近正态分布
应用:样本方差与总体方差的差异检验、计数数据的假设检验二、样本方差的抽样分布→
2分布特点:呈正偏态,随着自由度的增大,
2分布趋近于正态分布。
2都是正值。
2分布表的使用:(附表12,P474)
按自由度及相应的概率去找到对应的
2值20.05(7)
=14.1
三、两样本平均数之差的抽样分布两样本的分类根据两样本内个体是否存在一一对应关系独立样本相关样本独立样本:两个样本内的个体是随机抽取的,它们之间不存在一一对应关系。例1:为了比较独生子女与非独生子女社会性方面的差异,随机抽取独生子女25人,非独生子女31人,进行社会认知测验。例2:从某大学一年级随机抽取部分学生,其中男生100人,女生80人,研究男生与女生英语成绩有无显著差异。相关样本:两个样本内个体存在一一对应关系。重复测量样本:对同一组被试先后进行两次测量所获得的样本。匹配样本:根据某些基本条件相同的原则,将被试匹配成对,然后将他们随机分配到实验组和控制组接受不同的实验处理所获得的样本。例1:为了揭示小学二年级的两种识字教学法是否有显著差异,根据学生的智力水平、努力程度、识字量多少、家庭辅导力量等条件基本相同的原则,将学生配成10对,然后把每对学生随机地分入实验组和对照组。实验组施以分散识字教学法,而对照组施以集中识字教学法。例2:为考察某一试卷的稳定性,随机选取36名学生先后施测两次,以求两次测验间的相关。两样本容量不相等时,一定不是相关样本,但相等时不一定是相关样本。
P265(一)总体正态且方差已知时,样本平均数之差的 抽样分布——正态分布平均数:独立样本标准误:相关样本标准误:独立样本Z值计算:相关样本Z值计算:独立样本的标准误:相关样本的标准误:(二)总体正态方差未知时,样本平均数之差的抽样分 布平均数:标准误:独立样本大样本小样本方差齐性:方差齐性:
相关样本大样本小样本四、两个样本方差比的抽样分布F分布F分布是以英国统计学家费舍尔(R.AFisher)的姓氏的第一个英文字母命名的概率分布。费舍尔.罗纳德(Feisher.Ronald1890-1962)英国统计学家,出生于英国伦敦附近,在剑桥接受教育,早年在赫德福德郡的罗塞姆斯特德农业研究实验站担任统计员,后入伦敦大学,继皮尔逊后担任优生学和生物统计学教授职位,并在剑桥大学担任遗传学教授。费舍尔是现代最具有创造力的统计学家,为心理学提供了(1)方差分析(2)小样本理论(3)零假设等重要概念。应用:两总体方差齐性(是否相等)检验、方差分析(多个总体的平均数是否相等)特点呈正偏态,随着自由度的增大,F分布趋近于正态分布。F都是正值。F分布表的使用(附表3P454附表4P458)按两个自由度及相应的概率去找到对应的F值
推论统计参数估计假设检验参数检验非参数检验样本与总体平均数差异两样本平均数差异多样本平均数差异(方差分析)方差齐性检验相关系数检验主要内容第一节参数估计第二节假设检验的基本原理第三节样本平均数与总体平均数差异的假设检验第四节两样本平均数差异的假设检验第五节方差分析例1:从某市随机抽取小学三年级学生60名,测得平均体重为28kg,标准差3.5kg。试问该市小学三年级学生的平均体重大约是多少?例2:某教师用韦氏成人智力量表测100名高三学生,M=115。试估计该校高三学生智商平均数大约为多少?第一节参数估计参数估计:用样本统计量估计总体参数的理论和方法。点估计(pointestimation)区间估计(intervalestimation)
例3:从某市某年参加高三语文毕业会考的11000名考生中随机抽取550名,算出他们的语文成绩:M=62分、s=6。主要特点:没有考虑误差的影响,也没有指出估计的可靠程度。一、点估计二、区间估计区间估计:是在一定概率保证下指出总体参数的可能范围。所给出的概率保证称为
置信度或置信概率
(confidenceprobability),给出的可能范围叫
置信区间(confidenceinterval)。常用的置信度为0.95、0.99知识回顾总体正态、方差已知时样本平均数的抽样分布服从……分布?如何确定一个样本平均数在抽样分布中的位置?总体正态、方差未知时样本平均数的抽样分布服从……分布?如何确定一个样本平均数在抽样分布中的位置?总体非正态、方差未知、n>30时样本平均数的抽样分布服从……分布?如何确定一个样本平均数在抽样分布中的位置?三、总体平均数的区间估计基本原理:平均数的抽样分布理论以平均数的抽样分布呈正态为例
总体平均数出现在之间的概率为0.95,或者说,总体平均数有95%的可能性出现在之间,而不在这个范围内的可能性为5%(可能犯错误的概率:,1-=置信度)。置信下限:置信上限:
(一)总体正态且方差已知时的区间估计P205解:由于σ已知,故所以当置信度为0.95时,的置信区间为73.62—82.38。练习题已知某校的一次外语考试中,全体考生成绩的总体方差σ2=100,从中抽取5名考生的成绩为65、83、94、70、88,试求全体考生的平均成绩的99%的置信区间。(二)总体正态标且准差σ未知时的区间估计P207应用举例解:由于σ未知,且样本容量n<30,所以所以当置信度为0.95时,的置信区间为71.968—84.032。(三)总体非正态、标准差σ未知且n>30时P222思考与练习题5-7一、假设检验的意义例4:随机抽取10名女生和10名男生测得心理健康水平得分分别如下:男生:11,11,9,12,10,13,13,8,10,13女生:8,11,12,10,9,8,8,9,10,7经计算得男生心理健康水平的平均数为11,标准差为1.76;女生平均数为9.2,标准差为1.549。
第二节假设检验的基本原理能否仅凭这两个平均数的差值11-9.2=1.8,立即得出男生与女生心理健康水平存在差异的结论呢?导致前面男生与女生心理健康水平存在差异的原因可能有两种,一是女生与男生两总体心理健康水平确实存在本质不同,另一可能是抽样误差导致的。对两个样本进行比较时,必须判断样本间差异是抽样误差造成的,还是本质不同引起的。这正是假设检验要解决的问题。二、假设的提出虚无假设(无差假设、零假设)(nullhyphothesis)一般用H0表示。备择假设(对立假设)(alternativehyphothesis)一般用H1表示。三、假设检验的基本原理采用概率论中的“小概率事件实际不可能性原理”进行反证。即首先假定虚无假设成立,然后根据样本信息计算虚无假设成立的概率的大小,如果成立的概率小于0.05(0.01),则拒绝虚无假设,接受备择假设,反之,则接受虚无假设。用来确定拒绝或接受虚无假设的概率标准叫显著性水平(significancelevel),记作α。在统计学学常取α=0.05或α=0.01。四、假设检验的几种形式双侧(尾)检验:只强调差异而不强调方向。H0:
1=0
H1:
1
0
单侧(尾)检验:强调差异的方向左侧(尾)检验H0:
1=0
H1:
1<0
右侧(尾)检验H0:
1=0
H1:
1>0
P265思考与练习题8-10判断检验形式
双侧检验显著的单侧检验一定显著,单侧检验显著的双侧检验不一定显著。应根据研究目的恰当选择假设检验的形式。五、假设检验的步骤提出假设计算检验统计量(Z或t值)确定显著性水平(检验形式)统计决断六、假设检验中的错误因为显著性检验是根据“小概率事件实际不可能性原理”来拒绝或接受虚无假设的,所以不论是接受还是拒
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025集体林权流转合同鉴证承诺书
- 2025年度内墙乳胶漆施工安全与环保监督合同3篇
- 2025年度智能化办公场地租赁服务协议3篇
- 二零二五年度竞业协议期限与竞业限制解除条件规范3篇
- 2025年度公司清算与破产清算程序启动及资产保全服务合同3篇
- 二零二五年度农药化肥行业标准化生产合作协议3篇
- 二零二五年度生态农业示范园土地承包合作合同3篇
- 二零二五年度租赁房屋租赁押金及租赁保证金协议2篇
- 2025年度环保能源公司职工招聘与可持续发展合同3篇
- 2025年度年度全新大型工程建设项目意外事故免责协议3篇
- 湖南2025年湖南省生态环境厅直属事业单位招聘44人笔试历年参考题库附带答案详解
- 福建省部分地市2023-2024学年高三上学期第一次质量检测(期末)生物 含解析
- (新版):中国卒中学会急性缺血性卒中再灌注治疗指南
- 人工智能在体育训练中的应用
- 2024-2030年中国液态金属行业市场分析报告
- 2024-2025学年上学期深圳初中语文七年级期末模拟卷3
- 2024-2025学年上学期广州初中地理八年级期末模拟卷2
- GB 45067-2024特种设备重大事故隐患判定准则
- 《陆上风电场工程概算定额》NBT 31010-2019
- 生物医学电子学智慧树知到期末考试答案章节答案2024年天津大学
- 幸福创业智慧树知到期末考试答案章节答案2024年山东大学
评论
0/150
提交评论