版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于现代心理与教育统计学第1页,共317页,2022年,5月20日,10点48分,星期五注意的几个问题1克服畏难情绪2注意每种统计方法的使用条件第2页,共317页,2022年,5月20日,10点48分,星期五第一章绪论第3页,共317页,2022年,5月20日,10点48分,星期五理论统计学统计理论和方法的数理证明应用统计学统计理论和方法的应用第4页,共317页,2022年,5月20日,10点48分,星期五数理统计的基础是概率论概率论所研究的是随机现象。随机概率第5页,共317页,2022年,5月20日,10点48分,星期五第6页,共317页,2022年,5月20日,10点48分,星期五心理与教育科学研究数据的特点用数字形式呈现语文成绩、数学成绩、人数随机性和变异性误差规律性目标是通过部分推论总体第7页,共317页,2022年,5月20日,10点48分,星期五心理与教育统计学是专门研究如何运用统计学原理和方法,搜集、整理、分析心理与教育科学研究中获得的随机性数据资料,并根据这些数据资料传递的信息,进行科学推论找出心理与教育活动规律的一门学科。第8页,共317页,2022年,5月20日,10点48分,星期五心理与教育统计学的内容第9页,共317页,2022年,5月20日,10点48分,星期五心理与教育统计中的基本概念1根据数据的观测方法,可分为计数数据和测量数据计数数据就是计算个数的数据。例如,一个班级有35名学生,一个年级有9个班级,等。测量数据,是利用一定的测量工具或测量标准所获得的数据。例如,身高180CM,体重75KG,数学成绩90分,等。第10页,共317页,2022年,5月20日,10点48分,星期五2根据测量水平,数据可分为称名数据、顺序数据、等距数据和等比数据。称名数据,又称为类别数据,此类数据只说明某一事物与其他事物在属性上的不同。例如,男人女人、一年级二年级、中国人美国人,等。第11页,共317页,2022年,5月20日,10点48分,星期五顺序数据,是按照事物的某种属性,对一系列事物进行排序后所获得的数据。第12页,共317页,2022年,5月20日,10点48分,星期五等距数据,是有相同单位,但是没有绝对零点的数据。例如,温度、智力分数等。此类数据只可进行加减,不能进行乘除运算。例如,数学测验中,A得了80分,B得了60分,可以说A得分高于B,A比B高了20分,但是不能说A的数学能力是B的4/3倍。第13页,共317页,2022年,5月20日,10点48分,星期五比率数据,又叫做等比数据,此类数据有相同单位、也有绝对零点。例如,长度。此类数据可以进行加减运算,也可以进行乘除运算。心理和教育学中的数据绝大多数属于前三种类型。第14页,共317页,2022年,5月20日,10点48分,星期五3根据数据的连续性,分为连续数据和离散数据。连续数据,在任意两个数据点之间都可以继续细分。如,长度而离散数据,在两个相邻数据点之间不可以细分。如人数第15页,共317页,2022年,5月20日,10点48分,星期五变量、观测值和随机变量变量,是研究所关心的一种属性,由于在获得具体数据前,其数值具有不确定性,因此称其为变量。例如,青少年的身高一旦确定了某个具体数值,便称为这个变量的一个观测值。与变量相对应的是常量,如圆周率第16页,共317页,2022年,5月20日,10点48分,星期五变量与常量Y=X+C第17页,共317页,2022年,5月20日,10点48分,星期五由于变量在测查之前不能确定会获得什么样的数值,因此称其为随机变量。随机变量和非随机变量儿童的智力水平随机变量Y=X+5(X=1,2,3…)非随机变量第18页,共317页,2022年,5月20日,10点48分,星期五总体、样本和个体总体,指具有某种特征的一类事物的全体。构成总体的单位是个体。从总体中抽取一部分个体,称为总体的一个样本。样本中个体的数目称为样本大小或样本量(n)。第19页,共317页,2022年,5月20日,10点48分,星期五样本和总体大学生中国大学生武汉大学生武汉某高校大学生武汉某高校大二学生武汉某高校大二某专业学生第20页,共317页,2022年,5月20日,10点48分,星期五次数、比率、频率与概率某一事件所出现的数目,称为次数,又称为频数(f)全班学生年龄为20岁的人数,即为次数。两个数的比称为比率。全班20岁的10人、21岁的15人,那么比率为2/3。当分子是分母的一部分时,比率又称为比例,百分数或百分比是其中的一种特例。第21页,共317页,2022年,5月20日,10点48分,星期五概率,或称为几率(P),指某一事件在总体中出现的比率,通常用比例表示。概率有的可知,有的不可知,可用有限观察得到的某事件的频率作为估计值。概率反映了某一事件发生的可能性。第22页,共317页,2022年,5月20日,10点48分,星期五参数和统计量在科学研究中,我们要探究关于所有事物总体的说明和解释。总体的特征称为参数,是描述总体情况的统计指标。样本的那些特征值叫做统计量。参数通常是通过样本特征值来预测得到的。参数常用希腊字母表示,而统计量则用英文字母表示。例如,总体平均数用µ表示,样本平均数用表示。第23页,共317页,2022年,5月20日,10点48分,星期五第二章统计图表第24页,共317页,2022年,5月20日,10点48分,星期五第一节数据的初步整理科学研究中的原始数据,大多杂乱无章,需要进行整理后才能从中提取有意义的规律性知识。统计表和统计图是对数据进行初步整理,以简化形式加以表现的两种最简单的方式。对数据进行统计分类以后,得到的各种数量结果称为统计指标。第25页,共317页,2022年,5月20日,10点48分,星期五把统计指标和被说明的事物之间的关系用表格的形式表示就称为统计表。统计表具有简明、清晰、准确的特点,表中的数据易于比较分析。第26页,共317页,2022年,5月20日,10点48分,星期五统计图是依据数字资料,应用点、线、画、面、体、色等描绘制成,简明而又有规律,并且能显示数量的图形,它是统计数据资料的可视化显示方式。第27页,共317页,2022年,5月20日,10点48分,星期五在制作图表之前,首先要对收集到的数据资料进行初步的整理,整理的基本方法有排序和统计分组两种。第28页,共317页,2022年,5月20日,10点48分,星期五数据排序数据排列就是按照某种标准,对收集到的杂乱无章的数据按照一定的顺序进行排列。例如数学成绩:80796892859170由低到高:68707980859192名字:张超梁山陈磊王峰高倩字母顺序:陈磊高倩梁山王峰张超第29页,共317页,2022年,5月20日,10点48分,星期五统计分组所谓统计分组,就是根据被研究对象的特征,将所得数据划分到各个组别中。前期准备对数据做进一步的核对和校验。(此步骤在数据排列中也应该进行)第30页,共317页,2022年,5月20日,10点48分,星期五分组时要注意的问题分组要以被研究对象的本质特性为基础。分类标志要明确,要能包括所有数据。第31页,共317页,2022年,5月20日,10点48分,星期五分组的标志分类标志按形式可分为性质类别和数量类别两种。性质类别,主要是依据事物的属性不同将被观测的事物加以划分,反映事物在组别、种类上的不同,不说明事物之间的数量差异。例如,班级、年级、性别等。第32页,共317页,2022年,5月20日,10点48分,星期五数量类别,以数据的取值大小为分类标志,把数据按数值大小以分组或不分组的形式排出一个顺序来。第33页,共317页,2022年,5月20日,10点48分,星期五统计表在对数据进行统计分类以后,得到的各种数量结果称为统计指标,把统计指标和被说明的事物之间的关系用表格的形式表示就成为统计表。统计表一般由表题、表号、标目、线条、数字、表注等项构成,具有简明、清晰、准确的特点,表中的数据易于进行比较分析。第34页,共317页,2022年,5月20日,10点48分,星期五序号要写在表的左上方,序号一般以在文章中出现的先后顺序排列。名称又称标题,是一个表的名称,应写在表的上方。标题的用语要简洁扼要,使人一望可知该表的内容。如果用语过简,可在下面附加说明,但这种情况不宜多用。标目即分类的项目。标目的好坏决定统计表的质量,因而要认真酌定。标目一般在表的上面一行和左侧一列。如果分类的标志只有一个,写在表的左列或上行都可以。如果分类的标目有两个,且二者没有隶属关系,则左列与上行各一个。如果两个分类标志有隶属关系,则要都在一个方位(或上面或左侧)分两行分述(见表1—1)。第35页,共317页,2022年,5月20日,10点48分,星期五数字数字是统计表的语言,又称统计指标。它占据统计表的大部分空间,书写一定要整齐划一,位数要上下对齐,小数点后缺位的要补零,缺数字的项要划“—”。表注写于表的下面。它不是统计表的必要组成部分。如果需要可对标题补充说明。数据来源、附记等都可作为表注的内容,文字可长可短。另外,关于统计表的画法应注意以下几点:表的各纵行(或称纵列)之间要用线条隔开,表的两边纵线可以省去,上下两边须有横线,标目与数字间,数字与总计间,两个总标目之间都须用线条隔开。表的上下二横线线条要粗些等等。第36页,共317页,2022年,5月20日,10点48分,星期五第37页,共317页,2022年,5月20日,10点48分,星期五统计图统计图是依据收集的数据资料,应用点、线、面、画、体、色等描绘制成,简单明了、有规律,并且还能够显示数量的图形,是一种将统计数据资料可视化显示的方式。一个完整的统计图通常由图号及图题、图目、图尺、图形、图例和图注等项构成。第38页,共317页,2022年,5月20日,10点48分,星期五图号及图题统计图的名称为图题或标题。图题的文字应简赅,只要求能扼要叙述统计图的内容,使人一见能知道该图所要显示的是何事、何物,发生于何时、何地。如果图示资料比较复杂,用语简单不能明了,这时图题可用大标题与小标题。图号是图的序号,图题与图号一般写在图的下方。图题的字体是图中所用文字中最大的,但也不能过大,要与整个图形的大小相称。一般与图形标目的顺序一致,自左至右书写。图目是写在图形基线上的各种不同类别、名称,或时间、空间的统计数量,即横坐标上所用的各种单位名称。在统计图的横坐标及纵坐标上都要用一定的距离表示各种单位,这些单位称为图尺,有算术单位,亦有对数单位,百分单位等等,这要根据资料的情况加以选用,图尺分点要清楚,整个图尺大小要包括所有的数据值,如果数据值大小相差悬殊,图尺可用断尺或回尺法,减少图幅。第39页,共317页,2022年,5月20日,10点48分,星期五图形是图的主要部分,图形曲线要清晰,一般除图形线外,避免书写文字。要表示不同的结果,用不同的图形线以示区别,各种图形线的含义用图例标明,图例可选图中或图外一适当位置表示,这一切的总目的是为了使整个图和谐美观和均衡。图注凡图形或其局部或某一点,需要借助文字或数字加以补充说明的,均称为图注。图注部分的文字要少,印刷字型要小,它可以帮助读者理解图形所示资料,提高统计图的使用价值,又不破坏图的美观。此外,一个图形要使用各种线条,这些线条因在图中的位置不同而有不同的名称。包括:图形基线(横坐标)、尺度线(纵坐标)、指导线、边框线等。第40页,共317页,2022年,5月20日,10点48分,星期五第41页,共317页,2022年,5月20日,10点48分,星期五第二节次数分布表次数分布显示初步整理后一组数据的分布情况。如,同一个观测值出现的次数,或是每一个区间内分布的个体数目。第42页,共317页,2022年,5月20日,10点48分,星期五简单次数分布表依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表。第43页,共317页,2022年,5月20日,10点48分,星期五分组次数分布表当数据量很大时,应该把所有的数据先划分为若干分组区间,然后将数据按其数值大小划归到相应的组别内,分别统计各个组别中包括的数据个数,再用列表形式呈现出来,就构成了分组次数分布表。第44页,共317页,2022年,5月20日,10点48分,星期五步骤1.求全距。全距指最大数与最小数之间的差距。2.决定组数与组距。组距是指每一组的间距,用符号i表示。组距经常用2、3、5、10、20等数值表示。组数分组数目要看数据的多少,如果数据个数在100个以上,习惯上一般分10—20组,常取12—16组。如果数据的总体分布为正态,可用下面的经验公式计算组数(K):第45页,共317页,2022年,5月20日,10点48分,星期五分组多少与哪些因素有关?我们应该如何掌握它的标准?一般说来,分组的数目多,则组距小,计算精确。但它要求总的数据量大,否则会出现有的组距内无次数分布的现象,那将使整个数据的分布规律显示不明显,也就不能发挥次数分布表的作用了。如果分组少,组距就大,计算简单,但引进计算误差较大。因此,要做到既不增加搜集数据的工作量,又能使分组后的计算精确到最大限度,那么,按上述公式分组,是一个较好的方法。第46页,共317页,2022年,5月20日,10点48分,星期五3.列出分组区间。分组区间又称为分组阶段。列分组区间要注意以下几点:最高组区间内应能包含最大值的数据,最低组区间应能含最小值的数据。最高组或最低组的下限最好是组距i的整数倍。各分组区间的排列顺序,一般按纵坐标单位顺序排列。第47页,共317页,2022年,5月20日,10点48分,星期五为了书写方便,各分组区间只写下限的数值,然后在右侧画一横线,而且一般用整数。例如,分组区间可写为10—,20—,30—,40—等。注意:表述组限和实际组限的区别。第48页,共317页,2022年,5月20日,10点48分,星期五组限的表述方法及实际区间范围第49页,共317页,2022年,5月20日,10点48分,星期五4.登记次数。5.计算次数(f)。各组的次数计算好后,还要计算总和即总次数。一是为了以后计算的需要,二是为了核对各组总和与数据的总数(N)是否相等。第50页,共317页,2022年,5月20日,10点48分,星期五6.抄录新表。登记核实后,重新制表,这个新表应有以下栏目:一栏为分组区间、二栏为组中值,各分组区间组中值的计算是精确下限加上组距i的二分之一。或精确下限与精确上限之和的一半。三栏为次数(f),四栏为相对次数,可用百分次数、或频数比率(f/N),这一栏有时可不用列出。这样整理的统计表就是次数分表。第51页,共317页,2022年,5月20日,10点48分,星期五次数f组中值
相对次数累积次数累积相对次数小于制大于制小于制大于制90-941920.02501100285-892870.0449398680-848820.164711942275-798770.163919783870-7410720.203129625865-696670.122135427060-647620.141542308455-592570.04844168850-544520.08648129645-492470.042504100∑50—1.00————心理与教育统计成绩分组次数分布表第52页,共317页,2022年,5月20日,10点48分,星期五相对次数分布表将次数分布表中各组的实际次数转化为相对次数,就可制成相对次数分布表。累加次数分布表累加次数是把各组的次数由下而上或由上而下累加在一起。用累加次数表示的次数分布为累加次数分布。其他次数分布表第53页,共317页,2022年,5月20日,10点48分,星期五双列次数分布表又称相关次数分布表,是对有联系的两列变量用同一个表表示其次数分布。所谓有联系的两列变量,指①同一组被试两次测试的结果;②各方面基本相同的两组被试的测试结果。编制方法:首先按照分组次数分布表的编制方法,分别列出各变量的分组区间,将一列变量的分组区间竖列,另一横列。不等距次数分布表一般次数分布表都是等距的,实际研究中如果需要也可以列不等距的(工资级别、年龄分组等)。第54页,共317页,2022年,5月20日,10点48分,星期五第三节次数分布图直方图,又名等距直方图,是以矩形的面积表示连续性随机变量次数分布的图形。图2-9学生语文成绩绘制的直方图第55页,共317页,2022年,5月20日,10点48分,星期五次数多边图,是一种表示连续性随机变量次数分布的线形图。图2-890名语文成绩的次数分布多边图第56页,共317页,2022年,5月20日,10点48分,星期五累加次数分布图累加直方图累加曲线图图2-1090名学生语文成绩累积次数分布图第57页,共317页,2022年,5月20日,10点48分,星期五第四节其他统计图表(一)条形图 它是用相同宽度的条形长短或高度来比较图示指标数值大小的图形。 条形图的排列,如果是横排的,称为带形图;如果是纵排的,称为柱形图。从图示现象的种类上分,有单式条形图、复式条形图和分段条形图等。以表2-8资料为例说明:第58页,共317页,2022年,5月20日,10点48分,星期五年份199019911992199319941995册数212429222326263330734888表2-81990-1995年某中学图书馆藏书统计表图2-11990-1995年某中学图书馆藏书统计图(纵式柱形图)第59页,共317页,2022年,5月20日,10点48分,星期五图2-21990-1995年某中学图书馆藏书统计图(横式带形图)第60页,共317页,2022年,5月20日,10点48分,星期五
复合条形图和分段条形图是把两套以上条形画在一起,用以反映有联系的两种或两种以上的统计事项。一班二班三班数学平均分859078物理平均分757290表2-9某中学初三毕业班数学、物理成绩统计表第61页,共317页,2022年,5月20日,10点48分,星期五图2-3某中学初三毕业班数学、物理成绩统计图(复合条形图)
初一初二初三男生128118150女生114130100合计242248250表2—10某中学各年级男女生人数统计表第62页,共317页,2022年,5月20日,10点48分,星期五图2—4某中学各年级男女生人数统计图(分段条形图)第63页,共317页,2022年,5月20日,10点48分,星期五(二)圆形图 是用圆开内扇形面积的大小来说明总体结构的图形。整个圆形面积代表所统计事项的总体,把圆的面积分成若干扇形,每一扇形面积的大小表示被研究总体的各个组成部分。上网时间所占百分比(%)1小时以内3.001-5小时27.006-10小时29.0011-20小时21.0021小时以上20.00合计100表2-11我国上网用户每周上网时间统计表第64页,共317页,2022年,5月20日,10点48分,星期五图2-5我国上网用户每周上网时间统计图第65页,共317页,2022年,5月20日,10点48分,星期五(三)曲线图
它是用曲线的升降来表现统计资料的数值变动的图形。常用来描绘统计事项总体指标的动态、研究对象间的依存关系以及总体各单位的分配情况等。月份123456789101112文稿数12535562070154212588590表2-12某公司1-12月打印文稿统计表第66页,共317页,2022年,5月20日,10点48分,星期五图2-6某公司1-12月打印文稿数量动态统计图第67页,共317页,2022年,5月20日,10点48分,星期五散点图定义:又称点图、散布图,它是用相同大小圆点的多少或疏密表示统计资料数量大小以及变化趋势的图。通常以圆点分布的形态表示两种现象间相关程度。举例:第68页,共317页,2022年,5月20日,10点48分,星期五第三章集中量数第69页,共317页,2022年,5月20日,10点48分,星期五集中量数是用来描述一组数据集中趋势的统计量,用来反映数据分布中大量数据向某个方向集中的程度。常用的集中量数有多种,包括算术平均数、中数、众数、加权平均数以及几何平均数等。第70页,共317页,2022年,5月20日,10点48分,星期五第一节算术平均数算术平均数是所有观察值的总和除以总频数所得之商,简称为平均数或均数、均值。一般用字母M表示。只有在与其它几种平均数,如几何平均数、加权平均数等相区别的时候才把它叫做算术平均数。第71页,共317页,2022年,5月20日,10点48分,星期五平均数计算方法如下:①未分组数据计算平均数的方法:当一组数据未进行统计分组时,想描述其典型情况,找出其代表值而计算其算术平均数时可用下面的公式:第72页,共317页,2022年,5月20日,10点48分,星期五
例1某班选八名同学参加年级数学竞赛,成绩分别为82,90,95,88,90,94,80,93。求其平均成绩。 解:把N=8,X1=82,…,X8=93代入公式得第73页,共317页,2022年,5月20日,10点48分,星期五②
用估计平均数计算平均数:如果数据的数目以及每个观测数据值(即数据)都很大时,应用基本公式计算比较麻烦,可以考虑应用估计平均数简化计算。即先设定一个估计平均数,用符号AM表示,从每一个数据中减去AM,使数值变小,易于计算。最后再在计算结果中加上先前的估计平均数。计算公式如下:(P56,例3-1)第74页,共317页,2022年,5月20日,10点48分,星期五
对于已列成次数分布表的分组数据,其算术平均数的计算公式为
式中Xc为组中值;f为各组次数,即权数;N为总次数=∑f。
例3某班50人外语期末考试成绩的次数分布如下,求全班学生的平均成绩。第75页,共317页,2022年,5月20日,10点48分,星期五组别组中值Xc次数ffXc90-9492327685-89871087080-848215123075-7977861670-7472536065-6967320160-6462424855-59572114∑503915表3-1某班50人外语成绩次数分布表第76页,共317页,2022年,5月20日,10点48分,星期五解:将表中数据代入公式,得
说明:利用次数分布求得的算术平均数是一个近似值。因为我们先假设组内的数据是均匀分布的,利用各组中值分别代表各组数据,这显然与实际不符,把这一误差叫分组误差。第77页,共317页,2022年,5月20日,10点48分,星期五算术平均数的特点①一组数据中每个观测值与平均数之差(即离均差)的总和等于0;②一组数据中,如果每一个观测值都加上常数C,那么最后所得的平均数为原来的平均数加上常数C,估计平均数的公式即根据这一特点建立;③一组数据中,若每一个观测值都乘以常数C,最后所得的平均数为原来的平均数乘以常数C。第78页,共317页,2022年,5月20日,10点48分,星期五算术平均数的优缺点优点①反应灵敏,一组数据中任何一个观测值或大或小的变化都可以通过算术平均数反映出来;②严密确定,简明易懂,计算方便;③适合于进一步用代数方法运算。算术平均值是计算其它很多统计特征值(如离均差、方差、标准差等)的重要基础;④受抽样变动的影响较小。观测样本大小或个体的变化,对计算算术平均数影响很小。第79页,共317页,2022年,5月20日,10点48分,星期五缺点:①容易受两极端数值(极大或极小)的影响;②如果一组数据中某个或某些观测值的大小不够确切时就无法计算其算术平均数。第80页,共317页,2022年,5月20日,10点48分,星期五算术平均数计算和应用的几个原则①同质性原则:即算术平均数只在总体是由同类数据所组成且具有足够多的数据单位时,才具有科学价值和认识意义;②平均数与个体数值相结合的原则:即在运用平均数作统计分析时,需要结合个体观测数值予以参考;③平均数与标准差、方差相结合的原则:平均数与标准差一起都是用来描述数据总体特征的一对相互联系的统计指标。©第81页,共317页,2022年,5月20日,10点48分,星期五第二节中数和众数一、中数指一组数据中,居于中间位置的数,即在这组数据中,有一半的数据比它大,另一半的数据比它小。中数又称中点数、中位数或者中值,常用符号Md或Mdn表示。中数可以是数据中的某一个,也可能根本不是原有的数据。第82页,共317页,2022年,5月20日,10点48分,星期五中数的应用更多的表现在一些特殊的统计情境中:①一组观测数据中出现两个极端数目的情境;②当次数分布的两端数据或个别数据不清楚时,只能取中数作为集中趋势的代表值;③当需要快速估计一组数据的代表值时,也常用到中数第83页,共317页,2022年,5月20日,10点48分,星期五中数的计算方法根据数据是否分组,中数有不同的计算方法:未分组数据求中数的方法:依据概念,先将数据依其取值大小排序,然后找出位于中间的那个数,就是中数。①数据组中无重复数据的情况:一组数据中没有相同的数,这时处于序列中间的那个数为中数。如果数据个数为奇数,则中数为位置的那个数;如果数据个数为偶数,则中数为居于中间位置那两个数的平均数,即第与第()位置的两个数据相加除以2所得值。第84页,共317页,2022年,5月20日,10点48分,星期五②
数据组中有重复数据的情况:计算方法基本与无重复数据的单列数据相同。如果重复数值没有位于数列中间时,中数的求法与无重复数据时的中数求法相同;当重复数值位于数列中间,那么就又要将其分为数据的个数为奇数和偶数的两种情形。第85页,共317页,2022年,5月20日,10点48分,星期五11、11、11、11、13、13、13、17、1711、11、11、11、13、13、13、17、17、18第86页,共317页,2022年,5月20日,10点48分,星期五当原始数据进行分组之后,求中数的原理与根据重复数列求中数的原理一样。第87页,共317页,2022年,5月20日,10点48分,星期五中数的优缺点与应用优点:计算简单、容易理解;缺点:中数的计算不是每个数据都加入,其计算不受制于全体数据;反应不够灵敏,极端值的变化对中数不产生影响;受抽样影响较大,不够稳定;计算时需先对数据按大小进行排序等等。第88页,共317页,2022年,5月20日,10点48分,星期五众数又称范数、密集数、通常数,用符号表示。它是一组数据中出现次数最多的那个数的数值。第89页,共317页,2022年,5月20日,10点48分,星期五计算众数的方法①
直接观察求众数:只凭观察找出出现次数最多的那个数据就是众数;②用公式求众数:用公式计算的众数成为数理众数,包括皮尔逊经验法和金氏插补法两种第90页,共317页,2022年,5月20日,10点48分,星期五众数的优缺点与应用优点:概念简单明了、易于理解;缺点:不太稳定;容易受分组影响,同时也易受样本变动的影响;较少受极端数据的影响,反应不够灵敏;众数不能用来做进一步的代数运算。第91页,共317页,2022年,5月20日,10点48分,星期五众数的总体应用不是很广泛,具体的应用情境可能有:①当一组数据出现不同质的情况时,可用众数表示典型情况;②当次数分布中有两极端的数目时,除了一般用中数外,也用众数;③当粗略估计次数分布的形态时,有时用平均数与众数之差,作为表示数据分布是否呈现偏态的指标。第92页,共317页,2022年,5月20日,10点48分,星期五平均数、众数、中数的相对位置第93页,共317页,2022年,5月20日,10点48分,星期五平均数、中数与众数三者间的关系第94页,共317页,2022年,5月20日,10点48分,星期五第三节其他集中量数加权平均数有些测量中所得数据,单位权重并不相等。权重即为对总体而言的重要程度。计算公式:第95页,共317页,2022年,5月20日,10点48分,星期五
某年级四个班的学生人数分别为50人,52人,48人,51人,期末数学考试各班的平均成绩分别为90分,85分,88分,92分,求年级的平均成绩。解:由公式得=88.74第96页,共317页,2022年,5月20日,10点48分,星期五几何平均数,Mg(或GM)表示,计算公式如下:第97页,共317页,2022年,5月20日,10点48分,星期五
已知某校四年中各年度的学生人数分别为上一年的1.12倍,1.09倍,1.08倍和1.06倍,求每年的平均增长率。解:先求出平均发展速度
然后用公式:平均增长率=平均发展速度-1,求出年平均增长率。平均增长率=1.09-1=0.09故所求的年平均增长率为9%。第98页,共317页,2022年,5月20日,10点48分,星期五调和平均数,用表示,因计算中先将各个数据取倒数平均,然后再取倒数,因此又称为倒数平均数。计算公式为第99页,共317页,2022年,5月20日,10点48分,星期五第四章差异量数第100页,共317页,2022年,5月20日,10点48分,星期五集中量数和差异量数9287858881798682848495908593797582817989第101页,共317页,2022年,5月20日,10点48分,星期五差异量数是指对一组数据的变异性,即对离中趋势特点进行度量和描述的统计量,也称为离散量数。差异量越大,表示数据分布的范围越广,越不整齐;差异量越小,表示数据分布得越集中,变动范围越小。常用的差异量数有全距、四分位差、百分位差、平均差、标准差与方差等等。第102页,共317页,2022年,5月20日,10点48分,星期五第一节全距和百分位差全距,又称两极差,用R表示。一组数据中的最大值减去最小值而得到。第103页,共317页,2022年,5月20日,10点48分,星期五全距(range)又称两极差,是一列数据的最大值与最小值的差。R=Xmax-Xmin优点:全距是最简单,最容易理解的差异量数;缺点:不稳定、不可靠、不灵敏,受抽样变动的影响,是一种低效的差异量数。建议:与其它差异量数一起使用第一节全距和百分位差第104页,共317页,2022年,5月20日,10点48分,星期五百分位差和四分位差百分位数,又叫百分位点,是量尺上的一个点,在此点以下包括数据分布中全部数据个数的一定百分比。第P百分位数就是指在值为P的数据以下,包括分布中全部数据的百分之p,其符号为。百分位差是取消分布两端10%的数据,即用和之间的距离作为差异量数。四分位差则是到距离的一半。第105页,共317页,2022年,5月20日,10点48分,星期五计算百分位数(利用次数分布表)
83页例题第106页,共317页,2022年,5月20日,10点48分,星期五平均差、方差和标准差离差是离均差的简称,指一组数据中各观测值与平均数之间的差值。离差的大小表示的是观测值偏离平均数的大小。平均差则指次数分布中所有原始数据与平均数绝对离差的平均值。一般用符号A.D或M.D表示。第107页,共317页,2022年,5月20日,10点48分,星期五平均差的计算方法①如果使用原始数据求平均差,则用下面的公式:②如果使用归类分组数据计算平均差,则使用公式:式中:f为各组次数;为各组中点值对平均数离差的绝对值。第108页,共317页,2022年,5月20日,10点48分,星期五方差是指离差平方和的算术平均数。即,一组数据中每个具体数据与该组平均数之差、然后平方、求其和、再除以数据的总个数。作为样本统计量,用表示;作为总体参数,用符号表示。其定义公式为:第109页,共317页,2022年,5月20日,10点48分,星期五标准差是指离差平方和平均后的算术平方根。即方差的算术平方根,样本标准差用s或是SD表示,总体标准差用表示。其公式为:第110页,共317页,2022年,5月20日,10点48分,星期五方差和标准差的计算方法①原始数据计算法:将定义公式加以变形,可变成不必求离差,直接用原始数据计算方差和标准差的公式。第111页,共317页,2022年,5月20日,10点48分,星期五
例题:
10名学生的中考总成绩是:450,450,500,500,500,550,550,550,600,600,650,计算其标准差。解:此例n=10,经计算得:Σx=5400,Σx2=29550000,代入公式得:10名学生中考总成绩的标准差为62.5分。
第112页,共317页,2022年,5月20日,10点48分,星期五②
频数分布表计算法:若将原始数据已经归入频数分布表,而且原始数据又不在手边,这时可以用组中值近似计算。其计算公式为:第113页,共317页,2022年,5月20日,10点48分,星期五例题2
下表是200名运动员某次竞赛标杆投掷成绩资料的次数分布表,式中,f为各组次数;x为各组的组中值;Σf=n为总次数,计算标准差。组别组中值(x)次数(f)fxfx244.15—45.03135.06075.045.85—46.76280.213085.3447.55—48.416774.437480.9649.25—50.1221102.255220.2250.95—51.8301554.080497.2052.65—53.5442354.0125939.0054.35—55.2281545.085317.1256.05—56.9301707.097128.3057.75—58.612703.241207.5259.45—60.35301.518180.4561.15—62.04248.015376.00合计
Σf=200Σfx=9159.5Σfx2=575507.11第114页,共317页,2022年,5月20日,10点48分,星期五将表中的Σf、Σfx、Σfx2代入公式得:200名运动员标杆投掷成绩的标准差为8.838m第115页,共317页,2022年,5月20日,10点48分,星期五总标准差的合成学校中,我们了解了每个班级的情况,再了解全年级情况时,需要将班级的标准差整合成总标准差。计算总方差的公式如下:第116页,共317页,2022年,5月20日,10点48分,星期五方差与标准差的性质和意义方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性的特点。标准差是一组数据方差的平方根,它不可以进行代数计算,但具有以下特性:①每一个观测值都加上一个相同常数C之后,计算得到的标准差等于原标准差;②每一个观测值都乘以一个相同的常数C,则所得标准差等于原标准差乘以这个常数;③以上两点相结合,每一个观测值都乘以同一个非0常数C,再加一个常数d,所得的标准差等于原标准差乘以这个常数C。第117页,共317页,2022年,5月20日,10点48分,星期五方差与标准差是表示一组数据离散程度最好的指标。其值越大,说明次数分布的离散程度越大,该组数据较分散;其值越小,说明次数分布的数据比较集中,离散程度越小。在描述统计中,只需要标准差就足以说明一组数据的离中趋势。标准差具备一个好的差异量数应具备的条件:反应灵敏、计算公式严密确定、容易计算、适合代数运算、受抽样变动影响小等。第118页,共317页,2022年,5月20日,10点48分,星期五第三节标准差的应用一、差异系数标准差反映了一个次数分布的程度,当对同一特质使用同一种测量工具进行测量,所测样本水平比较接近时,可以直接比较标准差大小。但是如果(1)两个或两个以上样本所测量的特质不同,或使用的工具不同;(2)两个或以上样本的水平相差悬殊。则不能用标准差直接比较。第119页,共317页,2022年,5月20日,10点48分,星期五差异系数,又称变异系数、相对标准差,它是一种相对差异量,用CV表示,是标准差对平均数的百分比:第120页,共317页,2022年,5月20日,10点48分,星期五二.标准分数标准分数又称基分数或Z分数,是以标准差为单位,表示一个分数在团体中所处位置的相对位置量数。计算公式为注意:Z分数没有实际单位,如果一个数小于平均数,Z分数的值为负,大于平均数,其值为正,等于平均数其值为0,所以Z分数只是一个相对位置量数。第121页,共317页,2022年,5月20日,10点48分,星期五例题4-7Z甲=(94.2-90)/3=1.4Z乙=(89.1-90)/3=-0.3使用Z分数比使用平均数和原分数表达了更多的信息。把原始分数转换成Z分数,就是把单位不等距的和缺乏明确参照点的分数,转化成以标准差为单位以平均数为参照点的分数。以平均数为参照点就是以0为参照点,原始分数转换为Z分数就是转换为以1为标准差,以0为参照点的分数,故名为标准分数。第122页,共317页,2022年,5月20日,10点48分,星期五(1)标准(Z)分数的性质:
①在一列数据中所有由原始分数转换得出的Z分数之和等于零,其Z分数的平均数也为0
第123页,共317页,2022年,5月20日,10点48分,星期五②一组数据中各Z分数的标准差为1
第124页,共317页,2022年,5月20日,10点48分,星期五③Z分数无实际单位,是以平均数为参照点以标准差为单位的相对量数;若一列数据呈正态分布,则其转化得到的所有Z分数,是以均值为0标准差为1的标准正态分布。第125页,共317页,2022年,5月20日,10点48分,星期五(2)标准分数的优点可比性不同性质的数据,转换成标准分数后可以比较;可加性原始分数转换成的标准分数可以相加,因为他们具有了相同的参照点;明确性利用标准分数可以知道原始分数的百分等级;稳定性规定了其标准差为1,保证了不同性质的分数在总分数中的权重一样,使分数能更稳定全面真实地反应个体的水平。第126页,共317页,2022年,5月20日,10点48分,星期五(3)Z分数的应用:①Z分数可用于比较分属性质不同的观测值在各自数据分布中相对位置的高低。这样就能进行不同观测值的比较。相对位置包括两层意思:一是表示原数目以平均数为中心,以标准差为单位,所处距离的远近或方向;二是表示表示原数目在该组数据分布中的位置,即在该数目以上或以下的数目有多少。如果是正态分布中,这两个意思合而为一,在偏态分布中就不能同一。第127页,共317页,2022年,5月20日,10点48分,星期五例题:某校期中考试物理均分为80,标准差为4分,英语成绩均分为78,标准差为10分,某生物理成绩和英语成绩均为85分,问该生的英语成绩和物理哪一科更好?解:Z物理=85-80/4=1.25Z英语=85-78/10=0.8答:该生物理成绩好于英语成绩第128页,共317页,2022年,5月20日,10点48分,星期五②已知不同质的观测值的次数分布为正态时,可用Z分数求不同的观测值的综合的平均值,以表示个体在团体中的相对位置。例如高考各科成绩为正态分布,但各科成绩的难易度不同,因此各科成绩就属于不同质的分数,如果简单地将各科成绩加起来或求平均数,这是不科学的。如果用Z分数求综合才更有意义,也更科学。第129页,共317页,2022年,5月20日,10点48分,星期五P110例4-10利用Z分数求总和
科目原始分数甲乙
全体考生平均数标准差
Z分数甲乙语文政治外语数学理化8962725340728770106556985067581.501.901.00-0.60-0.1250.3750.50-1.67-0.3751.503483502.501.505问题:如果这两个考生只取一个该取谁?第130页,共317页,2022年,5月20日,10点48分,星期五③表示标准测验分数经过标准化的心理或教育测验,如果其常模分数接近正态,常转化为标准正态分数。其转化公式为:Z′=aZ+b式中Z′为正态标准分数z=X-X/σ
,a,b为常数,σ为测验常模的标准差。如:韦氏离差智商为:IQ=15Z+100注:T分数一般是指对学生的各科成绩计算标准分数。转换公式为T=10*Z+50第131页,共317页,2022年,5月20日,10点48分,星期五一、优良差异量数具备的标准1、根据客观数据资料获得;2、全部数据计算得到;3、简明、容易理解;4、计算方便;5、最少受抽样变动的影响;6、采用代数方法计算,且有利于后续计算。第四节差异量数的选用第132页,共317页,2022年,5月20日,10点48分,星期五二.各种差异量数的比较标准差方差全距平均差百分位差四分差第133页,共317页,2022年,5月20日,10点48分,星期五第五章相关关系第134页,共317页,2022年,5月20日,10点48分,星期五第一节相关、相关系数与散点图一、相关相关就是事物之间的相互关系。关系可以分为三种:共变关系相关关系因果关系第135页,共317页,2022年,5月20日,10点48分,星期五相关的类别正相关两列变量变动方向相同,如身高和体重。负相关两列变量变动方向相反,如练习时间和错误次数。零相关两列变量无关系,一列变量变动时,另一列变量做无规则运动,如相貌与成就。第136页,共317页,2022年,5月20日,10点48分,星期五二、相关系数含义:相关系数是两列变量间相关程度的数字表现形式,是用来表示相关关系强度的指标。作为样本统计量,常用r表示;作为总体参数,一般用ρ表示,并且是指线性相关而言。性质:取值介于-1.00至+1.00之间,常用小数形式表示;符号表示相关的性质,绝对值大小表示强弱;注意:相关密切程度不能只看相关系数的大小,而应注意样本量,经过统计检验才能确定。第137页,共317页,2022年,5月20日,10点48分,星期五①相关系数的“+、-”号表示双变量数列之间相关的方向,正值表示正相关,负值表示负相关。②相关系数r=+1时,表示完全正相关,r=-1表示完全负相关,两者都是完全相关。r=0表示完全独立,即零相关;③相关系数取值的大小表示相关的强弱程度。第138页,共317页,2022年,5月20日,10点48分,星期五三、散点图含义:通过点的散布形状和疏密程度显示变量间相关趋势和程度的统计图。画法:P.121通过散点图推断相关关系的方法。利用原始数据作图;利用标准分数作图。第139页,共317页,2022年,5月20日,10点48分,星期五第140页,共317页,2022年,5月20日,10点48分,星期五第141页,共317页,2022年,5月20日,10点48分,星期五第142页,共317页,2022年,5月20日,10点48分,星期五第143页,共317页,2022年,5月20日,10点48分,星期五相关系数的各种可能图形(a)r=1(c)r>0(e)r=0yyyyyy
x
xxxxx(b)r=–1(d)r<0(f)r=0第144页,共317页,2022年,5月20日,10点48分,星期五用Z分数绘制的散点图第145页,共317页,2022年,5月20日,10点48分,星期五
r=.742(平時考和期中考)第146页,共317页,2022年,5月20日,10点48分,星期五第二节积差相关当两个变量都是正态连续变量,而且两者之间呈线性关系时,表示这两个变量之间的相关称为积差相关,也叫皮尔逊积差相关。第147页,共317页,2022年,5月20日,10点48分,星期五积差相关的使用条件①两个变量都是由测量获得的连续性数据;②两个变量的总体都呈正态分布。或接近正态分布,至少是单峰对称的分布;③必须是成对数据,而且每对数据之间相互独立;④两个变量之间呈线性关系,这可由相关散点图的形状来决定;⑤要排除共变因素的影响;⑥样本容量n≥30,计算出的积差相关系数才具有有效意义。第148页,共317页,2022年,5月20日,10点48分,星期五计算公式为x、y表示两个变量的离均差,即,;
N为成对数据的个数;为X变量的标准差,为Y变量的标准差。第149页,共317页,2022年,5月20日,10点48分,星期五利用Z分数求积差相关第150页,共317页,2022年,5月20日,10点48分,星期五利用原始数据计算的公式如下:(1)(2)第151页,共317页,2022年,5月20日,10点48分,星期五下面这个表记录的是10名中学生身高与体重的测量结果,想知道身高与体重之间的相关程度怎么样?根据已有资料可知中学生身高与体重的分布都呈正态,且身高、体重都属于测量数据并且线性相关,因此本例可用积差相关公式计算相关数值。第152页,共317页,2022年,5月20日,10点48分,星期五被试编号身高(cm)X体重(kg)YX2Y2XY12345678910170173160155173188178183180165504547445053504952452890029929256002402529929353443168433489324002722525002025220919362500280925002401270420258500778575206820865099648900896793617425∑17254852985252360983891第153页,共317页,2022年,5月20日,10点48分,星期五计算积差相关系数的差法公式第154页,共317页,2022年,5月20日,10点48分,星期五积差相关系数的合并即为求几个样本的相关系数的平均相关系数。由于相关系数不是等距数据须将其变成等距数据方可合成。其方法是采用费舍Z-r转化法(1)将r转换成Z(2)求各样本的Z分数之和(3)利用公式求平均Z分数(4)将平均Z分数转换成r第155页,共317页,2022年,5月20日,10点48分,星期五例题:今有三个样本相关系数,欲求平均的相关系数。具体见下表:
查r—Zr转换表
第156页,共317页,2022年,5月20日,10点48分,星期五第三节等级相关1.等级相关的概念两列变量所对应的数据是等级顺序的测量数据时,或者两列变量所对应的等距或等比数据的分布非正态时,求两列变量的相关,即为等级相关。第157页,共317页,2022年,5月20日,10点48分,星期五2.斯皮尔曼等级相关(Spearman’scorrelationcoeficientforrankeddata)适用条件:(1)数据是等级顺序的测量数据,不是等距或等比数据;(2)非正态分布的等比或等距数据。优点:比积差相关的适用范围广,对数据总体不作要求;缺点:如果将能作积差相关的数据改作等级相关,其精确度稍差。第158页,共317页,2022年,5月20日,10点48分,星期五(1)定义公式(等级差数法)D=Rx-Ry是对偶等级之差(2)原始等级计算公式(等级序数法)计算公式第159页,共317页,2022年,5月20日,10点48分,星期五(3)遇到相同等级时的计算公式上式中:N成对数据数目n为某一变量的相同等级数例题见书P127-128为矫正数,即减少的差数第160页,共317页,2022年,5月20日,10点48分,星期五二、肯德尔等级相关肯德尔W系数(和谐系数)适用资料:多列等级变量求相关。这种资料的获得一般采用等级评定的方法,即让K个评价者对N件事物进行等级评定。肯德尔U系数(一致性系数)适用资料:对K个评价者的一致性进行统计分析。这种资料的获得一般为评价者采用对偶比较的方法对事物进行评定,即将N件事物两两配对,可配成N(N+1)/2对,然后对每一对中两事物进行择优选择。
第161页,共317页,2022年,5月20日,10点48分,星期五肯德尔W系数适用条件
①K个评价者对N件事物或N种作品进行等级评定,每个评价者都能对N件事物(或作品)的好坏、优劣、喜好、大小、高低等排出一个等级顺序。最小的等级序数为1,最大的为N,K个评价者便可得到K从1至N的等级变量资料。
②一个评价者先后K次评价N件事物或N件作品,也是采用等级评定法,这样也可得到K列从1至N的等级变量资料。这类K列等级变量资料综合起来求相关,就用肯德尔W系数。第162页,共317页,2022年,5月20日,10点48分,星期五肯德尔W系数计算公式:取值范围:如果K个评价者意见完全一致,则W=1;若K个评价者意见存在一定的关系,但又不完全一致,则0<W<1;如果K个评价者的意见完全不一致,则W=0。第163页,共317页,2022年,5月20日,10点48分,星期五例题:有10人对红、橙、黄、绿、青、蓝、紫七种颜色的评价,将其喜好程度直接排等级顺序,结果如下表,问这10人的颜色爱好是否具有一致性?第164页,共317页,2022年,5月20日,10点48分,星期五有相同等级时计算W系数第165页,共317页,2022年,5月20日,10点48分,星期五肯德尔U系数适用条件K个评价者对N件事物采用两两配对的方法进行评价,可配成N(N-1)/2对,然后进行两两比较,较好的记1分,较差者记0分,最后整理所有评价者的评价结果是否一致。第166页,共317页,2022年,5月20日,10点48分,星期五肯德尔U系数计算公式:N为被评价事物的数目即等级数;K为评价者的数目;为对偶比较记录中i>j(或i<j)的格中的择优分数;将每一对事物择优比较的结果按优者记1,非优记0,难以判定记0.5的记分方法,将分数填到相应的格子中,这便是
第167页,共317页,2022年,5月20日,10点48分,星期五肯德尔U系数例题(p.133)取值范围:完全一致U=1;完全不一致或(K为奇数)(K为偶数)可见一致性系数U的取值“+”“—”不是表示相一致的方向,这点与一般的相关系数不同。
第168页,共317页,2022年,5月20日,10点48分,星期五第四节质量相关在研究中,当一列变量按事物的属性划分种类,而另一列变量为等比或等距的测量数据时,求得的相关叫质量相关。包括点二列相关、二列相关和多系列相关。第169页,共317页,2022年,5月20日,10点48分,星期五1.点二列相关(point-biserialcorrelation)适用条件一列数据来自于正态分布的总体的等比或等距数据,另一列变量为二分变量(dichotomousvariable),即按事物的某一性质只能分为两类相互独立的变量。P为二分称名变量取某一值的变量比例
q为二分称名变量中取另一值的变量比例Xp等距(比)变量中与P对应那部分变量的平均值Xq等距(比)变量中与q对应那部分变量的平均值Sx为全部等距或等比变量的标准差例题P136第170页,共317页,2022年,5月20日,10点48分,星期五2.二列相关(biserailcorrelation,中科院2004试题)
适用条件两列变量都来自于正态分布的等比或等距数据,而其中一列被人为地划分为两个类别的数据第171页,共317页,2022年,5月20日,10点48分,星期五二列相关一般不常用一般用于对项目(题目)的区分度的确定当相关系数越接近1时,项目的区分度越高;当相关系数越接近0时,其区分度越低。第172页,共317页,2022年,5月20日,10点48分,星期五3.多列相关(multiserialscorrelation)适用资料多列相关适合处理两列正态变量资料,其中一列为等距或等比的测量数据,另一列被人为划分为多个类别的名义变量。多列相关用于一列正态连续变量与另一列正态的称名变量之间的一致性分析,在测验中时常用于效度检验。第173页,共317页,2022年,5月20日,10点48分,星期五计算公式第174页,共317页,2022年,5月20日,10点48分,星期五五、品质相关品质相关是指R(行)×C(列)表的两个分类变量之间的关联程度。品质相关处理的数据类型一般都是计数数据而非测量数据。品质相关是编制心理测验、项目分析时的常用方法。主要有四分相关、φ相关、列联表相关等。第175页,共317页,2022年,5月20日,10点48分,星期五1.四分相关(四格表)当两个变量都是连续变量,且每一个变量的变化都被人为地分为两种类型时,求两个变量之间的相关为四分相关。计算时将资料整理成2×2的四格表。四格表是由两个因素,各有两项分类计数。第176页,共317页,2022年,5月20日,10点48分,星期五计算公式:第177页,共317页,2022年,5月20日,10点48分,星期五2.Φ相关适用资料当两变量是真正(自然)的二分变量时,求两变量之间的相关为Φ相关。例题P144当Φ值小于0.3时,相关较弱;当Φ值大于0.6时,相关较强。完全正相关,数据落入ad两格中,完全负相关,数据落入bc两格中。应用时一般不指出其相关方向。第178页,共317页,2022年,5月20日,10点48分,星期五还可以用关联系数Q和归结系数γ表示其相关程度。(5-18a)(5-18b)第179页,共317页,2022年,5月20日,10点48分,星期五3.列联表相关(涉及后面的内容故从略)第180页,共317页,2022年,5月20日,10点48分,星期五六、相关系数的选用与解释1.如何选择合适的相关系数总原则:依据不同的数据类型和某一相关系数所要满足的假设条件,选择不同的相关系数。第181页,共317页,2022年,5月20日,10点48分,星期五第182页,共317页,2022年,5月20日,10点48分,星期五2.相关系数值的解释相关系数的值表示两个变量之间的关联程度,但只说明其大概的趋势,不存在精确的数值关系。相关系数的数值大小,表示两个变量关联的强弱。相关系数即使是1,也不能推出因果关系的结论。要能区分虚假相关,不能仅依据相关系数的大小确定变量的相关。了解偏相关和半偏相关的概念在纯理论研究中,即使有很小的相关,如果在统计上有显著性,也能说明心理规律。第183页,共317页,2022年,5月20日,10点48分,星期五第184页,共317页,2022年,5月20日,10点48分,星期五3.相关系数的特殊用途相关系数在心理科学与教育科学研究中,特别是心理与教育测量、评价中,有着重要的特殊用途。它可以用于确定测验的信度系数和效度系数,用于对测验的项目区分度进行分析。第185页,共317页,2022年,5月20日,10点48分,星期五第186页,共317页,2022年,5月20日,10点48分,星期五第六章概率分布第187页,共317页,2022年,5月20日,10点48分,星期五已学内容回顾:数据描述统计(图表描述、数量描述)
推断统计本章学习内容:概率基本知识离散型概率分布(二项分布)连续型概率分布(正态概率分布)样本分布(参数估计的基础)第188页,共317页,2022年,5月20日,10点48分,星期五第一节概率的基本概念概率论是推断统计的数学基础,它通过对样本数据的分析,在指出是什么和不是什么的同时,还通过概率指出这种可能性的大小。第189页,共317页,2022年,5月20日,10点48分,星期五概率概率是用来描述随机事件出现可能性大小的客观指标,包括先验概率和后验概率。第190页,共317页,2022年,5月20日,10点48分,星期五先验概率:先验概率是通过古典概率模型加以定义的,故又称为古典概率;它是特殊情况下直接计算的比值,是真实的概率而不是估计值。若所有可能结果的总数为n,随机事件A包括m个可能结果,则事件A的概率计算公式为:第191页,共317页,2022年,5月20日,10点48分,星期五古典概率模型要求满足两个条件:①试验的所有可能结果是有限的;②每一种可能结果出现的可能性(概率)相等。第192页,共317页,2022年,5月20日,10点48分,星期五后验概率:以随机事件A在大量重复试验中出现的稳定频率值作为随机事件A概率的估计值,这样求得的概率称为后验概率。计算公式为第193页,共317页,2022年,5月20日,10点48分,星期五例如保险公司会利用概率进行人寿保险经营,比如研究表明20-24岁的男性中明年死亡的概率是0.0015,同龄的女性是0.0005,保险公司对男性的保费就多收一些。第194页,共317页,2022年,5月20日,10点48分,星期五当进行多次观测后,按观测数据求得的后验概率接近先验概率。试验的次数正面/试验次数1.000.000.250.500.750255075100125第195页,共317页,2022年,5月20日,10点48分,星期五比如:法国统计学家蒲丰(Buffon)把铜板抛了4040次,正面的次数是2048,比例是0.5069。1900年,英国统计学家皮尔逊把硬币抛了24000次,正面的次数是12012,比例是0.5005南非数学家柯屈瑞在监狱时,把硬币抛了10000次,正面的次数是5067,比例是0.5067。第196页,共317页,2022年,5月20日,10点48分,星期五概率的基本性质概率的公理系统①任何随机事件A的概率都是非负的;②不可能事件的概率等于零,P(V)=0。例如,新生儿会讲话的概率为0:③必然事件的概率等于1,P(U)=1。例如,健康儿童语言产生和发展的概率为。第197页,共317页,2022年,5月20日,10点48分,星期五小概率事件在统计推断中,将一次试验中发生的概率小于0.05的事件,称为小概率事件。认为它是一次试验中同乎不可能发生的事件。第198页,共317页,2022年,5月20日
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 烤串场地租赁及品牌授权合同2024年度
- 二零二四年度保险合同范本及解读2篇
- 合伙人转让协议协议范本
- 基于物联网技术的智能家居系统集成合同(2024年度)
- 基于二零二四年报的财务风险评估合同
- 个人房子外墙装修合同范本
- 2024年度店铺业务外包合同2篇
- 2024委托活动招商合同
- 手车交易合同电子版可直接打印使用手
- 2024版演出经纪服务合同细节3篇
- 18项医疗核心规章制度
- 5《对韵歌》说课稿-2024-2025学年语文一年级上册统编版
- 四川省通信网络建设招标文件
- gps抵押车合同范例
- 《第三章 地球上的水》试卷及答案-高中地理必修1-人教版-2024-2025学年
- 大油画课件教学课件
- 矿山系统机电技术人员考试题库(含答案)
- 2024年安徽房屋租赁合同样本(三篇)
- 计算机文化基础2
- 2024-2030年芯片行业市场发展分析及发展趋势前景预测报告
- 2023年山东黄金集团招聘笔试真题
评论
0/150
提交评论