样本数据分布与总体参数估计.ppt_第1页
样本数据分布与总体参数估计.ppt_第2页
样本数据分布与总体参数估计.ppt_第3页
样本数据分布与总体参数估计.ppt_第4页
样本数据分布与总体参数估计.ppt_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 数据分布与总体参数估计,主要内容,1 样本与总体 2 数据分布与抽样分布 3 总体参数估计,1 样本与总体,先看二个问题: 问题1:某电脑生产商想了解用户对他们生产的电脑的性能满意情况和售后服务满意情况,委托了一家管理咨询公司做调查,如果你是这家管理咨询公司的经理,你该怎么做呢? 问题2:某青少年德育发展研究专家想了解2008年北京奥运会对青少年爱国情感的影响,他该怎么做?,再来看另一个问题: 2008年1月初的某天,中国春节前夕,湖南某地的村民高某,发现经过持续几天的下雪寒冷天,地里的蔬菜等庄稼全都烂掉了,他想,物价必然会因此而大涨,为此他来到人流南来北往的公路和铁路边调查,结果让他大惊:方便面涨到了30多元一盒、鸡蛋10多元一个,哇噻,这可不得了,物价涨10多倍了,他赶紧回家告知左邻右舍、亲戚朋友,说不能再卖粮食了,现在全中国都粮食短缺、物价飞涨,结果,上述问题反映了一个事实:当我们需要了解某一种现象或某一个事件时,如果牵涉的面或者范围比较广时,我们不可能进行地毯式的调查,一是时间不允许,二是财力精力不支持,而是进行有选择的调查,在心理学研究中,我们把选择出来的调查(研究)对象称为样本,把现象或事件所牵涉的所有人的集合称为总体。,总体:性质相同的一类事物的全体。 个体:构成总体的每一 基本单位或单元。 样本:从总体中抽取的一部分个体集合。样本中所包含的个体数目称为样本容量。, 总体 (N) ,总体与个体、样本,描述总体数据特征的数学统计指标称为参数,用、等符号表示;描述样本数据特征的数学统计指标称为统计量,用 、S或SD、r等表示, 总体 (N) , ,另一类问题: 如果公司管理者想知道小陈对他岗位的满意度,通过一个标准化的工作满意度测试,发现她得分为88分(满分100分),请问这88分只是小陈工作满意度的一个估计值还是她工作满意度的真实分数?如果是对150名员工进行施测呢,又如何看待收集到的数据?,2 数据分布与抽样分布,我们在前面的学习中知道,心理研究中的数据具有三个特点:随机性、变异性和规律性,通过统计图或统计表的方法我们都可以初步、直观地刻画出它的规律性,但要想更进一步地了解数据变异的规律性,就需要通过数学的方法,分布函数就是描述数据变异规律的数学模型。,2.1 数据分布,2.1.1 正态分布 (1)定义与方程 正态分布,又叫高斯分布,是一种连续分布。 服从正态分布的随机变量,在取值区间中部取值概率最高,从中间到两侧,取值概率逐渐下降,接近取值区间上、下限时,取值概率越来越小,且两侧取值概率是对称的。 公式:,知识点说明:Y的积分为1,而这刚好是概率的和,即曲线和X轴所包围的面积为1。,A、呈例挂的钟形,两头小,中间大,面积p=1; B、有其分布函数(形状,位置) ; C、横坐标以标准差为单位,用Z分数表示; D、正态分布下数据与标准差有一定数量关系;,(2)正态分布的特点,包含总数目的68.26%,包含总数目的95%,包含总数目的99%,几乎包含了全体。,(3)正态分布的图形形 状,上述分布为标准正态分布,它的三个参数值分别为=1,=0,Y=0.3989,以它的分布函数编制的表称为标准正态分布表,标准正态分布表在实践中得到了非常广泛的应用。,(4)标准正态分布及其应用,正态分布的形状随和值的变化而变化,如果我们令=1,=0,正态分布又会出现什么情况呢?,标准正态分布表的制表方法及使用,制表法1:从无穷小开始,Z逐渐增加; 制表法2:从对称轴开始,即从Z=0开始。,使用:三个值的求解 已知概率可查Z分数: PZ 已知Z分数可查概率: ZP 已知概率或标准分数可查密度值、函数值, 已知概率可查Z分数: PZ 已知在某一选拔性考试中,有20%的人被选中,如果考试的分数符合正态分布,问Z分数大于多少的人会被选中?如果分数分布的平均数是50,标准差是10,则分数线是多少? 已知Z分数可查概率: ZP 在某一年的律师资格考试中,律师资格审查委员会认为,只要Z分数大于2.5(已知考试分数的分布符合正态分布,平均分为80分,标准差为6分)就授予律师资格,问在这一次考试中有多大比例的人获得律师资格? 已知概率或标准分数可查密度值、函数值 就是已知Z值和P值求Y值,在心理统计中这个功能一般不用。,、求均数与某个 Z 值间的 P 值: Z=0Z=1 Z=0Z=-1 、求任何两个 Z 值间的 P值 : -1.22.4 0.61.5 、求某个Z值以上或以下的面积: Z=2.4以上P Z=-1.2以下P,查表练习,1 2 3,-3 - 2 -1 ,P=0.34134,P=0.34134,结果,Z=0Z=1 Z=0Z=-1,22:,33:,41.96:,52.58:,几个常用值,11:,假设500名学生的数学成绩分布符合正态分布。且已知平均分70,标准差5分。试问60分以下,6080分,80分以上,这三个分数段中,学生的人数分布各为多少? 已知:N=500,M=70,SD=5 X,M,SDZP, 正态分布理论在研究中的应用,、按能力分组,确定人数, X Z :, Z P:, 求各段的 P,60以下:,分析步骤,80以上:, 求各区间的人数:,60以下:,6080:,80以上:,6080:,表7-2 教师对学生的评定,、化等级评定为测量数据,三位教师对100名学生的学习能力进行了等级评价如表:,3名学生所获得的评定等级,试比较其中三位学生学习能力的高低是否一样?, 是否等值? (即评判标准是否一致), 如何否转化?,问题分析, n p:,2、分析过程, 确定位置, 求各等级比率的中间值, 确定中间值, 确定查表值,0.05,0.25,0.4,0.25,0.05,C,A,B,E,D,A:P=0.05/2+0.45=0.475,B:P=0.25/2+0.2=0.325,C:P=(0.4/2)-0.2=0,PF=0.05/2+0.95=0.975,PF=0.25/2+0.7=0.825,PF=0.4/2+0.3=0.5,表7-4 甲教师评定的相对结果, P Z:, 确定查表值,表7-5 乙教师评定的相对结果, 比较学生的能力高低,表7-7 三名学生的等级比较结果,、测验分数的正态化(P173-174),A、将原始数据整理成次数分布表; B、求各分组上限以下的累加次数; C、计算每组中点的累加次数,即前一组上限以下的累加次数加上该组资次数的一半; D、各组中点以下的累加次数除以总数求累加概率; E、将各组组中点以下累积比率视为正态分布的概率,查正态表,求Z分数 F、将正态化的z值线性转换:T=10Z+50,数学模型:,2.1.2 二项分布,(1)定义:离散型随机变量的概率分布,概率分布函数:,标准差:,(2)二项分布的平均数、标准差,则有:,平均数:,若满足条件:,某测验中有100道四择一客观题,请分析学生要答对多少道题才能说明他不是完全靠猜测答题的。, 条件分析,(3)二项分布的应用猜测性, 求均数和标准差, 结果解释:, 凭猜测答题时的概率与区间,同步练习,某测验有30个正误题,试问学生要做对多少题,才认为是真正掌握了所学的内容。,2.2 抽样分布,离散分布:二项分布、多项分布、普阿松分布、超几何分布 连续分布:正态分布、t分布、F分布、负指数分布、威布尔分布等,类型:,定义:描述样本统计量所有可能取值及相应概率变化规律的函数。即描述样本统计量分布规律的函数。,(1)定义, 总体 (N) , , , ,若总体正态,则从中抽取容量为n 的一切可能样本的均数分布也呈正态;无论总体是否正态,只要 n 足够大,样本均数的分布接近正态分布。,(2)中心极限定理,中央極限定理与大數法則,中央極限定理(central limit theorem) 如果從平均數為、標準差為的母 群中抽取樣本大小為N的許多樣本並 計算其平均數,則: 這些樣本平均數將構成【常態分配】 (不論原來母群的分配情形如何) 該分配之平均數正好等於 該分配之標準差(標準誤)等於/N 大數法則(law of large numbers) 樣本人數(即N)越大,所得到的許許多多樣本平均數越相似,而且越趨近於母群的平均數, 从总体抽取容量为n的一切可能样本时:, 从总体抽取容量为n的一切可能样本时:,统计学探索客观现象规律性的过程,反映客观现象的统计数据,描述统计(包括统计数据的搜集、整理、显示和分析),推断统计(利用样本信息和概率论对总体的参数特征进行估计和检验等),概率论(包括分布理论、大数定律和中心极限定理等),事物(总体)内部的数量规律性,样本数据,起点,终点,我们为什么要学抽样分布?,值得注意的是,在推断统计过程中,无论数理基础多严密,最重要的前提还是样本的代表性问题。,1936年美国总统选举前,一份名为Literary Digest 的杂志进行了一项民意调查。调查的焦点是下一届总统的人选。民意调查专家根据电话簿和车辆登记簿上的名单给一大批人发了简单的调查表。尽管发出了大约一千万调查表,但是回收率并不高(237.6万张 )。在回收的调查表中,Landon非常受欢迎,于是该杂志预测Landon将赢得选举。但是结果却是Roosevelt胜出。,(3) 常用抽样分布,、正态分布及渐近正态分布 、t分布 、2分布 、F分布 ,樣本平均數的抽樣分配,樣本平均數(sample mean)的抽樣分配 從母群中抽出N個樣本 計算這N個樣本得分的平均數 再重抽N個樣本並計算平均數 如此反覆則所得平均數即構成某分配 舉例前述假想例,取N=5 第一次抽5,12,13,18,19等人得M=3.2 第二次抽1,3,9,11,20等人得M= 2.6 第三次抽4,6,10,12,13等人得M=3.2 反覆多次後平均數3.2, 2.6, 3.2即構成抽樣分配,、正态分布及渐近正态分布, 分布均数 :, 分布标准差 :, 检验值 :,定理1: 总体正态,2已知,样本均数分布为正态。, 分布均数:, 分布标准差:, 检验值:,定理2: 总体非正态,2已知,n足够大 (n30),样本均数分布为渐近正态。,由小样本统计量形成的概率分布。对称分布;曲线易变,不是一条而是一族; n时,以标准正态曲线为极限。,、t分布,定理3: 总体正态,2未知,n30时,样本平均数分布为 t 分布。, 标准误:, 检验值:,定理4: 总体非正态,2未知,n30,样本均数的分布为 t 分布或渐近正态分布。,(1)公式 (2) 2分布的特点 正偏态分布,n越大越接近正态分布; 2值都是正值 2分布的和也是2分布,即具有可加性 2分布是连续型分布,但有些离散型的分布也近似2分布。,、2分布,(1)公式:,因为,所以,这正是后面讲的方差分析的概率分布依据,、F分布,F分布的密度图形,F分布的特点,(1)F分布是一个正偏态分布,分布曲线随分子、分母的自由度不同而不同,随df的递增,渐趋正态分布; (2)F总为正值; (3)当分子的自由度为1,分母的自由度为任意值时,F值与分母自由度相同概率的t值(双侧概率)的平方相等。,3 总体参数估计,让我们先看两个问题: 问题1:根据往年的经验,某地区高三学生韦氏成人智力水平的标准差是15,某教师用韦氏成人智力量表测试100名高三学生,M=115。试估计该校高三学生的平均智商大约是多少? 问题2:从深圳市各行业随机抽取500名在岗人员调查,求得月平均收入为3785元,标准差为1200元。试问我市在岗员工的月平均工资是多少?,参数估计的意义:所解决的问题,(1)由样本资料推测总体情况,属于由已知推测未知的范畴,是推断统计的主要任务,因此,参数估计属于推断统计的内容,是用样本统计量估计总体参数; (2)既然是估计,就存在犯错的可能性,必然发生的事情用不着估计,所以参数估计是建立在概率基础上的;其实明确具体概率值的参数估计就叫做区间估计,不明确确体概率值的参数估计就叫做点估计。,样本资料,推测?,总体情况,3.1 点估计(point estimation),含义:直接用样本统计量的值作为总体参数的估计值,即:,例:假设从某市随机抽取113六岁男童,测得平均身高为110.7公分。试估计该市所有六岁男童的平均身高是多少?,用样本统计量的具体值作为总体参数的估计值,我们很清楚这样做十有八九是会犯错误的,只是压根就不知道犯错误的可能性有多大,为了尽量减低错误,样本统计量应满足下述4个条件:, 无偏性:, 一致性:, 有效性:无偏估计量的变异性问题。, 充分性:,n,全部的 总体信息,充分反映,想一想,点估计可以为我们提供一个明确的点值,但看似精确实则不准确,如果我们要求准确一点估计,该怎么办呢? 如:以心理统计学的期末考试为例。,3.2 区间估计(interval estimation),区间估计(interval estimation)是根据估计量以一定可靠度推断总体参数所在的区间范围,它是用数轴上的一段距离表示未知参数可能落入的范围。 区间估计虽然不具体指出总体参数等于哪一个具体的数,但指出了未知总体参数落入某一区间的概率有多大。,3.2.1 区间估计中常用的几个术语,特定可靠性下(概率条件),估计总体参数所在的区间范围。,(1)置信区间,公式:,(2)显著性水平(significance level) 是指估计总体参数落在某一区间时,可能犯错误的概率,用符号表示。 1- 为置信度或置信水平(confidence level),(3)置信度(置信水平),指被估计参数落在置信区间内的概率。用符号D(Degree of reliability)表示,或1- 。,别名:置信水平、置信系数、置信概率、可信系数,常用值:D(1-)=.95 D(1-)=.99,(4)置信限,被估计总体参数所在区间的上、下界限。,下限,上限,小 结,置信区间,置信度,下限,上限,思考题,置信区间与置信度的关系如何? 置信区间过宽时:即使有99%的置信度,其结果估计的价值性也不大;置信区间过窄时:取一低水平置信度,其结果估计也没有什么价值。,要求,区间适度 置信度较高,3.2.2 总体平均数区间估计的原理与操作,总体平均数区间估计的原理是抽样分布理论。首先让我们来回忆一下什么是抽样分布理论。主要是理解在什么条件下样本统计量的分布是什么分布(详见原理1、原理2、原理3和原理4),以及抽样分布的标准误如何计算。,(1)正态分布法应用原理1和原理2,A、2已知,总体正态,n不论大小; B、2已知,总体非正态,n30;, 应用条件, 操作步骤,A、 求均数标准误:,B、 求置信区间:,C、 结果解释,2)条件分析 2已知 总体正态,1)已知:,根据往年的经验,某地区高三学生韦氏成人智力水平的标准差是15,某教师用韦氏成人智力量表测试100名高三学生,M=115。试估计该校高三学生的平均智商大约是多少?, 求均数标准误,3)分析过程, 求置信区间, 结果解释,(2)t分布法应用原理3和原理4,A、2未知,总体正态,n 不论大小; B、2未知,总体非正态,n30(渐近正态法);, 应用条件, 操作步骤,A、 求均数标准误:,B、 求置信区间:,C、 结果解释,1)已知:,从某市随机抽取小学三年级学生60名

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论