第五章抽样与统计推论_第1页
第五章抽样与统计推论_第2页
第五章抽样与统计推论_第3页
第五章抽样与统计推论_第4页
第五章抽样与统计推论_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章抽样与统计推论1第一页,共七十四页,编辑于2023年,星期五第五章:抽样与统计推论第六章:参数值的估计第七章:假设检定:均值与百分率第八章:假设检定:两个变量的相关2第二页,共七十四页,编辑于2023年,星期五回顾:内容掌握

1、叙述统计部分,主要掌握集中趋势测量、离散趋势测量的单变量分析,两个变量分布及λ、tau_y、Gamma、dy、r、E2等相关测量法;2、推论统计部分,主要掌握抽样与统计推论,参数估计以及Z检定、χ2检定、F检定、t检定等假设检定;3、以上理论课程内容,主要要求明确统计方法的适用条件,原理与步骤以及统计值的意义。3第三页,共七十四页,编辑于2023年,星期五第一节抽样的意义为了研究总体,我们需要从总体中抽出一部分样本,借此了解总体中的情况。研究的历程:总体——样本——总体4第四页,共七十四页,编辑于2023年,星期五社会研究的过程一、筹划二、执行三、总结一、选定研究题目二、初步探索三、成立假设四、理论解释与澄清概念五、研究策略1.研究设计2.测量变量3.测量层次4.界定母体和决定抽样的步骤5.统计分析访问法;观察法;档案资料;一、统计分析二、解释研究结果三、开启新的研究议题实验法社会调查法5第五页,共七十四页,编辑于2023年,星期五统计叙述:描述变量或者变量之间的关系。无论数据怎么来的,是样本还是总体的数据,无论随机样本还是非随机样本,统计叙述的方法都可以使用。关注样本的情况。统计推论:根据样本的情况,来推测总体的情况。关注总体的情况。6第六页,共七十四页,编辑于2023年,星期五两套话语:样本与总体。从样本中计算出来的数值称作统计值,在总体中计算出来的数值称为参数值。我们的目标是:总体的状况。我们的手段是:从样本推论总体,或者从样本中归纳总体。7第七页,共七十四页,编辑于2023年,星期五问题:在对一个变量或者两个变量的分布状况,或者相关关系的分析中得出的统计值。代表的这种分布或者关系是不是在总体中也是这样?8第八页,共七十四页,编辑于2023年,星期五第二节抽样的历程抽取有代表性的样本,尽量减少误差。9第九页,共七十四页,编辑于2023年,星期五总体抽样框样本大小决定样本大小的一般原则:根据研究能付出的最大代价抽取样本。抽样比例设计抽样方法,抽取样本评估样本:总体分布与样本分布在基本特征上是否分布一致。10第十页,共七十四页,编辑于2023年,星期五第三节随机与非随机抽样法11第十一页,共七十四页,编辑于2023年,星期五一、简单随机抽样二、系统随机抽样三、分层随机抽样四、集体抽样法五、多段抽样六、多期抽样12第十二页,共七十四页,编辑于2023年,星期五第四节几率与抽样分布13第十三页,共七十四页,编辑于2023年,星期五社会学研究抽样调查的目的是通过样本推算总体的情况。归纳法的结论不可能百分百正确。概率论(几率论)即是研究我们通过样本推测总体的时候所犯的错误是多少。14第十四页,共七十四页,编辑于2023年,星期五通过概率论,可以知道在一定条件下,总体中的各种抽样结果所具有的概率特征。统计推论是研究在发生了某种抽样结果的情况下,判断它来自何种总体更合适。统计推论是概率论研究的逆问题。15第十五页,共七十四页,编辑于2023年,星期五一、随机现象客观现象可分为确定现象和非确定现象。随机现象-非确定现象在一定条件下,事物的出现只有可能性但不具有必然性。可能而又不必然,意味着在一定条件下出现的结果不止一种,其中任何一种情况的出现都具有一定的随机性。16第十六页,共七十四页,编辑于2023年,星期五确定性现象——必然命题,表示为:若……,则……非确定性现象——随机命题,表示为:若……,可能……社会学研究多为随机命题。17第十七页,共七十四页,编辑于2023年,星期五二、概率与频率随机现象的结果以及结果的集合成为随机事件:可能发生也可能不发生的非确定性事件。概率是这些随机事件发生可能性大小的数量表示。随机事件发生的概率为:0≦P≦118第十八页,共七十四页,编辑于2023年,星期五概率反映随机事件内涵的统计规律性。统计规律性:在一定条件下,就其个别一次的结果来说都具有偶然性,但大量重复的试验或者观察,则结果就呈现必然的规律。统计规律性是事物本身所固有的客观属性。19第十九页,共七十四页,编辑于2023年,星期五随机事件的两重性:一次试验或者观察中事件出现与否具有偶然性大量重复试验或者观察时,随机事件出现的可能性是稳定的。——统计规律性。20第二十页,共七十四页,编辑于2023年,星期五频率:在相同条件下,进行N次试验,随机事件出现了n次。随机事件的频率是可知:0≦f≦1当试验(观察)次数N无限增大的时候,f值趋向于P。21第二十一页,共七十四页,编辑于2023年,星期五频率是实验值,它随着试验或者观察而变化,具有随机性,只能近似反映事件出现可能性的大小。概率是理论值,它由事件的本质决定,值是唯一的,能精确地反映出事件出现可能性的大小。22第二十二页,共七十四页,编辑于2023年,星期五概率,将随机事件与一个精确反映事件出现可能大小的数量紧密联系在一起。23第二十三页,共七十四页,编辑于2023年,星期五三、概率分布频率分布是实验值,可以变化,频率分布又称作随机变量的统计分布或者经验分布。概率分布是理论值,是唯一的,概率分布则是随机变量的理论分布。24第二十四页,共七十四页,编辑于2023年,星期五随机事件随机变量随机事件概率随机变量的分布仅当观测次数很大时,随机变量取值的频率接近于其概率,此时随机变量的统计分布与理论分布大致相符。25第二十五页,共七十四页,编辑于2023年,星期五随机事件尽管具有随机性,但是对于一个确定的随机样本来说,我们得到的是确定的观测值,这些值是确定的,根据这些值计算出来的数值叫做统计值。而抽样分布是在概率论的基础上成立的理论分布,是在假定如果在同一总体中反复不断抽取不同样本时,各个可能出现的样本统计值的分布状况。26第二十六页,共七十四页,编辑于2023年,星期五概率,将随机事件与一个精确反映事件出现可能大小的数量紧密联系在一起。假设试验或者观测进行了无限多次。概率分布,假设进行无数次抽样,得到那个最为完美的样本的分布状况。将变量取值分布和一个固定的形状联系起来。27第二十七页,共七十四页,编辑于2023年,星期五两个定理:大数定理和中心极限定理随机事件的两重性:随机性和统计规律性。大量的随机现象所构成的总体,呈现的规律有稳定性。当进行大量观察时,n趋向于无限时,得出来的定律,叫做极限定律。28第二十八页,共七十四页,编辑于2023年,星期五极限定律有两类:大数定律:有关阐明大量随机现象平均结果的稳定性的一系列定理,研究在什么条件下随机事件可以转化为不可能事件或者必然事件。中心极限定理:研究在什么条件下随机变量之和的分布可以近似正态分布。偶然性与必然性的辩证关系大数定理将局部、偶然的影响消除掉,使共同的原因显现出来。29第二十九页,共七十四页,编辑于2023年,星期五最重要的两个抽样分布:二项抽样分布均值抽样分布30第三十页,共七十四页,编辑于2023年,星期五一、二项分布31第三十一页,共七十四页,编辑于2023年,星期五一、二点分布变量的取值只有两类。两个类别习惯上用0和1来表示,又叫做0-1分布。在社会调查中有大量的二分变量。二点分布是二项分布只做一次观察的概率分布。32第三十二页,共七十四页,编辑于2023年,星期五二点分布——是与否“是”的概率为P(取值为1的时候、成功),“否”的概率为Q。(取值为0的时候、失败)特征:P(0)>0;Q>0P+Q=1对于性别、抛硬币等来说,P=Q=0.5其他状况P不一定等于Q。33第三十三页,共七十四页,编辑于2023年,星期五二分变量是社会研究中最常见最普遍的形式,也是多取值变量,其中包括高层次测量变量的简化研究方式。34第三十四页,共七十四页,编辑于2023年,星期五二、二项分布当试验进行n次的时候,成功的次数呈现一种概率分布。35第三十五页,共七十四页,编辑于2023年,星期五抛五次硬币的概率分布图36第三十六页,共七十四页,编辑于2023年,星期五当试验次数或者观测个案n无限大的时候,频率的分布接近于理论的概率分布37第三十七页,共七十四页,编辑于2023年,星期五二项分布的特征:离散型分布,当试验次数为n时,二项分布共有n+1个取值。这种分布图可以用分布律来表示,可也以用折线图来表示。38第三十八页,共七十四页,编辑于2023年,星期五二项分布图39第三十九页,共七十四页,编辑于2023年,星期五二项分布有两个参数:n和P,(Q=1-P)40第四十页,共七十四页,编辑于2023年,星期五二项分布图当P=0.5时,是对称分布。当P≠0.5时,是非对称的。n越大,非对称性越不明显。41第四十一页,共七十四页,编辑于2023年,星期五二项分布各项概率是可以根据以上公式计算出来的,也可以相加。42第四十二页,共七十四页,编辑于2023年,星期五二项分布概率值的实际意义:二项分布所计算的概率值都是理论值,具有先验的性质。在实践中大量的重复二项分布中的独立试验,则频率的分布将趋向于二项分布。43第四十三页,共七十四页,编辑于2023年,星期五二项分布在社会学研究中的统计推论意义。书上的例子(133页):44第四十四页,共七十四页,编辑于2023年,星期五二项分布的经典例子就是抛硬币式的P=Q=0.5的情况,然而只要P+Q=1,P和Q可以是任何数值。各项分布概率均可以计算出来。P≠Q时,是不对称分布。45第四十五页,共七十四页,编辑于2023年,星期五例子:人群中同性恋出现的概率是5%,异性恋出现的概率是95%。如果随机抽取十个人,那么这十个人中出现同性恋取向个人的概率分布为:46第四十六页,共七十四页,编辑于2023年,星期五例子:根据生命表,年龄为60岁的人,可望活到下一年的概率为0.95。某单位有十个60岁的人,问其中有九人活到下年的概率是多少?至少有九人活到下年的概率是多少?根据公式计算:p(r=9)=0.315P(9≤r≤10)=p(r=9)+p(r=10)=0.91447第四十七页,共七十四页,编辑于2023年,星期五二、均值抽样分布中心极限定理中心极限定理:研究在什么条件下随机变量之和的分布可以近似正态分布。中心极限定理:如果从任何一个具有均值M和方差S²的总体中重复抽取容量为n的随机样本,那么当n变得很大的时候,样本均值的抽样分布接近正态,并具有均值M和方差S²/n。48第四十八页,共七十四页,编辑于2023年,星期五理解中央极限定理的含义中央极限定理之所以重要,因为它将具有五花八门分布特征的变量和一个整齐、美丽、易于计算的正态分布联系起来。使我们简便地认识社会现象。无论变量自身的分布如何,其均值抽样分布都接近于正态分布。49第四十九页,共七十四页,编辑于2023年,星期五总体分布不是正态,为什么抽样分布是正态的?50第五十页,共七十四页,编辑于2023年,星期五例子:掷骰子51第五十一页,共七十四页,编辑于2023年,星期五掷一枚骰子每个面1、2、3、4、5、6出现的概率都是1/6,此时的概率分布为矩形(离散)。52第五十二页,共七十四页,编辑于2023年,星期五掷两枚骰子53第五十三页,共七十四页,编辑于2023年,星期五54第五十四页,共七十四页,编辑于2023年,星期五掷3枚骰子55第五十五页,共七十四页,编辑于2023年,星期五56第五十六页,共七十四页,编辑于2023年,星期五例子(134页)57第五十七页,共七十四页,编辑于2023年,星期五58第五十八页,共七十四页,编辑于2023年,星期五均值抽样分布的特点一、如果样本相当大,则均值的抽样分布接近于正态分布。在社会学研究中,样本量至少是30(n≥30),才能算是满足大样本的要求。(一般在n≥100的时候,总是可以认为满足了大样本的要求,无论总体分布如何。在n≥50的时候,总体分布接近正态分布时使用比较合适。)59第五十九页,共七十四页,编辑于2023年,星期五均值抽样分布接近正态分布,则正态分布的所有特征都具备。单峰、对称,众值、中位值和均值相同。60第六十页,共七十四页,编辑于2023年,星期五二、抽样分布的均值就是总体的均值。将各个样本的均值相加起来,取均值,就会等于总体的均值。抽样分布的标准差:标准误差。61第六十一页,共七十四页,编辑于2023年,星期五由于不知道总体的情况,所以,以一个样本的标准差当做总体的标准差,这样标准误差的计算公式为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论