5传播学研究方法第五讲研究生_第1页
5传播学研究方法第五讲研究生_第2页
5传播学研究方法第五讲研究生_第3页
5传播学研究方法第五讲研究生_第4页
5传播学研究方法第五讲研究生_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

传播学研究方法第五讲

抽样钟智锦中山大学传播与设计学院抽样第一节 抽样的意义与作用第二节 概率抽样的原理与程序第三节 概率抽样方法第四节 非概率抽样第五节 样本规模与抽样误差抽样的意义与作用一、抽样的概念1、总体(population)——构成总体的全部单位或元素,可以是个人、群体、组织甚至社区。一般用大写字母N表示。如妇女-“2005年年满15-49岁的中国妇女”-“2005年10月1日零时(除台湾、西藏、香港、澳门)外28个省自治区15-49岁的妇女”,同时还将医院、精神病院、监狱、劳教所、军队中的妇女除外。2、样本(sample)——从总体中按一定方式抽取出的一部分元素的集合。按照概率论,样本是可以代表总体的。样本数目一般用小写字母n表示。3、抽样(sampling)——从总体中按一定方式选择或抽取样本的过程。4、抽样单位(samplingunit)——一次直接的抽样所使用的基本单位。注意:抽样单位可以是个人、群体、组织或社区。5、抽样框(samplingframe)——又称抽样范围,指一次直接抽样时总体中所有抽样单位的名单。即“花名册”。抽样框可以是多极的。6、参数值(parameter)——也称总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。如,中山大学教师的平均收入。7、统计值(statistic)——也称样本值,它是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表现。参数值和统计值重要区别:参数值是确定不变的、唯一的,并且通常是未知的;统计值则是变化的,即对于同一个总体来说,不同样本所得的统计值是有差别的。同时,对于任一特定的样本来说,统计值是已知的,或者说是可以通过计算得到的。

8.置信区间与置信度置信区间:用样本统计量构造的一个区间去估计总体参数的范围。置信度:总体参数值落在样本统计值某一区间内的概率,也称为置信水平。置信度反映的是推论的可信度或可靠性;置信区间反映的是推论的准确性。在一次调查中发现,参加大选的某位候选人的支持率为55%,而置信度0.95上的置信区间是(50%,60%),那么他的真实支持率有95%的机率落在50%-60%之间,因此他的真实支持率不足一半的可能性小于5%。9.抽样误差和非抽样误差抽样误差:当用样本统计值推论总体参数值时产生的偏差。非抽样误差:发生在测量、记录、填答、汇总等过程中的误差,或者指标设计有误、观察不当、造假、回答不实等。抽样的特点1.抽样调查是非全面调查方法中用来推论总体的最完善、最具科学依据的方法。随即抽样原则使得被抽取的单位在总体中的分布能够反映总体的结构,对总体具有充分的代表性,不至于出现倾向性偏差。2.抽样调查成本低、时间短、资料详细、应用范围广泛。3.准确性高。抽样调查的准确性在于它是建立在对抽样误差估计的基础上,研究者可以根据置信度和置信区间等方法判断抽样调查的结果或数据的准确性。抽样分布1、含义:抽样分布是根据概率的原则而成立的理论分布,它显示:从一个总体中不断抽取样本时,各种可能出现的样本统计值的分布情况。2、例:一个总体为10个个案的平均数分布。假如:这10个人参加工作的年限分别为6、7、8、9、10、11、12、13、14、15年,那么这一总体的成员平均工作年限为10.5年。(1)用容量为1的样本来估计总体的平均数(2)用容量为2的样本来估计总体的平均数(3)用容量为3的样本来估计总体的平均数(4)用容量为4的样本来估计总体的平均数(5)用容量为5的样本来估计总体的平均数样本容量增大时,样本平均数的分布变化趋势:平均数的范围将逐步缩小,相同的平均数会相应增多;全部平均数的分布向总体平均数集中。/central_limit_theorem.htm中心极限定理在一个含有N个元素且平均数为μ,标准差为σ

的总体中,抽取所有可能含有n(样本数)个元素的m组样本组合。样本平均数的以标准误(SE)σ/

围绕着总体均值μ波动。随着n增大,样本平均值的波动越来越小,也越来越接近正态分布。这一定理说明:当n足够大时(通常假定大于30),无论总体的分布如何,其样本的平均数所构成的分布都趋于正态分布。方差(variance)与标准差(standarddeviation)方差(variance):将各数据与平均数的差加以平方,然后求和,再除以数据总次数,最后所得的商。

标准差(StandardDeviation)是总体中各数据偏离平均数的距离的平均数,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。标准差越大,数据越分散,曲线越平坦。Theheights(attheshoulders)are:600mm,470mm,170mm,430mmand300mm.Mean=(600+470+170+430+300)/5=

394TocalculatetheVariance,takeeachdifference,squareit,andthenaveragetheresult:Variance:σ2=(2062+762+(-224)2+362+(-94)2

)/5=

108,520/5

=21,704StandardDeviation:σ=√21,704=147back正态分布的特点(1)单峰、对称。其平均数(mean)、众数(次数最多的值,mode)、中位数(其两边的样本数相同,median)都相同。(2)全部样本平均数的平均值正好等于总体的平均数;全部样本平均数的标准误(SE)则等于总体标准差(SD)除以。(3)正态曲线下面积的大小,等于随机变量X取对应范围的值得概率。正态分布曲线下的全部面积恒等于1。(4)正态分布是很多统计分析的基础在正态分布中,如果进行反复观测有68%的样本统计值落在u±SE(样本平均数的标准误)之间有90%的样本统计值落在u±1.65SE(样本平均数的标准误)之间;有95%的样本统计值落在u±1.96SE之间;有98%的样本统计值落在u±2.33SE之间;有99%的样本统计值落在u±2.58SE之间。其中,百分数表示置信水平,u±1.65SE等表示置信区间。back正态分布图美国男性的平均身高是178厘米,标准误(SE)为8厘米,呈正态分布。请计算68%的美国男性的身高范围和95%的美国男性的身高范围。178+-8=170-----186178+-8*1.96=162.32-----193.68抽样的类型(1)概率抽样:简单随机抽样、系统抽样、分层抽样、整群抽样、多段抽样、PPS抽样、户内抽样(2)非概率抽样:偶遇抽样、判断抽样、定额抽样、雪球抽样概率抽样的原理与程序一、概率抽样的基本原理1、总体的同质性与异质性同质性:如果某个总体中的每一个成员在所有方面都相同,那么,我们就说这个总体具有完全的同质性。否则,就存在不同程度的异质性。社会各种总体的异质性决定了严格的概率抽样的必要性。概率抽样的原理——等概率原则(1)每一个个体的抽取都是一个随机事件,即保证总体中的每一个个体都有相同的机会入选样本。或者说,每一个个体的抽取都是相互独立的,被抽中的概率相等。(2)各种随机事件的背后,存在着事件发生的客观概率,正是这种概率决定着随机事件的发展变化规律。(例:投掷硬币)(3)概率抽样之所以能够保证样本对总体的代表性,其原理就在于它能够很好地按照总体内在结构中所蕴涵的各种随机事件的概率来构成样本,使样本成为总体的缩影。抽样的程序1、界定总体:《文摘》杂志的错误弗兰克林.罗斯福vs阿尔夫.兰登2、决定抽样方案:根据研究目的、总体特征、客观条件选择不同的抽样方案。并同时根据调查的精确程度和可靠性的要求,确定样本规模。3、制定抽样框:根据抽样方案分阶段制定。4、实际抽取样本。5.样本评估。将能够反映总体一般状况的指标(通常是年龄、性别)与样本的同类指标进行比较,差异较大的就需要重新抽样。概率抽样方法

p.122-135抽样方法涉及到研究问题的性质、抽样框的获得、经费的多少、样本的代表性要求、调查资料的获取等等因素。不同的方法适用不同的情形。一、简单随机抽样(simplerandomsampling)又称纯随机抽样,是概率抽样的基本形式。1、抽签。总体的每一元素编号(抽样框)——将号码写在一张张纸条上——搅拌均匀——抽出纸条——找出编号所对应的元素2、随机表:抽样框——编号——确定从随机表中选取几位数——逐一取舍——找出所选中的编码的对应元素随机数表抽样举例二、系统抽样(systematicsampling)1、含义:又称等距抽样、机械抽样。它是把总体的单位进行编号排序后,再计算出某种间隔,然后从间距以内的任意一个数字开始按照间距的大小来抽取样本。2、步骤:(1)制定抽样框(2)计算抽样间隔K=总体规模N/样本规模n(3)在间隔数字以内选择随机起点A(4)抽取个体:自A开始,每隔K个个体抽取一个个体。A,A+K,A+2K……(5)将n个个体合起来,构成一个样本(6)如果抽样间距不是整数?如总体为5012,样本为200,间隔为25.06在5012内随即选取起抽号,如4842,除以200,得24.21样本1:24.21-----25样本2:24.21+25.06=49.27------------50样本3:24.21+2*25.06=74.33---------75尤其注意以下两种情况:(1)总体名单中,个体的排列具有某种秩序上的先后、等级上的高低。(最好不要按照一定的标准编号,以免出现较大的抽样误差。)(2)总体名单中,个体的排列上有与抽样间隔相对应的周期性分布。二战士兵的研究:中士、下士、二等兵,以一班一班的方式编排,每班10人

分层抽样(stratifiedsampling)1、步骤:又称类型抽样(1)先将总体所有单位按某种特征或标志(如性别、年龄、职业、地域等)划分成若干类型或层次(2)然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本(3)最后将这些子样本合起来构成总体的样本。分类随机抽样如5000人总体内,男性有3000人,女性有2000人,样本为200人。2、优点:(1)在不增加样本规模的前提下降低抽样误差,提高抽样精度。子总体内部同质性较强、子总体之间异质性较强。(2)便于了解总体内不同层次的情况,便于对总体中不同类别进行单独研究或比较。3、注意:(1)分层的标准如何选择:主要变量或相关变量;突出总体内在结构的变量;已有明显层次区分的变量。如大学生的生活状况(家庭收入)大学生的学习方法(专业)(2)分层的标准要能够反映层次或类型的主要特征,要既能保证层次内部有较大的同质性,又能保证层次之间有较大的异质性。如:大学生的价值观念(生源地、家庭背景vs年龄、专业)(2)分层的比例问题5000人的总体中,男性为4500人(平均收入2000),女性为500人(平均收入1000)。总体平均收入(2000*4500+1000*500)/5000=1900样本为200人。样本中的男女数:180:20异比抽样:男女各100人异比抽样后的平均收入:(2000*100+1000*100)/200=1500加权处理:男(180/100=1.8),女(20/100=0.2)计算其平均收入:1.8(2000*100)+0.2(1000*100)/200=1900整群抽样(clustersampling)1、含义:抽样单位为群体,而非个体。它是从总体中抽取(可采用随机抽样、系统抽样、分层抽样方法)一些小群体,然后由所抽出的若干小群体的所有元素构成调查样本。划分子群随机抽样从全校20000名学生中抽取1000名可按班级分群整群抽样的优点:可以简化抽样过程,降低收集资料的费用,还能相对地扩大抽样的应用范围。缺点:样本分布面不广,样本对总体的代表性相对较差。整群抽样所获得的样本是分布在总体内的几个点上,而其他三种抽样方法所获得的样本是弥散在总体之中。适用整群抽样的情况:子群体之间差别不大,而内部差异大中学生、大学生、老年人、白领、蓝领要考虑调查对象是否有集中填答的条件多段抽样(multistagesampling)1、含义:又称多级抽样或分段抽样,它是按抽样元素的隶属关系或层次关系,把抽样过程分成几个阶段进行。2、步骤:(1)从总体中随机抽取若干大群;(2)再从这几个大群内抽取几个小群……(3)直到抽到最基本的抽样元素为止。在每个阶段中,都要采用简单随机抽样、系统抽样或分层抽样方法。调查对象:广东省大学生市——高校——学院——班级——学生调查对象:报纸记者省(直辖市)——市——报社——记者2、注意:如何确定每一级抽样的单位数目?要在类别和个体之间保持合适的比例。一般来说,类别相对较多、每一个类别中个体相对较少的抽样效果较好。考虑因素有三:(1)各抽样阶段中的子总体同质性程度;(2)各层子总体的人数;(3)研究者拥有的人力和经费3、多段抽样的优缺点优点:抽样比较容易进行缺点:由于每一级抽样都会产生误差,故误差较大。在同等条件下减少多段抽样误差的方法是:相对增加开头阶段的样本数目,适当减少最后阶段的样本数目。PPS抽样(samplingwithprobabilitypropotionaltosize)全称:概率与元素的规模大小成比例的抽样1、PPS抽样的必要性:元素在总体中的地位不同时,需要采取不等概率抽样方法,以最终使调查总体的每一元素都有同等被抽中的概率。步骤(1)在确定的总体内,编制单位的抽样框,给每个单位按序编号,并且统计好每个单位的人数(2)把每个单位的人数累积相加,根据累积人数确定每个单位的号码范围。(3)确定样本需要的抽样元素数量和每个元素里包含的调查对象的数量。(4)采用随机抽样或系统抽样的方法选择号码,号码所对应的元素入选第一阶段样本;(5)再从所选元素样本中进行第二阶段抽样,抽出需要的调查对象。要从全市100家企业,总共20万名职工中,抽取1000名职工进行调查。最大的企业有16000名职工,而最小的企业只有200名职工。如果用多段抽样法:多段抽样的方法,首先从100家企业中随机抽取20家;然后再从这20家企业中分别抽取50名职工(50X20=1000)构成样本。最大企业员工被抽中的概率:第一阶段20÷100=20%;第二阶段50÷16000=0.3125%;总概率=20%×0.3125%=0.0625%最小企业员工被抽中的概率:第一阶段20÷100=20%;第二阶段50÷200=25%;总概率=20%×25%=5%。PPS抽样法:1.首先将各个企业的员工按编码排列起来,然后写出它们的规模、计算它们的规模在总体规模中所占的比例;2.确定每个企业对应的可选择的号码范围.3.确定抽样元素为20个,每个元素中含有50个号码。4.然后采用随机数表的方法或系统抽样的方法选择号码,号码所对应的元素人选第一阶段样本。5.最后再从所选样本中进行第二阶段抽样(即从每个被抽中的元素中抽取50名职工)。企业编号规模选择号码范围所选号码入样元素企业130001-30001228元素1企业220003001-5001企业3160005002-210025976,15782元素2、3企业420021003-212003企业51200212004-21320421033元素4企业6企业7企业8企业9企业10企业11企业100800199200-200000

PPS抽样中最大企业和最小企业的员工被抽中的概率最大企业第一阶段被抽中概率20*(16000/200000)=

1.6第二阶段被抽中概率50/16000=

0.003125总概率=

1.6*0.003125=0.005最小企业第一阶段被抽中概率20*(200/200000)=

0.02第二阶段被抽中概率50/200=

0.25总概率=0.02*0.25=

0.005单位规模越大被抽取的概率越大,但单位内部各个体被抽取的概率越小,两相抵消,PPS仍然是等概率抽样。户内抽样(samplingwithinhoushold)1、含义:如要研究家庭结构、生活方式等方面的内容,通过多段抽样市、县-区、乡-街、村-居委会、居民组-户,最后,还要从户中抽取一个成年人构成访谈对象的样本。最后一阶段的抽样可以采取被称作户内抽样。P.133生日法:根据调查实施的具体时间和家庭成员出生时间的匹配程度选择调查对象。如果间隔相等,则用抽签法。非概率抽样非随机抽样方法,不是按等概率原理抽取样本,而是根据研究者的主观判断或条件便利等因素选择样本。总体中的每个单位被抽取的机会是不相等的,无法用统计方法对抽样误差加以控制。常用于定性研究和定量研究总体无法界定时。一、偶遇抽样(accidentalorconveniencesampling)又称方便抽样或自然抽样。指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。街头拦人,往往用于流动性较高的群体,如游客,商场顾客学生样本二、判断抽样(judgmentalorpurposesampling)又称立意抽样。它是调查者根据研究目标和自己的主观分析来选择和确定调查对象的方法。

主要原则:1.依据研究者对总体的了解程度,直接选择自己需要调查的对象,被选择对象具有一定的代表性2.根据研究目的或对样本的特殊要求选择对象3.避免抽取极端的例子,而应该以“多数型”或“平均型”的样本为对象多用于定性研究三、配额抽样(quotasampling)首先,研究者对总体进行分层,并找出具有各种不同特征的成员在总体中所占的比例。然后选择研究对象,使样本成员在各种特征上的构成尽量接近总体的结构。假设某高校有2000名学生,其

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论