版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章抽样方法与抽样分布
在疫情防控常态化的背景下,核酸检测成了家常便饭,为了切实阻断疫情传播渠道,核酸检测需覆盖每一个公民,但一次性采样人数众多,效率较低,成本较高。为了有效提高核酸检测的效率和效果,各地政府各出奇招。例如2022年5月17日起,辽宁省大连市各区市县采取了抽样检测的办法,实行“周二对男性市民采样检测,周四对女性市民采样检测,周六均可采样检测”的新规定。
据大连发布,常态化核酸检测时间相对固定在每周二、周四、周六,主要是基于奥密克戎2-3天即可形成一代传播的特点,尽量减少时间分布的盲区,并使社会面的检测一周时间分布尽量均衡,有利于更早发现,早处置;建议男女不在同一天采样,主要是考虑家庭传播风险较高,把一个家庭不同成员分开检测,相当于一周进行了检测两次,家庭成员互相监督,既节约成本又能发挥预警作用,充分体现出了政府疫情防控的智慧。核酸检测中的抽样
2000年的美国总统选举一波三折,出现了前所未有的激烈场面,爆出了“难产”的世纪大新闻。11月7日美国第54届大选投票后,本应在第2天宣布大选结果,却因两党总统候选人对决定胜负的佛罗里达州的计票结果发生严重争执,双方由政治竞争发展到“对簿公堂”,大小官司打了50多场,从地方法院,州法院,巡回法院,一直打到联邦最高法院,从而使大选战火四处蔓延,美国上下沸沸扬扬,全世界都在注视佛州关于选票所引起的混乱。只是联邦最高法院12月12日对佛州人工重新计票问题作出最后裁决,戈尔14日发表“退出”竞选之后,大选才有了最终结果。大举结果显然变成了审判的结果。因此,不少政治评论家认为,布什总统不是选出来的,而是“判”出来的。与此同时,共和党以“极其微弱的优势”继续控制国会参众两院。这是1954年以来,共和党首次同时控制白宫和国会。美政治分析家认为,共和党在这次大选中获得了“全面胜利”。管理定量分析第3章:抽样技术猜想一下,这些民意调查专家访问了多少受访者,使其对大约一亿选民的行为预测的误差不超过两个百分点?不超过2000!概率抽样与非概率抽样3.1非概率抽样无法选择概率样本的情形下采用非概率抽样:例:要研究无家可归者,不但没有一份所有无家可归者的现成名单,也不可能造一份这样的名册。4种非概率抽样方法:就近抽样目标式或判断式抽样滚雪球抽样配额抽样就近抽样定义:是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。就近抽样举例:为了调查某市的交通情况,研究者到离他们最近的公共汽车站,把当时正在那里等车的人选作调查对象。在街口拦住过往行人进行调查;在图书馆阅览室对当时正在阅读的读者进行调查;在商店门口、展览大厅、电影院等公众场所向进出往来的顾客、观众进行的调查;利用报刊杂志向读者进行调查;老师以他所教的班级的学生作为调查样本的调查等等。判断式抽样判断抽样又称“立意抽样”或“目标式抽样”,是指根据调查人员的主观经验从总体样本中选择那些被判断为最能代表总体的单位作样本的抽样方法。例如:要对福建省旅游市场状况进行调查,有关部门选择厦门、武夷山、泰宁金湖等旅游风景区做为样本调查,这就是判断抽样。滚雪球抽样定义:滚雪球抽样是指先随机选择一些被访者并对其实施访问,再请他们提供另外一些属于所研究目标总体的调查对象,根据所形成的线索选择此后的调查对象。例如,要研究退休老人的生活,可以清晨到公园去结识几位散步老人,再通过他们结识其朋友,不用很久,你就可以交上一大批老年朋友。但是这种方法偏误也很大,那些不好活动、不爱去公园、不爱和别人交往、喜欢一个人在家里活动的老人,你就很难把雪球滚到他们那里去,而他们却代表着另外一种退休后的生活方式。配额抽样配额抽样也称“定额抽样”,是指调查人员将调查总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内任意抽选样本的抽样方式。例如市场调查中消费者的具有性别、年龄、收入、职业、文化程度等等方面的特征。按各个控制特性,分配样本数额。配额抽样从建立描述目标总体特征的矩阵或表格开始。举例来说,研究者必须事先知道,目标总体中男性占多少比例,女性占多少比例;在不同的年龄阶层、还有教育水准、种族团体等不同类别中,男女比例又是如何?这样的矩阵一旦建立起来,就可以进行配额抽样。矩阵中的每一个格子(cell)就有了相应的比例,此时研究者就根据研究目的从不同的格子中选择样本并收集资料,而代表每一个格子出现的人,则按照这些格子相对于总体的比例,给予加权。分析:2022年教育部发布了《普通高校毕业生基层就业政策公告》,鼓励毕业生投身基层。现需调查毕业生基层就业意愿,请选择合适的抽样方法。3.2概率抽样方法概率抽样是根据概率理论来选择样本的方法的总称。其背后的基本观念是:要对总体进行有用的描述,从该总体中抽样出来的样本必须包含总体的各种差异特征。几个重要概念总体(population):是一个统计问题中所涉及个体的全体。样本(sample):按一定程序从总体中抽取的一组个体。均值(mean):表示一系列数据或统计总体的平均特征的值。样本容量(Samplesize):样本中所含个体的数量。标准差(standarddeviation)标准差也称均方差,是各数据偏离平均数的程度,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。计算公式如下:平均数相同,标准差未必相同例:学生成绩的抽样样本1:样本2:
757073698168767799894486796725100抽样框抽样框是指对可以作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。常见的抽样框:大学学生花名册、城市黄页里的电话列表、工商企业名录、街道派出所里居民户籍册、意向购房人信息册……。抽样框误差来源
抽样框存在偏误,会对预测结果造成很大影响,因此,需要对抽样框误差来源进行分析。以下是几种典型的抽样框误差:丢失目标单位:也被称为“涵盖不足”,是指抽样框没有覆盖全部目标单位,有些目标单位没有在抽样框中出现,因而也就没有机会被选入样本,这些单位成为丢失目标单位。对丢失的总体单位不能发现并纠正会造成调查中对总量的估计偏低。(未装电话)包含非目标单位包含非目标单位是指抽样框中包含了一些不属于研究对象的单位。这种偏差的影响很大,但是潜在威胁却通常会小一些。因为可以在调查中辨认出非目标单位并把它们剔除。一般情况下,由于抽样框中存在非目标单位,容易造成估计量的高估。(单位电话)丢失目标单位和包含非目标单位共存:
是指在抽样框中既有丢失目标单位,也有包含非目标单位。
在实际调查中,丢失目标单位不易被查觉和发现,具有较大的隐蔽性,相比之下,包含非目标单位的抽样框误差的威胁性要小些。因为在调查过程中,非目标单位易被发现,并予以剔除。
如果丢失目标单位和包含非目标单位数量相当,也相互抵消,估计量是否会产生偏差也难以断定。这要取决于丢失目标单位和非目标单位的数量特征是否有显著差异。复合连接
复合连接是指抽样框单元与目标单元不完全一一对应,而是存在一对多、多对一或是多对多模式的现象。
在前一种模式中,若进行简单随机抽样,能保证每个目标体单位以同等的可能性被抽中。在后两种模式中进行简单随机抽样,每个目的单位被抽中的概率是不同的,从而使估计量产生偏斜。
例如:某银行想了解其客户的情况进行一次抽样调查,则该行所有客户构成目的总体。选择的抽样框是银行的来往帐目,这就构成了多对一模式。若在这个框中进行抽样,则来往帐目多的客户被抽中的可能性则较大,反之来往帐目少的客户被抽中的可能性很小,而两种客户通常会有较大差异,从而造成样本的偏斜,使估计量产生偏差。抽样框老化:抽样框老化又称为“抽样框过时”或“不准确的抽样框”,是指随着时间的推移,抽样总体与目标总体产生极大的偏差,即原来的抽样框不符合实际情况,必须进行更新。例如,随着城市建设的大规模展开,许多地区已被改造,地址发生了变化,如果仍按以前的抽样框去抽样,那么精度就会难以控制。下面我们开始学习具体的概率抽样方法:概率抽样的具体方法1.简单随机抽样2.系统抽样3.分层抽样4.多级整群抽样简单随机抽样例如:要调查居民对某项公共政策的态度,要从100户居民家庭中抽选10户居民代表抽选样本。具体步骤如下:第一步:将100户居民家庭编号,每一户家庭一个编号,即01~00。(每户居民编号为2数,00代表100),第二步:在附录的随机数表随机确定抽样的起点和抽样的顺序。假定从第1行,第9列开始抽,抽样顺序从左往右抽。第三步:依次抽出号码分别是:92、45、42、05、94、96、05、37、36、02,共10个号码。由于05号码被抽了两次。再补充1个号码:22。由此产生10个样本单位号码为:92、45、42、05、94、96、37、36、02、22。编号为这些号码的居民家庭就是抽样调查的对象。系统抽样系统抽样(systematicsampling)是系统化地选择完整名单中的每第K个要素组成样本。如果名册包含10000个要素,而需要1000个样本时,选择每第10个要素作为样本。系统抽样方法潜藏的危机
例一,从名册中每隔10个士兵抽出一个来进行研究。然而士兵的名册是依下列的组织方式来编排的:首先是中士,接着是下士,其后才是二等兵;用一班一班的方式进行编排,每个班10个人。因此,此名册中每隔10个便是一位中士。如此系统抽样可能会取得一个完全是中士的样本,同样的理由,此方式也可能会取得一个完全不含中士的样本。例二
假设我们想在一栋公寓建筑物内选择公寓样本。如果样本是从每个公寓的编码(如101,102,103,104,201,202等等)中抽出的话,那么所使用的抽样间隔,可能刚好等于每层楼的户数或是每层楼户数的倍数。如此所选到的样本有可能都是属于西北角的公寓或都是接近电梯的公寓。假设这些形态的公寓有一些共同的特性(如月租费较高),样本就会产生偏误。分层抽样原理:抽样设计中有两个因素可以减少抽样误差。首先,大样本比小样本产生的抽样误差小。其次,从同质(homogeneous)总体中抽取样本比从异质(heterogeneous)总体中抽取样本所产生的抽样误差要小。基本步骤
首先将总体分成互不交叉的层,然后按一定的比例,从各层次独立地抽取一定数量的个体,将各层次取出的个体合在一起作为样本。分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。一个例子一个单位的职工有500人,其中不到35岁有125人,35岁至49岁的有280人,50岁以上的有95人.为了了解这个单位职工与身体状况有关的某项指标,要从中抽取一个容量为100的样本,由于职工年龄与这项指标有关,决定采用分层抽样方法进行抽取.因为样本容量与总体的个数的比为1:5,所以在各年龄段抽取的个数依次为125/5,280/5,95/5,即25,56,19。多级整群抽样许多研究需要从一个不易获得抽样名单的总体中抽样。前面所讲的方法中所需要的抽样框难以获得,也难以制作。例如:一个城市、一个国家的人口、全国的大学生等等。在这些例子当中,抽样的设计必定更加复杂,通常必须先进行整群要素抽样,然后再从这些群中抽取要素。举例要对一个总体区域例如城市的人口进行抽样的时候,虽然没有整个城市的人口名册,但是人们居住在这个城市中的不同街道,因此可以先对城市中的不同街道进行抽样,然后列出抽选出来的每个街道的住户名单,再对这些住户进行抽样,之后列出抽选出来的住户人口名册,最后再对这些人口名册进行抽样。使用多级整群抽样方法,能够对全市的人口进行抽样,而不需要整个城市的人口名册。3.3抽样分布概率理论研究者提供了抽样技术和分析样本结果的工具。例:概率理论使得调查机构能够从大约包含2000个投票人的样本来推测总体1亿人的投票行为——而且还能够明确指出该估测的可能误差。例1:10个人的抽样分布假设一个群体中有10个人,每个人的口袋里都有一定数量的钱。假设其中一人身无分文,一人有1元,另一人有2元,依此类推到有9元的那个人。问题:1、每个人平均有多少钱?2、如何通过抽样方法知道这一点?例2大样本抽样假设要研究某大学的学生对校方拟实行的一套学生管理条例的态度。研究总体为20000名该校注册学生。样本要素则为该大学的每个学生,此研究所考察的变量为对校规的态度,这是一个二项式变量:同意与不同意。我们将随机抽取其中100名学生为样本以估计总体的情况。抽取更多的样本之后两个概念离散变量:是指采用记数的方法,如0,1,2,3,…来描述具体事物的数量特征。例如,一个机构的职务分类数,一个部门的从业人数等等。这些都是离散变量的例子。连续变量:在一个给定的区间内有无数多个变量值,例如,温度、气压、身高、体重、时间以及距离等等。注意,这些变量的共同特点是都可以用小数表示。正态分布是用来描述连续变量的分布主讲人:刘兰剑正态分布的特征
1.以平均数为中心,并在平均数所在位置形成一个单峰的山形分布。2.曲线完全对称的,3.绝大部分数值集中在平均数的附近。4.正态曲线由其平均数μ和标准差σ完全确定。正态曲线由其平均数μ和标准差σ完全确定。在正态分布中,约有68.26%的变量值分布在以平均数为中心的一个标准差范围内;主讲人:刘兰剑约有95.44%的变量值分布在以平均数为中心的两个标准差范围内;在正态分布中,只有约5%的数值落在以平均数为中心的两个标准差范围之外(1-0.9544=0.0456),主讲人:刘兰剑约有99.72%的变量值分布在以平均数为中心的三个标准差范围内。只有约0.28%的数值落在以平均数为中心的三个标准差范围之外(1-0.9972=0.0028)。主讲人:刘兰剑总结在正态分布中,约有68.26%的变量值分布在以平均数为中心的1个标准差范围内;约有95%的数据分布在以平均数为中心的1.96个标准差范围内;约有99%的数据分布在以平均数为中心的2.58个标准差范围内。z分数和正态概率表z分数是用来衡量我们所感兴趣的变量值和平均数之间的距离是多少个单位标准差的统计量。我们可以利用z分数将原始数据变换为与均值相联系的发生概率。主讲人:刘兰剑z分数确定一个变量与数据平均数之间的距离有多少个单位的标准差,用公式表示为:主讲人:刘兰剑查Z分数表(附表2),所得数值为对应X与均值μ之间所有取值发生的概率。例:Z=1,查表得0.3413,说明有34.3%的数据落在平均数与平均数右侧一个标准差单位的变量区间内。主讲人:刘兰剑在正态分布中,有百分之多少的数值落在平均数μ与z=1.33之间?得到0.4083。有40.83%的数值落在平均数与1.33个标准差之间。主讲人:刘兰剑计算有百分之多少的数值落在大于z=1.33的范围内?用0.5-平均数和z为1.33之间的概率得到0.0917。因此,有9.17%的数值落在大于z=1.33的范围内。主讲人:刘兰剑计算有百分之多少的数值落在小于z=1.33的范围内?两种思路:(1)1-z大于等于1.33的概率(2)0.5+平均数与z之间的概率主讲人:刘兰剑案例1警察局对所有应聘者进行了一次警务知识考试。这次考试的成绩服从平均数为100,标准差为10的正态分布。问题1:假设本次招聘的主考官要对一名考分为119.2的考生进行审查。现在我们需要知道这一考生的成绩在本次考试中处于什么水平。步骤1将考试成绩变换为z值。首先将各个考试成绩与其平均数相减,然后再除以其标准差,用公式表示为:本例中,用我们所感兴趣的变量值119.2减去本次考试的平均成绩100,得到19.2;然后用19.2除以标准差10,得到1.92。步骤2在正态分布表上查找z等于1.921.92相应的概率为0.4726。这意味着有47.26%的应试者其考试成绩介于平均数(100)和z=1.92(119.2分)之间。因为有50%(一半)的应试者其考试成绩低于平均成绩,因此共有97.26%的成绩低于119.2。用概率语言来表达,就是从所有的警察局警务考试的应试者中随机抽取一人,其成绩不低于119.2的概率为0.0274(1-0.9726)。问题2假设警察局局长要知道在本次考试中,成绩介于100—106之间的应聘者在总人数中所占的比重有多少。(本次考试成绩的平均数为100,标准差为10)分析:实质上是指成绩居于106和平均数之间的应聘者在总人数中所占的比重为多少。步骤1变量值转化为z值:
步骤2在正态分布表中查找z等于0.6结果为0.2257。因此,在这次考试中,约有22.6%的应聘者其成绩居于100--106之间。问题3在这次考试中,成绩介于88-112之间的应聘者所占的比重是多少?如果我们根据平均数所在位置,将这一区间分为两个部分,则这一问题的解决将会变得简单。首先,成绩介于平均数100-112之间的应聘者所占的比重是多少?步骤1将考试成绩转化为z分数:步骤2在正态分布表中查找z等于1.2成绩介于平均数和z之间的应聘者所占的比重是0.3849。因此,在本次警务知识考试中,有38.49%的应聘者其成绩介于100-112之间。步骤3第二部分:成绩介于88到平均数100之间的应聘者所占的比重是多少?注意到88到平均数之间的距离和112到平均数之间的距离相同,只是方向相反。因此,88和112的z值绝对值相等,符号相反,等于-1.20,但其相应的概率相同,也为0.3849,将这两个概率相加,就得到成绩介于88-112之间的应聘者所占的比重,等于77%(0.3849+0.3849=0.7698)
问题4在警察局的这次考试中,随机抽取一个应聘者,其成绩介于117—122之间的概率是多少?步骤1,首先计算117和122这两个变量值所对应的z值步骤2在正态分布表中查找z值在正态分布表中查找z等于1.70和2.20所对应的概率。这两个概率分别显示了在正态曲线下介于平均数和1.70之间的面积为0.4554,平均数和2.20之间的面积为0.4861。变量值介于117-122之间的概率等于这两个概率之差,即0.0307(0.4861-0.4554)。问题5如果警察局只想录用在这次考试中成绩居于前20%的应聘者,则根据原始数据,分数线该怎么划定?步骤1查表因为考试成绩最高的20%应聘者和考试成绩最低的80%应聘者对应着同一个z分数,而确定后80%的z分数比确定前20%的z分数要容易。因此,我们将要寻找后80%的考生对应的z分数。我们从正态分布曲线知道,在后80%的考生中,有50%的人成绩低于其平均数100,另外30%的应聘者其成绩介于平均数和划定的分数线之间。为了确定与分数线相对应的z分数,先在正态分布表中找到0.30这一概率,然后查看最左边的一列和最上面的一行,确定与这一概率所对应的z值。步骤2将z分数转化为原始数值。z值仅仅代表我们所关心的变量值与其平均数之间的距离是多少个标准差单位。我们需要与z=0.85相对应的原始数值,因此,将z值乘以标准差(10),得到8.5,即我们所关心的分位数比平均数多8.5。最后将这一数值与平均数相加,结果为100+8.5=108.5。所以,如果警察局只录用成绩在全部应聘者中居于前20%的应聘者,则只有那些成绩不低于108.5的应聘者才可以被录取,108.5分就是录取线。案例2陆军部队要从大学招募军官。为了能进入军官预备学校,参加考试的大学毕业生的成绩必须名列前75%。平均考试成绩为80分,标准差为6,并且考试成绩服从正态分布,那么如果只招收成绩排在前75%的应聘者,最低录取分数线应该定为多少?有50%的应聘者其成绩在80分以上,因此,要求的分数线应低于平均数,且落入平均数与分数线之间的分数比例为25%。在正态分布表中查找概率0.25,发现与其最为接近的概率是0.2486,它所对应的z值为0.67。因为我们所感兴趣的变量值小于平均数,因此,我们在这里要求的z值应该为-0.67。将z等于-0.67转化为原始数据,最后得到最低录取分数线为76分(-0.67×6)+80。某一考生管理定量分析课程成绩为87,请对其成绩做出评价案例如果知道某一学生考试得了87分,那么我们几乎无法判断该成绩是好是坏。因为考试的题目的难度,学生的现有知识水平、以及评分标准都会影响到学生的得分。87可以说很高,也可以说很低;但如果我们知道了学生的Z分数,我们就可以了解该学生这次考试是低于平均分还是高于平均分以及在全班(或者总体)的一个什么位置。试利用Z分数分析该考生的成绩(均值88.标准差6)
2分布一个重要概念:自由度自由度是“未知量的数目减去连接这些未知量的等式的数目”。假设有两个变量(x和y)几个自由度?如果:x+y=30。几个自由度?如果三个未知变量x,y,z,几个自由度?如果知道x+y+z=50几个自由度?
2(chi-square)分布定义设随机变量X1,X2,,Xn彼此独立且都服从标准正态分布N(0,1),则随机变量服从自由度为n的
2分布,记为
2分布性质
2分布随机变量的取值范围为(0,)若Y1
~2(n),Y2~2(m),且相互独立,则Y1±Y2~
2(n±m)
2分布为非对称分布,其分布曲线的形状由自由度决定,自由度越大,分布越趋于对称当
n
,2(n)N(n,2n)
2分布
2分布上侧分位数表:附表(p.378)t分布t分布t分布与正态分布的比较t分布定义设Z~N(0,1),Y~
2(n),且相互独立,则
服从自由度为n-1的t分布,记为t分布性质与标准正态分布相似关于t=0对称只有一个峰,峰值在t=0分布曲线受自由度影响,自由度越小,离散程度越大当n
,t(n)N(0,1)t分布t分布双侧分位数表:附表(p.374)F分布F分布定义若X~
2(m),Y~2(n),且相互独立,则服从自由度为m(第一自由度)和n(第二自由度)的F分布,记为F分布性质F分布随机变量的取值范围为(0,)F分布的分布曲线受两个自由度的影响若F~F(m,n),则1/F~F(n,m)若X~t(n),则X2~F(1,n)F分布F分布的上侧分位数表:附表(p.375)正态总体样本平均数的分布样本平均数的期望和方差设样本来自均数为
,方差为
2的总体设样本为简单随机样本正态总体样本平均数的分布期望正态总体样本平均数的分布方差标准差(平均数的标准误)正态总体样本平均数的分布正态总体样本平均数的分布设样本来自正态总体N(
,
2),则样本平均数也服从正态分布,其总体均数为
,方差为
2/n。中心极限定理
无论样本所来自的总体是否服从正态分布,只要样本足够大,样本平均数就近似服从正态分布,样本越大,近似程度越好。所需的样本含量随原总体的分布而异,但只要样本含量
30,无论原总体是何分布,都足以满足近似的要求。设原总体的期望为
,方差为
2,则样本平均数的期望为
,方差为
2/n。关键术语概率抽样非概率抽样就近抽样目标式抽样滚雪球抽样配额抽样抽样框自由度抽样分布总体样本均值标准差
本章到此结束!
谢谢各位!管理定量分析长安大学:刘兰剑第4章区间估计从10000人的总体中随机抽取一个100人组成的样本,经计算,该样本人口的平均受教育年限是12年,请问所有人口的平均受教育年限是几年?某学校想要了解大一新生(约8000人)在暑假期间是否做过志愿服务,随机抽取200个学生组成样本,其中约有50人做过志愿服务,请问大一新生做过志愿服务人数的比例是多少?
样本就是总体的一个子集,所有样本都是从总体中随机抽取的。所谓随机抽样是指总体中的每一个成员都有相同的被抽中的机会。如果一个样本不是随机抽取的,那么这里所介绍的统计学法则不一定适用。统计量是用来概括样本特征的测度值。样本的均值、标准差和中位数都是统计量。参数是用来概括总体相应特征的测度值。总体的均值、标准差和中位数都是参数。标准误(StandardErrorofMean),即样本平均数的标准差,是描述平均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映的是样本平均数之间的变异。标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。标准误计算公式标准误与标准差的比较:
标准误与标准差是常用的两种统计指标,两者均为变异指标,标准差表示个体变量值之间的离散程度。
标准误是表示样本均数间离散程度的指标,标准误小则抽样误差小,说明样本均数与总体均数接近。标准差可结合均数估计正常参考值范围;标准误结合均数估计总体均数的可信区间。
置信区间:是指由样本统计量所推算的总体参数所在区间。4.2总体均值的区间估计区间估计是根据样本统计量来估计总体未知参数所在的可能区间的方法。由于这种估计的区间能以一定的置信度来保证估计的准确性,因此,也称该区间为置信区间。根据统计学理论,为了估计总体均值而进行的多次抽样,样本均值符合一种概率分布:t分布(或称学生分布)。
t分布的形状与正态分布相似,但是比正态分布平坦。与正态分布不同的是,t分布因样本容量不同而不同。自由度与样本容量相当,并用来确定对应的t值。对于样本均值,自由度就是n-1。总体X~N(m,s2),求均值m的置信区间
置信区间的求解1)取统计量T
用样本X1,X2,…,Xn的标准差S替代总体标准差s后,得统计量主讲人:刘兰剑2)确定两个常数a与b,保证P{a<T<b}=1–a
对给定的置信度1–a,
取ta/2(n-1)使ta/2(n-1)-ta/2(n-1)主讲人:刘兰剑3)解出的置信区间主讲人:刘兰剑可得所求的置信度为1–a的置信区间为:
主讲人:刘兰剑案例一:
某高级中学的教学质量受到了社会的广泛指责,原因是该校绝大多数高中毕业生的阅读能力达不到9级水平。
为了提高学生的阅读能力,该校专门开设了一门特殊的阅读课程来加强这方面的训练。校长想知道,这一新开设的阅读课程对于提高学生的阅读能力究竟是否有作用。如果有作用的话,他将邀请教育评价机构对学校来进行评估,以挽回学校的声誉。如果开设这一课程后学生的阅读能力达不到10.0(高中二年级水平),校长将不邀请评价机构前来。
如何通过抽样的办法了解学生总体的阅读水平?
为确定高三学生的平均阅读水平,随机选取10名高三年级学生。假定学生的阅读成绩呈正态分布。这10名高三年级学生的阅读成绩列入表4-2。
代入下式,请试算一下可得:在0.05的显著性水平上,学生的平均阅读水平在10.55-0.99528及10+0.99528之间,即在区间:(9.55472,10.99528)上,无法判断学生的平均阅读水平是否超过10分。校长想使结论更可靠些,有没有办法?根据公式分析:如果均值的标准误能够减小,就能够获得更大的可靠性。让我们把样本容量增大到100。抽取的容量为100的样本,其均值也是10.6,标准差也是1.4。请计算新的标准误(差)。(0.14)
由于自由度是99,可以使用正态曲线来近似t分布。10.55±0.14×1.96=10.55±0.2744=10.2756-10.8244根据以上计算结果,我们能得出什么结论?区间估计的基本要求:
置信度:区间估计时,希望区间包含总体参数的概率越大越好;精确度:区间估计时,希望区间的平均长度越短越好。案例二:
对某地家庭教育投资进行抽样检查,随机抽取100个家庭,其样本平均值为11900元,据现有资料,已知总体中家庭教育投资的标准差是1500元。求置信度为99%的家庭教育投资的置信区间。4.3总体比例的区间估计例题三:某部门在进行一项关于职工流动原因的研究,研究人员从该部门的离职职工中随机抽取了25人组成一个样本。在对其进行访问时,有13人说他们离开该部门是由于不能够学习到新的知识以及技能。试对由于这种原因而离开该部门人员的真实比例构造95%的置信区间。可得,在0.05的显著性水平上,真正由于该原因离开该部门的人员的比例区间是(0.314,0.726)。4.4样本容量的确定民政局想知道特困家庭的年平均纯收入水平,要求在把握性是95%的情况下,运用抽样推断方法,使总体平均收入的估计值与实际值的差距在100元以内,抽取的样本容量应该是多大?
一个样本数据家庭年纯收入135002320033000428205230061850733008315091750101950样本容量可由如下公式确定
关键术语统计量参数标准误置信度置信区间
本章到此结束!
谢谢各位!管理定量分析长安大学:刘兰剑第5章假设检验引例1假设在某企业随机抽取的l00个新雇员的样本中,你发现拥有大学本科文凭、无工作经验的新雇用的女性管理人员的年平均工资是30000元,而那些拥有同样文化程度也无工作经验的新雇用的男性管理人员的年平均工资是32000元。这2000元的差异是否足以说明存在性别歧视?引例2假设我们需要评估一项针对青少年罪犯的咨询项目的效果。从随机抽取的样本中,你发现参与这个项目的青少年罪犯中有25%的人在一年内又犯案了,那些没有参与这个项目的青少年罪犯有40%的人在一年内又犯案了。这15%的差异是否足以说明这个项目是有成效的?假设检验的基本思想可以用小概率原理来解释。所谓小概率原理,就是认为小概率事件在一次试验中是几乎不可能发生的。也就是说,对总体的某个假设是真实的,那么不支持这一假设的事件A在一次试验中是几乎不可能发生的;要是在一次试验中事件A竟然发生了,我们就有理由怀疑这一假设的真实性,拒绝这一假设。假设以下陈述为真:你打了某种疫苗P,就不会得某种流行病Q。我们把这个先决条件表述如下:如果P则非Q
其中,
P表示打了疫苗P,
Q表示得流行病Q
或者,更形式化一点:
ifPthenNOTQ
然后,如果观察到你得了流行病Q,那么就可以推出你没有打疫苗P——这个推断只不过是上述前提条件的逆反命题而已。我们把以上推理过程表述如下:
ifPthenNOTQ(先决条件)Q(前提)thenNOTP(结论)假设检验的步骤1) 提出原假设和备择假设;2) 确定统计量;3) 规定显著性水平α;4) 计算统计量的值;5) 根据计算结果作出拒绝或接受原假设的判断。注意:假设的提法案例一公安系统近期开展了“清网行动”,目的是将多年潜逃的网上追逃的罪犯捉拿归案。在开展“清网行动”之前,某警察局平均每天抓到的网上逃犯人数是3人(被捕人数的分布是正态分布)。上级突然要对该警察局的“清网行动”的业绩进行检查,由于事先没有通知,全面的统计该行动展开以来的所有被捕人数情况来不及,但是,局长命令办公室主任必须马上拿出客观的依据向上级汇报,以说明该局最近的工作力度很大,业绩明显。办公室主任决定采用抽样推断的方法来解决这个问题。他认为,只要现在平均每天抓到的网上追逃人员的数量大于3个,那就说明最近工作业绩有改善。但是,在没有总体数据的情况下,如何证明现在的平均抓捕人数大于3个了呢?办公室主任随机抽取了10天的抓捕人数,列表如下:第一步:构造假设第二步:确定统计量第三步:确定显著性水平α在这个例子中,我们选取α=0.05第四步:计算统计量的值第五步:根据计算结果作出拒绝或接受原假设的判断据此可以推断,在95%的置信水平下,可以认为警察局的工作是有显著效果的。5.2单侧与双侧检验案例一的原假设是警察局平均每天抓捕的网上逃犯人数没有增加,我们在检验这个假设的过程中只需考虑t分布的一侧,就是均值大于3的这一侧,因此,可以称其为单侧检验。而实际问题中有一些需要单侧检验。例如,工作的效率是否低于某个值、缺勤率是否高于某个值、产品的是寿命是否低于某个值等问题。另一些则需要做双侧检验。例如,螺丝的长短、食品中某种微量元素的添加剂量等问题。案例二食品药品监督管理局查扣了一批食盐,怀疑其中的碘含量不符合标准。食盐中国家标准碘含量是30mg/kg。随机抽取
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东理工学院《能源与动力测试技术》2023-2024学年第一学期期末试卷
- 广东理工职业学院《测量学实验》2023-2024学年第一学期期末试卷
- 广东江门幼儿师范高等专科学校《影视编剧》2023-2024学年第一学期期末试卷
- 广东工贸职业技术学院《遥感地学分析与应用》2023-2024学年第一学期期末试卷
- 广东工程职业技术学院《机器人学及其应用》2023-2024学年第一学期期末试卷
- 广东财贸职业学院《反应工程概论》2023-2024学年第一学期期末试卷
- 新闻拍照培训课件
- 《风险统计分析》课件
- 广安职业技术学院《跨屏传播与营销》2023-2024学年第一学期期末试卷
- 赣州职业技术学院《计算智能技术的实现》2023-2024学年第一学期期末试卷
- 国家开放大学电大考试《心理学》课程形成性考核册试题及答案(1-4)最全
- 四川省成都市泡桐树小学小学数学五年级下册期末试卷(培优篇)
- 教练技术工具之:平衡轮课件
- 全国各省市县统计表-
- 国家开放大学电大本科《管理案例分析》2023年期末试题及答案(试卷号:1304)
- 醋酸加尼瑞克注射液
- 中学查寝记录
- 战略目标新设计-BLM
- 苏科版八年级物理上册《运动的相对性》教案及教学反思
- 供应商不良行为管理办法
- 君联资本×DDI《成长期企业管理者领导力调研报告》
评论
0/150
提交评论