




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、实用文案 文案大全 必修3知识点总结统计 2.1.1 简单随机抽样 1简单随机抽样,也叫纯随机抽样。就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。特点是:每个样本单位被抽中的可能性相同(概率相等),样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。 2简单随机抽样常用的方法: (1)抽签法;随机数表法;计算机模拟法;使用统计软件直接抽取。 在简单随机抽样的样本容量设计中,主要考虑:总体变异情况;允许误差范围;概率保证程度。 3抽签法: (1)给调查对象群体中的每一个对象编
2、号; (2)准备抽签的工具,实施抽签 (3)对样本中的每一个个体进行测量或调查 例:请调查你所在的学校的学生做喜欢的体育活动情况。 4随机数表法: 例:利用随机数表在所在的班级中抽取10位同学参加某项活动。 2.1.2系统抽样 1系统抽样(等距抽样或机械抽样): 把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取。 K(抽样距离)=N(总体规模)/n(样本规模) 前提条件:总体中个体的排列对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。可以在调查允许的条件下,从不同的样本开始抽样,对比几次样本的特点。如果有明显
3、差别,说明样本在总体中的分布承某种循环性规律,且这种循环和抽样距离重合。 2系统抽样,即等距抽样是实际中最为常用的抽样方法之一。因为它对抽样框的要求较低,实施也比较简单。更为重要的是,如果有某种与调查指标相关的辅助变量可供使用,总体单元按辅助变量的大小顺序排队的话,使用系统抽样可以大大提高估计精度。 2.1.3分层抽样 1分层抽样(类型抽样): 先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用实用文案 文案大全 简单随机抽样或系用抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。 两种方法: 1先以分层变量将总体划分为若干
4、层,再按照各层在总体中的比例从各层中抽取。 2先以分层变量将总体划分为若干层,再将各层中的元素按分层的顺序整齐排列,最后用系统抽样的方法抽取样本。 2分层抽样是把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。 分层标准: (1)以调查所要分析和研究的主要变量或相关的变量作为分层的标准。 (2)以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。 (3)以那些有明显分层区分的变量作为分层变量。 3分层的比例问题: (1)按比例分层抽样:根据各种类型或层次中的单位数目占总体单位数目的比重来抽取子样本的方法
5、。 (2)不按比例分层抽样:有的层次在总体中的比重太小,其样本量就会非常少,此时采用该方法,主要是便于对不同层次的子总体进行专门研究或进行相互比较。如果要用样本资料推断总体时,则需要先对各层的数据资料进行加权处理,调整样本中各层的比例,使数据恢复到总体中各层实际的比例结构。 例1 某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请 用抽签法和随机数表法设计抽样方案. 解 抽签法: 第一步:将18名志愿者编号,编号为1,2,3,18. 第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透
6、明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号; 第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法: 第一步:将18名志愿者编号,编号为01,02,03,18. 第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读; 第三步:从数7开始,向右读,每次取两位,凡不在0118中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09. 第四步:找出以上号码对应的志愿者,就是志愿小组的成员. 例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 实用文案 文案大全
7、解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔 k=100001=100将总体均分为10段,每段含100个工人. (5)从第一段即为0001号到0100号中随机抽取一个号l. (6)按编号将l,100+l,200+l,,900+l共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为32523,从3万人中抽取一个300人 的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,
8、问应采取什么样的方法?并写出具体过程. 解 应采取分层抽样的方法. 过程如下: (1)将3万人分为五层,其中一个乡镇为一层. (2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300 ×153=60(人);300 ×152=40(人); 300 ×155=100(人);300 ×152=40(人); 300 ×153=60(人), 因此各乡镇抽取人数分别为60人,40人,100人,40人,60人. (3)将300人组到一起即得到一个样本. 2.2.2用样本的数字特征估计总体的数字特征 1 、本均值:nxxxxn?21 2、 样本标准差:nx
9、xxxxxssn222212)()()(? 3用样本估计总体时,如果抽样的方法比较合理,那么样本可以反映总体的信息,但从样本得到的信息会有偏差。在随机抽样中,这种偏差是不可避免的。虽然我们用样本数据得到的分布、均值和标准差并不是总体的真正的分布、均值和标准差,而只是一个估计,但这种估计是合理的,特别是当样本量很大时,它们确实反映了总体的信息。 4(1)如果把一组数据中的每一个数据都加上或减去同一个共同的常数,标准差不变. (2)如果把一组数据中的每一个数据乘以一个共同的常数k,标准差变为原来的k倍. 实用文案 文案大全 (3)一组数据中的最大值和最小值对标准差的影响,区间)3,3(sxsx?的
10、应用;“去掉一个最高分,去掉一个最低分”中的科学道理. 例1 为了解A,B两种轮胎的性能,某汽车制造厂分别从这两种轮胎中随机抽取了8个进行测试,下面列出了每一个轮胎行驶的最远里程数(单位:1 000 km) 轮胎A 96, 112, 97, 108, 100, 103, 86, 98 轮胎B 108, 101, 94, 105, 96, 93, 97, 106 (1)分别计算A,B两种轮胎行驶的最远里程的平均数,中位数; (2)分别计算A,B两种轮胎行驶的最远里程的极差、标准差; (3)根据以上数据你认为哪种型号的轮胎性能更加稳定? 解 (1)A轮胎行驶的最远里程的平均数为: 89886103
11、1001089711296?=100, 中位数为:298100? =99; B轮胎行驶的最远里程的平均数为: 810697939610594101108?=100, 中位数为:297101?=99. (2)A轮胎行驶的最远里程的极差为:112-86=26, 标准差为: s=821430831242222222? =22217.43; B轮胎行驶的最远里程的极差为:108-93=15, 标准差为: s= 86374561822222222? =21185.43. (3)由于A和B的最远行驶里程的平均数相同,而B轮胎行驶的最远里程的极差和标准差较小,所以B轮胎性能更加 稳定. 例2(14分)某化肥
12、厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98, 99; 乙:110, 115, 90, 85, 75, 115, 110. (1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示; (3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样. (2)茎叶图如下: 实用文案 文案大全 (3)甲车间: 平均值: 1x=71(102+101+99+98+103+98+99)=100, 方差:s12=71(102-100)2+(101-100)2+
13、(99-100)23.428 6. 乙车间: 平均值:2x=71(110+115+90+85+75+115+110)=100, 方差:s22=71(110-100)2+(115-100)2+(110-100)2228.571 4. 1x=2x,s12s22,甲车间产品稳定. 2.3.2两个变量的线性相关 1、概念: (1)回归直线方程 (2)回归系数 2最小二乘法 3直线回归方程的应用 (1)描述两变量之间的依存关系;利用直线回归方程即可定量描述两个变量间依存的数量关系 (2)利用回归方程进行预测;把预报因子(即自变量x)代入回归方程对预报量(即因变量Y)进行估计,即可得到个体Y值的容许区间。
14、 (3)利用回归方程进行统计控制规定Y值的变化,通过控制x的范围来实现统计控制的目标。如已经得到了空气中NO2的浓度和汽车流量间的回归方程,即可通过控制汽车流量来控制空气中NO2的浓度。 4应用直线回归的注意事项 (1)做回归分析要有实际意义; (2)回归分析前,最好先作出散点图; (3)回归直线不要外延。 5. 回归直线方程的推导 设x与y是具有线性相关关系的两个变量,且相应于样本的一组观测值的n个点的坐标分别是:112233(,),(,),(,),(,)nnxyxyxyx y,下面给出回归方程的推导。 设所求的回归方程为?ybxa?,其中,ab是待确定的参数,那么: ?iiybxa?,(1
15、,2,3,in ?), 实用文案 文案大全 样本中各个点的偏差是 ?()iiiiyyybxa?,(1,2,3,in ?) 显然,上面的各个偏差的符号有正、有负,如果将他们相加会相互抵消一部分,因此他们的和不能代表n个点与回归直线在整体上的接近程度,而是采用n个偏差的平方和Q来表示n个点与相应直线(回归直线)在整体上的接近程度。 即2211?()()nniiiiiiQyyybxa? 2222112233()()()()nnybxaybxaybxaybxa? ? 求出当Q取最小值时的,ab的值,就求出了回归方程。 (一) 先证明两个在变形中用到的公式: 公式(1) 22211()nniiiixxx
16、nx? 其中12nxxxxn? ? 因为2222121()()()()ninixxxxxxxx? ? 22221212()2nnxxxxxxnxnxn? ?222212()2nxxxnxnx? ? 22212()nxxxnx? ?221niixnx? 所以22211()nniiiixxxnx? 公式() 11()()nniiiiiixxyyxynxy? 因为11221()()()()()()()()niinnixxyyxxyyxxyyxxyy? ? 11221122()()nnnnxyxyxyxyyxxyyxxyyxnxy? ? 12121()()niinnixyxxxyyyyxnxy? ?
17、12121()( )n nn iiixxxyyyxynyxnxynn? ? 12 niiixynxynxy?1niiixynxy? 所以11()()nniiiiiixxyyxynxy? (二)推导:将Q的表达式的各项先展开,再合并、变形 实用文案 文案大全 2222112233()()()()nnQybxaybxaybxaybxa? ? 22212112222212()2()2()2()()()()nnnnyyyybxaybxaybxabxabxabxa? ? -展开 222211111222nnnnniiiiiiiiiiiybxyaybxabxna? -以a,b为同类项,合并 2222111
18、112()2nniinnniiiiiiiiiyxnanabbxbxyynn? -以a,b的次数为标准整理 22221112()2nnniiiiiiinanaybxbxbxyy? -将数据转化为平均数,xy 22222111()()2nnniiiiiiinaybxnybxbxbxyy? -配方法 2222222111()22nnniiiiiiinaybxnynbxynbxbxbxyy? -展开 222222111()()2()()nnniiiiiiinaybxbxnxbxynxyyny? -整理 2222111()()2()()()nnniiiiiiinaybxbxxbxxyyyy? -用公式(
19、一)、(二)变形 222212111()()()()2()()niinniiiniiiixxyynaybxxxbbyyxx? -配方 2222211221111()()()()()()()()()nniiiinniiiinniiiiiixxyyxxyynaybxxxbyyxxxx? 在上式中,共有四项,后两项与a,b无关,为常数;前两项是两个非负数的和,因此要使得Q区的最小值,当且仅当前两项的值都为0。所以 实用文案 文案大全 121()()()niiiniiaybxxxyybxx? 或 121niiiniiaybxxynxybxnx? -用公式(一)、(二)变形得 (三)总结规律: 上述推倒
20、过程是围绕着待定参数a,b进行的,只含有,iixy的部分是常数或系数,用到的方法有(1)配方法,有两次配方,分别是a的二次三项式和b的二次三项式;(2)变形时,用到公式(一)、(二)和整体思想;(3)用平方的非负性求最小值。(4)实际计算时,通常是分步计算:先求出,xy,再分别计算1()()niiixxyy?, 21()niixx? 或1niiixynxy?,21niixnx?的值,最后就可以计算出a,b的值。 6相关系数r 统计中常用相关系数r来衡量两个变量之间的线性相关的强弱,当ix不全为零,yi也不全为零时,则两个变量的相关系数的计算公式是: 112222221111()()()()nn
21、iiiiiinnnniiiiiiiixxyyxynxyrxxyyxnxyny? r就叫做变量y与x的相关系数(简称相关系数) 说明:(1)对于相关系数r,首先值得注意的是它的符号,当r为正数时,表示变量x,y正相关;当r为负数时,表示两个变量x,y负相关; (2)另外注意r的大小,如果?0.751r?,那么正相关很强;如果?10.75r?,那么负相关很强;如果?0.750.30r?,或?0.300.75r?,那么相关性一般;如果?0.250.25r?,那么相关性较弱 例1 测得某1对父子身高(单位:英寸)如下父身高606264656667687072 74 儿子 身高(y) 63.5 65.2
22、 66 65.5 66.9 67.1 67.4 68.3 70.1 70 (1)对变量y与x进行相关性检验; (2)如果y与x之间具有线性相关关系,求回归直线方程; (3)如果父亲的身高为73英寸,估计儿子身高 解:(1)66.8x?,67y?,102144794iix?,102144929.22iiy?,4475.6xy?,24462.24x?, 实用文案 文案大全 24489y?,10144836.4iiixy?, 所以10121022211iiiniiiixynxyrxnxyny? 44836.4104475.6(4479444622.4)(44929.2244890)? 80.480.40.9882.046730.152?, 所以y与x之间具有线性相关关系 (2)设回归直线方程为yabx? ,则101102211010iiiiixyxybxx? ?44836.4447
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网络工程师实际应用试题及答案
- 公共卫生政策的效果与社会反响试题及答案
- 数据加密与信息安全试题及答案
- 机电工程案例研究试题及答案
- 机电工程2025年技术整合试题及答案
- 公共政策对社会稳定的影响及对策分析试题及答案
- 网络服务架构试题及答案
- 计算机三级软件测试过程中数据处理的重要性试题及答案
- 网络工程师考试高频考点试题及答案
- 明确考试的复习策略及目标试题及答案
- 医院电子病历系统维护制度
- 有害物质过程管理系统HSPM培训教材
- 国家职业技术技能标准 X2-10-07-17 陶瓷产品设计师(试行)劳社厅发200633号
- 深圳医院质子重离子治疗中心项目可行性研究报告
- 广东省广州市2024年中考数学真题试卷(含答案)
- 我国的生产资料所有制
- 2024年上海市黄浦区四年级数学第一学期期末学业水平测试试题含解析
- 初中数学《相似三角形》压轴30题含解析
- 2024年海南省中考数学试题卷(含答案解析)
- 云南省食品安全管理制度
- 河南省鹤壁市2023-2024学年七年级下学期期末数学试题
评论
0/150
提交评论