


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、必修3知识点总结一统计简单随机抽样1 简单随机抽样,也叫纯随机抽样。就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。特点是:每个样本单位被抽中的可能性相同概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的根底。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。2 简单随机抽样常用的方法:1抽签法;随机数表法;计算机模拟法;使用统计软件直接抽取。在简单随机抽样的样本容量设计中,主要考虑:总体变异情况;允许误差范围;概率保证程度。3. 抽签法:1给调查对象群体中的每一个对象编号;2准备抽签的工具,实施抽签3对样本中的每一个
2、个体进行测量或调查例:请调查你所在的学校的学生做喜欢的体育活动情况。4 随机数表法:例:利用随机数表在所在的班级中抽取10位同学参加某项活动。系统抽样1 系统抽样等距抽样或机械抽样:把总体的单位进行排序,再计算岀抽样距离,然后按照这一固定的抽样距离抽取样本。第一个样本采用简单随机抽样的方法抽取。K 抽样距离=N 总体规模/n 样本规模前提条件:总体中个体的排列对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规那么分布。可以在调查允许的条件下,从不同的样本开始抽样,比照几次样本的特点。如果有明显差异,说明样本在总体中的分布承某种循环性规律,且这种循环和抽样距离重合。2.系统抽样,即等
3、距抽样是实际中最为常用的抽样方法之一。因为它对抽样框的要求较低,实施也比较简单。更为重要的是, 如果有某种与调查指标相关的辅助变量可供使用,总体单元按辅助变量的大小顺序排队的话,使用系统抽样可以大大提高估 计精度。分层抽样1 分层抽样(类型抽样):先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成假设干类型或层次,然后再在各个类型或层次中采用 简单随机抽样或系用抽样的方法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。两种方法:1 先以分层变量将总体划分为假设干层,再按照各层在总体中的比例从各层中抽取。2先以分层变量将总体划分为假设干层,再将各层中的元素按分层的顺序整齐排列,
4、最后用系统抽样的方法抽取样本。2. 分层抽样是把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。分层标准:(1) 以调查所要分析和研究的主要变量或相关的变量作为分层的标准。(2) 以保证各层内部同质性强、各层之间异质性强、突岀总体内在结构的变量作为分层变量。(3) 以那些有明显分层区分的变量作为分层变量。3分层的比例问题:(1 )按比例分层抽样:根据各种类型或层次中的单位数目占总体单位数目的比重来抽取子样本的方法。(2) 不按比例分层抽样:有的层次在总体中的比重太小,其样本量就会非常少,此时采用该方法,主要是便于对不同层次的子总
5、体进行专门研究或进行相互比较。如果要用样本资料推断总体时,那么需要先对各层的数据资料进行加权处理,调整样本中各层的比例,使数据恢复到总体中各层实际的比例结构。例1某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取 6人组成志愿小组.请用抽签法和随机数表法设计抽样方案 .解抽签法:第一步:将18名志愿者编号,编号为 1,2,3,18.第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签;第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取 6个号签,并记录上面的编号;第五步:所得号码对应的志愿者,就是志愿小组的成员
6、随机数表法:第一步:将18名志愿者编号,编号为01, 02,03,,18.第二步:在随机数表中任选一数作为开始,按任意方向读数,比方第8行第29列的数7开始,向右读;12,第三步:从数7开始,向右读,每次取两位,凡不在01 18中的数,或已读过的数,都跳过去不作记录,依次可得到07,15,13,02,09.第四步:找出以上号码对应的志愿者,就是志愿小组的成员例2某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施解 (1)将每个人随机编一个号由0001至1003.(2)利用随机数法找到 3个号将这3名工人剔除.将剩余的1 000名工人重新随机编号由 0001至1000.1
7、 000(4) 分段,取间隔k= 10=100将总体均分为10段,每段含100个工人.(5) 从第一段即为0001号到0100号中随机抽取一个号I.(6) 按编号将I,100+I,200+1,,900+I共10个号码选出,这10个号码所对应的工人组成样本 .例3(14分)某一个地区共有 5个乡镇,人口 3万人,其中人口比例为 3 : 2 : 5: 2 : 3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,这种疾病与不同的地理位置及水土有关,问应采取什么样的方法并写岀具体过程 解应采取分层抽样的方法.过程如下:(1 )将3万人分为五层,其中一个乡镇为一层.(2 )按照样本容量的比例随机
8、抽取各乡镇应抽取的样本32300 X 15 =60 人;300 X 15 =40 人;52300 X 15 =100 人;300 X 15 =40 人;3300 X 15 =60 人,因此各乡镇抽取人数分别为 60人,40人,100人,40人,60人.(3) 将300人组到一起即得到一个样本.222用样本的数字特征估计总体的数字特征1、本均值:XX1X2Xn2、.样本标准差:s Js2-2X)(X2-2X)(Xn X)23用样本估计总体时,如果抽样的方法比较合理,那么样本可以反映总体的信息,但从样本得到的信息会有偏差。在随机抽样中,这种偏差是不可防止的。虽然我们用样本数据得到的分布、均值和标准
9、差并不是总体的真正的分布、均值和标准差, 而只是一个估计,但这种估计是合理的,特别是当样本量很大时,它们确实反映了总体的信息。4. (1)如果把一组数据中的每一个数据都加上或减去同一个共同的常数,标准差不变(2) 如果把一组数据中的每一个数据乘以一个共同的常数k,标准差变为原来的k倍.(3) 一组数据中的最大值和最小值对标准差的影响,区间(X 3s,X 3s)的应用;“去掉一个最高分,去掉一个最低分中的科学道理8个进行测试,下面列岀了每一个轮胎行例1为了解A,B两种轮胎的性能,某汽车制造厂分别从这两种轮胎中随机抽取了驶的最远里程数(单位:1 000 km )轮胎A96,112,97,108,1
10、00,103,86,98轮胎B108,101,94,105,96,93,97,106(1)分别计算A,B两种轮胎行驶的最远里程的平均数,中位数;(2) 分别计算A,B两种轮胎行驶的最远里程的极差、标准差;(3) 根据以上数据你认为哪种型号的轮胎性能更加稳定解 (1) A轮胎行驶的最远里程的平均数为:96 112 97 108 100 103 86 98“=108中位数为:100_98 =99 ;2B轮胎行驶的最远里程的平均数为:108 1019410596 93 97106 =1008中位数为:10197 =99.A轮胎行驶的最远里程的极差为:112-86=26,标准差为:2 2 2 2 2
11、2 2 °42122328203214222221s=V8B轮胎行驶的最远里程的极差为:108-93=15 ,标准差为:s=82 12 62 5242 72 32 62 =占花(3)由于A和B的最远行驶里程的平均数相同,而B轮胎行驶的最远里程的极差和标准差较小,所以B轮胎性能更加例2 (14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min抽取一包产品,称其重量,分别记录抽查数据如下:甲:102,101,99,98,103,98,99;乙:110,115,90,85,75,115,110(1) 这种抽样方法是哪一种(2) 将这两组数据用茎叶图表示;(3) 将两组数
12、据比较,说明哪个车间产品较稳定解 (1)因为间隔时间相同,故是系统抽样(2)茎叶图如下:(3)甲车间:平均值:1x1 =-(102+101+99+98+103+98+99) =100,71方差:S12=( 102-100) 2+ (101-100) 2+ ( 99-100 ) 2 6.7乙车间:平均值:*2=丄(110+115+90+85+75+115+110) =100,71方差:S22=_!_ ( 110-100) 2+ (115-100) 2+ (110-100)4.7丁 X1 =X2 ,S2:甲车间产品稳定.两个变量的线性相关1. 概念:(1) 回归直线方程(2) 回归系数2. 最小二
13、乘法3. 直线回归方程的应用(1) 描述两变量之间的依存关系;利用直线回归方程即可定量描述两个变量间依存的数量关系(2) 利用回归方程进行预测;把预报因子(即自变量x)代入回归方程对预报量(即因变量Y)进行估计,即可得到个体Y值的容许区间。(3) 利用回归方程进行统计控制规定Y值的变化,通过控制 x的范围来实现统计控制的目标。如已经得到了空气中NO的浓度和汽车流量间的回归方程,即可通过控制汽车流量来控制空气中NQ的浓度。4应用直线回归的本卷须知(1) 做回归分析要有实际意义;(2) 回归分析前,最好先作出散点图;(3) 回归直线不要外延。5. 回归直线方程的推导设x与y是具有线性相关关系的两个
14、变量,且相应于样本的一组观测值的n个点的坐标分别是: (Xyj,( x2, y2 ),(x3, y3),| |,(Xn, yn),下面给出回归方程的推导。设所求的回归方程为? bx a,其中a,b是待确定的参数,那么:?bXia,(i 1,2,3,1, n),样本中各个点的偏差是?%(bxia),( ih2,3,川,n )显然,上面的各个偏差的符号有正、有负,如果将他们相加会相互抵消一局部,因此他们的和不能代表 n个点与回归直线在整体上的接近程度,而是采用n个偏差的平方和Q来表示n个点与相应直线回归直线在整体上的接近程度。n(yi ?)2i 1n(yi bXi a)2i 1(yi2 2bx1
15、a) (y2 bx2 a) (y3 bx3a)2 III (ynbXna)2求岀当Q取最小值时的a,b的值,就求出了回归方程。一先证明两个在变形中用到的公式:公式1n_(X x)2i 1n2Xii 1-2nx其中因为n(xi 1x)2(X1 X)2(X2x)2III2X2lb2Xn2nQX2X1X2(Xnx)2xnXn)-2nx(X122X2blXn2)2nx-2nx(X12III2Xn ) nx2 2xinx(XiX)2(Xix)( y所以n2Xi1-2 nx公式2因为(X1x)( yiy)y)(X1(xyX2Y2JU XnYn)(X1yXiyi(X1X2 Xn)y(y1XiyiXiyinX
16、i yii 1x)(y1nx yy)(X2x)(y2y)III(Xn X)(yny)X2yy2XIIIXn yYnX)nxyy2 |yn)x nxyn n_2nxy nxyxyi nxy(Xi x)(%=i 1所以i 1y)nXi yi nx yi 1二推导:将 Q的表达式的各项先展开,再合并、变形Q (y1 bx1 a)2 (y2 bx? a)2 (y? bx? a)2 川(ynbXna)2(Y12(bx12Y2a)2 (bx2W Yn2) 2%他 a) 2y2(bx2 a)川 2yn(bXn a) a)2 川(bXn a)2展开2yi2b xyii 1n2 22ayi bxii 1i 12
17、ab Xii 12na以a, b为同类项,合并2nayii 1Xi2nanananananana2na(n2n a(y bx)(y(y(y(y(y(ybx)2bx)2bx)2bx)2bx)2bx)2n.i 122b ) bxin i 12bXi yii 12yi以a, b的次数为标准整理n2 2bxi2b xiyii 1i 1n2 2 2n(y bx) b 人i 122_2ny 2nbxy nb xn2 / 2 b ( Xii 1-2nx)2b(2yii 1将数据转化为平均数 x,yb(Xii 1x)2(Xii 12 2x) b(Xii 1x)2b上式中,共有四项,后两项与小值,当且仅当前两项
18、的值都为2b xyii 1n.2 2bxii 12yii 1-配方法2b Xiyii 12yii 1展开Xi yi nx y)(i 12b(Xi x)(yii 1y)(x x)( yi2b(XiX)2i 1(X x)(yi y)i 1n(Xii 1x)2y)a, b无关,0。所以22yii 12ny )整理(yii 1y)2用公式一二变形(yii 1y)2-配方(X x)(yi 1n(X x)2i 1y)2(yii 1y)2为常数;前两项是两个非负数的和,因此要使得Q区的最y bxn(Xi x)(yi y)i 1n(Xi X)2i 1bxnXi y nx yi 1n2x nxi 1用公式一、二
19、变形得三总结规律:上述推倒过程是围绕着待定参数a, b进行的,只含有x,X的局部是常数或系数,用到的方法有1配方法,有两次配方,分别是a的二次三项式和 b的二次三项式;2变形时,用到公式一、二和整体思想;3用平方的非负性求最小值。 4实际计算时,通常是分步计算:先求出x, y,再分别计算y),(Xii 1nX)2 或X yii 1nnx y,2 nx的值,最后就可以计算出i 1a, b的值。6 相关系数r统计中常用相关系数 r来衡量两个变量之间的线性相关的强弱,当Xi不全为零,yi也不全为零时,那么两个变量的相关系数的计算公式是:(Xii 1X)(yiy)Xi yi nx y,:(Xin2X)
20、 (yii 1y)2ni 1r就叫做变量y与x的相关系数简称相关系数.说明:1对于相关系数r,首先值得注意的是它的符号,当r为正数时,表示变量 x, y正相关;当r为负数时,表示两个变量 x, y负相关;2另外注意r的大小,如果r 0.751,那么正相关很强;如果 r 1, 0.75,那么负相关很强;如果r0.75, 0.30或r0.30,0.75,那么相关性一般;如果 r0.25,0.25,那么相关性较弱.例1测得某国10对父子身高单位:英寸如下:父亲身高X60626465666768707274儿子 身高y66701对变量y与x进行相关性检验;2如果y与x之间具有线性相关关系,求回归直线方
21、程;(3)如果父亲的身高为 73英寸,估计儿子身高.2y_ _ 10解:(1) X 66.8, y 67, x2i 1104489,Xj% 44836.4,i 110244794, y2i 1244929.22,xy 4475.6,x 4462.24,10所以rXjyj nxyi 1ni 1ny44836.4 10 4475.6(4479444622.4)(44929.2244890)80.46730.15280.482.040.98,所以y与x之间具有线性相关关系.(2)设回归直线方程为 y a bx,那么b10Xiyii 110xy102Xi一 210x44836.44475644794 44622.40.4685,a y bx 67 0.4685 66
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- T/ZHHX 004-2024粉苞酸脚杆盆花生产技术规范
- 急救知识培训课程大纲
- 临产呼吸技巧专项训练
- 2025运城师范高等专科学校辅导员考试试题及答案
- 2025西安欧亚学院辅导员考试试题及答案
- 2025辽宁民族师范高等专科学校辅导员考试试题及答案
- 2025苏州城市学院辅导员考试试题及答案
- 2025福建卫生职业技术学院辅导员考试试题及答案
- 四川绵阳中山长虹电器有限公司招聘笔试题库2025
- 室内设计概论
- 2024年广东潮州中考物理一模试题 (含答案)
- 中国文化概况chapter-1
- 2024年中职高考数学计算训练 专题13 数列的相关计算
- ISO22716-执行标准化妆品良好操作规范GMPC标准及内审员培训教材
- 2024年全国高考数学试题及解析答案(新课标Ⅱ卷)
- 2024年中考语文满分作文6篇(含题目)
- 工程造价咨询服务投标方案(技术方案)
- 四川省宜宾市2024年小升初语文真题试卷及答案
- 二手车过户原车主委托书模板
- 2023年10月00322中国行政史试题及答案含解析
- 医院培训课件:《PPD试验》
评论
0/150
提交评论