版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
板块一.随机抽样
mate知识内容
随机抽样
i.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方
法:
⑴简单随机抽样:从元素个数为N的总体中不放回地抽取容量为〃的样本,如果每一次抽
取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.
抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.
②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张
数表.表中每一位置出现各个数字的可能性相同.
随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的
方法.
简单随机抽样是最简单、最基本的抽样方法.
⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个
个体,得到所需要的样本的抽样方法.
抽出办法:从元素个数为N的总体中抽取容量为〃的样本,如果总体容量能被样本容量整
除,设忆=老,先对总体进行编号,号码从1到N,再从数字1到人中随机抽取一个数s作
为起始数,然后顺次抽取第s+k,6+23…,s+5-l4个数,这样就得到容量为〃的样
本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样
方法进行抽样.
系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.
⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使
总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按
层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.
分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,
应用广泛.
2.简单随机抽样必须具备下列特点:
⑴简单随机抽样要求被抽取的样本的总体个数N是有限的.
⑵简单随机样本数n小于等于样本总体的个数N.
⑶简单随机样本是从总体中逐个抽取的.
⑷简单随机抽样是一种不放回的抽样.
⑸简单随机抽样的每个个体入样的可能性均为4.
N
3.系统抽样时,当总体个数N恰好是样本容量〃的整数倍时,取k=J
若岂不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容
量〃整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍
然相等,为上N.
n
—.频率直方图
列出样本数据的频率分布表和频率分布直方图的步骤:
①计算极差:找出数据的最大值与最小值,计算它们的差;
极差
②决定组距与组数:取组距,用决定组数;
③决定分点:决定起点,进行分组;
④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得
到各小组的频率.
⑤绘制频率分布直方图:以数据的值为横坐标,以黑的值为纵坐标绘制直方图,
组距
频率
知小长方形的面积=组距X=频率.
频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分
布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.
总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布
直方图可以用一条光滑曲线y=/(x)来描绘,这条光滑曲线就叫做总体密度曲线.总体密度
曲线精确地反映了一个总体在各个区域内取值的规律.
三.茎叶图
制作茎叶图的步骤:
①将数据分为“茎”、“叶”两部分;
②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线;
4)将各个数据的“叶”在分界线的一侧对应茎处同行列出.
四.统计数据的数字特征
用样本平均数估计总体平均数;用样本标准差估计总体标准差.
数据的离散程序可以用极差、方差或标准差来描述.
极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度;
样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根.
一般地,设样本的元素为不,々,…,毛样本的平均数为了,
定义样本方差为$2=®一反2+区■■君2+…+(X“一豆,
样本标准差s=卜&一丁尸+(%一</+•••+
Vn
简化公式:S?=匕(与2+考+…+片)一就2].
n
五.独立性检验
1.两个变量之间的关系;
常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系
所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的
取值带有一定随机性的两个变量之间的关系叫做相关关系.
2.散点图:将样本中的〃个数据点(七,y)(i=1,2,…,〃)描在平面直角坐标系中,就得到
了散点图.
散点窗形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个
变量的关系.
3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,
散点图中的点在从左下角到右上角的区域.
反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.止匕时,散点
图中的点在从左上角到右下角的区域.
散点图可以判断两个变量之间有没有相关关系.
4.统计假设:如果事件A与B独立,这时应该有尸(AB)=P(A)P(8),用字母4表示此式,
即Ho:P(AB)=P(A)P(B),称之为统计假设.
5.%"(读作“卡方”)统计量:
统计学中有一个非常有用的统计量,它的表达式为个叫)一,用它的大小可以
〃l+〃2+"+l”+2
用来决定是否拒绝原来的统计假设“0.如果/的值较大,就拒绝“°,即认为A与B是有
关的.
/统计量的两个临界值:3.841、6.635;当/>3.841时,有95%的把握说事件A与8有
关;当/>6.635时,有99%的把握说事件A与5有关;当/W3.841时,认为事件A与8
是无关的.
独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发
生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的.
1.独立性检验的步骤:统计假设:Hn;列出2x2联表;计算/统计量:查对临界值表,
作出判断.
2.几个临界值:P(/>2.706)=0.10,P(*》3.841)=0.05,P(*26.635)=0.01.
2x2联表的独立性检验:
如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张2x2的表,如
下:
状态B状态》合计
状态A勺+
状态A%+
%%2n
如果有调查得来的四个数据勺,与,%,n22,并希望根据这样的4个数据来检验上述的两种
状态A与8是否有关,就称之为2x2联表向独立性检验.
六.回归分析
I.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分
析就是寻找相关关系中这种非确定关系的某种确定性.
回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性
相关关系,这条直线叫做回归直线.
2.最小二乘法:
记回归直线方程为:y=a+bx,称为变量丫对变量x的回归直线方程,其中叫做回归
系数.
9是为了区分丫的实际值y,当x取值茗时,变量V的相应观察值为y,而直线上对应于苍
的纵坐标是力="+bxi.
设x,丫的一组观察值为(先,y),i=1,2,…,且回归直线方程为^=。+公,
当x取值答时,K的相应观察值为%,差必-力(i=1,2,…,〃)刻画了实际观察值y与回归
直线上相应点的纵坐标之间的偏离程度,称这些值为离差.
我们希望这〃个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点.
记。=,回归直线就是所有直线中。取最小值的那条•
/=!
这种使“离差平方和为最小”的方法,叫做最小二乘法.
用最小二乘法求回归系数4,人有如下的公式:
2%切_时
5=三---------a=y-bx,其中a"上方加“人”,表示是由观察值按最小二乘法求得的
i=l
回归系数.
3.线性回归模型:将用于估计y值的线性函数4+所作为确定性函数;y的实际值与估计
值之间的误差记为£,称之为随机误差;将),=a+bx+£称为线性回归模型.
产生随机误差的主要原因有:
①所用的确定性函数不恰当即模型近似引起的误差;
②忽略了某些因素的影响,通常这些影响都比较小;
③由于测量工具等原因,存在观测误差.
4.线性回归系数的最佳估计值:
利用最小二乘法可以得到4,3的计算公式为
__
3=-^,----------=得-------->a^y-bx,其中x=丫=一却,
之(X,.-JC)2'X;一心>"I"t
/=|1=1
由此得到的直线?=&+%就称为回归直线,此直线方程即为线性回归方程.其中4,5分
别为a,b的估计值,育称为回归截距,5称为回归系数,9称为回归值.
5.相关系数:
__
2(七一x)(x-y)•-nxy
i=l_i=l
、忙(七-;)2。(必一亍)2-〃G)2)
Vi=1i=lVf=l/=!
6.相关系数r的性质:
⑴|r|Wl;
⑵|r|越接近于1,x,y的线性相关程度越强;
(3)|川越接近于0,x,y的线性相关程度越弱.
可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关.
7,转化思想:
根据专业矢赢或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转
化为线性回归方程,从而确定未知参数.
8.一些备案
①回归(regression)一词的来历:“回归”这个词英国统计学家FrancilsGalton提出来的.1889
年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,
但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,
但这些孩子的平均身高却比他们父母的平均身高高.Galton把这种后代的身高向中间值靠近
的趋势称为''回归现象后来,人们把由一个变量的变化去推测另一个变量的变化的方法称
为回归分析.
②回归系数的推导过程:
Q=ZKy-a)-如『=Zy:-2@%+na2-2bz+2abz占+^x;
=na2+2a(心毛-£%)+从£xj-2b£x,%+,y;,
把上式看成a的二次函数,"的系数”>o,
因此当叫_2(m>)=—£时取最小值.
2〃n
同理,把。的展开式按6的降基排列,看成6的二次函数,当6=2士设;工出时取最小值.
Lx"
一〃
Z茗y,--时
Z。一君(%一田
解得:b=R--------a=y-bx,
Z(%-君2
/=!
其中y=』ZM,5=1»>,是样本平均数.
nn
9.对相关系数/"进行相关性检验的步骤:
①提出统计假设H。:变量x,y不具有线性相关关系;
②如果以95%的把握作出推断,那么可以根据1-0.95=0.05与〃-2(〃是样本容量)在相
关性检验的临界值表中查出一个r的临界值Qo,(其中1-0.95=0.05称为检验水平);
③计算样本相关系数r;
④作出统计推断:若则否定“。,表明有95%的把握认为变量y与x之间具有线
性相关关系;若"氏a5,则没有理由拒绝”。,即就目前数据而言,没有充分理由认为变
量y与x之间具有线性相关关系.
说明:
⑴对相关系数r进行显著性检验,一般取检验水平a=0.05,即可靠程度为95%.
⑵这里的/•指的是线性相关系数,r的绝对值很小,只是说明线性相关程度低,不一定不相
关,可能是非线性相关的某种关系.
⑶这里的r是对抽样数据而言的.有时即使|r|=1,两者也不一定是线性相关的.故在统计
分析时,不能就数据论数据,要结合实际情况进行合理解释.
mte典例分析
题型一系统抽样
【例1】已知某商场新进3000袋奶粉,为检查其三聚氟胺是否超标,现采用系统抽样
的方法从中抽取150袋检查,若第一组抽出的号码是11,则第六十一组抽出的
号码为.
【例2】某校高三年级195名学生已编号为1,2,3,...195,为了解高三学生的饮食情
况,要按1:5的比例抽取一个样本,若采用系统抽样方法进行抽取,其中抽取3
名学生的编号可能是()
A.3,24,33B.31,47,147C.133,153,193D.102,
132,159
【例3】从编号为1~5。的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射
实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹
的编号可能是()
A.5,10,15,20,25B.3,13,23,33,43C.1,2,3,4,5
D.2,4,6,16,32
【例4】有40件产品,编号从1至40,现在从中抽取4件检验,用系统抽样法所抽的编
号可能为()
A.5,10,15,20B.2,12,22,32
C.2,14,26,38D.5,8,31,36
【例5】采用系统抽样法,从121人中抽取一个容量为12人的样本,写出抽样的步骤,
并求每人被抽取的机率.
【例6】用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生随机地
从1〜160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160
号),若第16组抽出的号码为126,则第1组中用抽签的方法确定的号码是
【例7】某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为
〃的样本;如果采用系统抽样和分层抽样方法抽取,不用剔除个体;如果样本
容量增加1个,则在采用系统抽样时,需要在总体中先剔除1个个体,则样本容
量为.
【例8】一个总体中有100个个体,随机编号0,1,2,99,依编号顺序平均分成
10个小组,组号依次为1,2,3,10.现用系统抽样方法抽取一个容量
为10的样本,规定如果在第1组随机抽取的号码为机,那么在第k组中抽取的
号码个位数字与加+%的个位数字相同,若加=6,则在第7组中抽取的号码
是•
题型二分层抽样
【例9】(2010朝阳二模)
某校共有学生2000名,各年级男、女学生人数如下表,已知在全校学生中随机抽
取1名,抽到二年级女生的概率是0.19,现用分层抽样的方法在全校学生中抽取
64人,则应在三年级抽取的学生人数为()
一年级二年级三年级
女生385ab
男生375360C
A.24B.18C.16D.12
【例10】(2010湖北高考)
将参加夏令营的600名学生编号为:001,002,...,600.采用系统抽样疗法抽取一个容量
为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300
在第1营区,从301到495在第H营区,从496到600在第HI营区.三个营区被抽中的
人数依次为
A.26,16,8B.25,17,8C.25,16,9D.24,17,9
【例11】某城市有学校500所,其中大学10所,中学200所.现在取50所学校作为一个
样本进行一项调查,用分层抽样进行抽样,应该选取大学所.
【例12】某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40
种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测.若
采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是
()
A.4B.5C.6D.7
【例13](北京市西城区2009年4月高三一模抽样测试)
某单位有27名老年人,54名中年人,81名青年人.为了调查他们的身体情况,
用分层抽样的方法从他们中抽取了”个人进行体检,其中有6名老年人,那么
n=.
【例14】某中学高中部有三个年级,其中高一有学生400人,采用分层抽样抽取一个容
量为45的样本,高二年级抽取15人,高三年级抽取10人,问高中部共有多少
学生?
【例15】某学校共有师生2400人,现用分层抽样的方法,从所有师生中抽取一个容量为
160的样本,已知从学生中抽取的人数为150,那么该学校的教师人数
是
【例16】(2(X)9天津文)
为了了解某市工厂开展群众体育活动的情况,拟采用分层抽样的方法从A,B,C
三个区中抽取7个工厂进行调查.已知A,8,C区中分别有18,27,18个工厂.求
从A,B,C区中应分别抽取的工厂个数;
【例17】某校高三年级一共有900个学生,其中女生400人.为了解该年级学生的健康
情况,使用分层抽样法进行抽样调查.已知从男生中任意抽取了25人,则需要
从女生中任意抽取人进行调查.
【例18】某工厂生产A、B、C三种不同型号的产品,产品数量之比依次为2:3:5.现用
分层抽样方法抽出一个容量为〃的样本,样本中A种型号产品有16件.那么此样
本的容量n=.
【例19】某校有500名学生,A型血的有125人,B型血的有125人,A3型血的有50人,
为了研究血型与色弱的关系,要从中抽取一个20人的样本,按分层抽样,。型
血应抽取的人数为人.
【例20】某校1000名学生中,。型血有400人,A型血有250人,3型血有250人,AB
型血有100人,为了研究血型与性格的关系,按照分层抽样的方法从中抽取样
本.如果从A型血中抽取了10人,则从AB型血中应当抽取的人数
为.
【例21】某单位业务人员、管理人员、后勤服务人员人数之比依次为15:3:2.为了了解
该单位职员的某种情况,采用分层抽样方法抽出一个容量为〃的样本,样本中
业务人员人数为30,则此样本的容量〃为()
A.20B.30C.40D.80
【例22】某工厂生产A、B、C三种不同型号的产品,产品数量之比依次为2:3:5.现
用分层抽样方法抽出一个容量为〃的样本,样本中A种型号产品有16件.那么
此样本的容量〃=.
【例23】(2009湖南)
一个总体分为A,8两层,其个体数之比为4:1,用分层抽样方法从总体中抽取
一个容量为10的样本,已知8层中甲、乙都被抽到的概率为,,则总体中的
28
个体数为.
【例24】(05年湖南)某工厂生产了某种产品16800件,它们来自甲、乙、丙三条生产
线.为检查产品的质量,决定采用分层抽样法进行抽样.已知甲'乙、丙三条
生产线抽取的个数成等差数列,则乙生产了件产品.
【例25】某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为
〃的样本;如果采用系统抽样和分层抽样方法抽取,不用剔除个体;如果样本
容量增加1个,则在采用系统抽样时,需要在总体中先剔除1个个体,则样本容
量为.
【例26】(2009广东12)
某单位200名职工的年龄分布情况如图,现要从中抽取40名职工作样本,用系统
抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,
6~10号,...,196~200号).若第5组抽出的号码为22,则第8组抽出的号码应
是.若用分层抽样方法,则40岁以下年龄段应抽取人.
40岁以下
【例27】(北京市朝阳区2009年4月高三一模理)
从6名女生,4名男生中,按性别采用分层抽样的方法抽取5名学生组成课外小组,
则不同的抽取方法种数为.
A-B.C〉C:C.C:。D.
【例28】(2008广东19)
某初级中学共有学生2000名,各年级男、女生人数如下表:
初一年级初二年级初三年级
女生373Xy
男生377370Z
已知在全校学生中随机抽取1名,抽到初二年级女生的概率是0.19.
⑴求x的值;
⑵现用分层抽样的方法在全校抽取48名学生,问应在初三年级抽取多少名?
⑶已知.V2245,z2245,求初三年级中女生比男生多的概率.
【例29】(2009山东文)
一汽车厂生产A,B,C三类轿车,每类轿车均有舒适型和标准型两种型号,某月的
产量如下表(单位:辆):
轿车A轿车B轿车C
舒适型100150Z
标准型300450600
按类型分层抽样的方法在这个月生产的轿车中抽取50辆,其中有A类轿车10辆.
⑴求z的值.
⑵用分层抽样的方法在C类轿车中抽取一个容量为5的样本.将该样本看成一个总
体,从中任取2辆,求至少有1辆舒适型轿车的概率;
⑶用随机抽样的方法从B类舒适型轿车中抽取8辆,经检测它们的得分如下:9.4,
8.6,9.2,9.6,8.7,9.3,9.0,8.2.把这8辆轿车的得分看作一个总体,从中
任取一个数,求该数与样本平均数之差的绝对值不超过0.5的概率.
题型三抽样方法选择及其他
【例30】(04湖南)某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、
150个销售点,公司为了调查产品销售的情况,需从这600个销售点中抽取一个
容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从
中抽取7个调查其销售收入和销后服务等情况,记这项调查为②.则完成①、
②这两项调查采用的抽样方法依次是.
【例31]⑴某社区有400户家庭,其中高收入家庭25户,中收入家庭280户,低收入
家庭95户,为了了解社会购买力的某项指标,要从中抽取一个容量为100的样
本;
⑵从10名职工中抽取3名参加座谈会;
⑶一个年级有10个班,每个班有50名同学,随机编为1至50号,为了了解他
们的学习情况,要求每个班的30号同学留下来进行问卷调查.
以上问题各对应哪种随机抽样方法?
【例32】下列抽样问题中最适合用系统抽样方法抽样的是()
A.从全班48名学生中随机抽取8人参加一项活动.
B.一个城市有210家百货商店,其中大型商店20家,中型商店40家,小型商店150
家,为了掌握各商店的营业情况,要从中抽取一个容量为21的样本.
C.从参加模拟考试的1200名考生中随机抽取100人分析试题作答情况.
D.从参加模拟考试的1200名考生中随机抽取10人了解某些情况.
【例33】某学校有职工140人,其中教师91人,教辅行政人员28人,总务后勤人员21
人.为了解职工的某种情况,要从中抽取一个容量为20的样本.以下的抽样方
法中,依简单随机抽样、系统抽样、分层抽样顺序的是
方法1:将140人从1~140编号,然后制作出有编号1~1人的140个形状、大小
相同的号签,并将号签放入同一箱子里进行均匀搅拌,然后从中抽取20
个号签,编号与签号相同的20个人被选出.
方法2:将140人分成20组,每组7人,并将每组7人按1~7编号,在第一组
采用抽签法抽出上号(1W上W7),则其余各组上号也被抽到,20个人被
选出.
方法3:按20:140=1:7的比例,从教师中抽取13人,从教辅行政人员中抽取4
人,从总务后勤人员中抽取3人,从各类人员中抽取所需人员时,均采
用随机数表法,可抽到20个人.
A.方法2,方法1,方法3B.方法2,方法3,方法1
C.方法1,方法2,方法3D.方法3,方法1,方法2
【例34】某工厂有工人1021人,其中高级工程师20人,现抽取普通工人40人,高级工
程师4人组成代表队参加某项活动,怎样抽取较好?
【例35】现有以下两项调查:①某装订厂平均每小时大约装订图书361册,要求检验员
每小时抽取40册图书,检查其装订质量状况;②某市有大型、中型与小型的商
店共1500家,三者数量之比为1:5:9.为了调查全市商店每日零售额情况,抽
取其中15家进行调查.
完成①、②这两项调查宜采用的抽样方法依次是()
A.简单随机抽样法,分层抽样法B.分层抽样法,简单随机抽样法
C.分层抽样法,系统抽样法D.系统抽样法,分层抽样法
【例36】某校有40个班,每班有50人,每班选派3人参加“学代会”,在这个问题中样
本容量是()
A.40B.50C.120D.150
【例37】为了了解参加运动会的2000名运动员的年龄情况,从中抽取100名运动员;就
这个问题,下列说法中正确的有()个
①2000名运动员是总体;
②每个运动员是个体;
③所抽取的100名运动员是一个样本;
④样本容量为100;
⑤这个抽样方法可采用按年龄进行分层抽样;
⑥每个运动员被抽到的概率相等
A.1B.2C.3D.4
【例38】(2008湖南12)
从某地区15000位老人中随机抽取500人,其生活能否自理的情况如下表所示:
人别
男女
生活"—能否自''理''二------
能178278
不能2321
则该地区生活不能自理的老人中男性比女性约多人.
【例39】一个总体含有100个个体,以简单随机抽样方式从该总体中抽取一个容量为5
的样本,则指定的某个个体被抽到的概率为.
板块二.频率直方图
mte知识内容
一.随机抽样
i.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方
法:
⑴简单随机抽样:从元素个数为N的总体中不放回地抽取容量为〃的样本,如果每一次抽
取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.
抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.
②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张
数表.表中每一位置出现各个数字的可能性相同.
随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的
方法.
简单随机抽样是最简单、最基本的抽样方法.
⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个
个体,得到所需要的样本的抽样方法.
抽出办法:从元素个数为N的总体中抽取容量为”的样本,如果总体容量能被样本容量整
除,设女=包,先对总体进行编号,号码从1到N,再从数字1到4中随机抽取一个数s作
n
为起始数,然后顺次抽取第s+A,s+23…,s+(〃-l)无个数,这样就得到容量为"的样
本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样
方法进行抽样.
系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.
⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使
总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按
层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.
分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,
应用广泛.
2.简单随机抽样必须具备下列特点:
⑴简单随机抽样要求被抽取的样本的总体个数N是有限的.
⑵简单随机样本数〃小于等于样本总体的个数N.
⑶简单随机样本是从总体中逐个抽取的.
⑷简单随机抽样是一种不放回的抽样.
⑸简单随机抽样的每个个体入样的可能性均为乌.
N
3.系统抽样时,当总体个数N恰好是样本容量〃的整数倍时,取女=包;
n
若d不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容
n
量〃整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍
然相等,为纥
n
—.频率直方图
列出样本数据的频率分布表和频率分布直方图的步骤:
①计算极差:找出数据的最大值与最小值,计算它们的差;
②决定组距与组数:取组距,用餐决定组数;
组距
G)决定分点:决定起点,进行分组:
列频率与布直方图;对落入各小组的数据累计,算出各小数的频数,除以样本容量,得
到各小组的频率.
⑤绘制频率分布直方图:以数据的值为横坐标,以禁的值为纵坐标绘制直方图,
组距
频率
知小长方形的面积=组距X=频率.
频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分
布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.
总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布
直方图可以用一条光滑曲线y=/(x)来描绘,这条光滑曲线就叫做总体密度曲线.总体密度
曲线精确地反映了一个总体在各个区域内取值的规律.
三.茎叶图
制作茎叶图的步骤:
①将数据分为“茎”、“叶”两部分;
②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线;
国将各个数据的“叶”在分界线的一侧对应茎处同行列出.
四.统计数据的数字特征
用样本平均数估计总体平均数;用样本标准差估计总体标准差.
数据的离散程序可以用极差、方差或标准差来描述.
极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度;
样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根.
一般地,设样本的元素为玉,々,…,马样本的平均数为5,
定义样本方差为S?=g二4I+区一君+…+(%—宜,
n
样本标准差s=卜「丁『+(占一丁y+…+区-立
Vn
简化公式:S1=,[(k+X;+…+*)-成2].
n
五.独立性检验
1.两个变量之间的关系;
常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系
所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的
取值带有一定随机性的两个变量之间的关系叫做相关关系.
2.散点图:将样本中的〃个数据点(七,y)(i=l,2,…,〃)描在平面直角坐标系中,就得到
了散点图.
散点窗形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个
变量的关系.
3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,
散点图中的点在从左下角到右上角的区域.
反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点
图中的点在从左上角到右下角的区域.
散点图可以判断两个变量之间有没有相关关系.
4.统计假设:如果事件4与B独立,这时应该有P(AB)=P(A)P(8),用字母儿表示此式,
即Ho:P(4B)=P(4)P(8),称之为统计假设.
5.力2(读作,,卡方,,)统计量:
统计学中有一个非常有用的统计量,它的表达式为个=〃5也2一八%)]用它的大小可以
nl+n2+n+ln+2
用来决定是否拒绝原来的统计假设如果/的值较大,就拒绝“”,即认为A与B是有
关的.
/统计量的两个临界值:3.841、6.635;当%?>3.841时,有95%的把握说事件4与8有
关;当/>6.635时,有99%的把握说事件A与8有关;当/W3.841时,认为事件A与B
是无关的.
独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发
生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的.
1.独立性检验的步骤:统计假设:出,;列出2x2联表;计算/统计量:查对临界值表,
作出判断.
2.几个临界值:2(.222.706)=0.10,P(力223.841)=0.05,P(力226.635)=0.01.
2x2联表的独立性检验:
如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张2x2的表,如
状态B状态万合计
状态A勺年4+
状态入%〃22%+
%n
如果有调查得来的四个数据勺,勺,%,”22,并希望根据这样的4个数据来检验上述的两种
状态A与8是否有关,就称之为2x2族表向独立性检验.
六.回归分析
1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分
析就是寻找相关关系中这种非确定关系的某种确定性.
回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性
相关关系,这条直线叫做回归直线.
2.最小二乘法:
记回归直线方程为:y=a+bx,称为变量丫对变量x的回归直线方程,其中a,h叫做回归
系数.
9是为了区分V的实际值y,当x取值%时,变量丫的相应观察值为天,而直线上对应于七
的纵坐标是1=a+bXj.
设x,丫的一组观察值为(%,%),i=l,2,…,",且回归直线方程为9=a+,
当x取值七时,丫的相应观察值为%,差%-力4=1,2,…,〃)刻画了实际观察值y与回归
直线上相应点的纵坐标之间的偏离程度,称这些值为离差.
我们希望这,7个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点.
记。='(》-。-6七)2,回归直线就是所有直线中。取最小值的那条.
/=1
这种使“离差平方和为最小”的方法,叫做最小二乘法.
用最小二乘法求回归系数a,匕有如下的公式:
〉:x.y—nxy
3=上」------a^y-bx,其中a,6上方加“八”,表示是由观察值按最小二乘法求得的
Z->—2
X;-X
1=1
回归系数.
3.线性回归模型:将用于估计y值的线性函数4+法作为确定性函数;),的实际值与估计
值之间的误差记为£,称之为随机误差;将丫=。+云+£称为线性回归模型.
产生随机误差的主要原因有:
①所用的确定性函数不恰当即模型近似引起的误差;
②忽略了某些因素的影响,通常这些影响都比较小;
③由于测量工具等原因,存在观测误差.
4.线性回归系数的最佳估计值:
利用最小二乘法可以得到a,h的计算公式为
〃__n__
.=且不----------=々--------.a=y-bx,其中犬=一£%,y=-^jyi
豆吠-称£片-疝了n<=>NM
1=11=1
由此得到的直线嬴就称为回归直线,此直线方程即为线性回归方程.其中a,g分
别为“,方的估计值,a称为回归截距,/称为回归系数,》称为回归值.
5.相关系数:
__
Z(若-x)(x-y)nxy
.二j=l一i=l
.£(必一亍)2-〃(])(£¥
Vi=]7=1V1=1/=1
6.相关系数;•的性质:
⑴|r|Wl;
⑵IrI越接近于1,x,y的线性相关程度越强;
⑶|r|越接近于0,x,y的线性相关程度越弱.
可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关.
7.转化思想:
根据专业矢赢或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转
化为线性回归方程,从而确定未知参数.
8.一些备案
①回归(regression)一词的来历:“回归”这个词英国统计学家FrancilsGalton提出来的.1889
年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,
但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,
但这些孩子的平均身高却比他们父母的平均身高高.Gallon把这种后代的身高向中间值靠近
的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称
为回归分析.
②回归系数的推导过程:
Q=Z。一“)一如『=Zyj-2汇y+na2-2bz应%+2a必x.+b1^x;
=na2+2a(心七-Z%)+〃gxf-2b£x*+Z#,
把上式看成a的二次函数,a?的系数〃>o,
因此当a=-2(£N%)=Z);一£时取最小值.
2nn
同理,把。的展开式按6的降基排列,看成b的二次函数,当6=》票在小时取最小值.
Z石
解得:6=初二=斗曰"2,八"反,
Z(x,-君
i=l
其中工=lz七是样本平均数.
9.对相关系数/"进行相关性检验的步骤:
①提出统计假设/:变量x,y不具有线性相关关系;
②如果以95%的把握作出推断,那么可以根据1-0.95=0.05与〃-2(〃是样本容量)在相
关性检验的临界值表中查出一个/•的临界值%.%(其中1-0.95=0.05称为检验水平);
③计算样本相关系数r;
④作出统计推断:若|网>领5,则否定表明有95%的把握认为变量y与x之间具有线
性相关关系;若IrWQg,则没有理由拒绝”。,即就目前数据而言,没有充分理由认为变
量>与x之间具有线性相关关系.
说明:
⑴对相关系数/■进行显著性检验,一般取检验水平a=0.05,即可靠程度为95%.
⑵这里的/•指的是线性相关系数,r的绝对值很小,只是说明线性相关程度低,不一定不相
关,可能是非线性相关的某种关系.
⑶这里的r是对抽样数据而言的.有时即使|r|=l,两者也不一定是线性相关的.故在统计
分析时,不能就数据论数据,要结合实际情况进行合理解释.
典例分析
题型一频率分布直方图
【例1】(2010西城二模)
某区高二年级的一次数学统考中,随机抽取200名同学的成绩,成绩全部在50分
至100分之间,将成绩按如下方式分成5组:第一组,成绩大于等于50分且小于60
分;第二组,成绩大于等于60分且小于70分;……第五组,成绩大于等于90分且
小于等于100分,据此绘制了如图所示的频率分布直方图.
则这200名同学中成绩大于等于80分且小于90分的学生有名.
【例2】(2010东城二模)
已知一个样本容量为100的样本数据的频率分布直方图如图所示,样本数据落在
[6,10)内的样本频数为,样本数据落在[2,10)内的频率为.
率
距
o・
n
-9
二
82£.
c
s.
0
oS.1
.3.1一
2
O..O丁
0\2610141822样本薮据
【例3】(2010北京)
从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分
布直方图(如图).由图中数据可知“=.若要从身高在[120,130),
[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活
动,则从身高在[140,150]内的学生中选取的人数应为.
【例4】(2010江苏高考)
某棉纺厂为了了解一批棉花的质量,从中随机抽取了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度影视版权授权使用合同2篇
- 仓库租赁合同仓库租赁合同书完整版
- 2024年度纺织品出口买卖合同
- 二零二四年度电子烟研发与生产合同
- 二零二四年度货物进出口分期买卖合同
- 核物理新应用
- 2024年度地铁口停车场租赁合同2篇
- 代驾司机与公司领导合同范本
- 2024年度房屋建筑工程质量保修与维护合同3篇
- 二零二四年度桥梁拆除工程承包合同
- 2024-2025学年北师大版九年级数学上册期中培优试题
- 人教版(2024新版)八年级上册物理第四章光现象单元测试卷(含答案解析)
- 小红书乘风平台全量培训-产品实操课
- 室外道路综合管线工程施工质量控制措施
- 【教案】Unit+4+My+Favourite+Subject大单元整体教学设计人教版英语七年级上册
- 新能源发电技术 电子课件 7.4 海洋温差能发电技术
- 西安交通大学出版小学信息技术五年级上册教案
- 2024新版幼儿园传染病疫情报告制度
- 2023年邵阳市自来水公司招聘员工笔试真题
- 2024年广东省佛山南海区农村社区公共服务中心招聘13人历年高频500题难、易错点模拟试题附带答案详解
- 16 《大家排好队》(教学设计)2024-2025学年统编版(2024)小学道德与法治一年级上册
评论
0/150
提交评论