版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计
捱高考要求
要求
重难点
层次
简单随机抽样B(1)随机抽样
①理解随机抽样的必要性和重要性.
随机抽样分层抽样和
A@会用简单随机抽样方法从总体中抽取
系统抽样样本;了解分层抽样和系统抽样方法
频率分布表,(2)总体估计
直方图、①了解分布的意义和作用,
B
折线图、会列频率分布表,
会画频率分布直方图、
茎叶图
频率折线图、
样本数据的基本的数
茎叶图,
用样本估字特征(如平均数、标B理解它们各自的特点.
计总体准差)(2)理解样本数据标准差的意义和作用,
用样本的频率分布估会计算数据标准差.
计总体分布,(3)能从样本数据中提取基本的数字特征
用样本的基本数字特C(如平均数、标准差),并作出合理的解释.
④会用样本的频率分布估计总体分布,
征估计总体的基本数
会用样本的基本数字特征估计总体的基本
字特征
数字特征,理解用样本估计总体的思想.
⑤会用随机抽样的基本方法和样本估计
总体的思想解决一些简单的实际问题.
(2)变量的相关性
变量的相①会作两个有关联变量的数据的散点
线性回归方程B
关性图,会利用散点图认识变量间的相关关系.
②了解最小二乘法的思想,能根据给出
的线性回归方程系数公式建立线性回归方
程.
目刨帽知识内容
随机抽样
1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方
法:
⑴简单随机抽样:从元素个数为N的总体中不放回地抽取容量为〃的样本,如果每一次抽
取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.
抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.
②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张
数表.表中每一位置出现各个数字的可能性相同.
随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的
方法.
简单随机抽样是最简单、最基本的抽样方法.
⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个
个体,得到所需要的样本的抽样方法.
抽出办法:从元素个数为N的总体中抽取容量为,,的样本,如果总体容量能被样本容量整
除,设《=多,先对总体进行编号,号码从1到N,再从数字1到4中随机抽取一个数s作
n
为起始数,然后顺次抽取第s+A,s+2A,,s+(〃-1火个数,这样就得到容量为〃的样
本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样
方法进行抽样.
系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.
⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使
总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按
层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.
分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,
应用广泛.
2.简单随机抽样必须具备下列特点:
⑴简单随机抽样要求被抽取的样本的总体个数N是有限的.
⑵简单随机样本数〃小于等于样本总体的个数N.
⑶简单随机样本是从总体中逐个抽取的.
⑷简单随机抽样是一种不放回的抽样.
⑸简单随机抽样的每个个体入样的可能性均为金.
3.系统抽样时,当总体个数N恰好是样本容量”的整数倍时,取k=电;
n
若四不是整数时,先从总体中随机地剔除凡个个体,使得总体中剩余的个体数能被样本容
n
量〃整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍
然相等,为上.
n
—.频率直方图
列出样本数据的频率分布表和频率分布直方图的步骤:
①计算极差:找出数据的最大值与最小值,计算它们的差;
②决定组距与组数:取组距,用黑决定组数;
组距
③决定分点:决定起点,进行分组;
④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得
到各小组的频率.
频率
⑤绘制频率分布直方图:以数据的值为横坐标,以的值为纵坐标绘制直方图,
知小长方形的面积=组距x槃=频率.
组距
频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分
布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.
总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布
直方图可以用一条光滑曲线y=/(x)来描绘,这条光滑曲线就叫做总体密度曲线.总体密度
曲线精确地反映了一个总体在各个区域内取值的规律.
三.茎叶图
制作茎叶图的步骤:
①将数据分为“茎”、“叶”两部分;
。将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线;
国将各个数据的“叶”在分界线的一侧对应茎处同行列出.
四.统计数据的数字特征
用样本平均数估计总体平均数;用样本标准差估计总体标准差.
数据的离散程序可以用极差、方差或标准差来描述.
极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度;
样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根.
一般地,设样本的元素为不,%,,毛样本的平均数为元,
定义样本方差为$2=(*—-+(*一下)、+(玉一,:,
n
样本标准差S=仍一寸+小一无K++&"亘
Vn
22
简化公式:s=—[(X,2+x^++x^)-rix].
五.独立性检验
1.两个变量之间的关系;
常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系
所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的
取值带有一定随机性的两个变量之间的关系叫做相关关系.
2.散点图:将样本中的〃个数据点(x,,y,)(i=l,2,,〃)描在平面直角坐标系中,就得到
了散点图.
散点窗形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个
变量的关系.
3.如果£二个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,
散点图中的点在从左下角到右上角的区域.
反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点
图中的点在从左上角到右下角的区域.
散点图可以判断两个变量之间有没有相关关系.
4.统计假设:如果事件A与8独立,这时应该有P(A8)=P(A)P(8),用字母儿表示此式,
即40:尸(A3)=尸(A)尸(B),称之为统计假设.
5.读作“卡方”)统计量:
统计学中有一个非常有用的统计量,它的表达式为个=,用它的大小可以
〃|+%+W+2
用来决定是否拒绝原来的统计假设如果力2的值较大,就拒绝“。,即认为A与B是有
关的.
力2统计量的两个临界值:3.841、6.635;当%?>3.841时,有95%的把握说事件A与8有
关;当/>6.635时,有99%的把握说事件A与8有关;当/W3.841时,认为事件A与8
是无关的.
独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发
生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的.
1.独立性检验的步骤:统计假设:Hn;列出2x2联表;计算/统计量;查对临界值表,
作出判断.
2.几个临界值:P(x222.706)=0.10,P(%2>3.841)«0.05,P(*与6.635)=0.01.
2x2联表的独立性检验:
如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张2x2的表,如
下:
状态3状态看合计
状态A%
状态入n2\〃224+
%〃+2n
如果有调查得来的四个数据孙,与,吗।,n22.并希望根据这样的4个数据来检验上述的两种
状态A与8是否有关,就称之为2x2联表届独立性检验.
六.回归分析
1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分
析就是寻找相关关系中这种非确定关系的某种确定性.
回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性
相关关系,这条直线叫做回归直线.
2.最小二乘法:
记回归直线方程为:y=a+bx,称为变量丫对变量x的回归直线方程,其中。"叫做回归
系数.
»是为了区分丫的实际值y,当x取值片时,变量丫的相应观察值为y,而直线上对应于x,
的纵坐标是y;=a+bx;.
设的一组观察值为(乙,%),i=l,2,,n,且回归直线方程为》=。+法,
当x取值.时,丫的相应观察值为%,差%-汹=1,2,,〃)刻画了实际观察值y与回归
直线上相应点的纵坐标之间的偏离程度,称这些值为离差.
我们希望这"个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点.
记Q=f(%-〃一次,)2,回归直线就是所有直线中。取最小值的那条.
i=\
这种使“离差平方和为最小”的方法,叫做最小二乘法.
用最小二乘法求回归系数4,6有如下的公式:
刃=咛---------a=y-bx,其中a"上方加“人”,表示是由观察值按最小二乘法求得的
f*:一戒2
1=1
回归系数.
3.线性回归模型:将用于估计y值的线性函数a+反作为确定性函数;y的实际值与估计
值之间的误差记为£,称之为随机误差;将y=a+反+£称为线性回归模型.
产生随机误差的主要原因有:
①所用的确定性函数不恰当即模型近似引起的误差;
②忽略了某些因素的影响,通常这些影响都比较小;
③由于测量工具等原因,存在观测误差.
4.线性回归系数的最佳估计值:
利用最小二乘法可以得到33的计算公式为
b
=-^—;,------------------=-r---------------a=y-bx,其中》=一之七,>=一£%
i=lj=l
由此得到的直线3=G+6x就称为回归直线,此直线方程即为线性回归方程.其中6,b6
别为a,b的估计值,&称为回归截距,6称为回归系数,》称为回归值.
5.相关系数:
E(七-x)(%-y)zX*-nxy
,=2=/I
J.、一,J(—x:一心)2)(汽才一"(yf)
Vi=lJ=IV/=1i=l
6.相关系数「的性质:
⑴|r|Wl;
⑵|川越接近于1,x,y的线性相关程度越强;
⑶|川越接近于0,x,y的线性相关程度越弱.
可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关.
7.转化思想:
根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转
化为线性回归方程,从而确定未知参数.
8.一些备案
①回归(regression)一词的来历:“回归”这个词英国统计学家FrancilsGalton提出来的.1889
年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,
但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,
但这些孩子的平均身高却比他们父母的平均身高高.Galton把这种后代的身高向中间值靠近
的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称
为回归分析.
②回归系数的推导过程:
Q=ZKy--如]2=Zy;-2azy.+〃“2-2/?ZX/+匕+/Zx;
=na2+2asz苦-ZX)+〃Z考一2Z,E+EE,
把上式看成a的二次函数,/的系数〃>0,
因此当a=-2(/£-£上)=EX-£时取最小值.
2nn
同理,把。的展开式按6的降基排列,看成6的二次函数,当匕=时取最小值.
Z(%-君(%一歹)
解得:6=勺-------a=y-bx,
2%_君2
汽X”版2
1=1
其中歹=1〉;%,元,是样本平均数.
nn
9.对相关系数r进行相关性检验的步骤:
①提出统计假设”。:变量x,y不具有线性相关关系;
②如果以95%的把握作出推断,那么可以根据1-0.95=0.05与〃-2(“是样本容量)在相
关性检验的临界值表中查出一个r的临界值4.05(其中「0.95=0.05称为检验水平);
③计算样本相关系数.
④作出统计推断:若1川>%。5,则否定表明有95%的把握认为变量y与x之间具有线
性相关关系;若IrlW^os,则没有理由拒绝“。,即就目前数据而言,没有充分理由认为变
量y与X之间具有线性相关关系.
说明:
⑴对相关系数r进行显著性检验,一般取检验水平a=0.05,即可靠程度为95%.
⑵这里的,•指的是线性相关系数,;■的绝对值很小,只是说明线性相关程度低,不一定不相
关,可能是非线性相关的某种关系.
⑶这里的r是对抽样数据而言的.有时即使|川=1,两者也不一定是线性相关的.故在统计
分析时,不能就数据论数据,要结合实际情况进行合理解释.
且tM唯典例分析
板块一随机抽样
【例1】为了了解参加运动会的2000名运动员的年龄情况,从中抽取100名运动员;就
这个问题,下列说法中正确的有()个
①2000名运动员是总体;
②每个运动员是个体;
③所抽取的100名运动员是一个样本;
④样本容量为100;
⑤这个抽样方法可采用按年龄进行分层抽样;
⑥每个运动员被抽到的概率相等
A.1B.2C.3D.4
【难度】(4)
【解析】B:
2000名运动员的年龄是总体,抽取的100名运动员的年龄是一个样本,只有④⑥
正确.
【例2】(1)某社区有400户家庭,其中高收入家庭25户,中收入家庭280户,低收入
家庭95户,为了了解社会购买力的某项指标,要从中抽取一个容量为100的样
本;
⑵从10名职工中抽取3名参加座谈会;
⑶一个年级有10个班,每个班有50名同学,随机编为1至50号,为了了解他
们的学习情况,要求每个班的30号同学留下来进行问卷调查.
以上问题各对应哪种随机抽样方法?
【难度】(4)
【解析】⑴分层抽样;⑵简单随机抽样;⑶系统抽样.
【例3】采用系统抽样法,从121人中抽取一个容量为12人的样本,写出抽样的步骤,
并求每人被抽取的机率.
【难度】(4)
【解析】抽样步骤:
因12不能整除121,故先随机剔除一个人,将余下的人从1~120进行编号,在
1~10中用抽签法抽出k号(1WZW10),然后依次顺序抽取
\0+k,20+k,,110+左,得到一个12人的样本.
被抽取的机率:系统抽样无论有无剔除都是等机率抽样,因为被剔除的机率也
是相同的,故被抽取的机率为12*.
121
【例4】用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生随机地
从1〜160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153-160
号),若第16组抽出的号码为126,则第1组中用抽签的方法确定的号码是
【难度】(2)
【解析】不妨设在第1组中随机抽到的号码为x,则在第16组中应抽出的号码为120+x.
设第1组抽出的号码为x,则第16组应抽出的号码是8xl5+x=126,二x=6.
【例5】某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为
〃的样本;如果采用系统抽样和分层抽样方法抽取,不用剔除个体;如果样本
容量增加1个,则在采用系统抽样时,需要在总体中先剔除1个个体,则样本容
量为.
【难度】(6)
【解析】6;
总体容量N=36(人),
当样本容量为〃时,系统抽样间隔为死eN*.
n
分层抽样的抽样比为二,求得工程师、技术员、技工的样本人数分别为2,乌,4,
36632
所以〃应是6的倍数,36的约数,即〃=6,12,18.
35
当样本容量为〃+1时,总体中先剔除1人,还有35人,系统抽样间隔为3-EN*,
n+l
所以〃只能是6.
【例6】一个总体中有100个个体,随机编号0,1,2,99,依编号顺序平均分成
10个小组,组号依次为1,2,3,10.现用系统抽样方法抽取一个容量
为10的样本,规定如果在第1组随机抽取的号码为机,那么在第%组中抽取的
号码个位数字与m+左的个位数字相同,若机=6,则在第7组中抽取的号码
是.
【难度】(4)
【解析】63;第/组的号码为(无-1)*10,依-1)*10+1,…,(4-1)*10+9,当机=6时,
第k组抽取的号的个位数字为加+女的个位数字,所以第7组中抽取的号码的个
位数字为3,所以抽取号码为63.
【例7】(北京市西城区2009年4月高三一模抽样测试)
某单位有27名老年人,54名中年人,81名青年人.为了调查他们的身体情况,
用分层抽样的方法从他们中抽取了"个人进行体检,其中有6名老年人,那么
n=.
【难度】(2)
【解析】由比例可得抽取的中年职工共有12人,青年职工共有18人,于是
/?=6+12+18=36o
【例8】(2009湖南)
一个总体分为A,8两层,其个体数之比为4:1,用分层抽样方法从总体中抽取
一个容量为10的样本,已知8层中甲、乙都被抽到的概率为-L,则总体中的
28
个体数为.
【难度】(4)
【解析】由条件易知B层中抽取的样本数是2,设8层总体数是〃,则又由B层中甲、
乙都被抽到的概率是与=,可解得〃=8,所以总体中的个体数是
C28
4x8+8=40.
【例9】(05年湖南)某工厂生产了某种产品16800件,它们来自甲、乙、丙三条生产
线.为检查产品的质量,决定采用分层抽样法进行抽样.已知甲、乙、丙三条
生产线抽取的个数成等差数列,则乙生产了件产品.
【难度】(4)
【解析】根据分层抽样的抽样比相等知:甲、乙、丙三条生产线生产的产品数量比等于
抽取的样品容量比.
又这三条生产线抽取的产品个数成等差数列,根据等差数列的性质知,它们生产的
产品也成等差数列.
又乙生产线生产的产品数量为甲、丙的等差中项,且和为16800,
故乙生产的产品数量为:度也=5600件.
3
【例10】某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为
〃的样本;如果采用系统抽样和分层抽样方法抽取,不用剔除个体;如果样本
容量增加1个,则在采用系统抽样时,需要在总体中先剔除1个个体,则样本容
量为.
【难度】(4)
【解析】总体容量N=36(人),
当样本容量为〃时,系统抽样间隔为地eN*.
n
分层抽样的抽样比为2,求得工程师、技术员、技工的样本人数分别为4,3巳,
36632
所以〃应是6的倍数,36的约数,即〃=6,12,18.
当样本容量为〃+1时,总体中先剔除1人,还有35人,系统抽样间隔为3-£N*,
n+\
所以〃只能是6.
【例11】(2008广东19)
某初级中学共有学生2000名,各年级男、女生人数如下表:
初一年级初二年级初三年级
女生373Xy
男生377370Z
已知在全校学生中随机抽取1名,抽到初二年级女生的概率是0.19.
⑴求x的值;
⑵现用分层抽样的方法在全校抽取48名学生,问应在初三年级抽取多少名?
(3)已知y,245,z2245,求初三年级中女生比男生多的概率.
【难度】(8)
【解析】=0.19,Ax=380;
2000
⑵初三年级人数为y+z=2000-(373+377+380+370)=500,
现用分层抽样的方法在全校抽取48名学生,
48
应在初三年级抽取的人数为:--x500=12名.
2000
(3)设初三年级女生比男生多的事件为A,初三年级女生男生数记为(y,z);
由⑵知y+z=500,且y,zeN,基本事件空间包含的基本事件有:(245,255)、
(246,254)、(247,253)、.…(255,245)共11个.
事件A包含的基本事件有:
(251,249)、(252,248)、(253,247)、(254,246)、(255,245),共5个.
P(A)=—.
II
板块二频率直方图“茎叶图
【例1】(2009湖北15)
下图是样本容量为200的频率分布直方图.
根据样本的频率分布直方图估计,样本数据落在[6,10)内的频数为,数据
落在[2,10)内的概率约为.
【难度】(2)
【解析】64,0.4;
观察直方图易得频数为200*0.08x4=64,频率为(0.02+0.08)x4=0.4.
【例2】为了调查某厂工人生产某种产品的能力,随机抽查了20位工人某天生产该产品的
数量.产品数量的分组区间为[45,55),[55,65),[65,75),[75,85),[85,95)
由此得到频率分布直方图如图3,则这20名工人中一天生产该产品数量在[55,75)
的人数是
频率,组距
0.040「I-----------1
0.035卜
0.030卜
0.025卜---
0.020[-----------
0.015卜
0.010[----------
5
°-°°1IIIII~~I一
°455565758595产品数量
【难度】
【解析】13;
20x(0.065x10)=13,故答案为13.
【例3】如图为某样本数据的频率分布直方图,则下列说法不正确的是()
A.[6,10)的频率为0.32
B.若样本容量为100,贝I][10,14)的频数为40
C.若样本容量为100,则(3,10]的频数为40
D.由频率分布布直方图可得出结论:估计总体大约有10%分布在[10,14)
【难度】(4)
【解析】D;
口0,14)的频率为0.1x4=0.4,因此估计总体大约有40%分布在[10,14).
【例4】为了让学生了解环保知识,增强环保意识,某中学举行了一次"环保知识竞赛",共
有900名学生参加了这次竞赛.为了解本次竞赛成绩情况,从中抽取了部分学生
的成绩(得分均为整数,满分为100分)进行统计.请你根据尚未完成并有局部
污损的频率分布表和频数分布直方图,解答下列问题:
(1)填充频率分布表的空格(将答案直接填在表格内);
⑵补全频数条形图;
(3)若成绩在75.5-85.5分的学生为二等奖,问获得二等奖的学生约为多少人?
【难度】(6)
【解析】⑴
分组频数频率
50.5~60.540.08
60.5〜70.580.16
70.5〜80.5100.20
80.5〜90.5160.32
90.5〜100.5120.24
合计501.00
(3)成绩在75.5〜80.5分的学生占70.5〜80.5分的学生的因为成绩在
10
70.5〜80.5分的学生频率为0.2,所以成绩在76.5〜80.5分的学生频率为0.1,成绩
在80.5〜85.5分的学生占80.5〜90.5分的学生的上,因为成绩在80.5〜90.5分的学
10
生频率为0.30所以成绩在80.5〜85.5分的学生频率为0.16,所以成绩在
76.5〜85.5分的学生频率为0.26,由于有900名学生参加了这次竞赛,所以该校获
得二等奖的学生约为0.26x900=234(人)
【例5】右图是某赛季甲、乙两名篮球运动员每场比赛得分的茎叶图,
甲乙
5315
368245
47932678
1457
则甲、乙两人这几场比赛得分的中位数之和是()
A.62B.63C.64D.65
【难度】(4)
【解析】C;28+36=64.
【例6】(2009年福建12)
某校开展"爱我海西、爱我家乡”摄影比赛,9位
评委为参赛作品A给出的分数如茎叶图所示,记
分员在去掉一个最高分和一个最低分后,算得平:;714
均分为91,复核员在复核时,发现有一个数字(茎
叶图中的x)无法看清.若记分员计算无误,则数字x应该是.
【难度】(6)
【解析】1:
由茎叶图可知所有评分为:88,89,89,92,93,9%,92,91,94,若x>4,去掉9x,
易知剩下的数的平均数大于91;故94为最高分,去掉88与94后,有
89+891-92-95»)+9=1>,解得x=l.
【例7】某班甲、乙两学生的高考备考成绩如下:
甲:512554528549536556534541522538
乙:515558521543532559536548527531
⑴用茎叶图表示两学生的成绩;
⑵分别求两学生成绩的中位数和平均分.
【难度】(4)
【解析】⑴两学生成绩绩的茎叶图如右所示
甲乙
2515
285217
84653261
195438
645589
⑵将甲、乙两学生的成绩从小到大排列为:
甲:512522528534536538541549554556,
乙:515521527531532536543548558559.
从以上排列可知甲学生成绩的中位数为空上空=537,
2
乙学生成绩的中位数为卫注=534.
2
甲学生成绩的平均数为:
9、12+22+28+34+36+38+41+49+54+56
500+--------------------------------------=537,
10
乙学生成绩的平均数为:
…15+21+27+31+32+36+43+48+58+59―
500+--------------------------------------=537.
10
【例8】某电脑杂志的一篇文章中,每个句子的字数如下:
10,28,31,17,23,27,18,15,26,24,20,19,36,27,14,25,15,22,11,24,27,17
翥报纸的一篇文章中,每个句子所含的字数如下:
27,39,33,24,28,19,32,41,33,27,35,12,36,41,27,13,22,23,18,46,32,22
⑴将两组数据用茎叶图表示;
⑵比较分析,能得到什么结论?
【难度】(4)
【解析】⑴茎叶图如右.
电脑杂志报纸文章
9877554102389
8777654432022347778
612233569
116
⑵电脑杂志上每个句子的字数集中在10~30之间,中位数为23;而报纸上每个句
子的字数集中在20~40之间,中位数为28.电脑杂志上每个句子的平均字数比报
纸上的平均字数
要少.说明电脑杂志作为科普读物需要简明.
板块三数字特征,独立及回归
【例1】已知一组数据孑,々,,指的方差是2,
且(占-3)2+(%-3)2++(/-3)2=380,则这组数据的平均数x=
【难度】(2)
【解析】9或-3;
依题设有(.一.)-+(吃X)-++(X|()x)2=2展开变形得
10
(X:+A?2++x3)+1Ox~—2x(X]+/++芯0)=20........
同样的,(%—3)2+(专一3)2++(4)-3)2=380,展开变形得
(x[+x;++X[:))+10x9—6•(X]+X,++XJQ)=380.......(2)
②一①并化简得了2—6元-27=0.解得了=一3或元=9.
【例2】求下列各组数据的方差与标准差(精确到0.1),并分析由这些结果可得出什么更
一般的结论.
(1)123456789;
(2)111213141516171819;
(3)24681012141618
【难度】(4)
【解析】(1)工=」(1+2++9)=5,
9
22222
5(=^(1+2++9-9x5)=y®6.7,M=楞弓2.6;
(2)=-(11+12++19)=15
-9
I20
22
]_15)2+(I2-15)++(19-15)]=y-6.7,
52=-^y-2-6:
(3)^=-(2+4++18)=10
,1,,80
s;=-[(2-10)*+(4-10)92++(18-10)2]=丁26.7,
一组数都加上相同的数后,方差不变,都乘以相同的倍数〃后,标准差变为原来的
"倍,方差变为原来的”2倍.即X,,々,,毛的方差为S,,则
%+a,/。,,X”+a的方差仍为/,
22
nxt,nx2,,町,的方差为ns.
【例3】(2009上海18)
在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模
群体感染的标志为"连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、
乙、丙、丁四地新增疑似病例数据,一定符合该标志的是()
A.甲地:总体均为3,中位数为4B.乙地:总体均值为1,总体方差大于0
C.丙地:中位数为2,众数为3D.丁地:总体均值为2,总体方差为3
【难度】⑷
【解析】D;
根据信息可知,连续10天内,每天的新增疑似病例不能有超过7的数,选项A中,
中位数为4,可能存在大于7的数;
同理,在选项C中也有可能;
选项B中,如果某天数据为10,其余9天为0,则不符合标志:
选项D中,根据公式,若有大于7的数存在,则方差至少为:[(8-2『+]》3.6.
【例4】(2008上海9)
已知总体的各个体的值由小到大依次为2,3,3,7,4,6,12,13.7,18.3,20,且总
体的中位数为10.5,若要使该总体的方差最小,则〃、〃的取值分别是.
【难度】(6)
【解析】10.5,10.5:
丝2=10.5=a+/j=21,要使方差最小,只需(a—10.5)2+3—10.5)2最小,当且
2
仅当片+加最小,显然当.=《=10.5时取到最小值.
【例5】对变量X与丫的卡方统计量/的值,说法正确的是()
A./越大,"X与y有关系”可信程度越小;
B./越小,"X与y有关系,,可信程度越小;
C./越接近0,,,x与y无关"程度越小;
D./越大,,,x与y无关"程度越大.
【难度】⑵
【解析】B
【例6】某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得
至IJ/=4.932.所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性
为多少?
【难度】(2)
【解析】因为力223.841,所以出错的可能性为5%.
【例7】下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低
于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结
论?
喝过酒没喝过酒总计
生
男77404481
生
女
16122138
计
总
93526619
【难度】(4)
【解析】提出假设”。:该周内中学生是否喝过酒与性别无关.
由列联表中的数据,算出力、1.6366,
当b°成立时,/23.841的概率约为0.05,而这里/=1.6366<3.841,
所以,不能推断出喝酒与性别有关的结论.
【例8】为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行
了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否
作出药的效果与给药方式有关的结论?
有效无效合计
口服584098
注射643195
合计12271193
【难度】(4)
5864
【解析】在口服的病人中,有一*59%的人有效;在注射的病人中,有上*67%的人有
9895
效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认
为用药效果与用药方式一定有关呢?下面用独立性检脸的方法加以说明.
提出假设“0:药的效果与给药方式没有关系.由列联表中的数据,算出
2=193x(58x31-40*64)2。j38%查表有尸(222.072)=0.15.
122x71x98x95
当儿成立时,/2I.3896的概率大于15%,这个概率比较大,所以根据目前的
调查数据,不能否定假设H。,即不能作出药的效果与给药方式有关的结论.
点评:如果观测值/2W2.706,那么就认为没有充分的证据显示两个分类变量有
关系,但也不能作出结论"儿成立",即两个变量没有关系.
【例9】(2009辽宁20)
某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在
[29.9430.0*的零件为优质品.从两个分厂生产的零件中个抽出500件,量其内
径尺寸,的结果如下表:
甲厂:
[29.86,[29.90,[29.94,[29.98,[30.02,[30.06,[30.10,
分组
29.90)29.94)29.98)30.02)30.06)30.10)30.14)
频数12638618292614
乙厂:
[29.86,[29.90,[29.94,[29.98,[30.02,[30.06,[30.10,
分组
29.90)29.94)29.98)30.02)30.06)30.10)30.14)
频数297185159766218
⑴试分别估计两个分厂生产的零件的优质品率;
⑵由于以上统计数据填下面2x2列联表,并问是否有99%的把握认为"两个分厂生
产的零件的质量有差异”.
甲厂乙厂合计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024版二手房独家授权销售合同3篇
- 2025年度出租车充电桩建设与维护合同3篇
- 二零二五年酒店宴会部经理招聘与服务质量提升合同3篇
- 二零二五版房产中介佣金结算及售后服务合同范本3篇
- 2024年船舶制造与维修合同
- 2025年新型纱窗产品研发与知识产权保护协议2篇
- 2025年散装粮食海运协议6篇
- 专业质量检测服务工程协议样本版
- 二零二五版合同部合同管理流程再造与效率提升合同3篇
- 二零二五年度消防设施安全检测与维护服务协议
- 啤酒糖化车间物料衡算与热量衡算
- 毕淑敏心理咨询手记在线阅读
- 亚硝酸钠安全标签
- pcs-985ts-x说明书国内中文版
- 小品《天宫贺岁》台词剧本手稿
- 医院患者伤口换药操作课件
- 欠薪强制执行申请书
- 矿山年中期开采重点规划
- 资源库建设项目技术规范汇编0716印刷版
- GC2级压力管道安装质量保证体系文件编写提纲
- 预应力混凝土简支小箱梁大作业计算书
评论
0/150
提交评论