版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2讲统计与统计案例
考纲展示命题探究
1抽样方法
(1)简单随机抽样的概念
设一个总体含有N个个体,从中逐个不放回地抽取个个
体作为样本,如果每次抽取时总体内的各个个体被抽到的机会都相
笠,就把这种抽样方法叫做简单随机抽样.
(2)特点与方法
(3)系统抽样的概念
当总体中的个体数较多时,可将总体分成均衡的儿个部分,然后
按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,
这种抽样方法叫做系统抽样(也称为机械抽样或等距抽样).
(4)系统抽样的特点
①适用于元素个数很多且均衡的总体.
②各个个体被抽到的机会均等.
③总体分组后,在起始部分采用的是简单随机抽样.
④如果总体容量N能被样本容量〃整除,则抽样间隔为k=%
如果总体容量N不能被样本容量n整除,可随机地从总体中剔除余
数,然后再按系统抽样的方法抽样.
(5)分层抽样的概念
在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从
各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样
本,这种抽样方法就叫做分层抽样.
(6)分层抽样的步骤
①分层:按某种特征将总体分成若干部分.
②按比例确定每层抽取个体的个数.
③各层分别按简单随机抽样或系统抽样的方法抽取个体.
④综合每层抽样,组成样本.
2用样本估计总体
(1)频率分布表与频率分布直方图
频率分布表与频率分布直方图的绘制步骤如下:
①求极差,即求一组数据中最大值与最小值的差.
②决定组距与组数.
③将数据分组.
④列频率分布表.落在各小组内的数据的个数叫做频数,每小组
的频数与数据总数的比值叫做这一小组的频率.计算各小组的频率,
列出频率分布表.
⑤画频率分布直方图.依据频率分布表画频率分布直方图,其中
纵坐标(小长方形的高)表示频率与组距的比值,其相应组距上的频率
频率
等于该组上的小长方形的面积,即每个小长方形的面积=组距X益
=频率.
这样,频率分布直方图就以面积的形式反映了数据落在各个小组
的频率的大小,各个小长方形面积的总和等于1.
(2)频率分布折线图和总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的生
点,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作频率分布直方图时所
分的组数也在增加,相应的频率分布折线图会越来越接近于一条光滑
曲线,统计中称这条光滑曲线为总体密度曲线.
(3)茎叶图
茎叶图是统计中用来表示数据的一种图,茎是指中间的一列数,
叶就是从茎的旁边生长出来的数.
对于样本数据较少,且分布较为集中的一组数据:若数据是两位
整数,则将十位数字作茎,个位数字作叶;若数据是三位整数,则将
百位、十位数字作茎,个位数字作叶.样本数据为小数时做类似处理.
对于样本数据较少,且分布较为集中的两组数据,关键是找到两
组数据共有的茎.
(4)众数、中位数、平均数
定义特点
体现了样本数据的最大集中
在一组数据中出现次数最多
众数点,不受极端值的影响,而且
的数据
不唯一
将一组数据按大小顺序依次
中位数不受极端值的影响,仅
中位排歹!J,处在最空间位置的一个
利用了排在中间数据的信息,
数数据(或最中间两个数据的平
只有一个
均数)
平均与每一个样本数据有关,只有
样本数据的算术平均数
数一个
(5)极差、标准差与方差
定义特点
反映一组数据的波动
情况,一般情况下,
极差大,则数据波动
极差一组数据中最大值与最小值的差性大;极差小,则数
据波动性小,但极差
只考虑两个极端值,
可靠性较差
反映了各个样本数据
聚集于样本平均数周
围的程度.标准差越
小,表明各个样本数
标准差是样本数据到平均数的一种平均
标准差据在样本平均数周围
距离,即5=
越集中;标准差越大,
表明各个样本数据在
样本平均数的两边越
分散
同标准差一样用来衡
标准差的平方,即$2=
量样本数据的离散程
方差
%)2+(©—%PH---------1-(%"—%)2]度,但是平方后夸大
了偏差程度
M注意点众数、平均数、中位数的关系
(1)众数、中位数与平均数都是描述一组数据集中趋势的量,平
均数是最重要的量.
(2)平均数反映的是样本个体的平均水平,众数和中位数则反映
样本中个体的“重心”.
(3)实际问题中求得的平均数、众数和中位数应带上单位.
1.思维辨析
(1)系统抽样在第1段抽样时采用简单随机抽样.()
(2)若为了适合分段或分层而剔除几个个体后再抽样,则对剔除
的个体来说是不公平的.()
(3)一组数据的平均数一定大于这组数据中的每个数据.()
(4)一组数据的方差越大,说明这组数据的波动越大.()
(5)频率分布直方图中,小矩形的面积越大,表示样本数据落在
该区间内的频率越高.()
(6)茎叶图中的数据要按从小到大的顺序写,相同的数据可以只
记一次.()
答案(1)V(2)X(3)X(4)J(5)J(6)X
2.如图是容量为150的样本的频率分布直方图,则样本数据落
在[6』0)内的频数为()
A.12B.48
C.60D.80
答案B
解析XX150=48.
3.为了检查某超市货架上的饮料是否含有塑化剂,要从编号依
次为1到50的塑料瓶装饮料中抽取5瓶进行检验,用每部分选取的
号码间隔一样的系统抽样方法确定所选取的5瓶饮料的编号可能是
()
A.5,10,15,20,25B.2,4,8,16,32
C.1,2,3,4,5D.7,17,27,37,47
答案D
解析利用系统抽样,把编号分为5段,每段10个,每段抽取
一个,号码间隔为10.
>[考法综述]高考对随机抽样的考查常以实际应用为背景考
查样本的抽取,特别是分层抽样与系统抽样的理解与计算.利用样本
频率分布估计总体分布是高考热点,会列频率分布表,会画频率分布
直方图,小题一般较容易,大题往往结合概率考查,难度中等.
命题法1抽样方法
典例1(1)已知某单位有40名职工,现要从中抽取5名职工,
将全体职工随机按1〜40编号,并按编号顺序平均分成5组.按系统
抽样方法在各组内抽取一个号码.若第1组抽出的号码为2,则所有
被抽出职工的号码为.
(2)某个年级有男生560人,女生420人,用分层抽样的方法从
该年级全体学生中抽取一个容量为280的样本,则此样本中男生人数
为•
[解析](1)由系统抽样知识知,第一组1-8号;第二组为9〜16
号;第三组为17〜24号;第四组为25〜32号;第五组为33〜40号.
第一组抽出号码为2,则依次为10,18,26,34.
(2)抽取比例为宝/黑=端=系所以样本中男生人数为
36。十42UVoU/
560Xy=160.
[答案](1)2,10,18,26,34(2)160
Q【解题法】三种抽样方法的比较
类别共同点各自特点相互联系适用范围
简单随机抽样是不放回从总体中逐个—总体中的个
抽样,抽样抽取数较少
过程中,每将总体均分成
个个体被几部分,按事在起始部分抽
总体中的个
系统抽样抽到的机先确定的规样时,采用简
数比较多
会(概率)相则,在各部分单随机抽样
等抽取
各层抽样时,
将总体分成儿总体由差异
采用简单随机
分层抽样层,分层进行明显的几部
抽样或者系统
抽取分组成
抽样
命题法2用样本估计总体
典例2(1)某校100名学生期中考试语文成绩的频率分布直方
图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),
[90J00J.
①求图中a的值;
②根据频率分布直方图,估计这100名学生语文成绩的平均分;
③若这100名学生语文成绩某些分数段的人数(%)与数学成绩相
应分数段的人数⑼之比如下表所示,求数学成绩在[50,90)之外的人
数.
分数段[50,60)[60,70)[70,80)[80,90)
x:y1:12:13:44:5
(2)为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,
随机地选取20位患者服用A药,20位患者服用3药,这40位患者
在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试
验的观测结果如下:
服用A药的20位患者日平均增加的睡眠时间:
服用B药的20位患者日平均增加的睡眠时间:
①分别计算两组数据的平均数,从计算结果看,哪种药的疗效更
好?
②根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更
好?
[解](1)①由频率分布直方图可知:
(2。义10=1,所以Q
②根据频率分布直方图,估计这100名学生语文成绩的平均分为
55XXXXX
③根据频率分布直方图及表中数据得:
分数段xy
[50,60)55
[60,70)4020
[70,80)3040
[80,90)2025
二.数学成绩在[50,90)之外的人数为100—5—20—40—25=10.
(2)①设A药观测数据的平均数为%,B药观测数据的平均数为
),
由观测结果可得
___1_
%=20
1
y=而
由以上计算结果可知:x>y,由此可看出A药的疗效更好.
②由观测结果可绘制如下茎叶图:
从以上茎叶图可以看出,A药疗效的试验结果有云的叶集中在
7
“2.”,“3.”上,而3药疗效的试验结果有正的叶集中在“0.”,“1.”上,
由此可看出A药的疗效更好.
Q【解题法】用样本估计总体的解题策略
(1)用样本估计总体时,样本的平均数、标准差只是总体的平均
数、标准差的近似.实际应用中,当所得数据平均数不相等时,需先
分析平均水平,再计算标准差(方差)分析稳定情况.
(2)若给出图形,一方面可以由图形得到相应的样本数据,再计
算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据
的分布情况,大致判断平均数的范围,并利用数据的波动性大小反映
方差(标准差)的大小.
1.根据下面给出的2004年至2013年我国二氧化硫年排放量(单
位:万吨)柱形图,以下结论中不正确的是()
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
答案D
解析根据柱形图可观察两个变量的相关性,易知A、B、C正
确,2006年以来我国二氧化硫年排放量与年份负相关,选项D错误.故
选D.
2.若样本数据%1,必,…,%io的标准差为8,则数据2乃一1,2%2
—1,…,2xio-1的标准差为()
A.8B.15
C.16D.32
答案C
解析由标准差的性质知,2为一1,2应一1,…2x1()—1的标准差为
2X8=16,故选C.
3.重庆市2013年各月的平均气温(C)数据的茎叶图如下:
则这组数据的中位数是()
A.19B.20
D.23
答案B
解析根据茎叶图及中位数的概念,由茎叶图知,该组数据的中
位数为2=2。故选B
4.我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓
收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254
粒内夹谷28粒,则这批米内夹谷约为()
A.134石B.169石
C.338石D.1365石
答案B
解析根据样本估计总体,可得这批米内夹谷约为瞪
X1534心169石.故选B.
5.某中学初中部共有110名教师,高中部共有150名教师,其
性别比例如图所示,则该校女教师的人数为()
A.167B.137
C.123D.93
答案B
解析初中部女教师的人数为110X70%=77,高中部女教师的
人数为150X(1—60%)=60,则该校女教师的人数为77+60=137,
故选B.
6.对一个容量为N的总体抽取容量为〃的样本,当选取简单随
机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个
个体被抽中的概率分别为PI,〃2,而,贝1」()
A.P1=P2Vp3B.P2=P3<〃]
C.P1=P3Vp2D.P1=〃2=P3
答案D
解析由随机抽样定义可知,每个个体成为样本的概率相等,故
选D.
7.为了研究某药品的疗效,选取若干名志愿者进行临床试验.所
有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),
[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,
第二组,……,第五组.如图是根据试验数据制成的频率分布直方
图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,
则第三组中有疗效的人数为()
A.6B.8
C.12D.18
答案C
解析设样本容量为小
XlXn=20,解得"=50.
X1X5O=18.
因为第三组中没有疗效的有6人,所以第三组中有疗效的人数为
18-6=12.
8.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎
叶图如图所示.
若将运动员按成绩由好到差编为1〜35号,再用系统抽样方法从
中抽取7人,则其中成绩在区间[139,151]上的运动员人数是
答案4
解析由系统抽样方法知,应把35人分成7组,每组5人,每
组按规则抽取1人,因为成绩在区间[139,151]上的共有4组,故成绩
在区间[139,151]上的运动员人数是4.
9.为了了解一片经济林的生长情况,随机抽测了其中60株树木
的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布
直方图如图所示,则在抽测的60株树木中,有株树木的底
部周长小于100cm.
答案24
解析60XX10=24.
10.某公司为了解用户对其产品的满意度,从A,B两地区分别
随机调查了40个用户,根据用户对产品的满意度评分,得到A地区
用户满意度评分的频率分布直方图和B地区用户满意度评分的频数
分布表.
A地区用户满意度评分的频率分布直方图
B地区用户满意度评分的频数分布表
满意度
[50,60)[60,70)[70,80)[80,90)[90,100]
评分分组
频数2814106
(1)在图中作出B地区用户满意度评分的频率分布直方图,并通
过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出
具体值,给出结论即可);
B地区用户满意度评分的频率分布直方图
⑵根据用户满意度评分,将用户的满意度分为三个等级:
满意度评分低于70分70分到89分不低于90分
满意度等级不满意满意非常满意
估计哪个地区用户的满意度等级为不满意的概率大?说明理由.
解⑴
通过两地区用户满意度评分的频率分布直方图可以看出,B地区
用户满意度评分的平均值高于A地区用户满意度评分的平均值;B
地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.
(2)A地区用户的满意度等级为不满意的概率大.
记CA表示事件:“A地区用户的满意度等级为不满意”;CB表
示事件:“B地区用户的满意度等级为不满意”.
由频率分布直方图得尸(CAX
尸(CBX
所以A地区用户的满意度等级为不满意的概率大.
11.某工厂36名工人的年龄数据如下表:
工人编号年龄工人编号年龄工人编号年龄工人编号年龄
140103619272834
244113120432939
340123821413043
441133922373138
533144323343242
640154524423353
745163925373437
842173826443549
943183627423639
(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一
分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据;
⑵计算⑴中样本的均值%和方差U;
(3)36名工人中年龄在%—s与%+s
解(1)由系统抽样的知识可知,36人分成9组,每组4人,其
中第一组的工人年龄为44,所以其编号为2,故所有样本数据的编号
为4〃—2,八=1,2,…,9.其数据为:44,40,36,43,36,37,44,43,37.
—44+40H——1-37
⑵%==40.
9
由方差公式知,§2=1[(44-40)2+(40-40)2H——F(37—40)2]=
100
~9~-
(3)因为S2=喈,所以$=学£(3,4),
所以36名工人中年龄在%—s和%+s之间的人数等于在区间
[37,43]内的人数,
即40,40,41,…,39,共23人.
所以36名工人中年龄在三一s和工+s之间的人数所占的百分比
.23
为十
12.某城市100户居民的月平均用电量(单位:度),以[160,180),
[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分
组的频率分布直方图如图所示.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]
的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量
在[220,240)的用户中应抽取多少户?
解(1)依题意,20Xxx
(2)由题图可知,最高矩形的数据组为[220,240),
220+240
众数为=230.
*/X
...依题意,设中位数为y,
,y-220)X
解得y=224,
.,•中位数为224.
(3)月平均用电量在[220,240)的用户在四组用户中所占比例沏=
5
TT
.•.月平均用电量在[220,240)的用户中应抽取11X亮=5(户).
13.某校高三共有900名学生,高三模拟考之后,为了了解学生
学习情况,用分层抽样方法从中抽出若干学生此次数学成绩,按成绩
分组,制成如下的频率分布表:
第一第二第三第四第五第六第七第八
组号
组组组组组组组组
合计
[70,8[80,9[90,1[100,[110,[120,[130,[140,
分组
0)0)00)110)120)130)140)150)
频数64222018a105C
频率b1
⑴确定表中。,h,c的值;
(2)为了了解数学成绩在120分以上的学生的心理状态,现决定
在第六、七、八组中用分层抽样方法抽取6名学生,在这6名学生中
又再随机抽取2名与心理老师面谈,求第七组中至少有一名学生被抽
到与心理老师面谈的概率;
(3)估计该校本次考试的数学平均分.
解(1)因为频率和为1,所以人
因为频率=频数/样本容量,所以c=100,。=15.
(2)第六、七、八组共有30个样本,用分层抽样方法抽取6名学
生,每个被抽取的概率均为第七组被抽取的样本数为10=2,
将第六组、第八组抽取的样本分别用A,B,C,£>表示,第七组抽出
的样本用E,尸表示.
抽取2个的方法有A3、AC、AD,AE,AF,BC、BD、BE、BF、
CD、CE、CF、DE、DF、EF,共15种.
3
其中至少含石或尸的取法有9种,则所求概率为]
(3)估计平均分为75XXXXXXXX
1回归分析
(1)变量间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两
个变量之间的关系叫做相关关系.即相关关系是一种非确定性关系.
当一个变量的值由小变大时,另一个变量的值也由小变大,则这
两个变量正相关;
当一个变量的值由小变大时,而另一个变量的值由大变小,则这
两个变量负相关.
(2)散点图
将样本中的〃个数据点(为,%)(/=1,2,…,〃)描在平面直角坐标
系中,所得图形叫做散点图.
具有正相关关系的两个变量的散点图如图⑴所示,
具有负相关关系的两个变量的散点图如图(2)所示.
(3)两个变量的线性相关
如果散点图中点的分布从整体上看大致在一条直线附近,则这两
个变量之间具有线性相关关系,这条直线叫做回归直线.回归直线对
应的方程叫做回归直线方程(简称回归方程).
(4)回归方程的求解
求回归方程的方法是最小二乘法,即使得样本数据的点到回归直
线的距离的平方和最小.
若变量%与y具有线性相关关系,有n个样本数据(如力)(i=
n
AAAA£(%L7)(%-7)
:―1
1,2,…,n),则回归方程y=+。中b=------7,-----------------=
S(x—x)2
£孙一〃xy
vyAAnn
)—]———]—]——,
—,a=y—.其中%=[工为,y(%,y)称为
Y.Xj—nx2/=1/=I
i=\
样本点的中心.
(5)相关系数
我们可以利用相关系数来定量地衡量两个变量之间的线性相关
n
X(为一%)8-y)
关系,计算公式为厂=——〃,IrlWL
\£(X-%)2£(y-y)2
\1/=1;=1
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相
关.
一越接近于1,表明两个变量的线性相关性越强;
片越接近于0,表明两个变量之间几乎不存在线性相关关系.
通常,当上时,我们认为两个变量之间存在着很强的线性相关关
2独立性检验
⑴2X2列联表
设x,y为两个变量,它们的取值分别为{为,愈}和{%,及},其
样本频数列联表(2X2列联表)如下:
乃总计
X1aha~\~b
%2Cdc~\~d
总计a~\~cb~\~d
(2)独立性检验
利用随机变量蜉(也可表示为一)=/小黑]八
(其中〃=a+b+c+d为样本容量)来判断“两个变量有关系”的
方法称为独立性检验.
(3)独立性检验的一般步骤
①根据样本数据列出2义2列联表;
②计算随机变量Y的观测值%,查下表确定临界值攵0:
心)
^0
P(心2心)
ko
③如果%2心,就推断“X与丫有关系”,这种推断犯错误的概
率不超过尸(心2女0);否则,就认为在犯错误的概率不超过尸(R2⑹
的前提下不能推断“X与丫有关系”.
解)注意点对独立性检验的理解
(1)通常认为kW“X与丫有关系”.
(2)独立性检验得出的结论是带有概率性质的,只能说结论成立
的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表.在
分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就
可能对统计计算的结果作出错误的解释.
1.思维辨析
(1)相关关系的两个变量是非确定关系.()
(2)散点图中的点越集中,两个变量的线性相关性越强.()
(3)对于分类变量X与匕它们的随机变量K2的观测值越小.“X
与丫有关联”的把握程度越大.()
(4)“名师出高徒”可以解释为教师的教学水平与学生的水平成
正相关关系.()
(5)只有两个变量有相关关系,所得到的回归模型才有预测价
值.()
答案(1)7(2)X(3)X(4)V(5)V
AA
A.yx+4B.y%+5
AA
C.y%D.yx
答案C
解析因为回归直线方程必过样本点的中心(最,7),将点(4,5)
代入A,B,C,D检验可知,选项C正确.
3.某高校教“统计初步”课程的教师随机调查了选该课程的一
些学生的情况,具体数据如下表:
专业
非统计专业统计专业
性另
男1310
女720
为了判断主修统计专业是否与性别有关系,根据表中的数据,得
小八sle,+50X(13X20—10X7)2
至UK2的观测值k=心
乙3Az/AZUAJU
因为k
答案5%
解析,:
命题法1回归分析
典例1假设关于某设备的使用年限了(年)和所支出的维修费
用y(万元),有如下表的统计资料:
使用年限双年)23456
维修费用y(万元)
若由资料可知y对1呈线性相关关系,试求:
(1)线性回归直线方程;
(2)根据回归直线方程,估计使用年限为12年时,维修费用是多
少?
[解]⑴列表
i12345合计
Xi2345620
25
孙
Xi4916253690
x—4,y=5;
55
E焉=90;Exiyi
i-1i=\
5
A工孙「5%y
Ij=]
h=---------二错误!
X%?—5x2
(=1
A——A——
于是a=y—bxX
A
所以线性回归直线方程为y%
A
(2)当x=12时,yX
Q【解题法】求线性回归直线方程的步骤
(1)用散点图或进行相关性检验判断两个变量是否具有线性相关
关系.
nnn
(2)列表求出%,y,X忌,Xyj,Ex,y(可用计算器进行计算).
z=li=li=l
n___
y__
A^Xiy-nxAA
i=1
(3)利用公式Z?=-------二一,a=y-b%求得回归系数.
Y.x1—nx2
(4)写出回归直线方程.
命题法2独立性检验
典例2某工厂有25周岁以上(含25周岁)工人300名,25周岁
以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采
用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日
平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25
周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:
[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图
所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,
求至少抽到一名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根
据已知条件完成2X2列联表,并判断是否有90%的把握认为“生产
能手与工人所在的年龄组有关”?
n\+ri2+n+\n+2
尸
k
、、,一一八n(ad-bcY
(汪:此公式也可"与成/^=(a+h)(c+d)(a+c)(b+d))
[解](1)由已知得,样本中有25周岁以上组工人60名,25周岁
以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,
25周岁以上组工人有60XAHA2,A3;25周岁以下组工人有40X8,
Bi.
从中随机抽取2名工人,所有的可能结果共有10种,它们是:
(4,A2),(A|,A3),(A2,A3),(Ai,B\,),(A),82),(A2,8),(A2,
&),(A3,Bi),(A3,B2),(Bi,&).
其中,至少有1名“25周岁以下组”工人的可能结果共有7种,
它们是:(Ai,Bi),(Ai,昆),(A2,BI),(A2,&),(A3,Bi),(4,Bi),
7
(Bi,Bi),故所求的概率尸=正.
(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁
以上组”中的生产能手60X“25周岁以下组”中的生产能手
40XX2歹1联表如下:
生产能手非生产能手合计
25周岁以上组154560
25周岁以下组152540
合计3070100
所以将肥(q+8)(c+的(a+c)S+t/)
100X(15X25—15X45)225_
二60X40X30X70=瓦心
所以没有90%的把握认为“生产能手与工人所在的年龄组有
关”.
Q【解题法】解决独立性检验问题的方法
首先要根据题目条件列出两个变量的2义2列联表,通过计算随
机变量Y的观测值攵,依据临界值与犯错误的概率得出结论.注意观
测值的临界值与概率间的对应关系.
1.为了解某社区居民的家庭年收入与年支出的关系,随机调查了
该社区5户家庭,得到如下统计数据表:
收入了(万元)
支出y(万元)
AAAAAA
根据上表可得回归直线方程y="+a,其中加=亍一兀^据此估
计,该社区一户年收入为15万元家庭的年支出为()
B
D
答案B
AAAA
解析•.二亍儿入义...回归方程为y%%=15代入上式得,yX
2.根据如下样本数据:
X345678
y
得到的回归方程为y=Zzx+a,则()
A.<7>0,h>0B.a>0,b<0
C.a<0,h>QD.a<0,h<Q
答案B
解析由样本数据可知y值总体上是随%值的增大而减少的.故
b<0,又回归直线过第一象限,故纵截距〃>0.故选B.
3.已知变量x与y正相关,且由观测数据算得样本平均数7=3,
y
AA
A.yxB,y=2x
AA
C.y=—2xD.yx
答案A
解析由变量%与y正相关,可知%的系数为正,排除C、D.而
所有的回归直线必经过点(二,7),由此排除B,故选A.
4.某公司为确定下一年度投入某种产品的宣传费,需了解年宣
传费%(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的
影响.对近8年的年宣传费汨和年销售量%"=1,2,…,8)数据作了
初步处理,得到下面的散点图及一些统计量的值.
L—18
表中Wi=q%w=gSw/.
i=\
(1)根据散点图判断,y=a+"x与y=c+*哪一个适宜作为年销
售量y关于年宣传费%的回归方程类型?(给出判断即可,不必说明
理由)
(2)根据⑴的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与i,y的关系为zy—x.根据(2)的结
果回答下列问题:
①年宣传费%=49时,年销售量及年利润的预报值是多少?
②年宣传费%为何值时,年利润的预报值最大?
附:对于一组数据(如,01),(M2,02),…,(〃",Vn),其回归直线
片a+例的斜率和截距的最小二乘估计分别为
n
AX(出一〃)(心一。)人A
_-o-
p—n9ct—v-pU.
£(u-u)2
/=i
解(1)由散点图可以判断,y=c+*适宜作为年销售量y关于
年宣传费]的回归方程类型.
(2)令w=&先建立y关于"的线性回归方程.由于
8
AX(到一)8-y)
i—1
d=s=,=68,
£(w—w)2
i=\
AA
c=y—dw=563—68X
A
所以y关于讪的线性回归方程为因此y关于x的回归方程
A
为八艮
(3)①由⑵知,当%=49时,年销售量y的预报值
年利润z的预报值
A
zX
②根据(2)的结果知,年利润z的预报值
A
zy/x)—x=x\fx
A
所以当日=⑵%z取得最大值.
5.某地区2007年至2013年农村居民家庭人均纯收入y(单位:
千元)的数据如下表:
年份2007200820092010201120122013
年份
1234567
代号/
人均
纯收
入y
(1)求y关于r的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居
民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭
人均纯收入.
A
附:回归直线的斜率和截距的最小二乘估计公式分别为:b=
E(。一t)8-y)
i=I八—八
,ci=y-bt.
E(ti-t)2
解(i)由所给数据计算得
t=;(l+2+3+4+5+6+7)=4,
-1
y=i
7-
Z(6—,/=9+4+1+0+1+4+9=28,
i=[
7__
t)8—y)=(-3)XX(-l)+(-l)XXXXX
i=l
7__
Ax(L,)8—y)A_A_
._i=\_______________14_
b-7―=28'"=>—btX
X(t—t)2
所求回归方程为以
A
(2)由⑴知,b
A
将2015年的年份代号t=9代入(1)中的回归方程,得yX
6.2014年7月18日15时,超强台风“威马逊”
(1)根据频率分布直方图估计小区每户居民的平均损失;
(2)台风后区委会号召小区居民为台风重灾区捐款,小明调查的
50户居民捐款情况如上表,在表格空白处填写正确数字,并说明是
否有95%以上的把握认为捐款数额是否多于或少于500元和自身经
济损失是否到4000兀有关?
附:临界值表
ko
P(心8晶)
夕””式.K2(Q+A)(C+的(a+c)(b+t/)'
解(1)记每户居民的平均损失为%元,贝U:
x=(1000XXXXXX2000=3360.
(2)如下表:
,50X(30X6-9X5)2_
K~=39X11X35X15
所以有95%以上的把握认为捐款数额是否多于或少于500元和
自身经济损失是否到4000元有关.
7.气象部门提供了某地区今年六月份(30天)的日最高气温的统
计表如下:
日最高气温r
W2222<W2828VW32t>32
(单位:℃)
天数612YZ
由于工作疏忽,统计表被墨水污染,V和Z数据不清楚,但气象
部门提供的资料显示,六月份的日最高气温不高于32℃
(1)若把频率看作概率,求匕Z的值;
(2)把日最高气温高于32℃称为本地区的“高温天气”,根据已
知条件完成下面2义2列联表,并据此推测是否有95%的把握认为本
地区的“高温天气”与西瓜“旺销”有关?说明理由.
高温天气非高温天气合计
旺销1
不旺销6
合计
niad-bc^-
(a+b)(c-\~d)(a+c)(。+⑶
P(烂2人)
k
解(1)由已知得:PQW
由概率知识得:P(/>32)=1-P«W
;.Z=30X
y=30-(6+12+3)=9.
(2)由独立性检验知识得到如下2X2列联表:
高温天气非高温天气合计
旺销12122
不旺销268
合计32730
_____n(ad-be?____
(a+0)(c+d)(a+c)(b+d)
30X(1X6-2621)2_
:22X8X3X27—仁
...二.没有95%的把握认为本地区的“高温天气”与西瓜“旺
销”有关.
起从某小区抽取100户居民进行月用电量调查,发现其用电量都
在50至350度之间,频率分布直方图如图所示.
(1)直方图中%的值为;
(2)在这些用户中,用电量落在区间[100,250)内的户数为
[错解]
[错因分析]在频率分布直方图中,小矩形的面积表示频率,纵
频率
坐标表示高/值而出错,X
[正解]Xx=,50)
(2)VX
X100=70.
[答案]
[心得体会]
[醵课时撬分练
时间:60分钟
基础组
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院电梯合同模板
- 外包公司培训合同模板
- 医疗服务收费合同模板
- 公司资产转让合同协议书(8篇)
- 范例模式约束下的数据集成
- 反向投影在医疗成像中的应用
- 字串串数据挖掘在金融领域的应用
- 维生素D对卵巢储备的影响
- 疫情冲击下货币政策的非常规操作
- 医疗设备远程运维安全风险管控
- 二氧化硫 教学设计 高一下学期化学人教版(2019)必修第二册
- 2023-2024学年大同市八年级语文上学期期中考试卷附答案解析
- 第2章 实数 单元测试2024-2025学年北师大版八年级数学上册
- 盛世华诞荣耀中华建国75周年宣传
- Unit 2Im going to study computer science 教学设计2023-2024学年英语鲁教版(五四学制)七年级下册(烟台专版)
- 2024年度中国电建集团北京勘测设计研究院限公司校园招聘高频考题难、易错点模拟试题(共500题)附带答案详解
- 2024年6月高考地理真题完全解读(浙江省)
- 《食品保质期的研究》(教学设计)四年级上册科学大象版
- 二年级数学上册苏教版第一单元《100以内的加法和减法(三)》说课稿
- 《SQL Server数据库应用案例教程2019》全套教学课件
- 徐州工业职业技术学院2024年教师招聘招聘历年(高频重点提升专题训练)共500题附带答案详解
评论
0/150
提交评论