数学(文)一轮教学案第十一章第2讲统计与统计案例_第1页
数学(文)一轮教学案第十一章第2讲统计与统计案例_第2页
数学(文)一轮教学案第十一章第2讲统计与统计案例_第3页
数学(文)一轮教学案第十一章第2讲统计与统计案例_第4页
数学(文)一轮教学案第十一章第2讲统计与统计案例_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2讲统计与统计案例

考纲展示命题探究

考点展示考纲要求高考命题探究

(1)随机抽样

[理解随机油样的必要性和重要性.2会用简单随机抽样方法从总体中抽取样本;了解

分层抽样和系统曲样方法.

(2)用样本估计总体1.内容探究:系统抽样、

抽样方法与总体分①了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶分层抽样的方法,解决

布的估计图,理解它们各自的特点.②理解样本数据标准差的意义和作用,会计算数据标准差.抽取样本的相关系数问

难从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释.题,频率分布直方图的

④会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字相关计算(求频率、频

特征,理解用样本估计总体的思想.⑤会用随机油样的基本方法和样本估计总体的思想数等),样本数据的数

解决一些简单的实际问题.字特征(平均数、方差、

标准差),散点图与相

(1)变量间的相关关系

关关系,线性回归方程

D会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.②了解

与独立性检验在实际生

最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.

活中的应用.

(2)统计案例

.形式探究:本讲内容

变量间的相关关系、了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.2

统计案例高考中以选择题或解答

£独立性检验

题形式出现.

了解独立性检验(只要求2x2列联表)的基本思想、方法及其简单应用.

刎归分析

了解回归分析的基本思想、方法及其筒单应用.

。剧考点一抽样方法与总体分布的估计

避房基础点重难点

1抽样方法

(1)简单随机抽样的概念

设一个总体含有N个个体,从中逐个不放回地抽取〃(八WN)个个

体作为样本,如果每次抽取时总体内的各个个体被抽到的机会都相

笠,就把这种抽样方法叫做简单随机抽样.

(2)特点与方法

抽取的个体数较小

简单随机抽逐个抽取

简样的特点

单是不放回抽取

抽是等可能抽取

简单随机抽抽签法

样的方法

随机数法

(3)系统抽样的概念

当总体中的个体数较多时,可将总体分成均衡的几个部分,然后

按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,

这种抽样方法叫做系统抽样(也称为机械抽样或等距抽样).

(4)系统抽样的特点

①适用于元素个数很多且均衡的总体.

②各个个体被抽到的机会均等.

③总体分组后,在起始部分采用的是简单随机抽样.

④如果总体容量N能被样本容量n整除,则抽样间隔为左=,

如果总体容量N不能被样本容量n整除,可随机地从总体中剔除余

数,然后再按系统抽样的方法抽样.

(5)分层抽样的概念

在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从

各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样

本,这种抽样方法就叫做分层抽样.

(6)分层抽样的步骤

①分层:按某种特征将总体分成若干部分.

②按比例确定每层抽取个体的个数.

③各层分别按简单随机抽样或系统抽样的方法抽取个体.

④综合每层抽样,组成样本.

2用样本估计总体

(1)频率分布表与频率分布直方图

频率分布表与频率分布直方图的绘制步骤如下:

①求极差,即求一组数据中最大值与最小值的差.

②决定组距与组数.

③将数据分组.

④列频率分布表.落在各小组内的数据的个数叫做频数,每小组

的频数与数据总数的比值叫做这一小组的频率.计算各小组的频率,

列出频率分布表.

⑤画频率分布直方图.依据频率分布表画频率分布直方图,其中

纵坐标(小长方形的高)表示频率与组距的比值,其相应组距上的频率

频率

等于该组上的小长方形的面积,即每个小长方形的面积=组距X篇

=频率.

这样,频率分布直方图就以面积的形式反映了数据落在各个小组

的频率的大小,各个小长方形面积的总和等于1.

(2)频率分布折线图和总体密度曲线

①频率分布折线图:连接频率分布直方图中各小长方形上端的史

点,就得到频率分布折线图.

②总体密度曲线:随着样本容量的增加,作频率分布直方图时所

分的组数也在增加,相应的频率分布折线图会越来越接近于一条光滑

曲线,统计中称这条光滑曲线为总体密度曲线.

(3)茎叶图

茎叶图是统计中用来表示数据的一种图,茎是指中间的一列数,

叶就是从茎的旁边生长出来的数.

对于样本数据较少,且分布较为集中的一组数据:若数据是两位

整数,则将十位数字作茎,个位数字作叶;若数据是三位整数,则将

百位、十位数字作茎,个位数字作叶.样本数据为小数时做类似处理.

对于样本数据较少,且分布较为集中的两组数据,关键是找到两

组数据共有的茎.

(4)众数、中位数、平均数

定义特点

体现了样本数据的最大集中

在一组数据中出现次数最多

众数点,不受极端值的影响,而且

的数据

不唯一

将一组数据按大小顺序依次

中位数不受极端值的影响,仅

中位排列,处在最中间位置的一个

利用了排在中间数据的信息,

数数据(或最中间两个数据的平

只有一个

均数)

平均与每一个样本数据有关,只有

样本数据的算术平均数

数一个

(5)极差、标准差与方差

定义特点

反映一组数据的波动

情况,一般情况下,

极差大,则数据波动

极差一组数据中最大值与最小值的差性大;极差小,则数

据波动性小,但极差

只考虑两个极端值,

可靠性较差

反映了各个样本数据

标准差是样本数据到平均数的一种平均

聚集于样本平均数周

是巨离,即5=

标准差围的程度.标准差越

-X)2+(%2-%)2+…+(%"-X)2小,表明各个样本数

据在样本平均数周围

越集中;标准差越大,

表明各个样本数据在

样本平均数的两边越

分散

同标准差一样用来衡

标准差的平方,即=

♦量样本数据的离散程

方差1————

­[(xi—x)2+(%2-x)2H------x)2]度,但是平方后夸大

了偏差程度

市》注意点众数、平均数、中位数的关系

(1)众数、中位数与平均数都是描述一组数据集中趋势的量,平

均数是最重要的量.

(2)平均数反映的是样本个体的平均水平,众数和中位数则反映

样本中个体的“重心”.

(3)实际问题中求得的平均数、众数和中位数应带上单位.

SB小题快做:

1.思维辨析

(1)系统抽样在第1段抽样时采用简单随机抽样.()

(2)若为了适合分段或分层而剔除几个个体后再抽样,则对剔除

的个体来说是不公平的.()

(3)一组数据的平均数一定大于这组数据中的每个数据.()

(4)一组数据的方差越大,说明这组数据的波动越大.()

(5)频率分布直方图中,小矩形的面积越大,表示样本数据落在

该区间内的频率越[Wj.()

(6)茎叶图中的数据要按从小到大的顺序写,相同的数据可以只

记一次.()

答案(1)V(2)X(3)X(4)V(5)V(6)X

2.如图是容量为150的样本的频率分布直方图,则样本数据落

在[6,10)内的频数为()

C.60D.80

答案B

解析XX150=48.

3.为了检查某超市货架上的饮料是否含有塑化剂,要从编号依

次为1到50的塑料瓶装饮料中抽取5瓶进行检验,用每部分选取的

号码间隔一样的系统抽样方法确定所选取的5瓶饮料的编号可能是

()

A.5,10,15,20,25B.2,4,8,16,32

C.1,2,3,4,5D.7,17,27,37,47

答案D

解析利用系统抽样,把编号分为5段,每段10个,每段抽取

一个,号码间隔为10.

播法命题法解题法

於[考法综述]高考对随机抽样的考查常以实际应用为背景考

查样本的抽取,特别是分层抽样与系统抽样的理解与计算.利用样本

频率分布估计总体分布是高考热点,会列频率分布表,会画频率分布

直方图,小题一般较容易,大题往往结合概率考查,难度中等.

命题法1抽样方法

典例1(1)已知某单位有40名职工,现要从中抽取5名职工,

将全体职工随机按1〜40编号,并按编号顺序平均分成5组.按系统

抽样方法在各组内抽取一个号码.若第1组抽出的号码为2,则所有

被抽出职工的号码为.

(2)某个年级有男生560人,女生420人,用分层抽样的方法从

该年级全体学生中抽取一个容量为280的样本,则此样本中男生人数

为.

[解析](1)由系统抽样知识知,第一组1〜8号;第二组为9〜16

号;第三组为17〜24号;第四组为25〜32号;第五组为33〜40号.

第一组抽出号码为2,则依次为10,18,26,34.

()抽取比例为=郎所以样本中男生人数为

25"6在0+4鼠20=9oU/

560x1=160.

[答案](1)2,10,18,26,34(2)160

9【解题法】三种抽样方法的比较

类别共同点各自特点相互联系适用范围

从总体中逐个总体中的个

简单随机抽样—

抽取数较少

是不放回将总体均分成

抽样,抽样几部分,按事在起始部分抽

总体中的个

系统抽样过程中,每先确定的规样时,采用简

数比较多

个个体被则,在各部分单随机抽样

抽到的机抽取

会(概率)相各层抽样时,

将总体分成几总体由差异

等采用简单随机

分层抽样层,分层进行明显的几部

抽样或者系统

抽取分组成

抽样

命题法2用样本估计总体

典例2(1)某校100名学生期中考试语文成绩的频率分布直方

图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),

[90,100].

①求图中。的值;

②根据频率分布直方图,估计这100名学生语文成绩的平均分;

③若这100名学生语文成绩某些分数段的人数⑴与数学成绩相

应分数段的人数(y)之比如下表所示,求数学成绩在[50,90)之外的人

数.

分数段[50,60)[60,70)[70,80)[80,90)

%:y1:12:13:44:5

(2)为了比较两种治疗失眠症的药(分别称为A药,5药)的疗效,

随机地选取20位患者服用4药,20位患者服用5药,这40位患者

在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试

验的观测结果如下:

服用A药的20位患者日平均增加的睡眠时间:

服用B药的20位患者日平均增加的睡眠时间:

①分别计算两组数据的平均数,从计算结果看,哪种药的疗效更

好?

②根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更

好?

_____________

0.

1.

2.

3.

[解](1)①由频率分布直方图可知:

(2^+0.04+0.03+0.02)X10=1,所以a=0.005.

②根据频率分布直方图,估计这100名学生语文成绩的平均分为

55X0.05+65X0.4+75X0.3+85X0.2+95X0.05=2.75+26+22.5

+17+4.75=73(分).

③根据频率分布直方图及表中数据得:

分数段Xy

[50,60)55

[60,70)4020

[70,80)3040

[80,90)2025

二•数学成绩在[50,90)之外的人数为100—5—20—40—25=10.

(2)①设A药观测数据的平均数为x,B药观测数据的平均数为

y,

由观测结果可得

x=/(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5

+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,

y=^(0.5+0.5+0.6+0.8+0.9+l.l+1.2+1.2+1.3+1.4+1.6

+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.

由以上计算结果可知:%>y,由此可看出A药的疗效更好.

②由观测结果可绘制如下茎叶图:

A药B药

60.55689

855221.122346789

98776543322.14567

52103.2

7

从以上茎叶图可以看出,A药疗效的试验结果有右的叶集中在

7

“2.”,“3.”上,而5药疗效的试验结果有正的叶集中在“0.”,“1.”上,

由此可看出A药的疗效更好.

Q【解题法】用样本估计总体的解题策略

(1)用样本估计总体时,样本的平均数、标准差只是总体的平均

数、标准差的近似.实际应用中,当所得数据平均数不相等时,需先

分析平均水平,再计算标准差(方差)分析稳定情况.

(2)若给出图形,一方面可以由图形得到相应的样本数据,再计

算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据

的分布情况,大致判断平均数的范围,并利用数据的波动性大小反映

方差(标准差)的大小.

健题对点题必刷题

1.根据下面给出的2004年至2013年我国二氧化硫年排放量(单

位:万吨)柱形图,以下结论中不正确的是()

2700--------------------------------------------------------------------------------------------------

2600..........................pq................................................................................................

2500......................................=...................................................................................

2400..........................'.....................................................................................................

2300..................................................尸..............................

2200...................................................—…r77]…一■—[•…厂.............

2100.........................s..........................................................................尸|.......

2000

19。°2004年2005年2006年2007年2008年2009年2010年2011年2012年2013年

A.逐年比较,2008年减少二氧化硫排放量的效果最显著

B.2007年我国治理二氧化硫排放显现成效

C.2006年以来我国二氧化硫年排放量呈减少趋势

D.2006年以来我国二氧化硫年排放量与年份正相关

答案D

解析根据柱形图可观察两个变量的相关性,易知A、B、C正

确,2006年以来我国二氧化硫年排放量与年份负相关,选项D错误.故

选D.

2.若样本数据内,%2,…,X10的标准差为8,则数据2%1—1,2%2

—1,…,2xio-1的标准差为()

A.8B.15

C.16D.32

答案C

解析由标准差的性质知,2用一1,2%2—1,…2%i()—1的标准差为

2X8=16,故选C.

3.重庆市2013年各月的平均气温(℃)数据的茎叶图如下:

338

则这组数据的中位数是(

19

21.5

答案B

解析根据茎叶图及中位数的概念,由茎叶图知,该组数据的中

20+20

位数为=20.故选B.

4.我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓

收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254

粒内夹谷28粒,则这批米内夹谷约为()

A.134石B.169石

C.338石D.1365石

答案B

解析根据样本估计总体,可得这批米内夹谷约为急

乙JI

X1534七169石.故选B.

5.某中学初中部共有110名教师,高中部共有150名教师,其

性别比例如图所示,则该校女教师的人数为()

A.167B.137

C.123D.93

答案B

解析初中部女教师的人数为110X70%=77,高中部女教师的

人数为150X(1—60%)=60,则该校女教师的人数为77+60=137,

故选B.

6.对一个容量为N的总体抽取容量为〃的样本,当选取简单随

机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个

个体被抽中的概率分别为Pl,P2,P3,则()

A.pi=p2Vp3B.P2=P3<〃1

C.P1=P3<P2D.P1=P2=P3

答案D

解析由随机抽样定义可知,每个个体成为样本的概率相等,故

选D.

7.为了研究某药品的疗效,选取若干名志愿者进行临床试验.所

有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),

[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,

第二组,……,第五组.如图是根据试验数据制成的频率分布直方

图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,

则第三组中有疗效的人数为()

0.36

C.12D.18

答案C

解析设样本容量为m

由题意,得(0.24+0.16)义1义”=20,解得〃=50.

X1X5O=18.

因为第三组中没有疗效的有6人,所以第三组中有疗效的人数为

18-6=12.

8.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎

叶图如图所示.

1300345668889

1411122233445556678

150122333

若将运动员按成绩由好到差编为1〜35号,再用系统抽样方法从

中抽取7人,则其中成绩在区间[139,151]上的运动员人数是

答案4

解析由系统抽样方法知,应把35人分成7组,每组5人,每

组按规则抽取1人,因为成绩在区间[139,151]上的共有4组,故成绩

在区间[139,151]上的运动员人数是4

9.为了了解一片经济林的生长情况,随机抽测了其中60株树木

的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布

直方图如图所示,则在抽测的60株树木中,有株树木的底

部周长小于100cm.

八频率/组距

0.030.................................

0.025..........................

0.020.......................................

0.015..............—

0.010.............................................

08090100110120130底部周长/cm

答案24

角星析60X(0.015+0.025)X10=24.

10.某公司为了解用户对其产品的满意度,从A,B两地区分别

随机调查了40个用户,根据用户对产品的满意度评分,得到A地区

用户满意度评分的频率分布直方图和B地区用户满意度评分的频数

分布表.

A地区用户满意度评分的频率分布直方图

频率/组距

0.040-

0.035-

().03()..................................

0.025-

0.020.........................……-------

0.015...........................................——

0.010................

0.005.........——I

LA/\------------------------------------1-----►

oY405()607()8()9()10()满意度评分

B地区用户满意度评分的频数分布表

满意度

[50,60)[60,70)[70,80)[80,90)[90,100]

评分分组

频数2814106

(1)在图中作出B地区用户满意度评分的频率分布直方图,并通

过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出

具体值,给出结论即可);

B地区用户满意度评分的频率分布直方图

⑵根据用户满意度评分,将用户的满意度分为三个等级:

满意度评分低于70分70分到89分不低于90分

满意度等级不满意满意非常满意

估计哪个地区用户的满意度等级为不满意的概率大?说明理由.

解(1)

通过两地区用户满意度评分的频率分布直方图可以看出,B地区

用户满意度评分的平均值高于A地区用户满意度评分的平均值;B

地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.

(2)A地区用户的满意度等级为不满意的概率大.

记CA表示事件:“A地区用户的满意度等级为不满意”;CB表

示事件:“B地区用户的满意度等级为不满意”.

由频率分布直方图得尸(CA)的估计值为(0.01+0.02+0.03)X10=

0.6,

P(CB)的估计值为(0.005+0.02)X10=0.25.

所以A地区用户的满意度等级为不满意的概率大.

11.某工厂36名工人的年龄数据如下表:

工人编号年龄工人编号年龄工人编号年龄工人编号年龄

140103619272834

244113120432939

340123821413043

441133922373138

533144323343242

640154524423353

745163925373437

842173826443549

943183627423639

(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一

分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据;

(2)计算⑴中样本的均值三和方差

(3)36名工人中年龄在以一s与1+s之间有多少人?所占的百分

比是多少(精确到0.01%)?

解(1)由系统抽样的知识可知,36人分成9组,每组4人,其

中第一组的工人年龄为44,所以其编号为2,故所有样本数据的编号

为4八一2,九=1,2,…,9.其数据为:44,40,36,43,36,37,44,43,37.

44+40H——P37

=40.

(2)x=9

由方差公式知,$2=|[(44-40)2+(40-40)2H——P(37—40)2]=

y

100

~9~-

(3)因为$2=竽,所以S=¥〃(3,4),

所以36名工人中年龄在%—s和%+s之间的人数等于在区间

[37,43]内的人数,

即40,40,41,…,39,共23人.

所以36名工人中年龄在三一s和1+s之间的人数所占的百分比

为宏763.89%.

12.某城市100户居民的月平均用电量(单位:度),以[160,180),

[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分

组的频率分布直方图如图所示.

频率

(1)求直方图中%的值;

(2)求月平均用电量的众数和中位数;

(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]

的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量

在[220,240)的用户中应抽取多少户?

解(1)依题意,20X(0.002+0.0095+0.011+0.0125+%+0.005

+0.0025)=1,解得%=0.0075.

(2)由题图可知,最高矩形的数据组为[220,240),

220+240

众数为

2=230.

'.'[160,220)的频率之和为(0.002+0,0095+0,011)X20=0.45,

.•・依题意,设中位数为y,

厂.0.45+(y-220)X0.0125=0.5.

解得y=224,

.•.中位数为224.

(3)月平均用电量在[220,240)的用户在四组用户中所占比例为

,0.0125+0,0075+0.005+0.0025)=1j-,

月平均用电量在[220,240)的用户中应抽取11X亮=5(户).

13.某校高三共有900名学生,高三模拟考之后,为了了解学生

学习情况,用分层抽样方法从中抽出若干学生此次数学成绩,按成绩

分组,制成如下的频率分布表:

第一第二第三第四第五第六第七第八

组号

组组组组组组组组

合计

[70,8[80,9[90,1[100,[110,[120,[130,[140,

分组

0)0)00)110)120)130)140)150)

频数64222018a105C

频率b1

(1)确定表中a,b,c的值;

(2)为了了解数学成绩在120分以上的学生的心理状态,现决定

在第六、七、八组中用分层抽样方法抽取6名学生,在这6名学生中

又再随机抽取2名与心理老师面谈,求第七组中至少有一名学生被抽

到与心理老师面谈的概率;

(3)估计该校本次考试的数学平均分.

解⑴因为频率和为1,所以办=0.18,

因为频率=频数/样本容量,所以c=100,«=15.

(2)第六、七、八组共有30个样本,用分层抽样方法抽取6名学

生,每个被抽取的概率均为点,第七组被抽取的样本数为1X10=2,

将第六组、第八组抽取的样本分别用A,B,C,Z)表示,第七组抽出

的样本用E,尸表示.

抽取2个的方法有A3、AC.AD.AE、A尸、BC、BD、BE、BF、

CD、CE、CF、DE、DF、EF,共15种.

3

其中至少含E或尸的取法有9种,则所求概率为

(3)估计平均分为75X0.06+85X0.04+95X0.22+105X0.2+

115X0.18+125X0.15+135X0.1+145X0.05=110.

附3考点二变量间的相关关系、统计案例

算"基础点重难点

1回归分析

(1)变量间的相关关系

当自变量取值一定时,因变量的取值带有一定的随机性,则这两

个变量之间的关系叫做相关关系.即相关关系是一种非确定性关系.

当一个变量的值由小变大时,另一个变量的值也由小变大,则这

两个变量正相关;

当一个变量的值由小变大时,而另一个变量的值由大变小,则这

两个变量负相关.

(2)散点图

将样本中的〃个数据点(为,M)«=1,2,…,”)描在平面直角坐标

系中,所得图形叫做散点图.

具有正相关关系的两个变量的散点图如图⑴所示,

具有负相关关系的两个变量的散点图如图(2)所示.

(3)两个变量的线性相关

如果散点图中点的分布从整体上看大致在一条直线附近,则这两

个变量之间具有线性相关关系,这条直线叫做回归直线.回归直线对

应的方程叫做回归直线方程(简称回归方程).

(4)回归方程的求解

求回归方程的方法是最小二乘法,即使得样本数据的点到回归直

线的距离的平方和最小.

若变量为与y具有线性相关关系,有n个样本数据®,W(i=

n

L%)8—y)

AAAA£(%

1,2,…,n),则回归方程y=》%+。中Z?==

2

E(x;-x)

i=l

n___

£孙——yA„

i=l———1—1————、

—,Q=y-8%.其中%y(%,y)称为

£x?—2i=1;=1

(=1

样本点的中心.

(5)相关系数

我们可以利用相关系数来定量地衡量两个变量之间的线性相关

n

£(汨一%)8—y)

关系,计算公式为r=-j:〃,Ir|<l.

'”(筋-x)2£⑴-y)2

\]i=li=l

当r>0时,表明两个变量正相关;当-0时,表明两个变量负相

关.

仍越接近于1,表明两个变量的线性相关性越强;

用越接近于0,表明两个变量之间几乎不存在线性相关关系.

通常,当上时,我们认为两个变量之间存在着很强的线性相关关

系.

2独立性检验

⑴2X2列联表

设x,y为两个变量,它们的取值分别为{»,迫}和{9,”},其

样本频数列联表(2X2列联表)如下:

V以总计

X1aba-\-b

X2Cdc~\~d

总计a-\~cb~\~do+b+c+d

⑵独立性检验

利用随机变量蜉(也可表示为.)=­啜”、一八

(。十。)(。十d)(。十c)(。十d)

(其中〃=a+b+c+d为样本容量)来判断“两个变量有关系”的

方法称为独立性检验.

(3)独立性检验的一般步骤

①根据样本数据列出2X2列联表;

②计算随机变量蜉的观测值匕查下表确定临界值自:

PH?ko)

ko

p(蜉三公)

ko

③如果左2公,就推断“x与y有关系”,这种推断犯错误的概

率不超过P(心三左0);否则,就认为在犯错误的概率不超过P(群2左0)

的前提下不能推断“X与y有关系”.

市》注意点对独立性检验的理解

(1)通常认为左W2.706时,样本数据就没有充分的证据显示“X

与y有关系”.

(2)独立性检验得出的结论是带有概率性质的,只能说结论成立

的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表.在

分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就

可能对统计计算的结果作出错误的解释.

京0小题快做;

1.思维辨析

(1)相关关系的两个变量是非确定关系.()

(2)散点图中的点越集中,两个变量的线性相关性越强.()

(3)对于分类变量X与匕它们的随机变量K2的观测值越小.“X

与y有关联”的把握程度越大.()

(4)“名师出高徒”可以解释为教师的教学水平与学生的水平成

正相关关系.()

(5)只有两个变量有相关关系,所得到的回归模型才有预测价

值.()

答案(1)V(2)X(3)X(4)V(5)V

2.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),

则回归直线方程为()

AA

A.yx+4B.yx+5

AA

C.yx+0.08D.yX

答案C

解析因为回归直线方程必过样本点的中心(%,y),将点(4,5)

代入A,B,C,D检验可知,选项C正确.

3.某高校教“统计初步”课程的教师随机调查了选该课程的一

些学生的情况,具体数据如下表:

专业

非统计专业统计专业

性另

男1310

女720

为了判断主修统计专业是否与性别有关系,根据表中的数据,得

50X(13X20—10X7)2

到蜉的观测值k=~23X27X20X30^4.844.

因为女>3.841,所以判定主修统计专业与性别有关系,那么这种

判断出错的可能性为.

答案5%

解析•.次>3.841,查临界值表,得P(蜉23.841)=0.05,故这种

判断出错的可能性为5%.

活命题法解题法

命题法1回归分析

典例1假设关于某设备的使用年限%(年)和所支出的维修费

用y(万元),有如下表的统计资料:

使用年限工(年)23456

维修费用y(万元)

若由资料可知y对次呈线性相关关系,试求:

(1)线性回归直线方程;

(2)根据回归直线方程,估计使用年限为12年时,维修费用是多

少?

[解]⑴列表

i12345合计

Xi2345620

yt25

Xiyt

x?4916253690

%=4,y=5;

55

Ex?=90;E孙

Z-lZ-l

5______

Yxiyi—5xy

_i=i___________112.3-5X4X5

b=F-90—5X42~=L23,

Ex?—5x2

A一A一

于是a=y—bxX4=0.08.

A

所以线性回归直线方程为好+0.08.

A

(2)当%=12时,yX12+0.08=14.84(万元),

即估计使用12年时,维修费用是14.84万元.

Q【解题法】求线性回归直线方程的步骤

(1)用散点图或进行相关性检验判断两个变量是否具有线性相关

关系.

____nnn

(2)列表求出x,y,ExhEyh(可用计算器进行计算)•

i=li=\i=l

n_____

A^Xiyi-nxyA_A_

i=1_

(3)利用公式。=----二一,a=y—Z?%求得回归系数.

£/一nx2

i=l

(4)写出回归直线方程.

命题法2独立性检验

典例2某工厂有25周岁以上(含25周岁)工人300名,25周岁

以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采

用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日

平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25

周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:

[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图

所示的频率分布直方图.

25周岁以上组

频率t

组距

0.0325.......................————

0.0250................——

0.0050……-1——..................................................................

——

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论