新高考数学一轮复习 讲与练第31讲 统计与统计模型(解析版)_第1页
新高考数学一轮复习 讲与练第31讲 统计与统计模型(解析版)_第2页
新高考数学一轮复习 讲与练第31讲 统计与统计模型(解析版)_第3页
新高考数学一轮复习 讲与练第31讲 统计与统计模型(解析版)_第4页
新高考数学一轮复习 讲与练第31讲 统计与统计模型(解析版)_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第31讲统计与统计模型学校____________姓名____________班级____________知识梳理数据的收集与直观表示1.总体、个体、样本与样本容量考察问题涉及的对象全体是总体,总体中每个对象是个体,抽取的部分对象组成总体的一个样本,一个样本中包含的个体数目是样本容量.2.普查与抽样调查(1)普查:一般地,对总体中每个个体都进行考察的方法称为普查(也称为全面调查).(2)抽样调查:只抽取样本进行考察的方法称为抽样调查.3.简单随机抽样(1)定义:一般地,简单随机抽样(也称为纯随机抽样)就是从总体中不加任何分组、划类、排队等,完全随机地抽取个体.(2)两种常用方法:抽签法,随机数表法.4.分层抽样一般地,如果相对于要考察的问题来说,总体可以分成有明显差别的、互不重叠的几部分时,每一部分可称为层,在各层中按层在总体中所占比例进行随机抽样的方法称为分层随机抽样(简称为分层抽样).5.数据的直观表示(1)常见的统计图表有柱形图、折线图、扇形图、茎叶图、频数分布直方图、频率分布直方图等.(2)频率分布直方图①作频率分布直方图的步骤(ⅰ)找出最值,计算极差:即一组数据中最大值与最小值的差;(ⅱ)合理分组,确定区间:根据数据的多少,一般分5~9组;(ⅲ)整理数据:逐个检查原始数据,统计每个区间内数的个数(称为区间对应的频数),并求出频数与数据个数的比值(称为区间对应的频率),各组均为左闭右开区间,最后一组是闭区间;(ⅳ)作出有关图示:根据上述整理后的数据,可以作出频率分布直方图,如图所示.频率分布直图的纵坐标是eq\f(频率,组距),每一组数对应的矩形高度与频率成正比,而且每个矩形的面积等于这一组数对应的频率,从而可知频率分布直方图中,所有矩形的面积之和为1.②频率分布折线图作图的方法都是:把每个矩形上面一边的中点用线段连接起来.为了方便看图,折线图都画成与横轴相交,所以折线图与横轴的左右两个交点是没有实际意义的.不难看出,虽然作频率分布直方图过程中,原有数据被“压缩”了,从这两种图中也得不到所有原始数据.但是,由这两种图可以清楚地看出数据分布的总体态势,而且也可以得出有关数字特征的大致情况.比如,估计出平均数、中位数、百分位数、方差.当然,利用直方图估计出的这些数字特征与利用原始数据求出的数字特征一般会有差异.数据的数字特征、用样本估计总体1.数据的数字特征(1)最值一组数据的最值指的是其中的最大值与最小值,最值反映的是这组数最极端的情况.(2)平均数①定义:如果给定的一组数是x1,x2,…,xn,则这组数的平均数为eq\o(x,\s\up6(-))=eq\f(1,n)(x1+x2+…+xn).这一公式在数学中常简记为eq\o(x,\s\up6(-))=eq\f(1,n)eq\o(∑,\s\up6(n),\s\do4(i=1))xi,②性质:一般地,利用平均数的计算公式可知,如果x1,x2,…,xn的平均数为x,且a,b为常数,则ax1+b,ax2+b,…,axn+b的平均数为aeq\o(x,\s\up6(-))+b.(3)中位数有奇数个数,且按照从小到大排列后为x1,x2,…,x2n+1,则称xn+1为这组数的中位数;如果一组数有偶数个数,且按照从小到大排列后为x1,x2,…,x2n,则称eq\f(xn+xn+1,2)为这组数的中位数.(4)百分位数①定义:一组数的p%(p∈(0,100))分位数指的是满足下列条件的一个数值:至少有p%的数据不大于该值,且至少有(100-p)%的数据不小于该值.②确定方法:设一组数按照从小到大排列后为x1,x2,…,xn,计算i=np%的值,如果i不是整数,设i0为大于i的最小整数,取xi0为p%分位数;如果i是整数,取eq\f(xi+xi+1,2)为p%分位数.(5)众数一组数据中,出现次数最多的数据称为这组数据的众数.(6)极差、方差与标准差①极差:一组数的极差指的是这组数的最大值减去最小值所得的差,描述了这组数的离散程度.②方差定义:如果x1,x2,…,xn的平均数为x,则方差可用求和符号表示为s2=eq\f(1,n)eq\o(∑,\s\up6(n),\s\do4(i=1))(xi-eq\o(x,\s\up6(-)))2=eq\f(1,n)eq\o(∑,\s\up6(n),\s\do4(i=1))xeq\o\al(2,i)-eq\o(x,\s\up6(-))2.性质:如果a,b为常数,则ax1+b,ax2+b,…,axn+b的方差为a2s2.③标准差定义:方差的算术平方根称为标准差.一般用s表示,即样本数据x1,x2,…,xn的标准差为s=eq\r(\f(1,n)\o(∑,\s\up6(n),\s\do4(i=1))(xi-x)2).性质:如果a,b为常数,则ax1+b,ax2+b,…,axn+b的标准差为|a|s.2.用样本的数字特征估计总体的数字特征一般情况下,如果样本容量恰当,抽样方法合理,在估计总体的数字特征时,只需直接算出样本对应的数字特征即可.统计模型1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关:如果变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.2.相关系数(1)r=eq\f(\o(∑,\s\up12(n),\s\do8(i=1))(xi-eq\o(x,\s\up12(-)))(yi-eq\o(y,\s\up12(-))),\r(\o(∑,\s\up12(n),\s\do8(i=1))(xi-eq\o(x,\s\up12(-)))2\o(∑,\s\up12(n),\s\do8(i=1))(yi-eq\o(y,\s\up12(-)))2))=eq\f(\o(∑,\s\up12(n),\s\do8(i=1))xiyi-n\a\vs4\al(eq\o(x,\s\up12(-)))\a\vs4\al(eq\o(y,\s\up12(-))),\r((\o(∑,\s\up12(n),\s\do8(i=1))xeq\o\al(2,i)-neq\o(x,\s\up12(-))2)(\o(∑,\s\up12(n),\s\do8(i=1))yeq\o\al(2,i)-ny2))).(2)当r>0时,成对样本数据正相关;当r<0时,成对样本数据负相关.(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型(1)我们将eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))称为y关于x的回归直线方程,其中eq\b\lc\{(\a\vs4\al\co1(\o(b,\s\up6(^))=\f(\o(∑,\s\up12(n),\s\do8(i=1))(xi-eq\o(x,\s\up12(-)))(yi-eq\o(y,\s\up12(-))),\o(∑,\s\up12(n),\s\do8(i=1))(xi-eq\o(x,\s\up12(-)))2)=\f(\o(∑,\s\up12(n),\s\do8(i=1))xiyi-n\a\vs4\al(eq\o(x,\s\up12(-)))\a\vs4\al(eq\o(y,\s\up12(-))),\o(∑,\s\up12(n),\s\do8(i=1))xeq\o\al(2,i)-neq\o(x,\s\up12(-))2),,\o(a,\s\up6(^))=\o(y,\s\up6(^))-\o(b,\s\up6(^))eq\o(x,\s\up12(-)).))(2)残差:观测值减去预测值,称为残差.4.2×2列联表和χ2如果随机事件A与B的样本数据的2×2列联表如下.Aeq\o(A,\s\up6(-))总计Baba+beq\o(B,\s\up6(-))cdc+d总计a+cb+da+b+c+d记n=a+b+c+d,则χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)).5.独立性检验统计学中,常用的显著性水平α以及对应的分位数k如下表所示.α=P(χ2≥k)0.10.050.010.0050.001K2.7063.8416.6357.87910.828要推断“A与B有关系”可按下面的步骤(1)作2×2列联表.(2)根据2×2列联表计算χ2的值.(3)查对分位数k,作出判断.如果根据样本数据算出χ2的值后,发现χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2<k成立,就称不能得到前述结论.这一过程通常称为独立性检验.考点和典型例题1、数据的收集与直观表示【典例1-1】北京2022年冬奥会期间,某大学派出了100名志愿者,为了解志愿者的工作情况,该大学学生会将这100名志愿者随机编号为1,2,…,100,再从中利用系统抽样的方法抽取一个容量为20的样本进行问卷调查,若所抽中的最小编号为3,则所抽中的最大编号为(

)A.96 B.97 C.98 D.99【答案】C【详解】由题意知,派出了100名志愿者中,利用系统抽样的方法抽取一个容量为20的样本进行问卷调查,可得间距为SKIPIF1<0,因为所抽样本中的最小编号为SKIPIF1<0,可得样本中最大编号为SKIPIF1<0.故选:C.【典例1-2】某社区卫生室为了了解该社区居民的身体健康状况,对该社区1100名男性居民和900名女性居民按性别采用等比例分层随机抽样的方法进行抽样调查,抽取了一个容量为100的样本,则应从男性居民中抽取的人数为(

)A.45 B.50 C.55 D.60【答案】C【详解】应从男性居民中抽取的人数为SKIPIF1<0;故选:C.【典例1-3】已知某地区中小学生人数比例和近视情况分别如图甲和图乙所示,为了了解该地区中小学生的近视形成原因,用分层抽样的方法随机抽取SKIPIF1<0的学生进行调查,其中被抽取的小学生有80人,则样本容量和该地区的高中生近视人数分别为(

)A.200,25 B.200,2500 C.8000,25 D.8000,2500【答案】B【详解】由由扇形分布图结合分层抽样知识易知样本容量为SKIPIF1<0,则样本中高中生的人数为SKIPIF1<0,易知总体的容量为SKIPIF1<0,结合近视率条形图得该地区高中生近视人数为SKIPIF1<0.故选:B.【典例1-4】将某市参加高中数学建模竞赛的学生成绩分成5组:SKIPIF1<0,并整理得到频率分布直方图(如图所示).现按成绩运用分层抽样的方法抽取100位同学进行学习方法的问卷调查,则成绩在区间SKIPIF1<0内应抽取的人数为(

)A.10 B.20 C.30 D.35【答案】D【详解】解:依题意SKIPIF1<0中的频率为SKIPIF1<0,所以SKIPIF1<0中应抽取SKIPIF1<0(人);故选:D【典例1-5】某学校为调查学生参加课外体育锻炼的时间,将该校某班的40名学生进行编号,分别为00,01,02,…,39,现从中抽取一个容量为10的样本进行调查,选取方法是从下面的随机数表的第1行第11列开始向右读取数据,直到取足样本,则抽取样本的第6个号码为(

)90

84

60

79

80

24

36

59

87

38

82

07

53

89

35

96

35

23

79

18

05

98

90

073546

40

62

98

80

54

97

20

56

95

15

74

80

08

32

16

46

70

50

80

67

72

16

42

75A.07 B.40 C.35 D.23【答案】D【详解】重复的号码只能算作一个,抽取样本号码是24,36,38,07,35,23,18,05,20,15,所以抽取样本的第6个号码为23.故选:D2、数据的数字特征、用样本估计总体【典例2-1】某学校举行诗歌朗诵比赛,10位评委对甲、乙两位同学的表现打分,满分为10分,将两位同学的得分制成如下茎叶图,其中茎叶图茎部分是得分的个位数,叶部分是得分的小数,则下列说法错误的是(

)A.甲同学的平均分大于乙同学的平均分B.甲、乙两位同学得分的极差分别为2.4和1C.甲、乙两位同学得分的中位数相同D.甲同学得分的方差更小【答案】D【详解】对于甲,SKIPIF1<0对于乙,SKIPIF1<0故SKIPIF1<0正确.甲的极差SKIPIF1<0,乙的极差SKIPIF1<0故SKIPIF1<0正确.甲得分的中位数SKIPIF1<0,乙得分的中位数SKIPIF1<0,故SKIPIF1<0正确.对于甲,SKIPIF1<0SKIPIF1<0SKIPIF1<0,对于乙,SKIPIF1<0SKIPIF1<0SKIPIF1<0故SKIPIF1<0错误.故选SKIPIF1<0.【典例2-2】已知数据SKIPIF1<0,SKIPIF1<0,…,SKIPIF1<0的平均值为SKIPIF1<0,方差为SKIPIF1<0,若数据SKIPIF1<0,SKIPIF1<0,…,SKIPIF1<0的平均值为SKIPIF1<0,方差为SKIPIF1<0,则SKIPIF1<0(

).A.SKIPIF1<0 B.SKIPIF1<0 C.SKIPIF1<0 D.SKIPIF1<0【答案】A【详解】因为SKIPIF1<0,SKIPIF1<0,…,SKIPIF1<0的平均值为SKIPIF1<0,方差为SKIPIF1<0,由数据SKIPIF1<0,SKIPIF1<0,…,SKIPIF1<0的平均值为SKIPIF1<0,方差为SKIPIF1<0,所以SKIPIF1<0,解得SKIPIF1<0,SKIPIF1<0.故选:A.【典例2-3】某校高一年级1000名学生在一次考试中的成绩的频率分布直方图如图所示,现用分层抽样的方法从成绩40~70分的同学中共抽取80名同学,则抽取成绩50~60分的人数是(

)A.20 B.30 C.40 D.50【答案】B【详解】从频率分布直方图可以看出三个分数段的的同学的频率之比为SKIPIF1<0,所以抽取成绩50~60分的人数为SKIPIF1<0,故选:B【典例2-4】某高中为了了解本校学生考入大学一年后的学习情况,对本校上一年考入大学的同学进行了调查,根据学生所属的专业类型,制成饼图,现从这些同学中抽出100人进行进一步调查,已知张三为理学专业,李四为工学专业,则下列说法不正确的是(

)A.若按专业类型进行分层抽样,则张三被抽到的可能性比李四大B.若按专业类型进行分层抽样,则理学专业和工学专业应抽取30人和20人C.采用分层抽样比简单随机抽样更合理D.该问题中的样本容量为100【答案】A【详解】对于选项A,张三与李四被抽到的可能性一样大,故A错误;对于选项B,理学专业应抽取的人数为SKIPIF1<0,工学专业应抽取的人数为SKIPIF1<0,故B正确;对于选项C,因为各专业差异比较大,所以采用分层随机抽样更合理,故C正确;对于选项D,该问题中的样本容量为100,故D正确.故选:A.【典例2-5】如图是2021年青年歌手大奖赛中,七位评委为甲、乙两名选手打出的分数的茎叶图(其中SKIPIF1<0均为数字SKIPIF1<0中的一个),在去掉一个最高分和一个是低分后,则下列说法错误的是(

)A.甲选手得分的平均数一定大于乙选手得分的平均数B.甲选手得分的中位数一定大于乙选手得分的中位数C.甲选手得分的众数与SKIPIF1<0的值无关D.甲选手得分的方差与SKIPIF1<0的值无关【答案】C【详解】由题意,甲选手得分的平均数SKIPIF1<0,乙选手得分的平均数SKIPIF1<0,故选项A正确;无论SKIPIF1<0为何值,甲选手得分的中位数一定是85,乙选手得分的中位数是84,故选项B正确;当SKIPIF1<0时,甲选手得分的众数为81,85,当SKIPIF1<0时,甲选手得分的众数为85,故选项C不正确;因为SKIPIF1<0是最高分,被去掉,故甲选手得分的方差与SKIPIF1<0的值无关,故选项D正确;故选:C.3、统计模型【典例3-1】已知下列命题:①回归直线SKIPIF1<0恒过样本点的中心SKIPIF1<0;②两个变量线性相关性越强,则相关系数SKIPIF1<0就越接近于1;③两个模型中残差平方和越小的模型拟合的效果越好.则正确命题的个数是(

).A.0 B.1 C.2 D.3【答案】D【详解】由回归方程的性质可得,回归直线SKIPIF1<0恒过样本点的中心SKIPIF1<0,①对,由相关系数的性质可得,两个变量线性相关性越强,则相关系数SKIPIF1<0就越接近于1,②对,根据残差的定义可得,两个模型中残差平方和越小的模型拟合的效果越好,③对,故正确命题的个数为3,故选:D.【典例3-2】下列说法错误的是(

)A.相关系数r的绝对值越大,两个变量的线性相关性越强B.在回归分析中,残差平方和越大,模型的拟合效果越好C.相关指数SKIPIF1<0,表示解释变量对于预报变量变化的贡献率为64%D.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高【答案】B【详解】SKIPIF1<0,相关系数r的绝对值越接近1,两个变量的线性相关性越强,故A正确;在回归分析中,残差平方和越小,模型的拟合效果越好,故B错误;相关指数SKIPIF1<0,表示解释变量对于预报变量变化的贡献率为64%,故C正确;在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,故D正确;故选:B.【典例3-3】如图是一组实验数据构成的散点图,以下函数中适合作为SKIPIF1<0与SKIPIF1<0的回归方程的类型是(

)A.SKIPIF1<0 B.SKIPIF1<0 C.SKIPIF1<0 D.SKIPIF1<0【答案】D【详解】由散点图中各点的变化趋势:非线性、且SKIPIF1<0上单调递减,所以适合指数型模型.故选:D【典例3-4】当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年的身心健康.为了引导青少年抵制不良游戏,适度参与益脑游戏,某游戏公司开发了一款益脑游戏,在内测时收集了玩家对每一关的平均过关时间,如下表:关卡SKIPIF1<0123456平均过关时间SKIPIF1<0(单位:秒)5078124121137352计算得到一些统计量的值为:SKIPIF1<0,其中,SKIPIF1<0.若用模型SKIPIF1<0拟合SKIPIF1<0与SKIPIF1<0的关系,根据提供的数据,求出SKIPIF1<0与SKIPIF1<0的经验回归方程;参考公式:对于一组数据SKIPIF1<0(SKIPIF1<0),其经验回归直线SKIPIF1<0的斜率和截距的最小二乘估计分别为SKIPIF1<0,SKIPIF1<0.【答案】SKIPIF1<0【解析】解:因为SKIPIF1<0两边取对数可得SKIPIF1<0,即SKIPIF1<0,令SKIPIF1<0,所以SKIPIF1<0,由SKIPIF1<0,SKIPIF1<0,SKIPIF1<0.所以SKIPIF1<0,又SKIPIF1<0,即SKIPIF1<0,所以SKIPIF1<0,所以SKIPIF1<0.所以SKIPIF1<0关于SKIPIF1<0的经验回归方程为SKIPIF1<0.【典例3-5】2022年北京冬奥会即第24届冬季奥林匹克运动会在2022年2月4日至2月20日在北京和张家口举行.某研究机构为了解大学生对冰壶运动是否有兴趣,从某大学随机抽取男生、女生各200人,对冰壶运动有兴趣的人数占总数的SKIPIF1<0,女生中有80人对冰壶运动没有兴趣.有兴趣没有兴趣合计男女80合计(1)完成上面2×2列联表,并判断是否有99%的把握认为对冰壶运动是否有兴趣与性别有关?(2)按性别用分层抽样的方法从对冰壶运动有兴趣的学生中抽取9人,若从这9人中随机选出2人作为冰壶运动的宣传员,设X表示选出的2人中女生的人数,求X的分布列和数学期望.附:SKIPIF1<0.SKIPIF1<00.1000.0500.0250.0100.001SKI

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论