高考数学第一轮复习第十章 统计与成对数据的统计分析讲义及试题_第1页
高考数学第一轮复习第十章 统计与成对数据的统计分析讲义及试题_第2页
高考数学第一轮复习第十章 统计与成对数据的统计分析讲义及试题_第3页
高考数学第一轮复习第十章 统计与成对数据的统计分析讲义及试题_第4页
高考数学第一轮复习第十章 统计与成对数据的统计分析讲义及试题_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【标题】第十章统计与成对数据的统计分析第一节随机抽样、常用统计图表1.了解简单随机抽样的含义,掌握两种简单的抽样方法:抽签法和随机数法;了解分层随机抽样,掌握各层样本量比例分配的方法.在简单的实际情境中,能根据实际问题的特点,设计恰当的抽样方法解决问题.2.理解统计图表的含义,能根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述,体会合理使用统计图表的重要性.1.随机抽样(1)简单随机抽样①定义:一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n<N)个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样;②常用方法:抽签法和随机数法.(2)分层随机抽样①定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配;②分层随机抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层随机抽样.2.常用统计图表(1)频率分布直方图①纵轴表示频率组距,即小长方形的高=频率②小长方形的面积=组距×频率组距=频率③各小长方形的面积的总和等于1.(2)频率分布表的画法第一步:求极差,决定组数和组距,组距=极差组数第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(3)条形图、折线图及扇形图①条形图:建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排列起来,这样一种表达和分析数据的统计图称为条形图;②折线图:建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数据的情况,这样的一种表示和分析数据的统计图称为折线图;③扇形图:用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图.1.判断正误.(正确的画“√”,错误的画“×”)(1)简单随机抽样中,每个个体被抽到的机会不一样,与先后有关. ()(2)抽签法和随机数法都是简单随机抽样. ()(3)分层随机抽样中,每个个体被抽到的可能性与层数及分层有关. ()(4)频率分布直方图中,小长方形的面积越大,表示样本数据落在该区间的频率越大. ()答案:(1)×(2)√(3)×(4)√2.为了解某市参加升学考试的学生的数学成绩,从参加考试的学生中随机抽查1000名学生的数学成绩进行统计分析,在这个问题中,下列说法正确的是()A.总体指的是该市参加升学考试的全体学生B.样本是指抽查的1000名学生的数学成绩C.样本量指的是抽查的1000名学生D.个体指的是抽查的1000名学生中的每一名学生解析:B对于A,总体指的是该市参加升学考试的全体学生的数学成绩,故A错误;对于B,样本是指抽查的1000名学生的数学成绩,故B正确;对于C,样本量是1000,故C错误;对于D,个体指的是每名学生的数学成绩,故D错误.3.为了推动全民读书活动再次掀起高潮,某市文化局按性别分层随机抽样的方法从该市平均月阅读量超过十万字的200名市民中抽取30人进行比赛,若30人中共有男性12人.则这200名市民中女性可能有 ()A.12人B.18人C.80人 D.120人解析:D所抽取的30人中,男性12人,则女性有18人,女性占总人数的1830=35,所以这200名市民中女性人数为200×354.甲、乙、丙、丁四组人数分布如图所示,根据扇形统计图的情况可以知道丙、丁两组人数和为 ()A.150 B.250C.300 D.400解析:B∵甲组人数为120,占总人数的百分比为30%,∴总人数为120÷30%=400.∵丙、丁两组人数和占总人数的百分比为1-30%-7.5%=62.5%,∴丙、丁两组人数和为400×62.5%=250.5.某市交通局对某路段公路上行驶的汽车速度实施监控,从中抽取50辆汽车进行测速分析,得到如图所示的时速的频率分布直方图,根据该图,时速在70km/h以下的汽车有辆.

解析:由频率分布直方图可得时速在70km/h以下的频率是(0.01+0.03)×10=0.4,所以频数是0.4×50=20.答案:20 抽样方法考向1简单随机抽样【例1】(1)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取3个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为 ()7816657208026314070243699728019832049234493582003623486969387481A.08B.02C.63 D.01(2)我国古代数学名著《九章算术》有“米谷粒分”题:粮仓开仓收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为 ()A.134石 B.169石C.338石 D.1365石解析(1)根据题意,依次读出的数据为65(舍去),72(舍去),08,02,63(舍去),14,07,02(舍去,重复),43(舍去),69(舍去),97(舍去),28(舍去),01.故选D.(2)由随机抽样的含义,该批米内夹谷约为28254×1534≈169(石答案(1)D(2)B|解题技法|1.简单随机抽样需满足:(1)被抽取的样本总体的个体数有限;(2)逐个抽取;(3)是不放回抽取;(4)是等可能抽取.2.简单随机抽样常用抽签法(适用于总体中个体数较少的情况)、随机数法(适用于个体数较多的情况).考向2分层随机抽样【例2】(1)某校高一年级1000名学生的血型情况如图所示.某课外兴趣小组为了研究血型与饮食之间的关系,决定采用分层随机抽样的方法从中抽取一个容量为50的样本,则从高一年级A型血的学生中应抽取的人数是 ()A.11B.22 C.110D.220(2)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层随机抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取件.

解析(1)由图中数据可知高一年级A型血的学生占高一年级学生总体的22%,所以抽取一个容量为50的样本,从A型血的学生中应抽取的人数是50×22%=11.(2)因为样本量n=60,总体容量N=200+400+300+100=1000,所以抽取比例为nN=601000=350.因此应从丙种型号的产品中抽取300×3答案(1)A(2)18|解题技法|分层随机抽样问题的类型及解题思路(1)求某层应抽个体数量:按该层所占总体的比例计算;(2)已知某层个体数量,求总体容量或反之求解:根据分层随机抽样就是按比例抽样,列比例式进行计算;(3)分层随机抽样的计算应根据抽样比构造方程求解,其中,抽样比=样本量总样本量=各层样本数量考向3分层随机抽样的平均值【例3】有4万个大于70的两位数,从中随机抽取了3000个数,统计如下表:数据x70<x<7980<x<8990<x<99个数8001300900平均数78.18591.9请根据表格中的信息,估计这4万个数的平均数约为.

解析这3000个数的平均数为13000×(78.1×800+85×1300+91.9×900)=85.23.于是用样本的平均数去估计总体的平均数,则这4万个数的平均数约为85答案85.23|解题技法|在分层随机抽样中,如果第一层的样本量为m,平均值为x,第二层的样本量为n,平均值为y,则样本的平均值为mx+1.甲、乙两套设备生产的同类型产品共4800件,采用分层随机抽样的方法从中抽取一个样本量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为件.

解析:由题设,抽样比为804800=160.设甲设备生产的产品为x件,则x60=50,∴x=3000.故乙设备生产的产品总数为4800-3000答案:18002.某班级有50名同学,一次数学测试平均成绩是92分,如果30名男生的平均成绩为90分,那么20名女生的平均成绩为分.

解析:设所求平均成绩为x,由题意得50×92=30×90+20×x,∴x=95.答案:95 统计图表考向1扇形(饼状)图【例4】2022年7月15日,国家统计局发布了2022年上半年居民人均消费支出及构成情况如图所示,根据图中的信息,针对2022年上半年,下列结论不正确的是 ()A.居民在“教育文化娱乐”上的人均消费支出的占比为9.8%B.居民人均消费支出为11440元C.居民在“居住”“生活用品及服务”“医疗保健”上的人均消费支出之和大于在“食品烟酒”上的人均消费支出D.居民在“衣着”上的人均消费支出比在“交通通信”上的人均消费支出的一半少解析对于A,由题中饼状图可知,居民在“教育文化娱乐”上的人均消费支出的占比为1-(30.8%+6.5%+23.1%+5.8%+12.7%+8.8%+2.5%)=9.8%,故A正确;对于B,居民在“其他用品及服务”上的人均消费支出为286元,占比2.5%,所以居民人均消费支出为286÷2.5%=11440(元),故B正确;对于C,居民在“居住”“生活用品及服务”“医疗保健”上的人均消费支出之和占比为23.1%+5.8%+8.8%=37.7%,在“食品烟酒”上的人均消费支出占比为30.8%,37.7%>30.8%,故C正确;对于D,居民在“衣着”上的人均消费支出的占比为6.5%,在“交通通信”上的人均消费支出的占比为12.7%,6.5%>12.7%2,故D错误答案D|解题技法|通过扇形统计图可以很清楚的表示出各部分数量同总数之间的关系.考向2条形图与折线图【例5】(多选)人口普查是当今世界各国广泛采用的搜集人口资料的一种最基本的科学方法,根据人口普查的基本情况制定社会、经济、科教等各项发展政策.截至2022年6月,我国共进行了七次人口普查,下图是这七次人口普查的城乡人口数和城镇人口比重情况,下列说法正确的是 ()A.乡村人口数逐次增加B.历次人口普查中第七次普查城镇人口最多C.城镇人口数逐次增加D.城镇人口比重逐次增加解析对于A,根据题中条形图,知乡村人口数在前四次普查中逐次增加,在后三次普查中逐次减少,故A不正确;对于B,从题中条形图,知在历次人口普查中第七次普查城镇人口最多,故B正确;对于C,根据题中条形图,知城镇人口数逐次增加,故C正确;对于D,从题中折线图对应的数据可得,七次人口普查中城镇人口比重依次为13.26,18.30,20.91,26.44,36.22,49.68,63.89,可知城镇人口比重逐次增加,故D正确.故选B、C、D.答案BCD|解题技法|折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的变化趋势.考向3频率分布直方图【例6】随机抽取100名学生,测得他们的身高(单位:cm),按照区间[160,165),[165,170),[170,175),[175,180),[180,185]分组,得到样本身高的频率分布直方图如图所示.(1)求频率分布直方图中x的值及身高在170cm及以上的学生人数;(2)将身高在[170,175),[175,180),[180,185]区间内的学生依次记为A,B,C三个组,用分层随机抽样的方法从这三个组中抽取6人,求这三个组分别抽取的学生人数.解(1)由频率分布直方图可知5×(0.07+x+0.04+0.02+0.01)=1,解得x=0.06,身高在170cm及以上的学生人数为100×5×(0.06+0.04+0.02)=60.(2)A组人数为100×5×0.06=30,B组人数为100×5×0.04=20,C组人数为100×5×0.02=10,由题意可知A组抽取人数为30×630+20+10=3B组抽取人数为20×630+20+10=2C组抽取人数为10×630+20+10=1|解题技法|频率分布直方图的相关结论(1)频率分布直方图中各小长方形的面积之和为1;(2)频率分布直方图中纵轴表示频率组距,故每组样本的频率为组距×频率组距,(3)频率分布直方图中每组样本的频数为频率×总数.1.已知某地区中小学生人数和近视情况分别如图甲和图乙所示,为了了解该地区中小学生的近视形成原因,用分层随机抽样的方法抽取2%的学生进行调查,则样本量和抽取的高中生近视人数分别为()A.100,20B.200,20 C.200,10D.100,10解析:B由题图甲可知学生总数是10000,样本量为10000×2%=200,高中生为2000×2%=40人,由题图乙可知高中生近视率为50%,所以人数为40×50%=20.2.某网站为了了解某“跑团”每月跑步的平均里程,收集并整理了2022年1月至2022年11月期间该“跑团”每月跑步的平均里程(单位:公里)的数据,绘制了如图所示的折线图.根据折线图,下列结论正确的是()A.月跑步平均里程的中位数为6月份对应的里程数B.月跑步平均里程逐月增加C.月跑步平均里程高峰期大致在8、9月份D.1月至5月的月跑步平均里程相对于6月至11月波动性更小,变化比较平稳解析:D由折线图可知月跑步平均里程比6月份高的只有9,10,11,共3个月,比6月份低的有1,2,3,4,5,7,8,共7个月,故6月份对应里程数不是中位数,因此A不正确;月跑步平均里程在1月到2月,6月到7月,7月到8月,10月到11月都是减少的,故不是逐月增加,因此B不正确;月跑步平均里程高峰期大致在9,10,11三个月,8月份是相对较低的,因此C不正确;从折线图来看,1月至5月的月跑步平均里程相对于6月至11月,波动性更小,变化比较平稳,因此D正确.3.对某市“四城同创”活动中800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,则依据此图回答下列问题:(1)[25,30)年龄组对应小矩形的高度是多少?(2)据此估计该市“四城同创”活动中志愿者年龄在[25,35)内的人数是多少?解:(1)设[25,30)年龄组对应小矩形的高度为h,则5×(0.01+h+0.07+0.06+0.02)=1,解得h=0.04.(2)志愿者年龄在[25,35)内的频率为5×(0.04+0.07)=0.55,故志愿者年龄在[25,35)内的人数约为0.55×800=440.1.“嫦娥五号”的成功发射,实现了中国航天史上的五个“首次”.某中学为此举行了“讲好航天故事”的主题演讲比赛.若将报名的30位同学编号为01,02,…,30,经随机模拟产生了36个随机数如下,则选出来的第7个个体的编号为 ()456732121231020104521520011251293204923449358200362348696938748146527364A.12 B.20C.29 D.23解析:C有效编号为:12,02,01,04,15,20,29,得到选出来的第7个个体的编号为29.故选C.2.为了了解全校240名高一学生的身高情况,从中随机抽取40名高一学生进行测量,在这个问题中,样本指的是 ()A.240名高一学生的身高B.抽取的40名高一学生的身高C.40名高一学生D.每名高一学生的身高解析:B总体是240名高一学生的身高,则个体是每名高一学生的身高,故样本是抽取的40名高一学生的身高.故选B.3.已知某居民小区户主人数和户主对户型结构的满意率分别如图①和图②所示,为了解该小区户主对户型结构的满意程度,用分层随机抽样的方法抽取30%的户主进行调查,则样本量和抽取的户主对四居室满意的人数分别为 ()A.240,18 B.200,20C.240,20 D.200,18解析:A样本量n=(250+150+400)×30%=240,抽取的户主对四居室满意的人数为150×30%×40%=18.4.某校有甲、乙两个数学建模兴趣班.其中甲班有40人,乙班有50人.现分析两个班的一次考试成绩,算得甲班的平均成绩是90分,乙班的平均成绩是81分,则这两个数学建模兴趣班所有同学的平均成绩是 ()A.85分 B.85.5分C.86分 D.86.5分解析:A由题意可知,两个数学建模兴趣班所有同学的平均成绩为40×90+50×8190=85(分).故选A5.在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制成如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是40,则成绩在80~100分的学生人数是()A.15B.18 C.20D.25解析:A由频率分布直方图知,第二小组的频率为10×0.040=0.4,∴总人数为400.4=100,又成绩在80~100分的频率为10×(0.010+0.005)=0.15,∴成绩在80~100分的学生人数为100×0.156.为了比较甲、乙两名学生的数学学科素养的各项能力指标值(满分为5分,分值高者为优),绘制了如图所示的六维能力雷达图,例如图中甲的数学抽象指标值为4,乙的数学抽象指标值为5,则下面叙述错误的是()A.甲的逻辑推理能力指标值高于乙的逻辑推理能力指标值B.甲的直观想象能力指标值高于乙的数学建模能力指标值C.乙的六维能力指标值整体水平高于甲的六维能力指标值整体水平D.甲的数学运算能力指标值高于甲的直观想象能力指标值解析:D对于选项A,甲的逻辑推理能力指标值为4,高于乙的逻辑推理能力指标值3,故A正确;对于选项B,乙的数学建模能力指标值为4,甲的直观想象能力指标值为5,所以甲的直观想象能力指标值高于乙的数学建模能力指标值,故B正确;对于选项C,甲的六维能力指标值的平均值为16×(4+3+4+5+3+4)=236,乙的六维能力指标值的平均值为16×(5+4+3+5+4+3)=4,236<4,故C正确;对于选项D,甲的数学运算能力指标值为4,甲的直观想象能力指标值为5,所以甲的数学运算能力指标值不高于甲的直观想象能力指标值,故D错误7.在《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱,欲以钱数多少衰出之,问各几何?”其译文为:今有甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带多少的比例进行交税,问三人各应付多少税?则下列说法错误的是 ()A.甲应付5141109B.乙应付3224109C.丙应付1656109D.三者中甲付的钱最多,丙付的钱最少解析:B由分层随机抽样可知,抽样比为100560+350+180=10109,则甲应付10109×560=5141109(钱);乙应付10109×350=3212109(钱);丙应付10109×180=1656109(钱).三者中甲付的钱最多,丙付的钱最少,所以A、C、D8.(多选)某学校为调查学生在一周生活方面的支出情况,抽取了一个样本量为n的样本,其频率分布直方图如图所示,其中支出在[50,60]元的学生有60人,则下列说法正确的是 ()A.样本中支出在[50,60]元的频率为0.03B.样本中支出不少于40元的人数为132C.n的值为200D.若该校有2000名学生,则一定有600人的支出在[50,60]元解析:BC在A中,样本中支出在[50,60]元的频率为1-(0.010+0.024+0.036)×10=0.3,故A错误;在C中,n=600.03×10=200,故n的值为200,故C正确;在B中,样本中支出不少于40元的人数为200×(0.030+0.036)×10=132,故B正确;在D中,若该校有2000名学生,则可能有600人的支出在[50,60]元,故9.为了解学生“阳光体育”活动的情况,随机统计了n名学生的“阳光体育”活动时间(单位:分钟),所得数据都在区间[10,110]内,其频率分布直方图如图所示.已知活动时间在[10,35)内的频数为80,则n的值为.

解析:根据频率分布直方图,知组距为25,所以活动时间在[10,35)内的频率为0.1,因为活动时间在[10,35)内的频数为80,所以n=800.1答案:80010.某市教体局对全市高三年级的学生身高进行抽样调查,随机抽取了100名学生,他们的身高都处在A,B,C,D,E五个层次内,根据抽样结果得到如图的统计图表,则样本中人数最多的是层,样本中E层的男生人数为.

解析:由图可知女生人数为60,则男生人数为40,样本中A层的人数为9+40×10%=13;样本中B层的人数为24+40×30%=36;样本中C层的人数为15+40×25%=25;样本中D层的人数为9+40×20%=17;样本中E层的人数为3+40×15%=9.故样本中B层的人数最多,样本中E层的男生人数为40×15%=6.答案:B611.(多选)某企业2022年12个月的收入与支出数据的折线图如图,已知:利润=收入-支出,根据该折线图,下列说法正确的是 ()A.该企业2022年1月至6月的总利润低于2022年7月至12月的总利润B.该企业2022年1月至6月的平均收入低于2022年7月至12月的平均收入C.该企业2022年8月至12月的支出持续增长D.该企业2022年11月份的月利润最大解析:ABC因为图中的实线与虚线的相对高度表示当月利润.由折线统计图可知1月至6月的相对高度的总量要比7月至12月的相对高度总量少,故A正确;由折线统计图可知1月至6月的收入都普遍低于7月至12月的收入,故B正确;由折线统计图可知8月至12月的虚线是上升的,所以支出持续增长,故C正确;由折线统计图可知11月的相对高度比7月、8月都要小,故D错误.12.将一个总体分为A,B,C三层,其个体数之比为5∶3∶2.若用分层随机抽样的方法抽取容量为100的样本,则应从C中抽取个个体;若A,B,C三层的样本的平均数分别为15,30,20,则样本的平均数为.

解析:∵A,B,C三层个体数之比为5∶3∶2,又有总体中每个个体被抽到的概率相等,∴分层随机抽样应从C中抽取100×25+3+2=20个个体.样本的平均数为w=55+3+2×15+35+3+2×30+25+3+2×20=答案:2020.513.某企业三月中旬生产A,B,C三种产品共3000件,根据分层随机抽样的结果,企业统计员制作了如下的统计表格:产品类别ABC产品数量(件)1300样本容量(件)130由于不小心,表格中A,C产品的有关数据已被污染看不清楚,统计员记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C的产品数量是件.

解析:设样本容量为x,则x3000×1300∴x=300.∴A产品和C产品在样本中共有300-130=170(件).设C产品的样本容量为y,则y+y+10=170,∴y=80.∴C产品的数量为3000300×80=800答案:80014.为了对某课题进行研究,分别从A,B,C三所高校中用分层随机抽样法抽取若干名教授组成研究小组,其中高校A有m名教授,高校B有72名教授,高校C有n名教授(其中0<m≤72≤n).(1)若A,B两所高校中共抽取3名教授,B,C两所高校中共抽取5名教授,求m,n;(2)若高校B中抽取的教授数是高校A和C中抽取的教授总数的23,求三所高校教授的总人数解:(1)∵0<m≤72≤n,A,B两所高校中共抽取3名教授,B,C两所高校中共抽取5名教授,∴高校B中抽取2名教授,高校A中抽取1名教授,高校C中抽取3名教授,∴1m=272=3n,解得m=36,n(2)∵高校B中抽取的教授数是高校A和C中抽取的教授总数的23∴23(m+n)=72,解得m+n=108∴三所高校的教授的总人数为m+n+72=180.15.为了推进分级诊疗,实现“基层首诊、双向转诊、急慢分治、上下联动”的诊疗模式,某城市自2020年起全面推行家庭医生签约服务.已知该城市居民约有1000万人,从0岁到100岁的居民年龄结构的频率分布直方图如图①所示.为了解各年龄段居民签约家庭医生的情况,现调查了1000名年满18周岁的居民,各年龄段被访者签约率如图②所示.(1)估计该城市50岁以上且已签约家庭医生的居民人数;(2)据统计,该城市被访者的签约率约为44%.为把该城市年满18周岁居民的签约率提高到55%以上,应着重提高图②中哪个年龄段的签约率?并根据已有数据陈述理由.解:(1)估计该城市50~60岁签约的居民有1000×0.015×10×55.7%=83.55(万人);60~70岁签约的居民有1000×0.010×10×61.7%=61.7(万人);70~80岁签约的居民有1000×0.004×10×70.0%=28(万人);80岁以上签约的居民有1000×0.003×10×75.8%=22.74(万人).故估计该城市50岁以上且已签约家庭医生的居民有83.55+61.7+28+22.74=195.99(万人).(2)由题意可估计该城市年龄在10~20岁的居民有1000×0.005×10=50(万人);年龄在20~30岁的居民有1000×0.018×10=180(万人).所以估计该城市居民年龄在18~30岁的人数大于180万,小于230万,签约率为30.3%;估计该城市居民年龄在30~50岁的有1000×0.037×10=370(万人),签约率为37.1%;估计该城市居民年龄在50岁以上的有1000×0.032×10=320(万人),签约率超过55%,上升空间不大.故由以上数据可知这个城市居民年龄在30~50岁这个年龄段的人数约为370万,与其他年龄段相比人数是最多的,且签约率与55%相比较低,所以为把该城市满18周岁居民的签约率提高到55%以上,应着重提高30~50岁这个年龄段的签约率.第二节用样本的数字特征估计总体1.结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义.2.结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义.3.结合实例,能用样本估计总体的取值规律.4.结合实例,能用样本估计百分位数,理解百分位数的统计含义.1.总体百分位数的估计(1)百分位数定义意义百分位数一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值反映该组数中小于或等于该百分位数的分布特点(2)求一组n个数据的第p百分位数的步骤第1步:按从小到大排列原始数据;第2步:计算i=n×p%;第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.2.总体集中趋势的估计(1)中位数:将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数;(2)众数:一组数据中出现次数最多的数据叫做这组数据的众数;(3)平均数:一组数据的算术平均数即为这组数据的平均数,n个数据x1,x2,…,xn的平均数x=1n(x1+x2+…+xn)提醒(1)中位数是样本数据所占频率的等分线,不受少数极端值影响;(2)众数体现了样本数据的最大集中点,一组数据可能有n个众数,也可能没有众数;(3)与中位数、众数比较,平均数反映出样本数据的更多信息,对样本数据中的少数极端值更加敏感.3.总体离散程度的估计(1)假设一组数据x1,x2,x3,…,xn的平均数为x,则:①标准差s=1n②方差s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2](2)分层随机抽样的均值与方差分层随机抽样中,如果样本量是按比例分配,记总的样本平均数为w,样本方差为s2.以分两层抽样的情况为例.假设第一层有m个数据分别为x1,x2,…,xm,平均数为x,方差为s12;第二层有n个数据,分别为y1,y2,…,yn,平均数为y,方差为s22.则x=1m∑i=1mxi,s12=1m∑i=1m(xi-x)2,y=①则w=mm+n②s2=1m+n{m[s12+(x-w)2]+n[s22+(1.判断正误.(正确的画“√”,错误的画“×”)(1)对一组数据来说,平均数和中位数总是非常接近. ()(2)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数. ()(3)方差与标准差具有相同的单位. ()(4)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变. ()答案:(1)×(2)√(3)×(4)√2.若某校高一年级8个班参加合唱比赛的得分分别为87,89,90,91,92,93,94,96,则这组数据的中位数和平均数分别是 ()A.91.5和91.5B.91.5和92C.91和91.5 D.92和92解析:A这组数据由小到大排列为87,89,90,91,92,93,94,96,所以中位数是91+922=91.5,平均数x=87+89+90+91+92+93+94+968=91.3.为了弘扬体育精神,某校组织秋季运动会,在一项比赛中,学生甲进行了8组投篮,得分分别为10,8,a,8,7,9,6,8,如果学生甲的平均得分为8分,那么这组数据的第75百分位数为 ()A.8 B.9C.8.5 D.9.5解析:C由题意可得10+8+a+8+7+9+6+88=8,解得a=8,将这组数据按从小到大的顺序排列为6,7,8,8,8,8,9,10,因为8×75%=6为整数,所以这组数据的第75百分位数为8+92=8.54.(多选)下列说法正确的是 ()A.众数可以准确地反映出总体的情况B.一组数据的平均数一定大于这组数据中的每个数据C.平均数、众数与中位数从不同的角度描述了一组数据的集中趋势D.一组数据的方差越大,说明这组数据的波动越大解析:CD对于A,众数体现了样本数据的最大集中点,但对其他数据信息的忽略使得其无法客观反映总体特征,所以A错误;对于B,一组数的平均数不可能大于这组数据中的每一个数据,所以B错误;对于C,平均数、众数与中位数从不同的角度描述了一组数据的集中趋势,所以C正确;对于D,方差可以用来衡量一组数据波动的大小,方差越小,数据波动越小,方差越大,数据波动越大,所以D正确.1.频率分布直方图中的常见结论(1)众数的估计值为最高矩形底边的中点对应的横坐标;(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和;(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.2.平均数、方差的公式推广若数据x1,x2,…,xn的平均数为x,方差为s2,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是mx+a,方差为m2s2.1.(2020·全国Ⅲ卷)设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为 ()A.0.01 B.0.1C.1 D.10解析:C由结论2知,样本数据10x1,10x2,…,10xn的方差为102×0.01=1,故选C.2.(多选)如图是某班50名学生期中考试数学成绩的频率分布直方图,其中成绩分组区间是[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则下列说法正确的是 ()A.图中的x的值为0.018B.该班50名学生期中考试数学成绩的众数是75C.该班50名学生期中考试数学成绩的中位数是75D.该班50名学生期中考试数学成绩的平均数是75解析:AB由频率分布直方图可得10×(0.006×3+0.010+x+0.054)=1,解得x=0.018,A正确;由结论1知,数学成绩的众数是75,B正确;设中位数为a,则0.22+a-7010×10×0.054=0.5,解得a≈75.2,C错误;45×0.06+55×0.06+65×0.1+75×0.54+85×0.18+95×0.06=74,D错误.故选A 总体百分位数的估计【例1】(1)将高三某班60名学生参加某次数学模拟考试所得的成绩(成绩均为整数)整理后画出频率分布直方图如图,则此班的模拟考试成绩的80%分位数是;(结果保留两位小数)

(2)一个容量为20的样本,其数据按从小到大的顺序排列为:1,2,2,3,5,6,6,7,8,8,9,10,13,13,14,15,17,17,18,18,则该组数据的第75百分位数为,第86百分位数为.

解析(1)由频率分布直方图可知,分数在120分以下的学生所占的比例为(0.01+0.015+0.015+0.03)×10×100%=70%,分数在130分以下的学生所占的比例为(0.01+0.015+0.015+0.03+0.0225)×10×100%=92.5%,因此80%分位数一定位于[120,130)内.因为120+0.80-0.700.925-0.70×(2)∵75%×20=15,∴第75百分位数为14+152=14.5.∵86%×20=17.2,∴第86百分位数为第18个数据17答案(1)124.44(2)14.517|解题技法|1.总体百分位数的估计需要注意的两个问题(1)总体百分位数估计的基础是样本百分位数的计算,因此计算准确是关键;(2)由于样本量比较少,因此对总体的估计可能存在误差,因此对总体百分位数的估计一般是估计值而非精确值.2.确定要求的p%分位数所在分组[A,B),由频率分布表或频率分布直方图可知,样本中小于A的频率为a,小于B的频率为b,所以p%分位数=A+组距×p%-1.如图所示是某市3月1日至3月10日的最低气温(单位:℃)的情况绘制的折线统计图,由图可知这10天最低气温的第80百分位数是 ()A.-2B.0 C.1D.2解析:D由折线图可知,这10天的最低气温按照从小到大的排列为:-3,-2,-1,-1,0,0,1,2,2,2,∵共有10个数据,∴10×80%=8,是整数,则这10天最低气温的第80百分位数是2+22=22.已知100个数据的第75百分位数是9.3,则下列说法正确的是 ()A.这100个数据中一定有75个数小于或等于9.3B.把这100个数据从小到大排列后,9.3是第75个数据C.把这100个数据从小到大排列后,9.3是第75个数据和第76个数据的平均数D.把这100个数据从小到大排列后,9.3是第75个数据和第74个数据的平均数解析:C因为100×75%=75,为整数,所以第75个数据和第76个数据的平均数为第75百分位数,是9.3,则C正确,其他选项均不正确,故选C. 总体集中趋势的估计【例2】(多选)某城市在创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数,满分100分),从中随机抽取一个容量为100的样本,发现数据均在[40,100]内.现将这些分数分成6组并画出样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,则下列说法正确的是 ()A.频率分布直方图中第三组的频数为10B.根据频率分布直方图估计样本的众数为75分C.根据频率分布直方图估计样本的中位数为75分D.根据频率分布直方图估计样本的平均数为75分解析分数在[60,70)内的频率为1-10×(0.005+0.020+0.030+0.025+0.010)=0.10,所以第三组的频数为100×0.10=10,故A正确;因为众数的估计值是频率分布直方图中最高矩形底边的中点的横坐标,从图中可看出众数的估计值为75分,故B正确;因为(0.005+0.020+0.010)×10=0.35<0.5,(0.005+0.020+0.010+0.030)×10=0.65>0.5,所以中位数位于[70,80)内,设中位数为x,则0.35+0.03(x-70)=0.5,解得x=75,所以中位数的估计值为75分,故C正确;样本平均数的估计值为45×(10×0.005)+55×(10×0.020)+65×(10×0.010)+75×(10×0.030)+85×(10×0.025)+95×(10×0.010)=73(分),故D错误.答案ABC|解题技法|求众数、中位数、平均数的方法(1)众数:由定义知,一组数据中出现次数最多的数,即为众数,若有两个或几个数据出现的次数最多,且出现的次数一样,这些数据都是这组数据的众数;若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数;(2)中位数:若一组数据为奇数个,按照从小到大(或从大到小)的顺序排列,位于中间位置的数据就是这组数据的中位数;若一组数据为偶数个,按照从小到大(或从大到小)的顺序排列,位于中间位置的两个数据的平均数就是这组数据的中位数;(3)平均数:利用x=1n∑i=11.下面是某城市某日在不同观测点对细颗粒物(PM2.5)的观测值:396275268225168166176173188168141157若在此组数据中增加一个比现有的最大值大25的数据,则下列数字特征没有改变的是 ()A.极差 B.中位数C.众数 D.平均数解析:C在此组数据中增加一个比现有的最大值大25的数据后,所得的一组新数据从小到大排列为141,157,166,168,168,173,176,188,225,268,275,396,421.对于A,所得的一组新数据的极差为421-141=280,原来的这组数据的极差为396-141=255,故A不正确;对于B,原来的这组数据的中位数为173+1762=174.5,所得的一组新数据的中位数为176,故B不正确;对于C,原来的这组数据与所得的一组新数据的众数均为168,故C正确;对于D,设原来的这组数据的平均数为x,则421>x,所以所得的一组新数据的平均数12x+42113>12x+x2.(多选)2022年7月下旬,某省遭遇特大洪涝灾害,某品牌服饰公司第一时间向该省捐赠5000万元物资以援助抗灾,该品牌随后受到消费者的青睐,如图为该品牌服饰某分店1~8月的销量(单位:件)情况.以下描述正确的是 ()A.这8个月销量的极差为4132B.这8个月销量的中位数为2499C.这8个月中2月份的销量最低D.这8个月中销量比前一个月增长最多的是7月份解析:ACD对于A,这8个月销量的极差为4844-712=4132,故A正确;对于B,这8个月的销量从小到大依次为712,1433,1533,1952,2822,3046,4532,4844,所以这8个月销量的中位数是1952+28222=2387,故B不正确;对于C,由题图可知,这8个月中2月份的销量最低,故C正确;对于D,由题图可知,这8个月中销量比前一个月增长最多的是7月份,增加了4532-2822=1710 总体离散程度的估计考向1方差与标准差【例3】(2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:旧设备9.810.310.010.29.9新设备10.110.410.110.010.1旧设备9.810.010.110.29.7新设备10.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x和y,样本方差分别记为s12和(1)求x,y,s12,(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高如果y-解(1)由表格中的数据易得:x=-0.2+0.3+0+0.2-0y=0.1+0.4+0.1+0+0.1+0.s12=110×[(9.7-10.0)2+2×(9.8-10.0)2+(9.9-10.0)2+2×(10.0-10.0)2+(10.1-10.0)2+2×(10.2-10.0)2+(10.3-10.0)2]=0s22=110×[(10.0-10.3)2+3×(10.1-10.3)2+(10.3-10.3)2+2×(10.4-10.3)2+2×(10.5-10.3)2+(10.6-10.3)2]=0(2)由(1)中数据可得y-x=10.3-10.0=0.3,而2s12+s2210=25(s12+s|解题技法|1.标准差、方差描述了一组数据围绕平均数波动的情况.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小.2.用样本估计总体就是利用样本的数字特征来描述总体的数字特征.考向2分层随机抽样的方差与标准差【例4】某学校统计教师职称及年龄,中级职称教师的人数为50,其平均年龄为38岁,方差是2,高级职称的教师中有3人58岁,5人40岁,2人38岁,求该校中级职称和高级职称教师年龄的平均数和方差.解由已知条件可知高级职称教师的平均年龄为x高=3×58+5×40+2×383+5+2=45(高级职称教师年龄的方差为s高2=110×[3×(58-45)2+5×(40-45)2+2×(38-45)2]所以该校中级职称和高级职称教师的平均年龄为x=5050+10×38+1050+10×45≈39(该校中级职称和高级职称教师年龄的方差为s2=5050+10×[2+(38-39)2]+1050+10×[73+(45-39)2]≈20.|解题技法|计算分层随机抽样的方差的步骤(1)确定x,y,s12,(2)确定ω;(3)应用公式s2=mm+n[s12+(x-ω)2]+nm+n[s22+(y1.样本中共有五个个体,其值分别为0,1,2,3,m.若该样本的平均值为1,则其方差为 ()A.105 B.C.2 D.2解析:D依题意得m=5×1-(0+1+2+3)=-1,样本方差s2=15×[(-1)2+02+12+22+(-2)2]=2,即所求的样本方差为22.在高一入学时,某班班委统计了本班所有同学中考的体育成绩,并计算出平均分和方差.后来又转学来一位同学.若该同学中考的体育成绩恰好等于这个班级原来所有同学中考体育成绩的平均分,则下列说法正确的是 ()A.班级平均分不变,方差变小B.班级平均分不变,方差变大C.班级平均分改变,方差变小D.班级平均分改变,方差变大解析:A设该班原来有n位同学,这n位同学中考体育成绩的平均分和方差分别为x,y,则转学来一位同学后,该班所有同学中考体育成绩的平均分x=nx+xn+1=x,方差s2=1n+1×(yn+0)=y-yn+1<y,所以转学来一位同学后3.某学校有高中生500人.其中男生320人,女生180人.为了获得全体高中生身高的信息,按照分层随机抽样原则抽取样本,男生样本量为32,女生样本量为18,通过计算得男生身高样本均值为173.5cm,方差为17,女生身高样本均值为163.83cm,方差为30.03,求所有数据的样本均值和方差.解:由题意得ω=3250×173.5+1850×163.83≈170.02(s2=150×{[32×17+32×(173.5-170.02)2]+[18×30.03+18×(163.83-170.02)2]}≈43.241.给定一组数据5,5,4,3,3,3,2,2,2,1,则这组数据的 ()A.众数为2B.平均数为2.5C.方差为1.6 D.标准差为4解析:C由题中数据可得,众数为2和3,故A错误;平均数为x=5+5+…+2+110=3,故B错误;方差s2=(5-3)2+(5-3)2+…2.甲组数据为:5,12,16,21,25,37,乙组数据为:1,6,14,18,38,39,则甲、乙的平均数、极差及中位数相同的是 ()A.极差 B.平均数C.中位数 D.都不相同解析:B由题中数据的分布,可知极差不同,甲的中位数为16+212=18.5,乙的中位数为14+182=16,x甲=5+12+16+21+25+376=583,x乙=1+6+14+18+38+3963.甲、乙两班举行电脑汉字录入比赛,参赛学生每分钟录入汉字的个数经统计计算后填入下表:班级参加人数中位数方差平均数甲55149191135乙55151110135下列结论中,不正确的是 ()A.甲、乙两班学生成绩的平均水平相同B.乙班优秀的人数多于甲班优秀的人数(每分钟输入汉字数≥150个为优秀)C.甲班的成绩比乙班的成绩波动大D.甲班成绩的众数小于乙班成绩的众数解析:D甲、乙两班成绩的平均数都是135,故两班成绩的平均水平相同,∴A正确;s甲2=191>110=s乙2,∴甲班成绩不如乙班稳定,即甲班成绩波动较大,∴C正确;甲、乙两班人数相同,但甲班成绩的中位数为149,乙班成绩的中位数为151,从而易知乙班每分钟输入汉字数≥150个的人数要多于甲班,∴B正确;由题表看不出两班学生成绩的众数4.某市教育部门组织高中教师在暑假期间进行培训,培训后统一举行测试.随机抽取100名教师的测试成绩(单位:分,满分100分)进行统计,得到如图所示的频率分布折线图,则下列说法正确的是()A.这100名教师的测试成绩的极差是20分B.这100名教师的测试成绩的众数是90分C.这100名教师的测试成绩的中位数是87.5分D.这100名教师中测试成绩不低于90分的人数占比超过50%解析:C对于A,由题意知,这100名教师的测试成绩的最高分与最低分无法确定,故极差无法确定,故A错误;对于B,由题图易知这100名教师的测试成绩的众数为87.5分,故B错误;对于C,设这100名教师的测试成绩的中位数为x分,则(0.02+0.04)×5+(x-85)×0.08=0.5,解得x=87.5,故C正确;对于D,这100名教师中测试成绩不低于90分的人数占比为(0.03+0.03)×5×100%=30%,30%<50%,故D错误.故选C.5.(多选)下表为2022年某煤炭公司1~10月份的煤炭生产量:月份12345678910产量(单位:万吨)23252417.517.52126293027则下列结论正确的是 ()A.极差为12.5万吨 B.平均数为24万吨C.中位数为24万吨 D.众数为17.5万吨解析:ABD将表格中的数据由小到大排列依次为17.5,17.5,21,23,24,25,26,27,29,30.极差为30-17.5=12.5(万吨),A正确;平均数为17.5×2+21+23+24+25+26+27+29+3010=24(万吨),B正确;中位数为25+242=24.5(万吨),C错误;众数为17.5(万吨6.(多选)若甲组样本数据x1,x2,…,xn(数据各不相同)的平均数为2,方差为4,乙组样本数据3x1+a,3x2+a,…,3xn+a的平均数为4,则下列说法正确的是 ()A.a的值为-2B.乙组样本数据的方差为36C.两组样本数据的中位数一定相同D.两组样本数据的极差不同解析:ABD由题意可知,3×2+a=4,a=-2,故A正确;乙组样本数据方差为9×4=36,故B正确;设甲组样本数据的中位数为xi,则乙组样本数据的中位数为3xi-2,所以两组样本数据的中位数不一定相同,故C错误;甲组数据的极差为xmax-xmin,则乙组数据的极差为(3xmax-2)-(3xmin-2)=3(xmax-xmin),所以两组样本数据的极差不同,故D正确.7.从甲、乙、丙三个厂家生产的同一种产品中各抽取8件产品,对其使用寿命(单位:年)跟踪调查结果如下:甲:3,4,5,6,8,8,8,10;乙:4,6,6,6,8,9,12,13;丙:3,3,4,7,9,10,11,12.三个厂家在广告中都称该产品的使用寿命是8年,请根据结果判断厂家在广告中分别运用了平均数、众数、中位数中的哪一种集中趋势的特征数:甲,乙,丙.

解析:甲、乙、丙三个厂家从不同角度描述了一组数据的特征,甲:该组数据8出现的次数最多;乙:该组数据的平均数x=4+6×3+8+9+12+138=8;丙:该组数据的中位数是7+92=答案:众数平均数中位数8.已知30个数据的60%分位数是8.2,这30个数据从小到大排列后第18个数据是7.8,则第19个数据是.

解析:由30×60%=18,设第19个数据为x,则7.8+x2=8.2,解得x=8.6,即第19个数据是答案:8.69.已知一个样本的样本容量为10,平均数为15,方差为3,现从样本中去掉一个数据15,此时样本的平均数为x,方差为s2,则x=,s2=.

解析:设10个数据为x1,x2,…,x9,15,则x=15×10-159又s2=(x1-15)2+(x2-15)答案:151010.首次实施新高考的八省(市)于2021年1月23日统一举行了新高考适应性考试,在联考结束后,根据联考成绩,考生可了解自己的学习情况,作出升学规划,决定是否参加强基计划.在本次适应性考试中,某学校为了解高三学生的联考情况,随机抽取了100名学生的联考数学成绩作为样本,并按照分数段[50,70),[70,90),[90,110),[110,130),[130,150]分组,绘制了如图所示的频率分布直方图.(1)求出图中a的值并估计本次考试及格率(“及格率”指得分为90分及以上的学生所占比例);(2)估计该校学生联考数学成绩的第80百分位数;(3)估计该校学生联考数学成绩的众数、平均数.解:(1)由频率分布直方图的性质,可得(0.004+a+0.013+0.014+0.016)×20=1,解得a=0.003.所以及格率为(0.016+0.014+0.003)×20=0.66=66%.(2)得分在110分以下的学生所占比例为(0.004+0.013+0.016)×20=0.66,得分在130分以下的学生所占比例为0.66+0.014×20=0.94,所以第80百分位数位于[110,130)内,由110+20×0.8-0.660.94(3)由图可得,众数估计值为100分.平均数估计值为0.08×60+0.26×80+0.32×100+0.28×120+0.06×140=99.6(分).11.为了考察某校各班参加课外书法小组的人数,在全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为10,样本方差为4,且样本数据互不相同,则样本数据中的最大值为 ()A.10 B.11C.12 D.13解析:D设5个数据分别是x1,x2,x3,x4,x5,则由方差为4得(x1-10)2+(x2-10)2+(x3-10)2+(x4-10)2+(x5-10)2=20,显然最大值不可能大于14,假如x5≥15,则(x5-10)2≥25,不合题意,若最大值为14,不妨设x5=14,(x5-10)2=16,则(x1-10)2,(x2-10)2,(x3-10)2,(x4-10)2只能一个0,两个1,还有一个是4,不合题意,若最大值为13,不妨设x5=13,此时如x1=7,x2=9,x3=10,x4=11,满足题意.故选D.12.某班成立了A,B两个数学兴趣小组,A组10人,B组30人,经过一周的补习后进行了一次测试,在该测试中,A组的平均成绩为130分,方差为115,B组的平均成绩为110分,方差为215.则在这次测试中全班学生的平均成绩和方差分别为,.

解析:依题意xA=130,sA2=115,xB=110,sB2=215,∴x=1010+30×130+3010+30×110=115(分),∴全班学生的平均成绩为115分.全班学生成绩的方差为s2=1010+30[sA2+(xA-x)2]+3010+30[sB2+(xB-x)2]=1010+30答案:11526513.某年级120名学生在一次百米测试中,成绩全部介于13秒与18秒之间.将测试结果分成5组:[13,14),[14,15),[15,16),[16,17),[17,18],得到如图所示的频率分布直方图.如果从左到右的5个小矩形的面积之比为1∶3∶7∶6∶3,那么成绩的70%分位数约为秒.

解析:因为1+3+71+3+7+6+3=0.55=55%,1+3+7+61+3+7+6+3=0.85=85%,所以70%分位数在[16,17)内,所以70%分位数约为16+0.7-0.答案:16.514.某种治疗心脏病的中药产品的质量以其质量指标值衡量,质量指标值越大表明质量越好.为了提高中药产品的质量,我国医疗科研专家攻坚克难,研发出A,B两种新配方,在这两种新配方生产的产品中随机抽取数量相同的样本,测量这些产品的质量指标值,规定质量指标值小于85为废品,在[85,115)为一等品,不小于115为特等品.现把测量数据整理如下,其中B配方的样本中有6件废品.A配方的频数分布表质量指标值[75,85)[85,95)[95,105)[105,115)[115,125]频数8a36248(1)求实数a,b的值;(2)试确定A配方和B配方哪一种更好.(说明:在统计方法中,同一组数据常用该组区间的中点值作代表)解:(1)依题意,A,B两种配方的样本容量相同,设为n.由B配方的样本中有6件废品,结合B配方的频率分布直方图,得6n=0.006×10,解得n=100∴a=100-(8+36+24+8)=24.由(0.006+b+0.038+0.022+0.008)×10=1,得b=0.026.∴实数a,b的值分别为24,0.026.(2)由(1)及A配方的频数分布表得,A配方质量指标值的样本平均数xA=1100×(80×8+90×24+100×36+110×24+120×8)=1100×(200×8+200×24+100×36)=100,A配方质量指标值的样本方差sA2=1100×[(-20)2×8+(-10)2×24+0×36+102×24+202由(1)及B配方的频率分布直方图得,B配方质量指标值的样本平均数xB=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100B配方质量指标值的样本方差sB2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=综上,xA=xB,sA即A,B两种配方质量指标值的样本平均数相等,但A配方质量指标值没有B配方质量指标值稳定,∴B配方更好.15.中国独有的文书工具,即笔、墨、纸、砚,有文房四宝之名,起源于南北朝时期.其中宣纸是文房四宝的一种,宣纸“始于唐代,产于泾县”,因唐代泾县隶属宣州管辖,故因地得名宣纸.宣纸按质量等级分为正牌(优等品)、副牌(合格品)、废品三等.某公司生产的宣纸为纯手工制作,年产宣纸10000刀(1刀=100张),该公司按照某种质量指标x给宣纸确定等级如下表所示:x的范围(44,48]∪(52,56](48,52][0,44]∪(56,60]质量等级副牌正牌废品在该公司所生产的宣纸中随机抽取了一刀进行检验,得到频率分布直方图如图所示,已知每张正牌宣纸的利润为15元,副牌宣纸的利润为8元,废品的利润为-20元.(1)试估计该公司的年利润;(2)市场上有一种售价为100万元的机器可以改进宣纸的生产工艺,但这种机器的使用寿命为一年,只能提高宣纸的质量,不能增加宣纸的年产量.据调查这种机器生产的宣纸的质量指标x如下表所示:x的范围(x-2,x+2)(x-6,x+6)频率0.68270.9545其中x为质量指标x的平均值,但是由于人们对传统手工工艺的认可,改进后的正牌和副牌宣纸的利润都将下降3元/张,请问该公司是否购买这种机器,请你为公司提出合理建议,并说明理由.(同一组的数据用该组区间的中点值作代表)解:(1)由频率分布直方图得,一刀宣纸有正牌100×0.1×4=40(张),有副牌100×0.05×4×2=40(张),有废品100×0.025×4×2=20(张),∴该公司一刀宣纸的利润的估计值为40×15+40×8-20×20=520(元),∴估计该公司的年利润为520万元.(2)由频率分布直方图得,x=42×0.025×4+46×0.05×4+50×0.1×4+54×0.05×4+58×0.025×4=50.这种机器生产的宣纸的质量指标x如下表所示:x的范围(48,52)(44,56)频率0.68270.9545∴一刀宣纸中正牌的张数估计为100×0.6827=68.27,废品的张数估计为100×(1-0.9545)=4.55,副牌的张数为100×(0.9545-0.6827)=27.18,∴一刀宣纸的利润为68.27×12+27.18×5-4.55×20=864.14(元),∴改进后该公司的年利润为864.14-100=764.14(万元),∵764.14>520,∴建议该公司购买这种机器.第三节成对数据的统计分析第一课时变量间的相关关系及回归模型1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系.2.结合实例,会通过相关系数比较多组成对数据的相关性.3.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.4.针对实际问题,会用一元线性回归模型进行预测.1.变量的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.与函数关系不同,相关关系是一种非确定性关系;(2)如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关;(3)一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,就称这两个变量线性相关.2.样本相关系数(1)样本相关系数r=∑i=1n(2)样本相关系数r的性质①当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系;②样本相关系数r的取值范围为[-1,1].当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型(1)经验回归直线:从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做经验回归直线;(2)经验回归方程为y=bx+a,其中b=∑i=1n(xi-x)(y(3)通过求Q=∑i=1n(yi-bxi-a)2的最小值而得到经验回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小4.判断回归模型的拟合效果由成对样本数据(xi,yi)(i=1,2,…,n)按照最小二乘法得到经验回归方程y=bx+a,其中y叫做观测值,y叫做预测值,残差e=y-y.相对于样本点(xi,yi)的随机误差ei=yi-yi=yi-(bxi+(1)残差分析法①作残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为残差图;②残差分析:残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.(2)决定系数(R2)法:R2=1-∑i=1n(yi-y1.判断正误.(正确的画“√”,错误的画“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系. ()(2)散点图是判断两个变量相关关系的一种重要方法和手段. ()(3)经验回归直线y=bx+a至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点. ()(4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强. ()答案:(1)√(2)√(3)×(4)√2.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是()A.①②③B.②③①C.②①③ D.①③②解析:D第一个散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.3.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是()A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%解析:B观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.4.在一元线性回归模型Y=bx+a+e中,下列说法正确的是 ()A.Y=bx+a+e是一次函数B.响应变量Y是由解释变量x唯一确定的C.响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生D.随机误差e是由于计算不准确造成的,可通过精确计算避免随机误差e的产生解析:C对于A,一元线性回归模型Y=bx+a+e中,方程表示的不是确定性关系,因此不是一次函数,所以A错误;对于B,响应变量Y不是由解释变量x唯一确定的,所以B错误;对于C,响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生,所以C正确;对于D,随机误差是不能避免的,只能将误差缩小,所以D错误.5.已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且经验回归方程为y=0.95x+a,则a=.

x0134y2.24.34.86.7解析:∵经验回归直线必过样本点的中心(x,y),又x=2,y=4.5,∴代入经验回归方程,得a=2.6.答案:2.6 变量间相关关系的判断1.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是 ()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关解析:C因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=by+a,b>0,则z=by+a=-0.1bx+b+a,故x与z负相关.2.对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是 ()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析:A由散点图知图(1)与图(3)是正相关,故r1>0,r3>0,图(2)与图(4)是负相关,故r2<0,r4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r2<r4<0<r3<r1.|练后悟通|判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关;(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强;(3)经验回归方程:当b>0时,正相关;当b<0时,负相关. 样本相关系数【例1】(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i12345678910总和根部横截面积xi0.040.060.040.080.080.050.050.070.070.060.6材积量yi0.250.400.220.540.510.340.360.460.420.403.9并计算得∑i=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论