




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章统计与成对数据的统计分析第3节成对数据的统计分析ZHISHIZHENDUANJICHUHANGSHI知识诊断基础夯实1(1)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在__________附近,我们就称这两个变量线性相关.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.1.变量的相关关系一条直线(1)相关系数r的计算变量x和变量y的样本相关系数r的计算公式如下:2.样本相关系数(2)相关系数r的性质①当r>0时,称成对样本数据____相关;当r<0时,成对样本数据____相关;当r=0时,成对样本数据间没有线性相关关系.②样本相关系数r的取值范围为______________.当|r|越接近1时,成对样本数据的线性相关程度越____;当|r|越接近0时,成对样本数据的线性相关程度越____.正负[-1,1]强弱3.一元线性回归模型(1)2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为4.列联表与独立性检验xy合计y=y1y=y2x=x1aba+bx=x2cdc+d合计a+cb+dn=a+b+c+d当χ2<xα时,我们没有充分证据推断H0不成立
,可以认为X和Y独立.这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828√1.思考辨析(在括号内打“√”或“×”)√√√BCD相关系数r的绝对值越接近于1,表示相关程度越强,越接近于0,相关程度越弱,故D正确.解析相关系数的取值范围是|r|≤1,故A错误;解析∵χ2=7.069>6.635=x0.01,∴认为“学生性别与支持某项活动有关系”的犯错误的概率不超过1%.3.某校为了研究“学生的性别”和“对待某一活动的态度”是否有关,运用2×2列联表进行独立性检验,经计算χ2=7.069,则认为“学生性别与支持某项活动有关系”的犯错误的概率不超过(
) A.0.1%
B.1% C.99% D.99.9%B由此散点图,在10℃至40℃之间,下面四个经验回归方程类型中最适宜作为发芽率y和温度x的经验回归方程类型的是(
)A.y=a+bx
B.y=a+bx2 C.y=a+bex
D.y=a+blnx4.某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:D解析由散点图可以看出,这些点大致分布在对数型函数的图象附近.5.(易错题)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.二孩生育意愿城市级别合计非一线一线愿生452065不愿生132235合计5842100根据小概率值α=0.01的独立性检验,可以得到的结论是_______________________________.α0.10.050.010.001xα2.7063.8416.63510.828生育意愿与城市级别有关6.若某商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下表所示的对应数据:106.5x24568y2040607080∴样本中心为(5,54),KAODIANTUPOTIXINGPOUXI考点突破题型剖析2根据表中数据,下列说法正确的是(
)A.利润率与人均销售额成正相关关系B.利润率与人均销售额成负相关关系C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:A月份123456人均销售额658347利润率(%)12.610.418.53.08.116.3解析由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误.解析观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.2.下列四个散点图中,变量x与y之间具有负的线性相关关系的是(
)DA解析在两个变量y与x的回归模型中,它们的决定系数R2越接近1,模型拟合效果越好,在四个选项中A的决定系数最大,所以拟合效果最好的是模型1.4.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数R2如下,其中拟合效果最好的模型是(
) A.模型1的决定系数R2为0.98 B.模型2的决定系数R2为0.80 C.模型3的决定系数R2为0.50 D.模型4的决定系数R2为0.25A(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数并加以说明(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合);例1
(2021·广州模拟)根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图如图所示:角度1线性回归分析∴可用线性回归模型拟合y与x的关系.(2)求y关于x的经验回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少.附:相关系数∴预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.例2
某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.角度2非线性回归分析(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;年利润z的预报值解
①由(2)知,当x=49时,年销售量y的预报值②根据(2)的结果知,年利润z的预报值故年宣传费为46.24千元时,年利润的预报值最大.训练1
下图是某地区2005年至2021年环境基础设施投资额y(单位:亿元)的折线图.利用模型②,该地区2023年的环境基础设施投资额的预测值为(1)分别利用这两个模型,求该地区2023年的环境基础设施投资额的预测值;(ⅰ)从折线图可以看出,2005年至2021年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2005年至2021年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解
利用模型②得到的预测值更可靠.理由如下:(ⅱ)从计算结果看,相对于2021年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.例3
某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次空气质量等级[0,200](200,400](400,600]1(优)216252(良)510123(轻度污染)6784(中度污染)720解由所给数据,得该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;空气质量等级1234概率的估计值0.430.270.210.09解一天中到该公园锻炼的平均人次的估计值为(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,能否在犯错误的概率不超过0.05的前提下,认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400人次>400空气质量好
空气质量不好
零假设为H0:一天中到该公园锻炼的人次与该市当天的空气质量无关.根据列联表得解根据所给数据,可得2×2列联表:
人次≤400人次>400空气质量好3337空气质量不好228根据小概率值α=0.050的χ2独立性检验,可推断H0不成立,所以在犯错误的概率不超过0.05的前提下,可认为一天中到该公园锻炼的人次与该市当天的空气质量有关.(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?训练2
甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品二级品合计甲机床15050200乙机床12080200合计270130400解需假设H0为:甲机床的产品质量与乙机床的产品质量无差异.根据题表中的数据可得α0.10.050.010.005xα2.7063.8416.6357.879根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异.此推断犯错误的概率不大于0.01.FENCENGXUNLIANGONGGUTISHENG分层训练巩固提升3A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%1.在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的是(
)B解析观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%.则哪位同学的试验结果体现A,B两个变量有更强的线性相关性?()A.甲 B.乙
C.丙 D.丁2.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r与残差平方和m,如下表:D
甲乙丙丁r0.820.780.690.85m106115124103解析r越大,m越小,线性相关性越强.A.4.2亿元
B.4.4亿元C.5.2亿元
D.5.4亿元3.某公司在2015~2019年的收入与支出情况如下表所示:C收入x(亿元)2.22.64.05.35.9支出y(亿元)0.21.52.02.53.8
DABDx681012y6m32解析由-0.7<0,得变量x,y之间成负相关关系,故A正确;6.(多选)某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下所示的列联表,经计算χ2≈4.762,则可以推断出(
)AC
满意不满意男3020女4010α0.1000.0500.010xα2.7063.8416.635因为χ2≈4.762>3.841=x0.05,认为男、女生对该食堂服务的评价有差异,此推断犯错误的概率不超过0.05,故C正确,D错误.8.某市物价部门对本市的5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x(元/件)和销售量y(件)的数据如下表所示:10售价x99.5m10.511销售量y11n865又m+n=20,所以m=10,n=10.解析χ2≈3.918≥3.841=x0.05,所以认为“这种血清能起到预防感冒的作用”,这种推断犯错误的概率不超过0.05.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.9.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918,经查临界值表知x0.05=3.841.则下列结论中,正确结论的序号是________. ①认为“这种血清能起到预防感冒的作用”犯错误的概率不超过0.05;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.①10.某城市地铁将于2023年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:月收入(单位:百元)[15,25)[25,35)[35,45)[45,55)[55,65)[65,75]赞成定价者人数123534认为价格偏高者人数4812521解
“赞成定价者”的月平均收入为(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);“认为价格偏高者”的月平均收入为∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元).(2)由以上统计数据填下面2×2列联表,依据小概率值α=0.01的独立性检验,可否认为“月收入以55百元为分界点对地铁定价的态度有差异”.对地铁定价的态度人均月收入
合计不低于55百元的人数低于55百元的人数认为价格偏高者
赞成定价者
合计
解根据条件可得2×2列联表如下:参考数据:α0.10.050.010.005xα2.7063.8416.6357.879对地铁定价的态度人均月收入合计不低于55百元的人数低于55百元的人数认为价格偏高者32932赞成定价者71118合计104050∴根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为“月收入以55百元为分界点对地铁定价的态度没有差异”.零假设为H0:月收入以55百元为分界点对地铁定价的态度无差异.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);解
样本(xi,yi)(i=1,2,…,20)的相关系数为(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);解
分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.12.在吸烟与患肺癌这两个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 占股利润合同范例
- 出售冰柜同城转让合同范本
- 2025年江西省安全员-A证考试题库附答案
- 三年级口算题练习1000道
- 医勤工合同范本
- 五冶劳务派遣合同范本
- 单位保洁安全合同范本
- 2025陕西省安全员C证(专职安全员)考试题库
- 出口苹果购销合同范本
- 数字教师情感识别
- 维修质量检验制度
- 统计学主要计算公式21098
- 品质控制计划(QC工程图)
- DB15T 1193-2017 城市供水行业反恐怖防范要求
- 汽车营销学(全套课件)
- 现浇墩台身轴线偏位、全高竖直度检测记录表
- 激光共聚焦显微镜校准规范编制说明
- 静脉窦血栓(共56张)课件
- 楼板配筋计算表格(自动版)
- GB∕T 1348-2019 球墨铸铁件-行业标准
- 2022年人教版小学数学四年级下册教案全册
评论
0/150
提交评论