版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
三统计案例
知识要点,易错提醒
概念速记,
1.最小二乘法
对于一组数据(%,%),i=l,2,…,n,如果它们线性相关,则线性回归方程为尸6x+a,
其中少
苫(%-%)(力7)tx.y.-nxy_
------;-----——二.....-,a=y-bx.
£(4.一%)“£先.-nx
i=[1(=1i
2.2X2列联表
2X2列联表如表所示:
BB总计
Aaba+b
Acdc+d
总计a+cb+dn
其中〃=a+6+c+d为样本容量.
3.片检验
常用随机变量r=(a+方)(:**)"+d)来检验两个变量是否有关系•
易误辨析,一
1.回归分析的两个关注点
(1)回归分析是建立在两个具有相关性的变量之间的一种模拟分析,因此先判断其是否具有
相关性.
(2)并非只有线性相关关系,还可能存在非线性相关关系.
2.独立性检验的两个注意点
(1)通过独立性检验得到的结论未必正确,它只是对一种可靠性的预测.
(2)2X2列联表中,当数据a,b,c,d都不小于5时,才可以用*检验.
4_主__题__串__讲__,_综__合__提_高__■nacrm4
主题1回归分析
曲某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费近单位:千元)对年
销售量y(单位:力和年利润Z(单位:千元)的影响.对近8年的年宣传费为和年销售量%(i
=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
年销售量y/i
620
600•••
580.*
560•
540.
520
500•
4801—।—।—।—।—।—।—।—।—।—।—i—»
343638404244464850525456
年宣传费”千元
8888_
XyW£(一丁25-工2(x-%)(>->)y(IT-w)(y-y)
1=1ii=lii=liii=lii
46.65636.8289.81.61469108.8
8
表中啊=
(1)根据散点图判断,尸a+"与y=c+3那一个适宜作为年销售量y关于年宣传费x的
回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与%y的关系为zy—x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据Vi),(如V2),…,(0"%),其回归直线/=〃+£〃的斜率和截
距的最小二乘估计分别为
£(%-〃)(4-”)
人<C—一人
B=----------:-------------------2-------=1Bu.
2
y(»i-M)
1=1
【解】(1)由散点图可以判断,适宜作为年销售量y关于年宣传费x的回归方
程类型.
(2)令,仁正,先建立y关于田的线性回归方程.
8
£(w.-w)(y.-y)
由于己=上一j-----------------------=毕滑=68,
V(2L6
Z(w.-W一)、
1=1
c=y-dW=563—68X6.8=100.6,
所以y关于甲的线性回归方程为/=100.6+68科
因此y关于x的回归方程为y+68y
(3)①由(2)知,当*=49时,
年销售量y的预报值尸100.6+68749^576.6,
年利润z的预报值z=576.6X0.2—49=66.32.
②根据⑵的结果知,年利润z的预报值
z=0.2(100.6+68百)-x=-x4x+20.12.
所以当/=岑=6.8,即x=46.24时,z取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
园图画幽
解决回归分析问题的一般步骤
(1)画散点图.根据己知数据画出散点图.
(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关
系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.
(3)回归分析.画残差图或计算",进行残差分析.
(4)实际应用.依据求得的回归方程解决问题.
0:跟踪训练在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:
x(元)1116182022
y(件)1210753
且知x与y具有线性相关关系,求出y关于x的回归直线方程,并说明拟合效果的好坏.
—1
解:(14+16+18+20+22)=18,
5
一1
y=-X(12+10+7+5+3)=7.4,
□
Ix2=142+162+182+2O2+222=1660,
«=i1
Zx.y.=14x12+16x10+18x7+20x5+22x3=620,
5------
所以3^620-5x18x74^_L15
Lx2-5?1660-5x18-
1=11
所以a=7.4+1.15X18=28.1,
所以y对x的回归直线方程为yx+28.1.
列出残差表为
0
K—必
y\—y
5个
所以之(兀-兀)2=0.3,
£(兀-y)~=53.2,
1=11
57
Z(r-y.)2
R2=1-~^-«0.994.
斗(兀-y)2
所以**0.994,拟合效果较好.
主题2独立性检验
倒画某学生对其30位亲属的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指
数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数大于等于
70的人,饮食以肉类为主.)
甲(50岁以下)乙(50岁以上)
-r2015676
323796
534452
858
61
6784758
5328
09
(1)根据茎叶图,帮助这位同学说明其30位亲属的饮食习惯;
⑵根据以上数据完成如表所示的2X2列联表.
主食蔬菜主食肉类总计
50岁以下
50岁以上
总计
下认为“其亲属的饮食习惯与年龄有关”?
【解】(1)30位亲属中50岁以上的人饮食多以蔬菜为主,50岁以下的人饮食多以肉类为
主.
(2)2X2列联表如表所示:
主食蔬菜主食肉类总计
50岁以下4812
50岁以上16218
总计201030
BOX(4X9—Qx1)2
(3)随机变量片的观测值k=»仃,d3万乂备一=1。>6.635,
Ai1oAZUAiU
所以在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.
四周回困
独立性检验问题的求解策略
(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的
相关性.
(2)片统计量法:通过公式
//7X2
*=-(汴〃)言忒一(:工、)"工石-先计算观测值N再与临界值表作比较,最后得出
结论.
处跟踪训练在考查黄烟是否经过药物处理与发生青花病的关系时,得到如下数据:在试
验的470株黄烟中,经过药物处理的黄烟有25株发生青花病,60株没有发生青花病;未经
过药物处理的有185株发生青花病,200株没有发生青花病.试推断经过药物处理跟发生青
花病是否有关系.
解:由已知,得2X2列联表如下:
经过药物处理未经过药物处理总计
青花病25185210
无青花病60200260
总计85385470
提出假设饵经过药物处理跟发生青花病无关系.
根据列联表中的数据,可以求得随机变量A2的观测值为
470X(25X200-185X60)2
k=--------------------------仁
210X260X85X3859二7,8。8。.
因为当外成立时,/27.879的概率约为0.005,而此时片的观测值左79.788>7.879,
认为经过药物处理跟发生青花病是有关系的.
课后训练,巩固提升.
,[A基础达标]
1.对两个变量y和x进行回归分析,得到一组样本数据:(①,弘),(热,及),…,(工,%),
则下列说法中不正确的是()
A.由样本数据得到的回归方程y=6x+a必过样本点的中心(x,y)
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数〃来刻画回归效果,〃的值越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数r=-0.9362,则变量y与x之间具有线性相关关系
解析:选C."的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,故选C.
2.下列说法中正确的有:()
①若r>0,则x增大时,y也相应增大;
②若r<0,则x增大时,y也相应增大;
③若r=l或r=-1,则矛与y的关系完全对应(有函数关系),在散点图上各个散点均在一
条直线上.
A.①②B.②③
C.①③D.①②③
r>0,表示两个相关变量正相关,x增大时,y也相应增大,故①正确,rVO,表示两个变
量负相关,x增大时,y相应减小,故②错误.|万越接近1,表示两个变量相关性越高,61
=1表示两个变量有确定的关系(即函数关系),故③正确.
3.若两个变量的残差平方和是325,Z(%一亍)2=923,则随机误差对预报变量的贡献率
i=l
约为()
A.64.8%B.60%
C.35.2%D.40%
325
—^0.352.
yzj
4.有下列数据
X123
y3
下列四个函数中,模拟效果最好的为()
A.y=3X2'_1B.y=log2X
C.y=3xD.y=x
解析:选4分别把x=l,2,3,代入求值,求最接近y的值,即为模拟效果最好,故选4
5.通过随机询问100名性别不同的小学生是否爱吃零食,得到如下的列联表:
男女合计
爱吃104050
不爱吃203050
合计3070100
P(百心
k
2nQad-be)2,100(10X30-20X40)2
由*=(a+b)(c+d)(a+c)Qb+d)'计算得*=50X50X30X70七4762.
参照附表,得到的正确结论为()
A.在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”
B.在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别无关”
C.有97.5%以上的把握认为“是否爱吃零食与性别有关”
D.有97.5%以上的把握认为“是否爱吃零食与性别无关”
解析:选4因为*比4.762>3.841,尸(/>3.841)=0.05.所以在犯错误的概率不超过5%的前
提下,认为“是否爱吃零食与性别有关”,故选4
6.某种活性细胞的存活率7(%)与存放温度”(℃)之间有如下几组样本数据:
存放温度x(℃)104-2-8
存活率7(%)20445680
6°C时,该种细胞的存活率的预报值为%.
解析:设回归直线方程为yx+a,因为7=1,7=50,则a=*x=6时,y=-3.2X6+53.2
=34.
答案:34
7.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=3#+i的图象
附近,则可通过转换得到的线性回归方程为.
解析:由了=3产+‘,
得Iny=/〃(3e”+'),
即Iny=ln3+2x+l,
令u=lny,v—x,则线性回归方程为u=l+ln3+2匕
答案:u=l+ln3+2x(其中u=lny)
8.为了调查患慢性气管炎是否与吸烟有关,调查了100名50岁以下的人,调查结果如下表:
患慢性气管炎未患慢性气管炎总计
吸烟202040
不吸烟55560
总计2575100
根据列联表数据,求得*=(保留3位有效数字),根据下表,在犯错误的概率不超
过的前提下认为患慢性气管炎与吸烟有关.
附:
尸(片24)
ko
n(ad-be)2__________
*=
(a+Z?)(c+d)(a+c)(/?+4).
解析:〃的观测值人吟粽W展-22.2>I0.82&
所以在犯错误的概率不超过0.001的前提下认为患慢性气管炎与吸烟有关.
9.某学校高三年级有学生1000名,经调查,其中750名同学经常参加体育锻炼(称为A
类同学),另外250名同学不经常参加体育锻炼(称为夕类同学),现用分层抽样方法(按/
类、8类分两层)从该年级的学生中共抽查100名同学,如果以身高达165c/作为达标的标
准,对抽取的100名学生,得到以下列联表:
[」身高达标身高不达标总计
经常参加体育锻炼40
不经常参加体育锻炼15
总计100
(1)完成上表;
(2)能否在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系(/
的观测值精确到0.001)?
解:(1)填写列联表如下:
身高达标身高不达标总计
经常参加体育锻炼403575
不经常参加体育锻炼101525
总计5050100
(2)由列联表中的数据,得「的观测值为
M二mg
333<3.841.
75X25X50X50
常参加体育锻炼与身高达标有关系.
10.某城市理论预测2011年到2015年人口总数与年份的关系如表所示:
年份2011+x(年)01234
人口数y(十万)5781119
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,求出y关于x的线性回归方程y="+a;
(3)据此估计2018年该城市人口总数.
解:(1)散点图如图:
人口数十万
20-•
15-
10-••,
1234~~
0+1+2+3+4
(2)因为3=
5
5+7+8+11+19
----------:----------=10,
*p;=0x5+1x7+2x8+3x11+4x19=132,
tx2=02+12+22+32+42=30,
i=1I
的,、,士132-5x2x10Q6
所以6=--------------------=3.2,
30-5x22
a=y-bx—3.6;
所以线性回归方程为yx+3.6.
(3)令x=7,则y=3.2X7+3.6=26.
即估计2018年该城市人口总数为26十万.
[B能力提升]
11.(2018•河南洛阳3月模拟)某省电视台为了解该省卫视一档成语类节目的收视情况,抽
查东、西部各5个城市,得到观看该节目的人数的统计数据(单位:千人),并画出如下茎叶
图,其中一个数字被污损.
东部西部
988337
2109•9
(1)求东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人
数的概率;
(2)该节目的播出极大地激发了观众对成语知识学习积累的热情,现从观看节目的观众中随
机统计了4位观众学习成语知识的周均时间(单位:小时)与年龄(单位:岁),并制作了如下
对照表:
年龄才20304050
周均学习成语知识时间y34
根据表中数据,试求线性回归方程尸"+a,并预测年龄为60岁的观众周均学习成语知识
的时间.
n---
-nxy__
参考公式:6=-----------=y-bX.
V22
2%-nx
i=l1
解:(1)设被污损的数字为a,则a有10种情况.
由88+89+90+91+92>83+83+87+90+a+99,得a<8,
所以有8种情况使得东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目
的观众的平均人数,
84
所求概率为
1U□
4--
__-4xy
(2)由表中数据,计算得%=35,y=3.5,1==一~—=
Zx2-4x2
1=11
525-4x35x3.5_7
5400-4x352一10°'
-721
a=y-bx=3.5——X35=—
-721
所以尸丽x+丽.
当x=60时,y=5.25.
即预测年龄为60岁的观众周均学习成语知识的时间为5.25小时.
12.(选做题)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各20
人组成一个样本,对他们的这项血液指标进行了检测,得到了如下茎叶图.根据医学知识,
我们认为此项指标大于40为偏高,反之即为正常.
男性女性
89750
98134
5973121558
87542312458
721403789
452567
(1)依据上述样本数据研究此项血液指标与性别的关系,列出2义2列联表,并判断能否在犯
错误的概率不超过0.0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 开题报告:学生综合素质评价的理论建构与“落地”路径研究
- 开题报告:新时代我国家庭教育评价指标体系构建研究
- 2024年工程分包方现场作业管理协议版B版
- 2024年度传单发行社交媒体推广合同2篇
- 《质谱法蒋》课件
- 2024年商务促成合作合同范本版B版
- 二零二四年度供应合同的供应物品与供应期限3篇
- 教学计划范文检查记录
- 2024多用途建筑外围结构围墙门楼施工协议
- 《电工电子实践基础》课件第4章
- WH/T 87.1-2019公共图书馆业务规范第1部分:省级公共图书馆
- 辅导托管机构消防标准
- 星级酒店 菜点创新的内容和途径1
- GB/T 7025.2-2008电梯主参数及轿厢、井道、机房的型式与尺寸第2部分:Ⅳ类电梯
- GB/T 25264-2010溶剂型丙烯酸树脂涂料
- GA/T 1135-2014机动车号牌管理信息系统技术规范
- 全国大学英语四六级考试监考培训
- 《精卫填海》逐字稿
- 风险分级管控责任清单(市政道路工程)
- 提高领导干部创新思维能力课件
- 危机传播与管理课程教学大纲
评论
0/150
提交评论