统计案例分析_第1页
统计案例分析_第2页
统计案例分析_第3页
统计案例分析_第4页
统计案例分析_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——统计案例分析

商务统计案例分析,小组作业。

哺乳动物大脑发育水平相关因素回归分析

小组成员:

商务统计案例分析,小组作业。

目录

一、数据来源及背景1

1.数据来源12.数据背景及研究目的13.数据说明1二、统计分析1

1.数据描述性分析1

1.1数据基本描述11.2置信区间分析21.3brainweight与bodyweight的数据相关性21.4所有参数的相关性32.数据图形化分析33.多元回归分析5

3.1原始数据直接多元回归分析53.2对多元回归原始数据处理和调整83.3数据模型的确定123.4对Cook距离的分析17

三、总结18附录:研究数据19

商务统计案例分析,小组作业。

统计案例分析

一、数据来源及背景1.数据来源

数据来源于AmericanNaturalist(1974)杂志p.593-613.

2.数据背景及研究目的

达尔文在他的《进化论》一书中指出“生物之间存在着生存斗争,适应者生存下来,不适者则被淘汰,这就是自然的选择。生物正是通过遗传、变异和自然选择,从低级到高级,从简单到繁杂,种类由少到多地进化着、发展着。〞从达尔文的观点中我们可以得出动物具备使它们自身更好的生存和繁衍后代的能力,这是一种内在的属性。有一种观点认为,具备更大大脑容量的动物,譬如哺乳动物在生存和繁衍方面一般会表现得更好。虽然,哺乳动物的自然选择有一些限制,譬如他们寻常需要更长的怀孕期并且一次孕育后代的数量更少。这些负面因素在一定程度上减弱了哺乳动物的优势。但是总体来说,哺乳动物的优势要大于它们的劣势。寻常状况下,较大的大脑意味着躯体也更加的硕大。我们尝试用统计的方法,研究和分析一下具备更大大脑容量的哺乳动物之间具有什么样一致和不同的特征,在这些特征中是否会存在某些特别突出的因素。众所周知,哺乳动物是动物发展史上最高级的阶段,也是与人类关系最密切的一个类群。我们希望通过此次的论证和研究,能够得到关于一些哺乳动物大脑重量的信息,并找到与之相关联的因素,为促进哺乳动物大脑重量的研究提供可以参考的依据。3.数据说明

我们小组分析的案例,是研究哺乳动物大脑重量和其他几种因素的关系。这些因素主要包括哺乳动物的妊娠期天数、身体重量以及平均每窝产仔数量。数据总共采集了96种不同哺乳动物的信息。当模型具有显著的统计意义并且样本足够大(n=96)时,可以获得比较确凿的估计值。

二、统计分析

1.数据描述性分析1.1数据基本描述

我们对所采用的数据首先进行了简单的描述性分析,具体信息见下图。

商务统计案例分析,小组作业。

从上图的描述性分析初步可知,哺乳动物的平均怀孕期为151天,平均大脑重量为219毫克,平均体重108公斤,平均每次产仔数量为2.3。

对数据置信区间的分析使我们得知了:

对数据gestationperiod,样本均值为151.3,标准误11.0,由此构造的区间(129.4,173.2)有95%包括gestationperiod总体均值。

对数据brainweight,样本均值为219.0,标准误51.7,由此构造的区间(116.3,321.7)有95%包括brainweight总体均值。

对数据bodyweight,样本均值为108.3,标准误33.6,由此构造的区间(41.6,175.1)有95%包括bodyweight总体均值。

对数据av.Littersize,样本均值为2.310,标准误0.178,由此构造的区间(1.956,2.664)有95%包括av.Littersize

总体均值。

根据结果显示,哺乳动物的大脑重量和躯体重量是有十分强的相关性的。但是对brainweight取对数后,lnbrainweight和bodyweight之间的相关性减弱。而lnbrainweight和lnbody

商务统计案例分析,小组作业。

对brainweight和bodyweight取对数以后的整体相关性分析,可以粗略的看到,数据之间的相关性更加紧凑,整体感觉好于之前的分析。

2.数据图形化分析

这里,我们分别观测了brainweight和bodyweight的散点图,以及lnbrainweight和lnbodyweight的散点图。从第一张图上可以看到,绝大多数哺乳动物集中在图的左下角,也就是体重小于500公斤,大脑重量小于1000毫克的范围里。哺乳动物的体重变化范围还是相对较大的,下图中最大的体重是非洲象,体重2800公斤同时其大脑重量也达到了4480毫克,其次

商务统计案例分析,小组作业。

是河马体重1400公斤。相对于体重,脑容量更重的两个物种则是人类和海豚。海豚的脑重量

我们还尝试使用箱线图的方式对四种变量进行简单的摸索性数据分析,以便更直观的看到几种数据的分布概况。

商务统计案例分析,小组作业。

3.多元回归分析

3.1原始数据直接多元回归分析

我们以大脑重量为因变量,其他3种数据作为自变量,直接进行回归分析。回归结果如下:

商务统计案例分析,小组作业。

数据分析:

H0:0

根据假设检验的定义来初步分析一下回归结果,假设检验:

H:0a

从回归方程上分析,常数项,gestationperiod和bodyweight的P-值很小,说明可以明显

拒绝原假设H0。但是av.littersize的P-值为0.116,不能拒绝原假设。因此,对数据的回归分析还需要进一步的分析和验证。

Brainweight残差正态图和残差与拟合值图如下:

商务统计案例分析,小组作业。

数据分析:

从残差的正态分布图和残差与拟合值图分析,明显可以看到残差和正态分布拟合的不好,具有异方差的特性,是十分数方差。因此,初始的设置对数据进行直接回归分析是不恰当的。考虑采用其他模型来重新进行回归分析。

商务统计案例分析,小组作业。

3.2对多元回归原始数据处理和调整

考虑到残差图的形状,为了消除异方差的影响,我们对brainweight取对数,并再一次进行回归分析:

商务统计案例分析,小组作业。

数据分析:

商务统计案例分析,小组作业。

从残差图的正态图和残差与拟合值图分析,残差的分布效果更好。但是残差的正态拟合图的拟合效果依旧不是很好。并且,从上面的结果可以明显看到,对brainweight取对数进行回归以后,bodyweight参数的P-值明显变大。考虑到哺乳动物的brainweight和bodyweight还是应当有比较直接的联系的。因此我们对数据进行了进一步的调整,对bodyweight也取其对数值并用取对数以后的值再次进行分析。可以说哺乳动物的重量67.8%可以用妊娠周期的变异和每窝产仔数的变化来说明。在产仔一致的状况下,妊娠时间每多一天,幼仔大脑的重量提高0.015,会增加一微克。在控制其他因素的状况下,每窝幼仔多产一只,平均大脑重量会减少0.215微克。

商务统计案例分析,小组作业。

72757778

655390115240

8.40745.52155.19306.3801

8.53586.53764.77807.3992

0.2956-0.12850.1337-1.01620.23470.41500.1101-1.0191

-0.33X-2.16R0.97X-2.14R

R表示此观测值含有大的标准化残差X表示受X值影响很大的观测值。

weight残差正态图lnbrainweight残差正态图残差与拟合值正态概率图(响应为lnbrainweight)99.99995908070605040302010510.1

百分比

-1.5

-1.0

-0.5

0.0残差

0.5

1.0

1.5

2.0

-11-

商务统计案例分析,小组作业。

数据分析:

对bodyweight取对数以后的回归结果,明显好于之前。三个自变量的P-值0.05,说明可以拒绝自变量的系数为0的假设。因此,可以认为哺乳动物大脑容量和其他几种因素是具有一定联系的。根据回归的结果,异常数据有3个数据点残差大,这说明这些数据点与方程拟合程度一般。其中残存最大的两种哺乳动物是人类和海豚,如上图上方2个数据点所示。人类作为一种高智商的哺乳动物,在统计数据分析过程中,表达出一个比较大的残差值还是可以理解的。同样,我们从统计分析中也可以得知海豚也是一种高智商的哺乳动物。这些结论都和我们日常生活常识是吻合的。

3.3数据模型的确定

Minitab提供了自动选择最优的回归模型的功能,为了确定最终的数据统计分析模型,我们尝试让Minitab自动得出一个结论。回归的汇总报告如下图:

商务统计案例分析,小组作业。

从上面的分析中,看到lnbrainweight和lnbodyweight之间用线性模型进行拟合的效果要

商务统计案例分析,小组作业。

稍逊于使用二次模型。二次模型具有显著的二次项以及较高的调整的R平方。因此改用二次模

商务统计案例分析,小组作业。

尝试添加lnbodyweight的二次项,重新对数据集进行回归分析。回归分析:ln回归分析:lnbrainwei与gestation

pe,av.Litters,lnbodyweig,lnbwsq回归方程为lnbrainweight=2.52+0.00338gestationperiod(days)-0.112av.Littersize+0.659lnbodyweight-0.0239lnbwsq自变量系数系数标准误T常量2.51620.155116.23gestationperiod(days)0.00338100.00083904.03av.Littersize-0.111540.03623-3.08lnbodyweight0.658750.0270624.35lnbwsq-0.0238830.005878-4.06S=0.452819方差分析来源自由度SS回归4429.15残差误差9118.66合计95447.81MSFP107.29523.240.0000.21R-Sq=95.8%R-Sq(调整)=95.7%P0.0000.0000.0030.0000.000

来源自由度SeqSSgestationperiod(days)1291.10av.Littersize111.05lnbodyweight1123.62lnbwsq13.38异常观测值gestationperiodlnbrain拟合值标准化(days)weight拟合值标准误残差残差2707.17015.65120.07411.51893.40R671.45402.43260.0669-0.9786-2.19R3607.37786.34990.11101.02792.34R6558.40748.34320.27750.06420.18X3905.52156.59930.1246-1.0778-2.48R1155.19304.81160.21730.38140.96X2406.38016.73480.1926-0.3547-0.87X

观测值24465272757778

R表示此观测值含有大的标准化残差-15-

商务统计案例分析,小组作业。

数据分析:

受Minitab拟合建议的启发,尝试添加了一个二次项后,我们可以看到新增加的二次项的

商务统计案例分析,小组作业。

P-值为0.000。这说明,二次项在回归模型里还是有一定意义的。从上图中可以看到调整的R平方进一步提高到95.7%。也就是说模型对变异的解释能力进一步提高。在进行回归分析的最终,我们在Min

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论