统计案例分析_第1页
统计案例分析_第2页
统计案例分析_第3页
统计案例分析_第4页
统计案例分析_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、哺乳动物大脑发育水平相关因素回归分析小组成员:目录1、 数据来源及背景 11 数据来源 12 数据背景及研究目的 13 数据说明 12、 统计分析 11 数据描述性分析 11.1 数据基本描述 11.2 置信区间分析 21.3 brain weight 与 body weight 的数据相关性 21.4 所有参数的相关性 32 数据图形化分析 33 多元回归分析 53.1 原始数据直接多元回归分析 53.2 对多元回归原始数据处理和调整 83.3 数据模型的确定 123.4 对Cook距离的分析 17三、总结 18附录:研究数据 19统计案例分析一、数据来源及背景1 .数据来源数据来源于 Am

2、erican Naturalist (1974)杂志 p.593-613.2 .数据背景及研究目的达尔文在他的进化论一书中指出“生物之间存在着生存斗争,适应者生存 下来,不适者则被淘汰,这就是自然的选择。生物正是通过遗传、变异和自然选择, 从低级到高级,从简单到复杂,种类由少到多地进化着、发展着。”从达尔文的观点中我们可以得出动物具备使它们自身更好的生存和繁衍后代的能力,这是一种内在的属 性。有一种观点认为,具备更大大脑容量的动物,比如哺乳动物在生存和繁衍方面一般会 表现得更好。虽然,哺乳动物的自然选择有一些限制,比如他们通常需要更长的怀孕期并且一次孕育后代的数量更少。这些负面因素在一定程度上

3、削弱了哺乳动物的优势。但是总体来说,哺乳动物的优势要大于它们的劣势。通常情况下,较大的大脑意味着躯体也更加的硕大。我们尝试用统计的方法,研究和分析一下具备更大大脑容量的哺乳动物之间具有 什么样相同和不同的特征,在这些特征中是否会存在某些特别突出的因素。众所周知,哺乳动物是动物发展史上最高级的阶段,也是与人类关系最密切的一个类群。我们希望通过此次的论证和研究, 能够得到关于一些哺乳动物大脑重量的信息,并找到与之相关联的因素,为促进哺乳动物大脑重量的研究提供可以参考的依据。3 .数据说明我们小组分析的案例, 是研究哺乳动物大脑重量和其他几种因素的关系。这些因素主要包括哺乳动物的妊娠期天数、身体重量

4、以及平均每窝产仔数量。数据总共采集了96种不同哺乳动物的信息。当模型具有显著的统计意义并且样本足够大(n=96)时,可以获得比较准确的估计值。 Excel列示如下:Problem: Correlates of brain sizeNature of data :AName of the species物种名称BGestation period (days)妊娠期天数CBrain weight (gms)大脑重量DBody weight (kg):身体重量ELitter size平均每窝产仔数量二、统计分析1.数据描述性分析1.1数据基本描述我们对所采用的数据首先进行了简单的描述性分析,具体信息

5、见下图。 描述性统计 :gestation period, brain weight, body weight, av. Litter size均值标卜四分变量N N*均值 准误标准差最小值位数中位数gestation period (days) 96 0 151.311.0 108.1 16.0 63.0 133.5brain weight (gms) 96 0 219.051.7 507.00.5 12.2 74.0body weight (kg) 96 0 108.3 33.6 329.40.02.08.9av. Litter size 96 0 2.310 0.178 1.747 1.

6、000 1.000 1.200上四分变量位数最大值gestation period (days) 228.8 655.0brain weight (gms)260.0 4480.0body weight (kg)98.3 2800.0av. Litter size 3.400 8.000从上图的描述性分析初步可知,哺乳动物的平均怀孕期为151天,平均大脑重量为219毫克,平均体重108公斤,平均每次产仔数量为2.3。1.2 置信区间分析单样本 T: gestation period, brain weight (gm, body weight (kg), av. Litter size均值标变

7、量N均值标准差 准误95%置信区间gestation period (days) 96 151.3 108.1 11.0 (129.4, 173.2)brain weight (gms) 96 219.0 507.0 51.7 (116.3, 321.7)body weight (kg) 96 108.3 329.4 33.6 ( 41.6, 175.1)av. Litter size 96 2.310 1.747 0.178 (1.956, 2.664)对数据置信区间的分析使我们得知了:对数据gestation period ,样本均值为151.3,标准误11.0,由此构造的区间(129.4

8、, 173.2) 有95%包括gestation period总体均值。对数据brain weight ,样本均值为219.0,标准误51.7,由此构造的区间(116.3, 321.7)有95% 包括brain weight总体均值。对数据body weight ,样本均值为108.3,标准误33.6,由此构造的区间(41.6, 175.1)有95% 包括body weight总体均值。对数据av. Litter size ,样本均值为2.310,标准误0.178,由此构造的区间(1.956, 2.664)有 95%包括av. Litter size总体均值。1.3 brain weight

9、与 body weight 的数据相关性相关:brain weight (gms), body weight (kg)brain weight (gms) 和 body weight (kg) 的 Pearson 相关系数 =0.864P 值=0.000根据结果显示,哺乳动物的大脑重量和躯体重量是有非常强的相关性的。但是对brOin weight 取对数后,ln brain weight 和 body weight 之间的相关性减弱。 而 ln brain weight 和 ln bodyweight之间的相关性最强。这也为后面进行回归分析提供了一个思路。相关:ln brain weight,

10、 body weight (kg)In brain weight 和 body weight (kg) 的 Pearson 相关系数 =0.422P 值=0.000相关:ln brain weight, ln body weightln brain weight 和 ln body weight 的 Pearson 相关系数 =0.964P 值=0.0001.4 所有参数的相关性相关:gestation period, brain weight (gm), body weight (kg), av. Litter sizegestation period brain weight (gm) b

11、ody weight (kg) brain weight (gm) 0.7280.8640.0000.000body weight (kg) 0.6250.000av. Litter size-0.604-0.255-0.1830.0000.0120.075- 11-单元格内容:Pearson 相关系数对brain weight和body weight取对数以后的整体相关性分析,可以粗略的看到,数据之 间的相关性更加紧密,整体感觉好于之前的分析。相关:gestation period (days), av. Litter size, ln brain weight, ln body weigh

12、tgestation period av. Litter size ln brain weightav. Litter size-0.6040.000ln brain weight0.806-0.6120.0000.000ln body weight0.772-0.5130.9640.0000.0000.000单元格内容:Pearson 相关系数2 .数据图形化分析这里,我们分别观察了 brain weight和body weight的散点图,以及ln brain weight和ln body weight的散点图。从第一张图上可以看到,绝大多数哺乳动物集中在图的左下角,也就是体 重小于500

13、公斤,大脑重量小于1000毫克的范围里。哺乳动物的体重变化范围还是相对较大的,下图中最大的体重是非洲象,体重 2800公斤同时其大脑重量也达到了4480毫克,其次是河马体重1400公斤。相对于体重,脑容量更重的两个物种则是人类和海豚。海豚的脑重量 达到了 1600毫克。brain weight (gms) 与 body weight (kg)的散点图4000 -s m( 3000 -50020002000 -1000 -10001500body weight (kg)25003000F O-5-6 4 2 0 tharew nlarb nln brain weight 与 ln body we

14、ight 的散点图-2.55.07.580.02.5ln body weight我们还尝试使用箱线图的方式对四种变量进行简单的探索性数据分析,以便更直观的看 到几种数据的分布概况。3 .多兀回归分析3.1 原始数据直接多元回归分析我们以大脑重量为因变量,其他3种数据作为自变量,直接进行回归分析。回归结果如下:回归分析:brain weight与 gestation period, body weight, av. Litter size回归方程为brain weight (gms) = - 225 + 1.81 gestation period (days) + 0.986 body weig

15、ht(kg) + 27.6 av. Litter size自变量系数系数标准误T P常量-225.2983.06 -2.71 0.008gestation period (days) 1.80870.3544 5.10 0.000body weight(kg) 0.985880.09428 10.46 0.000av. Litter size 27.6517.41 1.59 0.116S = 224.561 R-Sq = 81.0% R-Sq(调整)=80.4%方差分析来源 自由度 SS MS F P 回归3 19777225 6592408 130.73 0.000残差误差92 463934

16、9 50428合计95 24416574来源自由度 Seq SSgestation period (days) 1 12947201 body weight(kg)1 6702907av. Litter size 1 127117异常观测值gestation brainperiod weight拟合值标准化观测值 (days) (gms) 拟合值标准误 残差 残差242701300.0354.842.1945.24.29R40212.4 34.2 82.2 -31.8 -0.15 X523601600.0611.263.1988.84.59R72655 4480.0 3747.5 190.5

17、732.5 6.16RX75390250.0734.569.0-484.5-2.27R77115180.0391.292.7-211.2-1.03 X78240 590.0 1616.7 112.5 -1026.7 -5.28RXR表示此观测值含有大的标准化残差 X表示受X值影响很大的观测值。0J=0Ha : N ¥ 0数据分析:根据假设检验的定义来初步分析一下回归结果,假设检验:从回归方程上分析,常数项,gestation period和body weight的P-值很小,说明可以明显拒绝原假设Hoo但是av. litter size的P-值为0.116,不能拒绝原假设。因此,对数

18、据的回归分 析还需要进一步的分析和验证。Brain weight残差正态图和残差与拟合值图如下:99.9正态概率图(响应为 brain weight (gms) )OOO 5 4 3 分百TH10510.1-1000-50005001000残差拟合值与拟合值(响应为 brain weight (gms) )数据分析:从残差的正态分布图和残差与拟合值图分析,明显可以看到残差和正态分布拟合的不好,具有异方差的特性,是非常数方差。因此,初始的设置对数据进行直接回归分析是不恰当的。 考虑采用其他模型来重新进行回归分析。3.2 对多元回归原始数据处理和调整考虑到残差图的形状,为了消除异方差的影响,我们对

19、 brain weight取对数,并再一次进 行回归分析: 回归分析:ln brain wei 与 gestation pe, body weight , av. Litter s回归方程为ln brain weight = 2.13 + 0.0151 gestation period (days)-0.000519 body weight (kg) - 0.215 av. Litter size自变量系数系数标准误 T P常量2.13500.4630 4.61 0.000(调整)=66.8%gestation period (days) 0.015089 0.001976 7.64 0.00

20、0 body weight (kg) -0.0005191 0.0005255 -0.99 0.326 av. Litter size -0.214920.09706 -2.21 0.029S = 1.25167 R-Sq = 67.8% R-Sq方差分析来源 自由度 SS MS F P 回归3 303.68 101.23 64.61 0.000残差误差92 144.14 1.57合计95 447.81来源gestation period (days) body weight (kg)自由度1 291.101 4.901 7.68Seq SSav. Litter size异常观测值gestat

21、ionperiodln brain拟合值标准化观测值 (days) weight拟合值标准误残差残差4510.1312.582 0.259 -:2.451 -2.00R40210.8670.732 0.4580.135 0.12 X661085.5613.026 0.1582.534 2.04R671045.7102.950 0.1692.760 2.23R726558.40710.350 1.062-1.943 -2.93RX771155.1932.052 0.5173.141 2.75RX782406.3804.815 0.6271.565 1.45 XR表示此观测值含有大的标准化残差X表

22、示受X值影响很大的观测值。ln brain weight 残差正态图 和 残差与拟合值正态概率图(响应为 ln brain weight )99.9分百1OOOO 05 1 5 4 3 2 1与拟合值(响应为 ln brain weight )321差残0- 1- 2 - 30246810拟合值数据分析:从残差图的正态图和残差与拟合值图分析,残差的分布效果更好。但是残差的正态拟 合图的拟合效果仍然不是很好。并且,从上面的结果可以明显看到,对 brain weight取对数进行回归以后,body weight参数的P-值明显变大。考虑到哺乳动物的brain weight和bodyweight还是

23、应该有比较直接的联系的。因此我们对数据进行了进一步的调整,对body weight也取其对数值并用取对数以后的值再次进行分析。可以说哺乳动物的重量67.8%可以用妊娠周期的变异和每窝产仔数的变化来说明。在产仔相同的情况下,妊娠时间每多一天,幼仔大 脑的重量提高0.015,会增加一微克。在控制其他因素的情况下,每窝幼仔多产一只,平均大 脑重量会减少0.215微克。卜图是对body weight取对数后再一次回归的结果:回归分析:ln brain weight 与 gestation period, av. Litter size, ln body weight回归方程为ln brain weig

24、ht = 2.68 + 0.00171 gestation period (days) - 0.167 av. Litter size + 0.619 ln body weight自变量系数系数标准误T P常量2.67560.1622 16.50 0.000gestation period (days) 0.0017055 0.0007898 2.16 0.033av. Litter size -0.167490.03622 -4.62 0.000ln body weight 0.618680.02724 22.71 0.000S = 0.489498 R-Sq = 95.1% R-Sq(调整

25、)=94.9%方差分析来源 自由度 SS MS F P 回归3 425.77 141.92 592.31 0.000残差误差92 22.04 0.24合计95 447.81来源自由度Seq SSgestation period (days) 1 291.10 av. Litter size 1 11.05 ln body weight1 123.62异常观测值gestationperiod ln brain拟合值标准化 残差观测值(days) weight拟合值标准误残差24270 7.1701 5.55120.0756 1.6190 3.35R4021 0.8671 0.70400.1776

26、 0.1631 0.36 X52360 7.3778 6.26200.1177 1.1158 2.35R727577786558.4074 8.5358 0.2956 -0.1285-0.33 X3905.5215 6.5376 0.1337 -1.0162-2.16R1155.1930 4.7780 0.2347 0.41500.97 X2406.3801 7.3992 0.1101 -1.0191-2.14RR表示此观测值含有大的标准化残差X表示受X值影响很大的观测值。ln brain weight残差正态图 残差与拟合值正态概率图(响应为 ln brain weight )9 5 0 O

27、OOOOOO 0 5 1 19 9987654321 1O99.9比分百,5O与拟合值ln brain weight(响应为1.51.00.5差残0.0-0.5-1.002468拟合值数据分析:又body weight取对数以后的回归结果,明显好于之前。三个自变量的P-彳t<0.05,说明可以拒绝自变量的系数为 0的假设。因此,可以认为哺乳动物大脑容量和其他几种因素是具有一定联系的。根据回归的结果,异常数据有3个数据点残差大,这表明这些数据点与方程拟合程度一般。其中残存最大的两种哺乳动物是人类和海豚,如上图上方2个数据点所示。人类作为一种高智商的哺乳动物,在统计数据分析过程中,体现出一个

28、比较大的残差值还是可以理解 的。同样,我们从统计分析中也可以得知海豚也是一种高智商的哺乳动物。这些结论都和我 们日常生活常识是吻合的。3.3数据模型的确定Minitab提供了自动选择最优的回归模型的功能,为了确定最后的数据统计分析模型,我 们尝试让Minitab自动得出一个结论。回归的汇总报告如图所示:-13-ln brain weight 与 ln body weight 的回归汇总报告Y: ln brain weightX: ln body weight线性模型的拟合线图Y和X之间存在关系吗?Y = 2.333 + 0.7191 X00.05 0.1> 0.5P = 0.000In

29、brain weight 和In body weight 之间的关系具有显 著的统计意义(p < 0.05) o模型所解释的变异0%100%ln brain weight致的。中92.90%的变异可能是由回归模型导用于描述Y和X之间的关系的线性模型的拟合方程是:Y = 2.333 + 0.7191 X如果此模型与数据拟合得很好,可使用此方程预测ln bodyweight的值为ln brain weight ,或查找对应于ln brain weight的所需值或值范围的ln body weight的设置。5 0 5 07 5 2 0 xlharew nla rb PIY和X之间相关负非相关

30、正具有显著统计意义的关系并不表示 X导致Y。-1010.96正相关(r = 0.96) 表示当 ln body weight brain weight 也趋于增加。增加时,ln 残差大-5.0-2.50.02.55.07.5ln body weight选JE的模型备择模型线性二次立方R平方(已调整)92.90%93.40%93.41%P值,模型0.000*0.000*0.000*P值,线性项0.000*0.000*0.000*P值,二次项-0.005*0.580P值,立方项-0.280残差标准差0.5790.5580.557*具有显著的统计意义(p < 0.05)ln brain wei

31、ght 与 ln body weight 的回归模型选择报告:ln brain weight :ln body weight线性模型的拟合线图Y = 2.333 + 0.7191 X二次模型您选择了线性模型,但 二次模型 具有显著的 二次项以及较高的调整的R平方。请考虑改用 二次模型。统计量- 22-从上面的分析中,看到ln brain weight和ln body weight之间用线性模型进行拟合的效果要稍逊于使用二次模型。二次模型具有显著的二次项以及较高的调整的R平方。因此改用二次模型再次进行拟合。ln brain weight 与 ln body weight 的回归Y: ln bra

32、in weight X: ln body weight汇总报告二次模型的拟合线图Y = 2.449 + 0.7715 X - 0.01766 X*200.05 0.1Y和X之间存在关系吗?> 0.5P = 0.000ln brain weight 和ln body weight之间的关系具有显著的统计意义(p < 0.05)n i a r bn50ln body weight注释模型所解释的变异用于描述Y和X之间关系的二次模型的拟合方程是:Y = 2.449 + 0.7715 X - 0.01766 X*2如果此模型与数据拟合得很好,可使用此方程预测ln bodyweight的值为

33、ln brain weight ,或查找对应于ln brainweight的所需值或值范围的ln body weight关系具有显著的统计意义并不表示X导致Y。ln brain weight 与 ln body weight 的回归模型选择报告的设置。Y: ln brain weight X: ln body weight二次模型的拟合线图Y = 2.449 + 0.7715 X - 0.01766 X*2e wn i a r bn l40 残差大异常X-5.0-2.50.02.5ln body weight5.07.5统计量选定的模型备择模型二次线性立方R平方(已调整)93.40%92.90

34、%93.41%P值,模型0.000*0.000*0.000*P值,线性项0.000*0.000*0.000*P值,二次项0.005*-0.580P值,立方项-0.280残差标准差0.5580.5790.557*具有显著的统计意义(p < 0.05)尝试添加ln body weight的二次项,重新对数据集进行回归分析。回归分析:ln brain wei 与 gestation pe, av. Litter s, In body weig, In bw sq回归方程为In brain weight = 2.52 + 0.00338 gestation period (days) - 0.1

35、12 av. Litter size + 0.659 ln body weight - 0.0239 ln bw sq自变量系数系数标准误T P常量2.51620.1551 16.23 0.000gestation period (days) 0.0033810 0.0008390 4.03 0.000 av. Litter size -0.111540.03623 -3.08 0.003ln body weight 0.658750.02706 24.35 0.000ln bw sq-0.023883 0.005878 -4.06 0.000S = 0.452819 R-Sq = 95.8%

36、 R-Sq (调整)=95.7%方差分析来源 自由度 SS MS F P 回归4 429.15 107.29 523.24 0.000残差误差91 18.66 0.21合计95 447.81来源gestation period (days) av. Litter size1ln body weight ln bw sq1自由度1 291.1011.051 123.623.38Seq SS异常观测值gestationperiod ln brain观测值(days) weight242707.17015.65124667 1.4540 2.4326523607.37786.3499726558.4

37、0748.3432753905.52156.5993771155.19304.8116782406.38016.7348拟合值拟合值标准误 0.0741 1.5189 3.40R0.0669 -0.9786 -2.19R0.1110 1.0279 2.34R0.2775 0.0642 0.18 X0.1246 -1.0778 -2.48R0.2173 0.3814 0.96 X0.1926 -0.3547 -0.87 X残差标准化残差R表示此观测值含有大的标准化残差X表示受X值影响很大的观测值。ln brain weight残差正态图和残差与拟合值图正态概率图(响应为 ln brain wei

38、ght )99.9比分百999590_8070605040302010510.1-1.5-1.0-0.50.0残差0.51.0i1.51.51.00.5差残0.0-0.5-1.00268与拟合值(响应为 ln brain weight )4拟合值数据分析:受Minitab拟合建议的启发,尝试添加了一个二次项后,我们可以看到新增加的二次项的P-值为0.000。这说明,二次项在回归模型里还是有一定意义的。从上图中可以看到调整的R平方进一步提高到95.7%。也就是说模型对变异的解释能力进一步提高。在进行回归分析的最后,我们在Minitab中加入了计算数据 Cook距离的步骤。希望通过考察目前模型的观

39、测值的Cook距离,判断是否存在对模型有强烈影响但是不太合理的点。目前,含有大的标准化残差的观测值数量是4个,影响点的数量是3个。3.4 XCook距离的分析当前观测值的Cook距离的统计如下, 可以看到最大Cook距离为0.1。此Cook距离为数据第75个观测值造成的,对应的哺乳动物是想。其次是人类和海豚,Cook距离在0.06到0.07之间。但是根据Cook距离1的经验准则,并不需要关注有影响观测值的存在问题。所以,目前的数 据基本上是合理的,满足分析要求的,不需要对数据进行额外的调整。50数指0.10 -Cook距离1的时间序列图8 6 4 2 口 口 口 口 o o o O1离距koQ

40、CO9O三、总结通过以上的统计分析,我们发现哺乳动物大脑的重量与其体重、妊娠期天数、平均每窝 产仔数量存在着一定的关系。而生物学界通常认为,动物的大脑是否发达和脑重量也存在一 定的关系,因此我们可以通过对动物体重、妊娠期天数、平均每窝产仔数量等显性数据的观 察,来进一步分析动物的大脑发达程度。在此基础上,我们可以更好的认识动物的认知与活 动规律。在经济生活中,此研究也具有重大的意义,例如马戏团可以利用此研究结果来选取大脑 发达的动物进行驯化,以获得更好的效果。虽然此研究是建立在生物学研究的基础之上,但 其结论对于马戏团、动物园等商业场所如何提高经济效益,也很具有指导性,具有可观的商 业价值。此

41、外,随着科学技术的发达,通过改变基因来改变物种特性,创造新的物种,也具有现 实可能性。因此,科研人员可以通过对体重、妊娠期天数、平均每窝产仔数量等变量的控制, 改良培育出实验所需要的大脑发达水平的物种。附录:研究数据species namegestation period (days)brain weight (gms)body weight(kg)av. Litter sizeQuokka2617.53.51hedgehog343.50.934.6tree shrew463.150.153elephant shrew1511.140.051.5elephant shrew2461.370.0

42、61.5lemur135222.11slow loris9012.81.21.2bush baby1359.90.71howler monkey139547.71ring-tail monkey180733.71spider monkey I1401149.11spider monkey II1401097.71gentle lemur1457.80.222rhesus monkeyI17584.661rhesus monkeyII1651078.71.1hamadryas baboon180183211western baboon180179321vervet guenon195674.61leaf monkey16865.55.81white handed gibbon2101025.51orangutan270343371chimpanzee230360451gorilla265406140

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论