统计案例分析_第1页
统计案例分析_第2页
统计案例分析_第3页
统计案例分析_第4页
统计案例分析_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、哺乳动物大脑发育水平相关因素回归分析小组成员:目录1、 数据来源及背景11. 数据来源12. 数据背景及研究目的13. 数据说明12、 统计分析11. .数据描述性分析11.1 数据基本描述11.2 置信区间分析21.3 brainweight与bodyweight的数据相关性21.4 所有参数的相关性32. 数据图形化分析33. 多元回归分析53.1 原始数据直接多元回归分析53.2 对多元回归原始数据处理和调整83.3 数据模型的确定123.4 对Cook距离的分析17三、总结18附录:研究数据19统计案例分析一、数据来源及背景.数据来源数据来源于AmericanNaturalist(19

2、74)杂志p.593-613.数据背景及研究目的达尔文在他的进化论一书中指出“生物之间存在着生存斗争,适应者生存下来,不适者则被淘汰,这就是自然的选择。生物正是通过遗传、变异和自然选择,从低级到高级,从简单到复杂,种类由少到多地进化着、发展着。”从达尔文的观点中我们可以得出动物具备使它们自身更好的生存和繁衍后代的能力,这是一种内在的属性。有一种观点认为,具备更大大脑容量的动物,比如哺乳动物在生存和繁衍方面一般会表现得更好。虽然,哺乳动物的自然选择有一些限制,比如他们通常需要更长的怀孕期并且一次孕育后代的数量更少。这些负面因素在一定程度上削弱了哺乳动物的优势。但是总体来说,哺乳动物的优势要大于它

3、们的劣势。通常情况下,较大的大脑意味着躯体也更加的硕大。我们尝试用统计的方法,研究和分析一下具备更大大脑容量的哺乳动物之间具有什么样相同和不同的特征,在这些特征中是否会存在某些特别突出的因素。众所周知,哺乳动物是动物发展史上最高级的阶段,也是与人类关系最密切的一个类群。我们希望通过此次的论证和研究,能够得到关于一些哺乳动物大脑重量的信息,并找到与之相关联的因素,为促进哺乳动物大脑重量的研究提供可以参考的依据。.数据说明我们小组分析的案例,是研究哺乳动物大脑重量和其他几种因素的关系。这些因素主要包括哺乳动物的妊娠期天数、身体重量以及平均每窝产仔数量。数据总共采集了96种不同哺乳动物的信息。当模型

4、具有显著的统计意义并且样本足够大(n=96)时,可以获得比较准确的估计值。Excel列示如下:Problem:CorrelatesofbrainsizeNatureofdata:ANameofthespecies物种名称BGestationperiod(days)妊娠期天数CBrainweight(gms)大脑重量DBodyweight(kg):身体重量ELittersize平均每窝产仔数量二、统计分析.数据描述性分析数据基本描述我们对所采用的数据首先进行了简单的描述性分析,具体信息见下图。描述性统计:gestationperiod,brainweight,bodyweight,av.Litt

5、ersize均值标卜四分变量NN*均值准误标准差最小值位数中位数gestationperiod(days)960151.311.0108.116.063.0133.5brainweight(gms)960219.051.7507.00.512.274.0bodyweight(kg)960108.333.6329.40.02.08.9av.Littersize9602.3100.1781.7471.0001.0001.200上四分变量位数最大值gestationperiod(days)228.8655.0brainweight(gms)260.04480.0bodyweight(kg)98.32

6、800.0av.Littersize3.4008.000从上图的描述性分析初步可知,哺乳动物的平均怀孕期为151天,平均大脑重量为219毫克,平均体重108公斤,平均每次产仔数量为2.3。置信区间分析单样本T:gestationperiod,brainweight(gm,bodyweight(kg),av.Littersize均值标变量N均值标准差准误95%置信区间gestationperiod(days)96151.3108.111.0(129.4,173.2)brainweight(gms)96219.0507.051.7(116.3,321.7)bodyweight(kg)96108.3

7、329.433.6(41.6,175.1)av.Littersize962.3101.7470.178(1.956,2.664)对数据置信区间的分析使我们得知了:对数据gestationperiod,样本均值为151.3,标准误11.0,由此构造的区间(129.4,173.2)有95%包括gestationperiod总体均值。对数据brainweight,样本均值为219.0,标准误51.7,由此构造的区间(116.3,321.7)有95%包括brainweight总体均值。对数据bodyweight,样本均值为108.3,标准误33.6,由此构造的区间(41.6,175.1)有95%包括b

8、odyweight总体均值。对数据av.Littersize,样本均值为2.310,标准误0.178,由此构造的区间(1.956,2.664)有95%包括av.Littersize总体均值。brainweight与bodyweight的数据相关性相关:brainweight(gms),bodyweight(kg)brainweight(gms)和bodyweight(kg)的Pearson相关系数=0.864P值=0.000根据结果显示,哺乳动物的大脑重量和躯体重量是有非常强的相关性的。但是对brweight取对数后,lnbrainweight和bodyweight之间的相关性减弱。而lnbr

9、ainweight和lnbodyweight之间的相关性最强。这也为后面进行回归分析提供了一个思路。相关:lnbrainweight,bodyweight(kg)Inbrainweight和bodyweight(kg)的Pearson相关系数=0.422P值=0.000相关:lnbrainweight,lnbodyweightlnbrainweight和Inbodyweight的Pearson相关系数=0.964P值=0.000所有参数的相关性相关:gestationperiod,brainweight(gm),bodyweight(kg),av.Littersizegestationperi

10、odbrainweight(gm)bodyweight(kg)brainweight(gm)0.7280.0000.8640.000bodyweight(kg)0.6250.000av.Littersize-0.604-0.255-0.1830.0000.0120.075单元格内容:Pearson相关系数对brainweight和bodyweight取对数以后的整体相关性分析,可以粗略的看到,数据之间的相关性更加紧密,整体感觉好于之前的分析。相关:gestationperiod(days),av.Littersize,Inbrainweight,Inbodyweightgestationper

11、iodav.LittersizeInbrainweightav.Littersize-0.6040.000Inbrainweight0.806-0.6120.0000.000Inbodyweight0.772-0.5130.9640.0000.0000.000单元格内容:Pearson相关系数.数据图形化分析这里,我们分别观察了brainweight和bodyweight的散点图,以及lnbrainweight和lnbodyweight的散点图。从第一张图上可以看到,绝大多数哺乳动物集中在图的左下角,也就是体重小于500公斤,大脑重量小于1000毫克的范围里。哺乳动物的体重变化范围还是相对较大

12、的,下图中最大的体重是非洲象,体重2800公斤同时其大脑重量也达到了4480毫克,其次是河马体重1400公斤。相对于体重,脑容量更重的两个物种则是人类和海豚。海豚的脑重量达到了1600毫克。brainweight(gms)与bodyweight(kg)的散点图50020002000-1000-10001500bodyweight(kg)25003000FO-5-6420tharewnlarbn-2.55.07.580.02.5lnbodyweight4000-sm(3000-Inbrainweight与Inbodyweight的散点图我们还尝试使用箱线图的方式对四种变量进行简单的探索性数据分析

13、,以便更直观的看到几种数据的分布概况。3.多兀回归分析3.1原始数据直接多元回归分析我们以大脑重量为因变量,其他3种数据作为自变量,直接进行回归分析。回归结果如下:回归分析:brainweight与gestationperiod,bodyweight,av.Littersize回归方程为brainweight(gms)=-225+1.81gestationperiod(days)+0.986bodyweight(kg)+27.6av.Littersize自变量系数系数标准误TP常量-225.2983.06-2.710.008gestationperiod(days)1.80870.35445.

14、100.000bodyweight(kg)0.985880.0942810.460.000av.Littersize27.6517.411.590.116S=224.561R-Sq=81.0%R-Sq(调整)=80.4%方差分析来源自由度SSMSFP回归3197772256592408130.730.000残差误差92463934950428合计9524416574来源自由度SeqSSgestationperiod(days)112947201bodyweight(kg)16702907av.Littersize1127117异常观测值gestationbrainperiodweight拟合值

15、标准化观测值(days)(gms)拟合值标准误残差残差242701300.0354.842.1945.24.29R40212.434.282.2-31.8-0.15X523601600.0611.263.1988.84.59R726554480.03747.5190.5732.56.16RX75390250.0734.569.0-484.5-2.27R115180.0391.292.7-211.2-1.03X240590.01616.7112.5-1026.7-5.28RXR表示此观测值含有大的标准化残差X表示受X值影响很大的观测值。;H0:N=0Ha:N#0数据分析:根据假设检验的定义来初步

16、分析一下回归结果,假设检验:从回归方程上分析,常数项,gestationperiod和bodyweight的P-值很小,说明可以明显拒绝原假设Hoo但是av.littersize的P-值为0.116,不能拒绝原假设。因此,对数据的回归分析还需要进一步的分析和验证。Brainweight残差正态图和残差与拟合值图如下:正态概率图(响应为brainweight(gms)99.9OOO543分百TH10510.1-1000-50005001000残差与拟合值(响应为brainweight(gms)拟合值数据分析:从残差的正态分布图和残差与拟合值图分析,明显可以看到残差和正态分布拟合的不好,具有异方差

17、的特性,是非常数方差。因此,初始的设置对数据进行直接回归分析是不恰当的。考虑采用其他模型来重新进行回归分析。3.2对多元回归原始数据处理和调整考虑到残差图的形状,为了消除异方差的影响,我们对brainweight取对数,并再一次进行回归分析:回归分析:lnbrainwei与gestationpe,bodyweight,av.Litters回归方程为lnbrainweight=2.13+0.0151gestationperiod(days)-0.000519bodyweight(kg)-0.215av.Littersize自变量系数系数标准误TP常量2.13500.46304.610.000ge

18、stationperiod(days)0.0150890.0019767.640.000bodyweight(kg)-0.00051910.0005255-0.990.326av.Littersize-0.214920.09706-2.210.029(调整)=66.8%S=1.25167R-Sq=67.8%R-Sq方差分析来源自由度SSMSFP回归3303.68101.2364.610.000残差误差92144.141.57合计95447.81来源gestationperiod(days)bodyweight(kg)自由度1291.1014.9017.68SeqSSav.Littersize异

19、常观测值gestationperiodlnbrain拟合值标准化观测值(days)weight拟合值标准误残差残差4510.1312.5820.259-:2.451-2.00R40210.8670.7320.4580.1350.12X661085.5613.0260.1582.5342.04R671045.7102.9500.1692.7602.23R726558.40710.3501.062-1.943-2.93RX771155.1932.0520.5173.1412.75RX782406.3804.8150.6271.5651.45XR表示此观测值含有大的标准化残差X表示受X值影响很大的观

20、测值。lnbrainweight残差正态图和残差与拟合值正态概率图(响应为lnbrainweight)99.9分百1OOOO05154321与拟合值(响应为lnbrainweight)321差合值数据分析:从残差图的正态图和残差与拟合值图分析,残差的分布效果更好。但是残差的正态拟合图的拟合效果仍然不是很好。并且,从上面的结果可以明显看到,对brainweight取对数进行回归以后,bodyweight参数的P-值明显变大。考虑到哺乳动物的brainweight和bodyweight还是应该有比较直接的联系的。因此我们对数据进行了进一步的调整,对bodyweight也

21、取其对数值并用取对数以后的值再次进行分析。可以说哺乳动物的重量67.8%可以用妊娠周期的变异和每窝产仔数的变化来说明。在产仔相同的情况下,妊娠时间每多一天,幼仔大脑的重量提高0.015,会增加一微克。在控制其他因素的情况下,每窝幼仔多产一只,平均大脑重量会减少0.215微克。卜图是对bodyweight取对数后再一次回归的结果:回归分析:lnbrainweight与gestationperiod,av.Littersize,lnbodyweight回归方程为lnbrainweight=2.68+0.00171gestationperiod(days)-0.167av.Littersize+0.

22、619lnbodyweight自变量系数系数标准误TP常量2.67560.162216.500.000gestationperiod(days)0.00170550.00078982.160.033av.Littersize-0.167490.03622-4.620.000lnbodyweight0.618680.0272422.710.000S=0.489498R-Sq=95.1%R-Sq(调整)=94.9%方差分析来源自由度SSMSFP回归3425.77141.92592.310.000残差误差9222.040.24合计95447.81来源自由度SeqSSgestationperiod(d

23、ays)1291.10av.Littersize111.05lnbodyweight1123.62异常观测值gestationperiodlnbrain拟合值标准化残差观测值(days)weight拟合值标准误残差242707.17015.55120.07561.61903.35R40210.86710.70400.17760.16310.36X523607.37786.26200.11771.11582.35R727577786558.40748.53580.2956-0.1285-0.33X3905.52156.53760.1337-1.0162-2.16R1155.19304.77800

24、.23470.41500.97X2406.38017.39920.1101-1.0191-2.14RR表示此观测值含有大的标准化残差X表示受X值影响很大的观测值。lnbrainweight残差正态图残差与拟合值正态概率图(响应为lnbrainweight)950OOOOOOO0511999876543211O99.9比分百,5O(响应为与拟合值lnbrainweight1.51.00.5差残0.0-0.5-1.002468拟合值数据分析:又bodyweight取对数以后的回归结果,明显好于之前。三个自变量的P-彳t0,5P=0.000Inbrainweight和Inbodyweight之间的关

25、系具有显著的统计意义(p0.5P=0.000Inbrainweight和Inbodyweight之间的关系具有显著的统计意义(p0.05)niarbn50Inbodyweight注释模型所解释的变异%用于描述Y和X之间关系的二次模型的拟合方程是:Y=2.449+0.7715X-0.01766X*2如果此模型与数据拟合得很好,可使用此方程预测Inbodyweight的值为Inbrainweight,或查找对应于Inbrainweight的所需值或值范围的Inbodyweight关系具有显著的统计意义并不表示X导致丫。Inbrainweight与Inbodyweight的回归模型选择报告的设置。Y

26、:InbrainweightX:Inbodyweight二次模型的拟合线图Y=2.449+0.7715X-0.01766X*2ewniarbnI0-2.55.07.5残差大异常X-5.00.02.5Inbodyweight统计量选定的模型备择模型二次线性立方R平方(已调整)93.40%92.90%93.41%P值,模型0.000具有显著的统计意义(p0.05)0.000*0.000*P值,线性项0.000*0.000*0.000*P值,二次项0.005*-0.580P值,立方项-0.280残差标准差0.5580.5790.557尝试添加lnbodyweight的二次项,重新对数据集进行回归分析

27、。回归分析:lnbrainwei与gestationpe,av.Litters,Inbodyweig,Inbwsq回归方程为lnbrainweight=2.52+0.00338gestationperiod(days)-0.112av.Littersize+0.659lnbodyweight-0.0239lnbwsq自变量系数系数标准误TP常量2.51620.155116.230.000gestationperiod(days)0.00338100.00083904.030.000av.Littersize-0.111540.03623-3.080.003lnbodyweight0.65875

28、0.0270624.350.000lnbwsq-0.0238830.005878-4.060.000S=0.452819R-Sq=95.8%R-Sq(调整)=95.7%方差分析来源自由度SSMSFP回归4429.15107.29523.240.000残差误差9118.660.21合计95447.81来源gestationperiod(days)av.Littersize1lnbodyweightlnbwsq1自由度1291.1011.051123.623.38SeqSS异常观测值gestationperiodlnbrain观测值(days)weight242707.17015.65124667

29、1.45402.4326523607.37786.3499726558.40748.3432753905.52156.5993771155.19304.8116782406.38016.7348拟合值拟合值标准误0.07411.51893.40R0.0669-0.9786-2.19R0.11101.02792.34R0.27750.06420.18X0.1246-1.0778-2.48R0.21730.38140.96X0.1926-0.3547-0.87X残差标准化残差R表示此观测值含有大的标准化残差X表示受X值影响很大的观测值。lnbrainweight残差正态图和残差与拟合值图正态概率图

30、(响应为lnbrainweight)99.9比分百999590_8070605040302010510.1-1.5-1.0-0.50.0残差0.51.0i1.51.51.00.5差残0.0-0.5-1.00268与拟合值(响应为lnbrainweight)4拟合值数据分析:受Minitab拟合建议的启发,尝试添加了一个二次项后,我们可以看到新增加的二次项的P-值为0.000。这说明,二次项在回归模型里还是有一定意义的。从上图中可以看到调整的R平方进一步提高到95.7%o也就是说模型对变异的解释能力进一步提高。在进行回归分析的最后,我们在Minitab中加入了计算数据Cook距离的步骤。希望通过

31、考察目前模型的观测值的Cook距离,判断是否存在对模型有强烈影响但是不太合理的点。目前,含有大的标准化残差的观测值数量是4个,影响点的数量是3个。3.4XCook距离的分析当前观测值的Cook距离的统计如下,可以看到最大Cook距离为0.1。此Cook距离为数据第75个观测值造成的,对应的哺乳动物是想。其次是人类和海豚,Cook距离在0.06到0.07之间。但是根据Cook距离1的经验准则,并不需要关注有影响观测值的存在问题。所以,目前的数据基本上是合理的,满足分析要求的,不需要对数据进行额外的调整。50数指0.10-Cook距离1的时间序列图8642口口口口oooO1离距koQCO9O三、总

32、结通过以上的统计分析,我们发现哺乳动物大脑的重量与其体重、妊娠期天数、平均每窝产仔数量存在着一定的关系。而生物学界通常认为,动物的大脑是否发达和脑重量也存在一定的关系,因此我们可以通过对动物体重、妊娠期天数、平均每窝产仔数量等显性数据的观察,来进一步分析动物的大脑发达程度。在此基础上,我们可以更好的认识动物的认知与活动规律。在经济生活中,此研究也具有重大的意义,例如马戏团可以利用此研究结果来选取大脑发达的动物进行驯化,以获得更好的效果。虽然此研究是建立在生物学研究的基础之上,但其结论对于马戏团、动物园等商业场所如何提高经济效益,也很具有指导性,具有可观的商业价值。此外,随着科学技术的发达,通过

33、改变基因来改变物种特性,创造新的物种,也具有现实可能性。因此,科研人员可以通过对体重、妊娠期天数、平均每窝产仔数量等变量的控制,改良培育出实验所需要的大脑发达水平的物种。附录:研究数据speciesnamegestationperiod(days)brainweight(gms)bodyweight(kg)av.LittersizeQuokka2617.53.51hedgehog343.50.934.6treeshrew463.150.153elephantshrew1511.140.051.5elephantshrew2461.370.061.5lemur135222.11slowloris

34、9012.81.21.2bushbaby1359.90.71howlermonkey139547.71ring-tailmonkey180733.71spidermonkeyI1401149.11spidermonkeyII1401097.71gentlelemur1457.80.222rhesusmonkeyI17584.661rhesusmonkeyII1651078.71.1hamadryasbaboon180183211westernbaboon180179321vervetguenon195674.61leafmonkey16865.55.81whitehandedgibbon2101025.51orangutan270343371chimpanzee230360451gorilla2654061401man2701300651longnosedarmadillo120123.74aardvark319.62.25jackrabbit4113.32.92.5treesquirrel386.230.333flyingsquirrel401.890.053.1canadianbeaver12840202.9beaver12845254deermouseI230.680.033.7deermouseII230.630

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论