统计案例分析_第1页
统计案例分析_第2页
统计案例分析_第3页
统计案例分析_第4页
统计案例分析_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哺乳动物大脑发育水平相关因素回归分析小组成员:名目一、 数据来源及背景 1数据来源 1数据背景及争论目的 1数据说明 1二、 统计分析 1数据描述性分析 1数据根本描述 1置信区间分析 2brainweight与bodyweight的数据相关性 2全部参数的相关性 3数据图形化分析 3多元回归分析 5原始数据直接多元回归分析 5对多元回归原始数据处理和调整 8数据模型确实定 12对Cook距离的分析 17三、总结 18附录:争论数据 19--20-统计案例分析一、数据来源及背景数据来源数据来源于AmericanNaturalist(1974)杂志p.593-613.数据背景及争论目的达尔文在他的《进化论》一书中指出“生物之间存在着生存斗争,适应者生存下来,不适者则被淘汰,这就是自然的选择。生物正是通过遗传、变异和自然选择,从低级到高级,从简洁到简单,种类由少到多地进化着、进展着。”从达尔文的观点中我们可以得出动物具备使它们自身更好的生存和繁衍后代的力量,这是一种内在的属素,为促进哺乳动物大脑重量的争论供给可以参考的依据。数据说明要包括哺乳动物的妊娠期天数、身体重量以及平均每窝产仔数量。数据总共采集了96种〔n=96〕时,可以获得比较准确的估量值。Excel列示如下:Problem: Problem: CorrelatesofbrainsizeNatureofdata:ABCDENameofthespeciesGestationperiod(days)Brainweight(gms)Bodyweight(kg)Littersize物种名称妊娠期天数大脑重量身体重量平均每窝产仔数量二、统计分析数据描述性分析数据根本描述描述性统计:gestation描述性统计:gestationperiod,brainweight,bodyweight,av.Littersize变量NN*均值均值标准误标准差最小值下四分位数中位数gestationperiod(days)960151.311.0108.116.063.0133.5brainweight(gms)960219.051.7507.00.512.274.0bodyweight(kg)960108.333.6329.40.02.08.9av.Littersize9602.3100.1781.7471.0001.0001.200变量上四分位数最大值gestationperiod(days)228.8655.0brainweight(gms)260.04480.0bodyweight(kg)98.32800.0av.Littersize3.4008.000从上图的描述性分析初步可知,哺乳动物的平均怀孕期为151天,平均大脑重量为2191082.3。单样本T:单样本T:gestationperiod,brainweight(gm,bodyweight(kg),av.Littersize均值标变量 N 均值标准差 准误 95%置信区间gestationperiod(days)96151.3 108.1 11.0(129.4,173.2)brainweight(gms)96219.0507.051.7(116.3,321.7)bodyweight(kg)96108.3329.433.6(41.6,175.1)av.Littersize962.3101.7470.178(1.956,2.664)对数据置信区间的分析使我们得知了:对数据gestationperiod151.311.0,由此构造的区间(129.4,173.2)95%包括gestationperiod总体均值。对数据brainweigh219.51.(116.3,321.7有95%brainweight总体均值。对数据bodyweight108.333.6,由此构造的区间(41.6,175.1)95%bodyweight总体均值。对数据av.Littersize2.3100.178,由此构造的区间(1.956,2.664)有95%包括av.Littersize总体均值。brainweightbodyweight的数据相关性相关:相关:brainweight(gms),bodyweight(kg)brainweight(gms)和bodyweight(kg)的Pearson相关系数=0.864P值=0.000相关:lnbrainweight,bodyweight(kg)依据结果显示,哺乳动物的大脑重量和躯体重量是有格外强的相关性的。但是对brainweightlnbrainweight和bodyweightln相关:lnbrainweight,bodyweight(kg)lnlnbrainweight和bodyweight(kg)的Pearson相关系数=0.422P值=0.000相关:lnbrainweight,lnbodyweightlnbrainweight和lnbodyweight的Pearson相关系数=0.964P值=0.000相关:gestation相关:gestationperiod,brainweight(gm),bodyweight(kg),av.LittersizeP值gestationbrainweight(gm)period0.728brainweight(gm)bodyweight(kg)0.000bodyweight(kg)0.6250.8640.0000.000av.Littersize-0.604-0.255-0.1830.0000.0120.075单元格内容:Pearson相关系数相关:gestationperiod(days),av.Littersize,相关:gestationperiod(days),av.Littersize,lnbrainweight,lnbodyweightP值gestationav.Littersizeperiod-0.604av.Littersizelnbrainweight0.000lnbrainweight0.806-0.6120.0000.000lnbodyweight0.772-0.5130.9640.0000.0000.000单元格内容:Pearson相关系数数据图形化分析brainweight和bodyweightlnbrainweight和lnbodyweight的散点图。从第一张图上可以看到,绝大多数哺乳动物集中在图的左下角,也就是体500公斤,大脑重量小于1000毫克的范围里。哺乳动物的体重变化范围还是相对较大28004480毫克,其次是河马体重1400公斤。相对于体重,脑容量更重的两个物种则是人类和海豚。海豚的脑重量1600毫克。50004000)smg(3000thgiwe2023wniarb10000

brainweight(gms)bodyweight(kg)0 500 1000 1500 2023bodyweight(kg)

2500 3000lnbrainweightlnbodyweight8t6hgiew4niarbn2l0-5.0 -2.5 0.0 2.5lnbodyweight

5.0 7.5我们还尝试使用箱线图的方式对四种变量进展简洁的探究性数据分析,以便更直观的看到几种数据的分布概况。gestationgestationpe,bodyweightav.Litters,brainweightgestationperiod(days)bodyweight(kg)30006004502023300100015000av.Littersize brainweight(gms)8400063000420232100000多元回归分析原始数据直接多元回归分析回归分析:brainweight与gestation回归分析:brainweight与gestationperiod,bodyweight,av.Littersize回归方程为brainweight(gms)=-225+1.81gestationperiod(days)+0.986bodyweight(kg)+27.6av.LittersizeS=224.561R-Sq=81.0%R-Sq〔调整〕=80.4%自变量系数系数标准误TP常量-225.2983.06-2.710.008gestationperiod(days)1.80870.35445.100.000bodyweight(kg)0.985880.0942810.460.000av.Littersize27.6517.411.590.116方差分析来源自由度SSMSFP回归3197772256592408130.730.000残差误差92463934950428合计9524416574来源自由度SeqSSgestationperiod(days)112947201bodyweight(kg)16702907av.Littersize1127117242701300.0354.842.1945.24.29R40212.434.282.2-31.8-0.15X523601600.0611.263.1988.84.59R726554480.03747.5190.5732.56.16RX75390250.0734.569.0-484.5-2.27R77115180.0391.292.7-211.2-1.03X78240590.01616.7112.5-1026.7-5.28RX特别观测值gestation特别观测值gestationperiod观测值 (days)brainweight 拟合值(gms)拟合值标准误标准化残差 R表示此观测值含有大的标准化残差X表示受X值影响很大的观测值。

H :0依据假设检验的定义来初步分析一下回归结果,假设检验:H0:0a从回归方程上分析,常数项,gestationperiodbodyweightP-值很小,说明可以明显拒绝原假设H0av.littersize的P-0.116,不能拒绝原假设。因此,对数据的回归分析还需要进一步的分析和验证。Brainweight残差正态图和残差与拟合值图如下:〔响应为brainweight〔响应为brainweight(gms)〕99.9999590807060504030201051比分百0.1

-1000 -500 0残差

500 1000与拟合值〔响应为brainweight(gms)〕1000500差 0残-500-10000 1000 2023拟合值

3000 4000数据分析:具有异方差的特性,是格外数方差。因此,初始的设置对数据进展直接回归分析是不恰当的。考虑承受其他模型来重进展回归分析。对多元回归原始数据处理和调整考虑到残差图的外形,为了消退异方差的影响,我们对brainweight取对数,并再一次进展回归分析:回归分析:lnbrainwei与gestationpe,bodyweight,av.Litters回归方程为lnbrainweight=2.13+0.0151gestationperiod(days)-0.000519bodyweight(kg)-0.215av.Littersize自变量系数系数标准误TP常量2.13500.46304.610.000gestationperiod(days)0.0150890.0019767.640.000bodyweight(kg)-0.00051910.0005255-0.990.326av.Littersize-0.214920.09706-2.210.029S=1.25167 R-Sq=67.8% R-Sq〔调整〕=66.8%方差分析来源自由度SSMSFP回归3303.68101.2364.610.000残差误差92144.141.57合计95447.81来源gestationperiod(days)自由度1SeqSS291.10bodyweight(kg)14.90av.Littersize17.68特别观测值观测值gestationperiod(days)lnbrainweight拟合值拟合值标准误残差标准化残差4510.1312.5820.259-2.451-2.00R40210.8670.7320.4580.1350.12X661085.5613.0260.1582.5342.04R671045.7102.9500.1692.7602.23R726558.40710.3501.062-1.943-2.93RX771155.1932.0520.5173.1412.75RX782406.3804.8150.6271.5651.45XR表示此观测值含有大的标准化残差XR表示此观测值含有大的标准化残差X表示受X值影响很大的观测值。lnbrainweight〔响应为〔响应为lnbrainweight〕99.9999590807060504030201051比分百0.1

-4 -3 -2 -1 0残差

1 2 3 4与拟合值〔响应为lnbrainweight〕321差残0-1-2-30 2

6 8 10数据分析:从残差图的正态图和残差与拟合值图分析,残差的分布效果更好。但是残差的正态拟合图的拟合效果仍旧不是很好。并且,从上面的结果可以明显看到,对brainweight取对数进展回归以后,bodyweightP-值明显变大。考虑到哺乳动物的brainweight和bodyweight还是应当有比较直接的联系的。因此我们对数据进展了进一步的调整,对bodyweight也取其对数值并用取对数以后的值再次进展分析。可以说哺乳动物的重量67.8%可以用妊娠周期的变异和每窝产仔数的变化来说明。在产仔一样的状况下,妊娠时间每多一天,幼仔大脑的重量提高0.015,会增加一微克。在掌握其他因素的状况下,每窝幼仔多产一只,平均大0.215微克。回归分析:lnbrainweight与gestation回归分析:lnbrainweight与gestationperiod,av.Littersize,lnbodyweight回归方程为lnbrainweight=2.68+0.00171gestationperiod(days)-0.167av.Littersize+0.619lnbodyweightS=0.489498R-Sq=95.1%R-Sq〔调整〕=94.9%自变量系数系数标准误TP常量2.67560.162216.500.000gestationperiod(days)0.00170550.00078982.160.033av.Littersize-0.167490.03622-4.620.000lnbodyweight0.618680.0272422.710.000方差分析来源自由度SSMSFP回归3425.77141.92592.310.000残差误差9222.040.24合计95447.81来源gestationperiod(days)自由度1SeqSS291.10av.Littersize111.05lnbodyweight1123.62特别观测值观测值gestationperiod(days)lnbrainweight拟合值拟合值标准误残差标准化残差242707.17015.55120.07561.61903.35R40210.86710.70400.17760.16310.36X523607.37786.26200.11771.11582.35R726558.40748.53580.2956-0.1285-0.33X753905.52156.53760.1337-1.0162-2.16R771155.19304.77800.23470.41500.97X782406.38017.39920.1101-1.0191-2.14RR表示此观测值含有大的标准化残差X表示受X值影响很大的观测值。lnR表示此观测值含有大的标准化残差X表示受X值影响很大的观测值。正态概率图正态概率图〔响应为lnbrainweight〕99.9999590比分百8070605040302010510.1-1.5-1.0-0.50.00.51.01.52.0残差与拟合值与拟合值〔响应为lnbrainweight〕1.51.00.5差残0.0-0.5-1.002468数据分析:对bodyweight取对数以后的回归结果,明显好于之前。三个自变量的P-值<0.05,说明可以拒绝自变量的系数为0的假设。因此,可以认为哺乳动物大脑容量和其他几种因素是具有肯定3个数据点残差大,这说明这些数据点与方程拟合程2个数据点所示。人类作为一种高智商的哺乳动物,在统计数据分析过程中,表达出一个比较大的残差值还是可以理解的。同样,我们从统计分析中也可以得知海豚也是一种高智商的哺乳动物。这些结论都和我们日常生活常识是吻合的。数据模型确实定Minitab供给了自动选择最优的回归模型的功能,为了确定最终的数据统计分析模型,我们尝试让Minitab自动得出一个结论。回归的汇总报告如下图:Y:lnbrainweightX:lnbodyweight

lnbrainweightlnbodyweight汇总报告Y和X之间存在关系吗?

线性模型的拟合线图Y=2.333+0.7191X0 0.050.1 >0.5是 否P=0.000lnbrainweightlnbodyweight(p0.05)。模型所解释的变异%0% 100%R-sq〔调整〕=92.90%lnbrainweight92.90%

7.5thgei5.0ewnira2.5rbnl0.0

-5 0 5lnbodyweight注释致的。

Y和X之间相关

用于描述Y和X之间的关系的线性模型的拟合方程是:Y=2.333+0.7191X假设此模型与数据拟合得很好,可使用此方程推测lnbodyweightlnbrainweight,lnbrainweightlnbodyweight负 非相关 正-1 0 10.96(r0.96)lnbodyweight,lnbrainweight

具有显著统计意义的关系并不表示X导致Y。Y:lnbrainweightX:lnbodyweight

lnbrainweightlnbodyweight模型选择报告线性模型的拟合线图Y=2.333+0.7191X残差大8t6hgiew4niarbn2l0-5.0 -2.5 0.0 2.5lnbodyweight

二次模型5.0 7.5 您选择了线性模型,但二次模型具有显著的二次项以及较高的调整的R平方。请考虑改用二次模型。统计量R平方〔已调整〕P残差标准差*(p0.05)

选定的模型线性92.90%0.000*0.000*--0.579

备择模型二次 立方93.40% 93.41%0.000* 0.000*0.000* 0.000*0.005* 0.580- 0.2800.558 0.557从上面的分析中,看到lnbrainweight和lnbodyweight之间用线性模型进展拟合的效果要R型再次进展拟合。Y:lnbrainweightX:lnbodyweight

lnbrainweightlnbodyweight汇总报告

二次模型的拟合线图Y=2.449+0.7715X-0.01766X**2Y和X之间存在关系吗? 7.50 0.050.1 >0.5 thg是 P=0.000lnbrainweightlnbodyweight(p0.05)。

i5.0ewenira2.5rbnl0.0-5 0 5lnbodyweight注释模型所解释的变异%0% 100%R-sq〔调整〕=93.40%lnbrainweight93.40%致的。

YXY=2.449+0.7715X-0.01766X**2假设此模型与数据拟合得很好,可使用此方程推测lnbodyweightlnbrainweight,lnbrainweightlnbodyweight关系具有显著的统计意义并不表示X导致Y。Y:lnbrainweightX:lnbodyweight

lnbrainweightlnbodyweight模型选择报告二次模型的拟合线图Y=2.449+0.7715X-0.01766X**2残差大8 Xt6hgiew4niarb2nl0-5.0统计量

-2.5 0.0 lnbodyweight

5.0 7.5R平方〔已调整〕P残差标准差*(p0.05)

选定的模型二次93.40%0.000*0.000*0.005*-0.558

备择模型线性 立方92.90% 93.41%0.000* 0.000*0.000* 0.000*- 0.580- 0.2800.579 0.557尝试添加lnbodyweight的二次项,重对数据集进展回归分析。回归分析:lnbrainwei与gestationpe,av.Litters,lnbodyweig,lnbwsq回归方程为lnbrainweight=2.52+0.00338gestationperiod(days)-0.112av.Littersize+0.659lnbodyweight-0.0239lnbwsq自变量系数系数标准误TP常量2.51620.155116.230.000gestationperiod(days)0.00338100.00083904.030.000av.Littersize-0.111540.03623-3.080.003lnbodyweight0.658750.0270624.350.000lnbwsq-0.0238830.005878-4.060.000S=0.452819 R-Sq=95.8% R-Sq〔调整〕=95.7%方差分析来源自由度SSMSFP回归4429.15107.29523.240.000残差误差9118.660.21合计95447.81来源gestationperiod(days)自由度1SeqSS291.10av.Littersize111.05lnbodyweight1123.62lnbwsq13.38特别观测值观测值gestationperiod(days)lnbrainweight拟合值拟合值标准误残差标准化残差242707.17015.65120.07411.51893.40R46671.45402.43260.0669-0.9786-2.19R523607.37786.34990.11101.02792.34R726558.40748.34320.27750.06420.18X753905.52156.59930.1246-1.0778-2.48R771155.19304.81160.21730.38140.96X782406.38016.73480.1926-0.3547-0.87XR表示此观测值含有大的标准化残差X表示受X表示受X值影响很大的观测值。lnbrainweight残差正态图和残差与拟合值图〔响应为〔响应为lnbrainweight〕99.99995908070605040302010510.1-1.5-1.0-0.50.0 0.51.01.5比分百残差与拟合值〔响应为lnbrainweight〕1.51.00.5差残0.0-0.5-1.00 2 4 6 8拟合值数据分析:受Minitab拟合建议的启发,尝试添加了一个二次项后,我们可以看到增加的二次项的P-值为0.000R平方进一步提高到95.7%,我们在Minitab中参加了计算数据Cook距离的步骤。期望通过考察目前模型的观测值的Cook距离,推断是否存在对模型有猛烈影响但是不太合理的点。目前,含有大的标准化残差的观测值数量是4个,影响点的数量是3个。对Cook距离的分析Cook10.100.081离距0.06koo0.04C0.020.00110203040506070Cook10.100.081离距0.06koo0.04C0.020.001102030405060708090三、总结通过以上的统计分析,我们觉察哺乳动物大脑的重量与其体重、妊娠期天数、平均每窝产仔数量存在着肯定的关系。而生物学界通常认为,动物的大脑是否兴旺和脑重量也存在肯定的关系,因此我们可以通过对动物体重、妊娠期天数、平均每窝产仔数量等显性数据的观看,来进一步分析动物的大脑兴旺程度。在此根底上,我们可以更好的生疏动物的认知与活动规律。在经济生活中,此争论也具有重大的意义,例如马戏团可以利用此争论结果来选取大脑兴旺的动物进展驯化,以获得更好的效果。虽然此争论是建立在生物学争论的根底之上,但其结论对于马戏团、动物园等商业场所如何提高经济效益,也很具有指导性,具有可观的商业价值。此外,随着科学技术的兴旺,通过转变基因来转变物种特性,制造的物种,也具有现实可能性。因此,科研人员可以通过对体重、妊娠期天数、平均每窝产仔数量等变量的掌握,改进培育出试验所需要的大脑兴旺水平的物种。附录:争论数据speciesname

gestationperiod(days)

brainweight(gms)

bodyweight(kg)

sizeQuokka2617.53.51hedgehog343.50.934.6treeshrew463.150.153elephantshrew1511.140.051.5elephantshrew2461.370.061.5lemur135222.11slowloris9012.81.21.2bushbaby1359.90.71howlermonkey139547.71ring-tailmonkey180733.71spidermonkeyI1401149.11spidermonkeyII1401097.71gentlelemur1457.80.222rhesusmonkeyI17584.661rhesusmonkeyII1651078.71.1hamadryasbaboon180183211westernbaboon180179321vervetguenon195674.61leafmonkey16865.55.81whitehandedgibbon2101025.51orangutan270343371chimpanzee230360451gorilla2654061401man2701300651longnosedarmadillo120123.74aardvark319.62.25jackrabbit4113.32.92.5tree

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论