食品实验设计与数据分析_第1页
食品实验设计与数据分析_第2页
食品实验设计与数据分析_第3页
食品实验设计与数据分析_第4页
食品实验设计与数据分析_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章直线回归与有关

客观事物在发展过程中是互相联系、互相影响,经常要研究两个或两个以上变量间关系。下一张

主页

退出

上一张

1/74下一张

主页

退出

上一张

1回归与有关概念一类是完全确定性关系,又称函数关系,能够用精确数学体现式来表达,即当变量x值取定后,变量y有唯一确定值与之对应。

如长方形面积(S)与长(a)和宽(b)关系:S=ab。它们之间关系是确定性,只要懂得了其中两个变量值就能够精确地计算出另一种变量值,此类变量间关系称为函数关系。多种变量间关系大体可分为两类:确定性关系非确定性关系2/74

如人身高与体重关系,作物种植密度与产量关系,食品价格与需求量关系等等,这些变量间都存在着十分密切关系,但不能由一种或几个变量值精确地求出另一种变量值。统计学中把这些变量间关系称为有关关系,把存在有关关系变量称为有关变量。下一张

主页

退出

上一张

另一类是非确定性关系,不能用精确数学公式来表达,当变量x值取定后,y有若干种也许取值。在一定范围内,对一种变量任意数值(Xi),虽然没有另一种变量确实定数值yi与之对应,不过却有一种特定yi条件概率分布与之对应,这种变量不确定关系,称为有关关系。3/74一种是因果关系,即一种变量变化受另一种或几个变量影响。如小麦生长速度受遗传特性、营养水平、管理条件等原因影响。另一种是平行关系,它们互为因果或共同受到另外原因影响。如人身高和胸围之间关系属于平行关系。下一张

主页

退出

上一张

有关变量间关系一般分为两种:4/74研究“一因一果”,即一种自变量与一种依变量回归分析称为一元回归分析;研究“多因一果”,即多种自变量与一种依变量回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。下一张

主页

退出

上一张

统计学上采取回归分析(regressionanalysis)办法研究呈因果关系有关变量间关系。表达原因变量称为自变量,表达成果变量称为依变量。5/74回归分析任务就是揭示出呈因果关系有关变量间联系形式,建立它们之间回归方程,利用所建立回归方程,由自变量(原因)来预测、控制依变量(成果)。回归分析主要包括:找出回归方程;检查回归方程是否显著;通过回归方程来预测或控制另一变量。6/74对多种变量进行有关分析时,研究一种变量与多种变量间线性有关称为复有关分析;研究其他变量保持不变情况下两个变量间线性有关称为偏有关分析。下一张

主页

退出

上一张

统计学上采取有关分析(correlationanalysis)来研究呈平行关系有关变量之间关系。对两个变量间直线关系进行有关分析称为简单有关分析(也叫直线有关分析);7/748/742直线回归

2.1直线回归方程建立

下一张

主页

退出

上一张

为了直观地看出x和y间变化趋势,可将每一对观测值在平面直角坐标系中描点,作出散点图(见图6-1)。2.1.1数学模型对于两个有关变量,一种变量用x表达,另一种变量用y表达,假如通过试验或调查取得两个变量n对观测值:(x1,y1),(x2,y2),……,(xn,yn)9/74图6-1x与y关系散点图10/74

下一张

主页

退出

上一张

散点图可直观地、定性地表达了两个变量之间关系。为了探讨它们之间规律性,还必须根据观测值将其内在关系定量地体现出来。①两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;由散点图(图6-1)能够看出:②两个变量间直线关系性质(是正有关还是负有关)和程度(是有关密切还是不密切);11/74由于依变量y实际观测值总是带有随机误差,因而依变量y实际观测值yi可用自变量x实际观测值xi表达为:(i=1,2,…,n)(6-1)若呈因果关系两个有关变量y(依变量)与x(自变量)间关系是直线关系,,那么,根据n对观测值所描出散点图,如图6-1(b)和图6-1(e)所示。式中:α,β为未知参数,

i为互相独立,且服从N(0,)随机变量。这就是直线回归数学模型。12/74总体线性回归模型图示YX观测值观测值13/74总体线性回归模型因变量自变量参数随机误差y条件平均数14/74下一张

主页

退出

上一张

设回归直线方程为:(6-2)2.1.2参数α,β估计其中,是α估计值,b是β估计值。最小二乘估计法15/74建立样本线性回归方程办法

最小二乘法实际观测值与样本回归线上点距离平方和最小xye1e2e3e4最小16/74、b应使回归估计值与实际观测值y偏差平方和最小,即:总离回归平方和,即剩下平方和根据微积分学中求极值办法,令Q对a、b一阶偏导数等于0,即:最小(6-3)(6-4)17/74经整顿,得有关a、b正规方程组:下一张

主页

退出

上一张

解正规方程组,得:(6-5)(6-7)18/74

在6-7式中,分子为自变量x离均差与依变量y离均差乘积和,简称乘积和,记作,分母是自变量x离均差平方和,记作SSX。

所以19/74a为回归截距(regressionintercept),是回归直线与y轴交点纵坐标,当x=0时,;b为回归系数(regressioncoefficient),表达x变化一种单位,y平均变化数量;b符号反应了x影响y性质,b绝对值大小反应了x影响y程度;为回归估计值,是当x在其研究范围内取某一种值时,y值平均数估计值。

20/74假如将式代入(6-2)式,可得到回归方程中心化形式:下一张

主页

退出

上一张

性质1性质2性质3回归直线通过点回归方程基本性质:21/74【例6-1】食品感官评定期,测得食品甜度与蔗糖浓度关系如表6-2所示,试建立y与x直线回归方程。2.1.3计算示例蔗糖质量分数x%1.03.04.05.57.08.09.5甜度y1518192122.623.826表6-2食品甜度与蔗糖浓度关系22/74(1)作散点图以蔗糖质量分数(x)为横坐标,甜度(y)为纵坐标作散点图,如图6-2所示。图6-223/74(2)计算回归截距a,回归系数b,建立直线回归方程下一张

主页

退出

上一张

首先根据实际观测值计算出下列数据:24/74

因此,甜度y对蔗糖质量分数x直线回归方程为:然后计算出b、a:25/74以上计算也可在回归计算表中进行。序号kXkYkXk2XkYkYk211.015.01.0015.0225.0023.018.09.0054.0324.0034.019.016.0076.0361.0045.521.030.25115.5441.0057.022.649.00158.2510.7668.023.864.00190.4566.4479.526.090.25247.0676.00∑38.0145.4259.50856.13104.20回归方程计算表1(一级数据)26/74∑Xk=38.0

∑Yk=145.4

n=7

x=5.4286y=20.7714∑Xk2=259.50∑XkYk=856.1∑Yk2=3104.20(∑Xk)2/n=206.2857(∑Xk∑Yk)/n=789.3143(∑Yk)2/n=3020.1657Lxx=53.2143Lxy=66.7857Lyy=84.0343b=Lxy/Lxx=66.7857/53.2143=1.255b0=y-bx=20.7714-1.255×5.4286=13.9585

Y=13.9585+1.255X回归方程计算表2(二级数据)注:x,y分别为X,Y平均数27/74根据直线回归方程可作出回归直线,见图。从图看出,并不是所有散点都正好落在回归直线上,这说明用去估计y是有偏差。下一张

主页

退出

上一张

28/74

附:直线回归偏离度估计

偏差平方和大小表达了实测点与回归直线偏离程度,因而此偏差平方和又称为离回归平方和。统计学证明:在直线回归分析中离回归平方和自由度为n-2。那么,离回归均方为:离回归均方是模型(6-1)中σ2估计值。离回归均方平方根叫离回归标准误,记为,29/74

离回归标准误Syx大小表达了回归直线与实测点偏差程度,即回归估测值与实际观测值y偏离(差)程度,因此,用离回归标准误Syx来表达回归方程偏离度。下一张

主页

退出

上一张

30/74对于【例6.1】有因此,离回归标准误为离回归平方和:由上式计算出,然后求出离回归标准误Syx。31/74假如x和y变量间并不存在直线关系,但由n对观测值(xi,yi)也能够根据上面介绍办法求得一种回归方程=a+bx。显然,这样回归方程所反应两个变量间直线关系是不真实。如何判断直线回归方程所反应两个变量间直线关系真实性呢?这取决于变量x与y间是否存在直线关系。从y变异着手来分析。下一张

主页

退出

上一张

2.2直线回归方程显著性检查32/74图6-3分解图2.2.1直线回归变异起源y总变异分解33/74

下一张

主页

退出

上一张

由于因此于是由图6-3能够看出:上式两端平方,然后对所有n点求和,则有34/74

因此有(6-9)反应了y总变异程度,称为y总偏差平方和,记为SSy;反应了由于y与x间存在直线关系所引发y变异程度,称为回归平方和,记为SSR;35/74反应了除y与x存在直线关系以外一切原因(包括x对y非线性影响及其他一切未加控制随机原因)所引发y变异程度,称为离回归平方和或剩下平方和,记为SSr或SSe。因此,y总变异平方和可分解为:下一张

主页

退出

上一张

表白y总平方和可剖分为回归平方和与离回归平方和两部分。与此相对应,y总自由度dfy也可分解为回归自由度dfr与离回归自由度dfr两部分,即36/74在直线回归分析中,回归自由度等于自变量个数,即;y总自由度;离回归自由度。于是:离回归均方,回归均方。37/74

x与y两个变量间是否存在直线关系,可用F检查法进行检查。无效假设HO:

=0,备择假设HA:

≠0。在无效假设成立条件下,回归均方与离回归均方比值服从和F分布,因此,能够用下式来检查回归方程显著性。下一张

主页

退出

上一张

2.2.2回归关系(方程)显著性检查—F检查df1=1,df2=n-2(6-10)38/74回归平方和计算:下一张

主页

退出

上一张

根据(6-9)式,可得到离回归平方和计算公式为:39/74【例6.2】检查例6-1中求得回归方程是否显著(a=005)方差分析列出方差分析表进行回归关系显著性检查。40/74下一张

主页

退出

上一张

表6-4蔗糖浓度与甜度回归关系方差分析表变异起源偏差平方和SS自由度df均方MSF值显著性回归83.8161183.81611922.39**剩下0.218250.0436总变异84.03436由于,表白甜度与蔗糖浓度间存在着极显著直线关系。41/74采取回归系数显著性检查—t检查也可检查x与y之间是否存在直线关系。t检查时,无效假设HO:

=0,备择假设HA:

≠0。2.2.3回归系数显著性检查—t检查42/74其中,Sb为回归系数标准误,t检查计算公式为:(6-11)离回归标准误Syx反应回归估测值与实测值y偏离程度t与临界值ta(n-2)比较,以判断显著性。43/74对于【例8.1】资料,已计算得

故有

下一张

主页

退出

上一张

44/74当,查t值表,得

因,,

否认HO:β=0,接收HA:β≠0,即直线回归系数b=1.2550是极显著,表白蔗糖浓度与甜度大小存在极显著直线关系,可用所建立直线回归方程来进行预测和控制。

在直线回归假设检查中,F检查成果与t检查成果是一致。45/74尤其要指出是:利用直线回归方程进行预测或控制时,一般只适用于本来研究范围,不能随意把范围扩大,由于在研究范围内两变量是直线关系,这并不能确保在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充足理论根据或深入试验根据。利用直线回归方程进行预测或控制,一般只能内插,不要容易外延。46/743直线有关进行直线有关分析基本任务在于根据x、y实际观测值,计算表达两个有关变量x、y间线性有关程度和性质统计量——有关系数r,并进行显著性检查。下一张

主页

退出

上一张

47/743.1

决定系数和有关系数

直线回归分析中:

由这个等式不难看到,y与x直线回归效果好坏取决于回归平方和与离回归平方和大小,或者说取决于回归平方和在y总平方和中所占百分比大小。这个百分比越大,y与x直线回归效果就越好,反之则差。我们把比值

叫做x对y决定系数(determination

coefficient),记为r2,即下一张

主页

退出

上一张

48/74

决定系数大小表达了回归方程估测可靠程度高低,或者说表达了回归直线拟合度高低,或者表达x对y变异影响大小。显然有0≤r2≤1。如r2=0.81,表白SSR占SSy81%,也就是说,x决定了y变异81%,决定作用强。49/74

SPxy/SSx是以x为自变量、y为依变量时回归系数byx。若把y作为自变量、x作为依变量,则回归系数bxy=SPxy/SSy

,因此决定系数r2等于y对x回归系数与x对y回归系数乘积。这就是说,决定系数反应了x为自变量、y为依变量和y为自变量、x为依变量时两个有关变量x与y直线有关信息,即决定系数表达了两个互为因果关系有关变量间直线有关程度。但决定系数介于0和1之间,不能反应直线关系性质—是同向增减或是异向增减。下一张

主页

退出

上一张

50/74有关系数可表达y与x直线有关密切程度,也可表达直线有关性质,记为r,即(6-20)离均差积和51/74下一张

主页

退出

上一张

xyxyxy15.44419.44221.937.217.538.220.437.423.836.618.941.821.635.917.042.820.038.922.936.018.642.121.038.416.142.119.737.922.838.118.140.020.736.215.844.619.640.222.036.717.840.720.439.124.237.619.139.821.839.417.442.220.440.023.433.218.939.921.537.816.843.120.837.122.934.718.440.922.338.615.942.619.738.924.634.817.939.820.735.819.939.83.2有关系数计算对【例6-5】进行有关分析。表6-5某品种大豆籽粒脂肪x和蛋白质y含量52/74

下一张

主页

退出

上一张

X偏差平方和Y偏差平方和X、Y离差积和根据表6-5所列数据先计算出:大豆子粒内脂肪含量和蛋白质含量有关系数为-0.8517。那么,53/74根据实际观测值计算得来有关系数r是样本有关系数,它是双变量正态总体中总体有关系数ρ估计值。样本有关系数r是否来自ρ≠0总体,还须对样本有关系数r进行显著性检查。此时无效假设、备择假设为HO:ρ=0,HA:ρ≠0。与直线回归关系显著性检查同样,可采取t检查法与F检查法对有关系数r显著性进行检查。3.3有关系数显著性检查

54/74其中,,叫做有关系数标准误。

F检查:

F=,df1=1,df2=n-2(6-22)

t检查:t=,df=n-2(6-23)

下一张

主页

退出

上一张

55/74

统计学家已根据有关系数r显著性t检查法计算出了临界r值并列出了表格。因此能够直接采取查表法对有关系数r进行显著性检查。详细作法是:先根据自由度n-2查临界r值(附表8),得,。若|r|<,P>0.05,则有关系数r不显著,在r右上方标识“ns”;若≤|r|<,0.01<P≤0.05,则有关系数r显著,在r右上方标识“*”;若|r|≥,P≤0.01,则相关系数r极显著,在r右上方标识“**”。56/74而|r|=|-0.8517|>,P<0.01,表白该品种大豆子粒内脂肪含量与蛋白质含量呈极显著负有关。下一张

主页

退出

上一张

对于【例6-5】,由于df=n-2=42-2=40,查附表8得:57/74有关系数对样本有关关系计量58/74表白直线有关分析与回归分析关系十分密切。它们研究对象都是呈直线关系有关变量。两种分析所进行显著性检查都是处理y与x间是否存在直线关系,二者检查是等价。3.4有关系数与回归系数关系*直线回归分析,有自变量和依变量辨别,侧重于谋求它们之间联系形式——直线回归方程;*直线有关分析,无自变量和依变量辨别,侧重于揭示它们之间联系程度和性质——计算有关系数。在实际进行直线回归分析时,可用有关系数显著性检查替代直线回归关系显著性检查。59/74例题xi0410152129365168yi66.771.076.380.685.792.999.4113.6125.1根据散点图,确定回归方程形式:计算得到:60/74线性有关性检查:查表得:显然,在显著性水平=0.001下,Y与x线性有关关系高度显著。61/74直线回归分析与有关分析在生物科学研究领域中已得到了广泛应用,但在实际工作中却很容易被误用或作犯错误解释。为了正确地应用直线回归分析和有关分析这一工具,必须注意下列几点:4应用直线回归与有关注意事项62/74(1)变量间是否存在有关

直线回归分析和有关分析毕竟是处理变量间关系数学办法,在将这些办法应用于生物科学研究时要考虑到生物本身客观实际情况,譬如变量间是否存在直线有关以及在什么条件下会发生直线有关,求出直线回归方程是否故意义,某性状作为自变量或依变量确实定等等,都必须由生物科学对应专业知识来决定,并且还要用到生物科学实践中去检查。假如不以一定生物科学根据为前提,把风马牛不相及资料随意凑到一块作直线回归分析或有关分析,那将是主线性错误。下一张

主页

退出

上一张

63/74

(2)其他变量尽也许保持一致

由于自然界多种事物间互相联系和互相制约,一种变量变化一般会受到许多其他变量影响,因此,在研究两个变量间关系时,要求其他变量应尽也许保持在同一水平,不然,回归分析和有关分析也许会造成完全虚假成果。例如研究人身高和胸围之间关系,假如体重固定,身高越

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论