数据处理及回归分析_第1页
数据处理及回归分析_第2页
数据处理及回归分析_第3页
数据处理及回归分析_第4页
数据处理及回归分析_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据处理及回归分析第一页,共六十五页,编辑于2023年,星期三几种常见的数据处理方法线性回归分析目录第二页,共六十五页,编辑于2023年,星期三§1列表法

---三线式表格一、几种常见的数据处理方法表格的基本结构:通常由表头、项目栏和数据栏组成

表头:表格的编号、名称。

项目栏:相关物理量,单位等。

数据栏:记录测量数据。第三页,共六十五页,编辑于2023年,星期三三线式表格无边框的表格,只由三条横线组成。分别是:

起始线:表格序号和名称应写在起始线上方。分隔线:用来分隔项目栏和数据栏。终止线:数据到此为止。第四页,共六十五页,编辑于2023年,星期三

列表的要求是:(1)简明。(2)标明物理量的意义,注明单位及数量级。(3)正确反映测量结果的有效数字。第五页,共六十五页,编辑于2023年,星期三第六页,共六十五页,编辑于2023年,星期三§2图解图示法

图示法可以形象、直观地显示出物理量之间的函数关系,也可以得出某些物理参数,因此它是一种重要的数据处理方法。作图时要先整理出数据表格,并要用坐标纸作图。图解法是将实验测量数据按其对应关系在坐标纸上描绘出一条光滑的曲线。此曲线可以显示出物理量间的关系。第七页,共六十五页,编辑于2023年,星期三作图要求:

坐标轴:一般以自变量为X轴,应变量为Y轴。并画出坐标轴,用箭头标明坐标轴方向,写上物理量名称或符号、单位。

定标尺:标明坐标纸上的一小格代表的大小。

描点:清晰准确地标出实验数据点。

选坐标纸:选择合适的坐标纸,包括类型和大小。

连线:用直尺、曲线板等把数据点连成直线或光滑曲线。连线时应该使数据点均匀分布在图线两边。

标上图名。

第八页,共六十五页,编辑于2023年,星期三I(mA)U(V)8.004.0020.0016.0012.0018.0014.0010.006.002.0002.004.006.008.0010.001.003.005.007.009.00电阻伏安特性曲线图A(1.00,2.76)B(7.00,18.58)由图上A、B两点可得被测电阻R为:作者:xx图名作图者姓名第九页,共六十五页,编辑于2023年,星期三nλ(nm)1.6500500.0700.01.67001.66001.70001.69001.6800600.0400.0玻璃材料色散曲线图图1曲线太粗,不均匀,不光滑。应该用直尺、曲线板等工具把实验点连成光滑、均匀的细实线。错在哪里?第十页,共六十五页,编辑于2023年,星期三nλ(nm)1.6500500.0700.01.67001.66001.70001.69001.6800600.0400.0玻璃材料色散曲线图第十一页,共六十五页,编辑于2023年,星期三I(mA)U(V)02.008.004.0020.0016.0012.0018.0014.0010.006.002.001.003.00电学元件伏安特性曲线图横轴坐标分度选取不当。横轴以3cm

代表1V,使作图和读图都很困难。实际在选择坐标分度值时,应既满足有效数字的要求又便于作图和读图,一般以1mm代表的量值是10的整数次幂或是其2倍或5倍。错在哪里?第十二页,共六十五页,编辑于2023年,星期三I(mA)U(V)o1.002.003.004.008.004.0020.0016.0012.0018.0014.0010.006.002.00电学元件伏安特性曲线第十三页,共六十五页,编辑于2023年,星期三定容气体压强~温度曲线1.20001.60000.80000.4000图3P(×105Pa)t(℃)60.00140.00100.00o120.0080.0040.0020.00图纸使用不当。实际作图时,坐标原点的读数可以不从零开始。错在哪里?第十四页,共六十五页,编辑于2023年,星期三物理实验中心定容气体压强~温度曲线1.00001.15001.20001.10001.0500

P(×105Pa)50.0090.0070.0020.0080.0060.0040.0030.00t(℃)第十五页,共六十五页,编辑于2023年,星期三图解法根据已有图线,采用解析方法得出物理量之间的函数关系,这种由图线求经验公式的方法称为图解法。斜率计算及不确定度第十六页,共六十五页,编辑于2023年,星期三曲线的改直在实际工作中,许多物理量之间的关系并不都是线性的,但仍可通过适当的变换而成为线性关系,即把曲线变换成直线,这种方法叫做曲线改直。作这样的变换不仅是由于直线容易描绘,更重要的是直线的斜率和截距所包含的物理内涵是我们所需要的,例如:(1),式中a,b为常量,可变换成的线性函数斜率为b,截距为lg

a。(2),式中a,b为常量,可变换成的线性函数,斜率为lg

b,截距为lg

a。第十七页,共六十五页,编辑于2023年,星期三(3)PV=C,式中C为常量,可变换成P=C(1/V),P是1/V的线性函数,斜率为C。(4),式中p为常量,可变换成的线性函数,斜率为。(5),式中a,b为常量,可变换成的线性函数,斜率为a,截距为b。第十八页,共六十五页,编辑于2023年,星期三目的:在数据处理过程中,能把所有的数据都用上,这样可以使误差小一点。

§3逐差法第十九页,共六十五页,编辑于2023年,星期三砝码质量(Kg)弹簧伸长位(cm)

0.00x01.00x12.00x23.00x34.00x45.00x56.00x67.00x7例:测量每增加1kg,弹簧的平均伸长量?测量弹簧的倔强系数数据表第二十页,共六十五页,编辑于2023年,星期三逐项逐差法处理这样,弹簧的平均伸长量为:这样处理的缺点在哪里?第二十一页,共六十五页,编辑于2023年,星期三跳项逐差法处理首先把数据分为两组然后计算每增加4kg,弹簧的伸长量,最后算出每增加1kg,弹簧的平均伸长量。不确定度?第二十二页,共六十五页,编辑于2023年,星期三

优点:充分利用数据,达到多次测量以减小误差的效果。

适用条件①因变量和自变量之间为线性关系。②自变量是等量变化。第二十三页,共六十五页,编辑于2023年,星期三§4最小二乘法第二十四页,共六十五页,编辑于2023年,星期三二、回归分析§1相关与回归客观世界中普遍存在着变量间的关系,而变量间的关系一般可分为两类:确定性关系和非确定性关系。

确定性关系:变量间的函数关系。第二十五页,共六十五页,编辑于2023年,星期三非确定性关系:不能用函数来表示的变量间关系,也称为相关关系或统计关系。身高与体重;血压与年龄;树高与生长时间;商品的销售量与单价相关关系:对于两个变量,当自变量取值一定是,因变量的取值带有一定随机性的两个变量之间的关系第二十六页,共六十五页,编辑于2023年,星期三§2回归分析(1)确定变量之间数量关系的可能形式,并用一个数学模型来表示这种关系形式(2)X是非随机变量或随机变量,Y是随机变量,对X的每一确定值都有Y的一个确定分布与之对应。第二十七页,共六十五页,编辑于2023年,星期三一个自变量两个及两个以上自变量回归分析多元回归一元回归线性回归非线性回归线性回归非线性回归第二十八页,共六十五页,编辑于2023年,星期三§3相关分析和回归分析的区别与联系1.联系二者具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。第二十九页,共六十五页,编辑于2023年,星期三2.区别(1)相关分析研究变量之间相关的方向和程度,但不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。回归分析则研究变量之间相互关系的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学方程式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供一个重要的方法。第三十页,共六十五页,编辑于2023年,星期三(2)相关分析可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变量可以都是随机变量。而回归分析则必须事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变量。第三十一页,共六十五页,编辑于2023年,星期三§4.回归分析主要解决的问题:⑴从一组数据出发,确定这些变量之间的数学表达式——回归方程或经验公式。⑵对回归方程的可信程度进行统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。⑶利用所求的关系式,根据一个或几个变量的值,预测或控制另一个变量的值,并要知道这种预测或控制可达到的精密度。第三十二页,共六十五页,编辑于2023年,星期三§5回归分析的基本过程1、在定性和定量分析的基础上确定变量间的相关关系。2、建立回归分析模型。3、对模型中的参数求解。4、对回归模型的显著性进行检验。5、回归模型的修正和改进。第三十三页,共六十五页,编辑于2023年,星期三§6回归模型的建立(1)一元线性回归模型

假定因变量y主要受自变量x的影响,它们之间的简单线性回归模型如下:为参数,为随机误差项。⑴y是x的线性函数部分加上误差项⑵线性部分反映了由于x的变化而引起y的变化

第三十四页,共六十五页,编辑于2023年,星期三对于误差项,在回归分析中有如下假设:(1)误差项是随机变量,它的期望值为0;(2)对于所有的x值,误差项的方差为常数;(3)误差项之间相互独立,即与一个值相联系的误差对与另一个值相联系的误差没有影响;(4)随机误差项服从正态分布。第三十五页,共六十五页,编辑于2023年,星期三§7一元线性回归方程

描述y的均值或期望与x的关系的方程叫做回归方程。由于,,所以不难看出,简单线性回归方程的图形是一条直线。这条直线被称为总体回归直线。是回归直线的截距,是回归直线的斜率,E(y)是给定某个x的值y的均值或期望值。各实际观测点与总体回归线垂直方向的间隔,就是随机误差项ε,即第三十六页,共六十五页,编辑于2023年,星期三如果因变量y与自变量x的相关关系是近似直线的关系,则一元线性回归的模型为:——y的估计值或预测值,——回归系数。确定了a与b的值,直线的位置也就相应地确定了。第三十七页,共六十五页,编辑于2023年,星期三§8最小二乘法确定模型参数最小二乘法的基本原理就是寻一条总的看来离各散点最近的一条直线,使实际值y与相应的理论值之间的误差达到最小。即:第三十八页,共六十五页,编辑于2023年,星期三根据微积分的极值定理,Q最小的必要条件为:第三十九页,共六十五页,编辑于2023年,星期三整理后得如下方程,称最小二乘法的标准方程:解方程得第四十页,共六十五页,编辑于2023年,星期三例:以下表的数据拟合生产费用对产量的回归直线方程企业编号产量x生产费用y12345678910111240425055657884100116125130140130150155140150154156170167180175185160017642500302542256084705610000134561562516900196001690022500240251960022500237162722528900278893240030625342255200630077507700975012012138601700019372225002275025900合计10251921101835310505170094第四十一页,共六十五页,编辑于2023年,星期三将表中有关数据代入公式中:第四十二页,共六十五页,编辑于2023年,星期三生产费用对产量的直线回归方程为:其中a=124.15(千克)的含义为生产费用的起点值;b=0.4027表示产品产量每增加1千件,生产费用平均增加0.4027千元。第四十三页,共六十五页,编辑于2023年,星期三下图可看散点图与回归直线的关系:············第四十四页,共六十五页,编辑于2023年,星期三§9回归效果的F检验从一组数据根据最小二乘法可以拟合出一元线性方程,但是如果散点图中的数据点分散,不呈线性,此时的线性回归方程是没有意义的。因此,提出了所得到的直线是否有显著意义,即是否与两个变量问实际关系相符合的问题,即必须对回归的效果做显若性检验。回归显著性检验(regressionsignificanttest)方法有:①相关系数r检验法、②t检验法、③F检验法,下面讨论F检验法。第四十五页,共六十五页,编辑于2023年,星期三xyy{}}离差分解图第四十六页,共六十五页,编辑于2023年,星期三测量值y1,y2,…,yn之间的差异,是由两个方面的原因引起的:一是自变量x取值的不同;二是测量误差等其他因素的影响。为了对线性回归的效果进行检验,需要将他们分离出来,将变量y的n个测值yi与其平均值的偏差()分解为有x的不同取值引起的回归偏差()和由测量误差等其他因素造成的残余误差()即第四十七页,共六十五页,编辑于2023年,星期三两端平方后求和有SST=SSR+SSE总变差平方和(SST){回归平方和(SSR){残差平方和(SSE){并进一步用n个取值的偏离平方和来描述它们,分别记为

第四十八页,共六十五页,编辑于2023年,星期三总偏差平方和分解为回归平方和及残余平方和。回归平方和反映了在y总的偏差中因x和y的线性关系而引起y变化的大小。残余平方和反映了在y总的偏离中除了x对y线性影响之外的其他因素而引起y变化的大小。这些因素包括测量误差,x和y不能用直线关系描述的因柬以及其他未加控制的因素等。如上节所述,回归分析的要求就是使残余平方和最小,即∑残愈小,回归效果愈好。

第四十九页,共六十五页,编辑于2023年,星期三

总偏差平方和回归平方和残余平方和意义反映因变量的n个观测值与其均值得总偏差在总的偏差中因x和y的线性关系而引起变化的大小在总的偏离中除了x对y线性影响之外的其它因素而引起y变化的大小三个平方和的意义:第五十页,共六十五页,编辑于2023年,星期三由回归平方和及残余平方和的意义可知,一个线性回归方程是否显著,取决于和的大小。若愈大而愈小,则说明与的线性回归的关系愈密切。构造统计量:

其中,为回归平方和的自由度,为残余平方和的自由度第五十一页,共六十五页,编辑于2023年,星期三自由度是指独立观测值的个数,因中n个观测值受平均值的约束,则有一个观测值不是独立的,即失去了一个自由度,=n-1,

中只有b是独立变化的,即自由度=1。

则=n-2,则有第五十二页,共六十五页,编辑于2023年,星期三在给定显著性水平α下,由F分布表差得临界值,将计算值F与比较,若F>,则认为该回归效果显著,反之,则不显著。

第五十三页,共六十五页,编辑于2023年,星期三中的分母为残余方差:残余标准差为:

它的意义表征除了x与y线性关系之外其他因素影响y值偏的大小

第五十四页,共六十五页,编辑于2023年,星期三§10回归直线的拟合优度及测定系数拟合优度:回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。工具一──判定系数:对估计的回归方程拟合优度的度量工具。第五十五页,共六十五页,编辑于2023年,星期三工具二──估计标准误:度量各实际观察点在直线周围的离散状况的统计量,其实质是对误差项e的标准差的估计,它可以看做是在排除了x对y的线性影响后,y随机波动大小的一个估计量。第五十六页,共六十五页,编辑于2023年,星期三§11非线性回归1.化曲线拟合为直线拟合的步骤:⑴选择回归模型。根据实验数据散点图分布的特点以及所掌握的物理规律,选择可线化函数的模型⑵作线性化变量变换后,按一元线性回归问题计算待定的系数、原的剩余平方和。⑶如果对拟合结果不满意,再选择其它模型,重复以上步骤。⑷比较不同模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论