版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试验设计数据获取、处理和准备方法
目录
试验设计与数据处理的概念
试验数据的分类及获取方法
试验数据的准备及整理
试验数据的表图表示法1试验设计与数据处理的概念200220012000
试验设计与数据处理是以概率论、数理统计及线性代数为理论基础,结合专业知识和实践经验,研究经济、合理地安排试验方案以及系统、并对试验数据进行计算分析,最终达到减少试验次数、缩短试验周期、迅速找到优化方案的一种科学计算方法。它主要应用于工农业生产和科学研究过程中的科学试验,是产品设计、质量管理和科学研究的重要工具和方法。2试验数据的分类及获取方法
2.1数量资料数量资料是指通过测量、计量或计数方式而获得的数据,有计量资料(连续性资料)和计数资料(间断性资料)之分。(1)计量资料指用度、量、衡等计量工具直接测定而获得的数据资料。各个观测值不一定是整数,两个相邻的整数间可以有带小数的数值出现,各个观测值之间的变异是连续性的。因此计量资料又称为连续性变异资料。如食品中各种营养成分的含量、苹果个体的重量、小麦中淀粉的含量等。(2)计数资料指用计数方式得到的数据资料。在试验数据可分为以下几种,且不同的数据类型有不同途径的获取方法。(2)计数资料指用计数方式得到的数据资料。在这类资料这类资料中,各个观测值只能以整数表示,各个观测值不是连续的,因此该类资料也称为不连续性变异资料或间断性变异资料。如盒装方便面的份数、一箱饮料的瓶数、微生物的个数、腐烂苹果的个数等。2.2质量资料质量资料是指不方便直接测量,只能通过观察,用文字来描述其特征而获得的资料,如食品颜色、风味等。这类特征不能直接用数值表示,要获得这类特征的数据,需要对其结果作必要的数量化处理。(1)评分法这是食品感官中常用的一种方法。一般请若干有经验的人,根据相关评判标准,对试验产品的指标综合评判打分,用评分进行统计分析。例如,分析面包的质量时,可以按照国际面包评分细则进行打分,综合评价面包质量。(2)统计次数法在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究批次产品合格数与次品数时,可以统计其合格与次品个数。(3)分级法将变异的性状分成几级,每一级分别指定以适当的数值表示。例如食品褐变程度按深浅分为五级。(4)秩次法将各种处理按指标性状的好坏依次排队,排队的顺序为秩,用处理的秩和进行统计分析,这在食品感官评定过程中常用到。(5)化学分析法对于某些质量指标,虽然用分级法、评分法、统计次数法也能得到数量资料,但得到的多数是次数资料。若借助化学分析手段即可得到计量资料。例如果汁的色泽可通过测定果汁中花青苷的光密度来表示,澄清度可用测定其透光率来表示等。除以上几种方法以外,也可以借助必要的先进仪器来评价质量指标,获得数量资料。如质构仪、色差计、色谱仪、质谱仪等。3试验数据的准备及整理获得的数据在在未整理之前,称为原始数据。通常,通过生产记录、抽样检验和试验研究得到的大量原始数据都是零星的、孤立的、和杂乱无章的,少有规律性可循。但通过对它们进行科学的整理和分析,则可发现其规律性,揭示事物的本质。数据资料的准备及整理是进一步分析处理的基础。3.1数据的检查与核对在对原始数据进行整理之前,首先要对全部数据进行检查与核对,然后再根据数据资料的类型及研究的目的对数据进行整理。检查与核对原始数据的目的在于确保原始资料的完整性和正确性。所谓正确性是指原始数据的测量或记载无差错。检查中要特别注意特大、特小或异常数据。对于有重复、异常或遗漏的数据,应予以删除或补齐;对于有错误或相互矛盾的数据资料应进行更正,必要时进行复查或重新试验。3.2可疑值检验检验和剔除异常数据是统计分析中应当注意的重要问题。可疑值检验是用数理统计方法检验测定数据是否存在应剔除的值。方法:Q值检验法和格鲁布斯检验法目的:确定某个数据是否可用3.2.1Q值检验法步骤:(1)数据从小至大排列x1,x2,……,xn(2)求极差xn-x1(3)求出可疑值与其最相邻数据之间的差值的绝对值。(4)计算:(5)根据测定次数和要求的置信度(如90%)查表:不同置信度下,舍弃可疑数据的Q值表
测定次数Q0.90Q0.95
3
0.940.98
40.760.85
50.640.73
60.560.69
70.510.59
80.470.54
90.440.51
100.410.48(6)判断:将Q计与Q表(如Q0.90)相比,Q计>Q表舍弃该数据,否则应予保留,当数据较少时舍去一个后,应补加一个数据。
3.2.2格鲁布斯(Grubbs)检验法步骤:(1)数据从小至大排列x1,x2,……,xn(2)计算该组数据的平均值和标准偏差S(3)确定检验端:比较可疑数据与平均值之差-x1与xn-,先检验差值大的一端(4)计算:(5)根据测定次数和要求的置信度(如95%)查表:
表1-2不同置信度下,舍弃可疑数据的G值表测定次数G0.95G0.993
1.151.1541.461.49
51.671.7561.821.9471.942.1082.032.2292.112.32102.182.41(6)将G计与G表(如G0.95)相比,若G计>G表舍弃该数据,否则应予保留。当数据较少时舍去一个后,应补加一个数讨论:由于格鲁布斯(Grubbs)检验法使用了所有数据的平均值和标准差,故准确性比Q检验法好。3.3连续性数据资料的整理连续性数据资料的整理通常采用组距式分组的方法,基本步骤是先确定全距、组数、组距、组中值及组限,然后将全部观测值计数归组。
表3-1120位同学的考试成绩
(1)求全距。全距是数据中最大值与最小值之差,又称极差,极为R。表中最大值为95,最小值为64,则全距为R=95-64=31.0(2)确定组数。组数要适当,一般以达到既简化数据又不影响反应数据的规律性为原则。(3)确定组距。每组最大值与最小值之差称为组距,记为i。等组距分组时,组距的计算公式为:组距(i)=全距/组数本例i=31.0/16=2.0(4)确定组限及组中值。各组的最大值与最小值称为组限。最小值称为下限,最大值称为上限。每一组的中点值称为组中值。显然,组中值=(组下限+组上限)/2,它是该组的代表值。组距确定后,首先要选定第一组的组中值。为了避免第一组归组后数据太多,且能较正确地反应数据的规律性,第一组的组中值以近似于或等于数据中的最小值为好。第一组组中值确定后该组组限即可确定。(5)制作次数分布表。分组结束后,将数据资料中的每一观测值逐一归组,统计每组组限内所包含的观测值个数,作为各组的次数,如此便完成了次数分布表。120位同学的成绩分布表见表3-2。从表中可以看出数据的分布情况。表3-2120位同学的成绩的次数分布
次数分布表不仅简化了数据,达到了压缩统计数据的目的,给人更加清晰的概念,同时对试验数据的集中与分散程度有了进一步的认识。例如,120位同学的成绩,多数集中在79.5~81.5,约占观测值总个数的三分之一,用它来代表同学们成绩的平均水平,有较强的代表性。由次数分布表还可看出,同学们的成绩小于65及大于93的,均为极少数,分别只占到观测值的0.6%。而且通过次数分布表,可以更加清楚地看到,120位同学的成绩分于正态分布,即以79.5~81.5为中心,向两边做递减的对称分布。次数分布表不仅便于观察数据的规律性,而且可根据它绘成次数分布图及计算平均数、标准差等统计量。3.3间断性数据资料的整理间断性数据资料的整理常采用单项式分组法。其方法是用样本的观测值直接进行分组,每组均用一个观测值表示。分组时,将数据中的每个观测值归入相应的组内,然后计数,制成次数分布表。若资料中数据的变异范围较大时也应采用组距式分组法,此时各组的上下限均应列出。3.4质量资料的整理对于质量资料可以按照类别或等级进行分组,分别统计各组的次数,然后制成次数分布表。
同时,在试验过程中由于实验仪器精度的限制,实验方法的不完善,科研人员认识能力的不足和科学水平的限制等方面的原因,在试验中获得的试验值与它的客观真实值并不一致,这种矛盾在数值上表现为误差(error)。可见,误差是与准确相反的一个概念,可以用误差来说明试验数据的准确程度。试验结果都具有误差,误差自始至终存在于一切科学实验过程中。随着科学水平的提高和人们经验、技巧、专门知识的丰富,误差可以被控制的越来越小,但是不能完全消除。3.5.1真值与平均值
真值(truevalue)是指在某一时刻或者某一状态下,某量的客观值或实际值。
在科学试验中,虽然试验误差在所难免,但平均值(mean)可综合反应试验值在一定条件下的一般水平,所以在科学试验中,经常将多次试验值的平均值作为真值的近似值。3.5.2误差的基本概念
试验值与真值之差称为绝对误差,即绝对误差=试验值-真值
绝对误差虽然在一定条件下能反映试验值的准确程度,但还不全面。例如两城市之间的距离为200450m,若测量的绝对误差为2m,则这次测量的准确度是很高的;但是2m的绝对误差对于人身高的测量而言是不能容许的。所以,为了判断试验值的准确性,还必须考虑试验值本身的大小,故引出了相对误差。3.5试验数据的误差分析3.5.3试验数据的来源及分类
误差根据其性质或产生的原因,可分为随机误差、系统误差、和过失误差
随机误差是指在一定试验条件下,以不可预知的规律变化着的误差,多次试验值的绝对误差时大时小。
系统误差是指在一定试验条件下,由某个或某些因素按照某一确定的规律起作用而形成的误差
过失误差是一种与事实不符的误差,没有一定的规律,它主要由于实验人员粗心大意造成的。3.5.4试验数据的精准度
精密度反映了随机误差大小的程度,是指在一定的试验条件下,多次试验值的彼此符合程度或一致程度。精密度的概念与重复试验时单次试验值的变动性有关,如果试验数据分散程度较小,则说明是精密的。例如,甲、乙两人对同一个量进行测量,得到两组试验值:
甲:11.4511.4611.4511.44乙:11.3911.4511.4811.50很显然,甲组数据的彼此符合程度好于乙组,故甲组数据的精密度较高
正确度:正确度是指大量测试结果的(算术)平均值与真值或接受参照值之间的一致程度,它反映了系统误差的大小,是指在一定的试验条件下,所有系统误差的综合。
准确度:反映了系统误差和随机误差的综合,表示了试验结果与真值或标准值的一致程度
。
4试验数据的表图表示法
统计表是用表格的形式来表示数量关系,使数据条理化、系统化,便于理解、分析和比较。统计图是用几何图形来表示数量关系,不同形状的几何图形可以将研究对象的特征、内部构成、相互关系等形象直观地表达出来,便于比较分析。4.1统计表4.1.1统计表的结构和要求(1)标题。标题要简明扼要,有时须注明时间、地点,列于表的上方。(2)标目。标目分横标目和纵标目两项。横标目列在标的左侧,用于表示被说明事项的主要标志;纵标目列在表的上统计表的结构和要求
标题要简明扼要,有时须注明时间、地点,列于表的上方。表的上下两条边线略粗,纵、横标目间及合计可用细线分开,表的左右边线应略去。现在多用所谓“三线表”,即表中不绘纵线。
(1)标题(2)标目标目分横标目和纵标目两项。横标目列在标的左侧,用于表示被说明事项的主要标志;纵标目列在表的上端,说明横标目各统计指标的内容,并注明计算单位,如%、kg、cm等。(3)线条4.1.2统计表的种类1简单表由一横标目和一纵标目组成,纵、横标目均未分组的统计表称为简单表。2复合表纵、横标目两者至少有其中之一被分为两组或两组以上的统计表称为复合表。表4-1为复合表。表4-1不同品种的苹果贮藏4个月时果实硬度的变化4.2统计图统计图是用图形将统计资料形象化,利用线条的高低、面积的大小及点的分布来表示数量的变化,形象直观、一目了然。常用的统计图有长条
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论