版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、林业试验设计与数据分析绪论一、科学试验与试验统计1 .科学试验(实验)是一种计划好的调查研究,是以获得新的事实、证实或否定以前的实验结论为基本目的。2 .试验统计是认识事物本质的工具3 .统计分析是研究事物间关系的手段4 .试验要讲科学性试验思想的先进性试验条件的典型性试验数据的准确性试验结果的重演性二、试验设计的意义与作用1 .田间试验是林业科研活动的重要内容,科学合理的实验设计,是获得有价值的数据,进而取得正确研究结果与结论的基础。2 .林业试验用地地形复杂,面积大,立地条件变化大。在林业田间试验中,科学地控制环境,具有极大的重要性。3 .林业生产周期长,不正确的试验设计,将浪费大量宝贵的
2、时间,造成无可挽回的损失。三、林业试验数据处理的若干问题1 .从观测数据中提取尽可能多的有价值的信息,得出正确的结论,是一项专业性很强的工作。2 .林业试验往往规模大,数据多,借助电子计算机和先进的统计软件及其它应用软件,可提高工作效率。3 .试验统计的理论和方法正在发展中。第一章林业试验方法第一节田间试验的概念田间试验的主要内容是讨论如何合理地安排试验以及处理分析试验结果,它是生物统计学的重要方面。田间试验是农林学科中重要的实验环节,是计划好的调查研究和实践运筹,它不仅能评审试材的优劣,试验条件的好坏,而且能回答试验的精确度、可靠性及资料量。田间试验的创始人,英国的费舍(R.A.Fisher
3、,1890-1962),其试验理论的主要观点:试验要有明确的目的,其目的必须建立在经济效益方面;为减少试验中各种误差,应采用随机化原理;为了提高试验精度,应该有充分的重复次数,选择最有效的实验配置和最可靠的分析方法,等。从林木遗传改良为例,可以看出正确的田间试验十分必要。要将选出的或创造出来的优良遗传材料放到最合适的环境条件中去,必须进行适应性试验。这里存在着三大因素:遗传组成,环境条件和基因型与环境的互作反应。由于林木个体大,个体发育周期长,材料占地面积大,变化着的立体空间生态因子复杂,就带来林木育种工作中鉴定、选择和各种田间评审的困难性。G(遗传组成)-G1(群体)+G2(家系)+G3(个
4、体)E(环境条件)-E1(地理位置)+E2(海拔)+E3(生态)+E4(立地类型)P(表现型值)=G(基因型值)+E(环境误差)假设有两个不同的表现型,它们的组成分别为:P1=G1+E1和P2=G2+E2,如果E1和E2不同的话,就很难估测G1和G2的差异及其程度。如果E1和E2相同或相似,其间的误差可以估算,则G1和G2的差异就容易估算出来。第二节田间试验三原则一、试验误差例:某树种的一批种子进行千粒重检验,用两种方法: 抽样四次,各称一次,千粒重为5.29克,5.36克,5.38克,5.31克,平均5.34克。 抽样一次,称四次,千粒重:5.49克,5.47克,5.48克,5.49克,平均
5、重5.48克。评价:法:存在抽样误差和操作误差,可靠性(accuracy)较高,有一定的精确度;法:存在称重操作误差,精确度(precision)较高,可靠性低。试验误差的分类:1 .系统误差,或称片面误差:是指试材差异,观测误差,技术与操作的不一致等原因造成的误差。这类误差只要严格按试验操作要求统一尺度,是比较容易克服的。2 .偶然误差:是由试验地的差异造成的,包括土壤差异,病虫害差异以及其他微生境的差异,是较难消除的一类差异。它是衡量试验精度的误差。只要找到误差的起因,就可分成条件误差和随机误差。试验中最难克服的是土壤,为了提高试验的可靠性(准确性)和精度,理解必须选择好试验地,正确理解并
6、执行田间试验的原则。条件误差由试验或生产条件所造成的误差。随机误差受偶然因素影响与测量不准确所造成的误差叫随机误差。二、田间试验三原则1 .重复2 .随机化3 .局部控制重复:在一个试验中每种处理(品种或措施)共同出现的次数。重复的作用在于降低试验误差,提高试验的准确性(可靠性),估算试验误差。试验误差的大小与重复次数的平方根成反比。重复的次数必须根据试验要求的精度,条件差异,试验地面积,小区面积等多方面来考虑。严格来讲,重复次数的多少,应该由试验材料差异,精度和准确性等试验因子来决定。随机化:是指处理的重复与小区的排列次序随机化。这样的排列使试验中的数据和统计值都建立在公平无偏的基础上,使试
7、验误差的计算量可靠可信。从一个总体中随机地抽取样本,对每样本随机地施以不同的处理,把每个处理随机地设置在试验单元或小区,这样就可以认为是满足了观测值及误差独立分布的前提,使差异显著性的检验有效。实现随机化的方法:查随机数表,计算器或计算机产生随机数,抽签(抓阉)等。局部控制是在重复或区组里力求使条件一致起来。同一重复内的条件尽可能一致,不同重复间条件允许不一致。局部控制的关键是土壤差异的控制。第三节常用的试验设计本节参考书目:北京林学院主编.1980.数理统计,中国林业出版社丁希泉编著.1986.农业应用回归设计,吉林科学技术出版社洪伟.1993.林业试验设计与方法,北京科学技术出版社蔚诗松.
8、2003.统计手册,科学出版社一、有关试验设计的几个概念1 .处理(treatment)参试树种、种源、家系、无性系、品种,不同营林措施等。2 .重复(replication)在一个试验中每种处理共同出现的次数。3 .区组(block)局部控制的地块。完全区组:区组内包含所有的处理。区组数=重复数不完全区组:区组内只包含部分处理。区组数重复数4 .小区(plot)某个处理在区组内占据的一个小地块。是实施试验的最小单位。二、常用的试验设计方法(一)、完全随机设计(TheCompleteRandomizationDesign把试验处理包括重复数混合在一起,完全随机地设置小区。每个试验处理的重复数可
9、以相同,也可以不同。例如,有A、B、C、D四个处理,三次重复的完全随机设计。做法:1 .将处理连同重复顺序排列,编成4X3=12个序号:R小区代号AiA2A3BiB2B3ClC2C3DiD2D3R序号1234567891011122 .用随机数表等方法产生12个随机数,并将随机数由小到大排号:R随机号数字300664993389278465472811R排列号4171251131086923 .将处理重复序号排入相应的“排列号”之中,即完成了完全随机设计的排号工作,依次安排试验。完全随机设计可避免某些处理经常相邻而带来的系统误差。它适用于处理数较少,试验地整齐均一的情况,这在林业上很难满足。许
10、多学者认为随机区组设计优于完全随机设计。(二)、随机区组设计(随机完全区组设计:TheRandomizedCompleteBlockDesign)每一重复组成一个区组,重复与区组同义,每个区组包括所有处理(是谓完全区组),每个处理在一个区组内只占有一个小区,各区组以及每个区组内各小区均随机排列。这是最常用的田间试验设计。步骤:4 .确定试验处理数和重复(区组)数;5 .将处理排号,抽取相同数量的随机号作一次重复的排序,有多少次重复就要抽多少组随机号,组成相应的小区排列次序;6 .将所有重复的位次按随机办法编号,就成为区组号,记I区组、n区组等;7 .制成试验方案,包括设计图;8 .将设计方案落
11、实到试验现场。以10个处理三个重复的试验为例,在课堂上完成设计。RCB设计的变化:不连续单株小区,随机轮换区组等。(三)、拉丁方设计(TheLatinSquareDesign利用拉丁方安排试验的试验设计。拉丁方设计也是完全区组设计,是对随机区组设计的一种改进。在一个拉丁方中,将处理从两个方向排列成区组,k个处理排成k行k歹U,每个处理在各行各列中只出现一次。拉丁方设计的特点是处理数、重复数、横行数和直行数都相同,即直行、横行都可构成一个区组,可以实行两个方向的条件控制。优点:对土壤差异实行双重控制,准确性较高。缺点:横、直区组小区数必须相等,伸缩性较小,缺乏随机区组设计的灵活性,且要求条件一致
12、。只应用于规模较小,试验地条件较一致的试验。做法:1,确定一个标准方,即横行和直行均为顺序排列的拉丁方。2 .随机调换标准方各横行位置。3 .随机决定各直行位置。例:一个5X5的拉丁方设计,标准方为:ABCDEBCDEACDEABDEABCEABCD(在课堂上完成横行、直行的随机排列)(四)、正交拉丁方设计(TheCrossedLatinSquareDesign利用正交拉丁方安排试验的试验设计。若要考察的因素不是一个而是两个、三个甚至更多,但供试单元并不能增加或增加很少,这时可利用正交拉丁方,在拉丁方设计的基础上不增加试验次数的条件下引进另一个或一些因素,仍能作出相应分析。所谓正交拉丁方是指两
13、个或几个阶数相同的拉丁方之间呈正交关系。任意两个互相正交的拉丁方,一个用希腊字母表示,一个用拉丁字母表示,当两个拉丁方重叠起来时,任一希腊字母与每一拉丁字母均只相遇一次。如下图:ABCDEBCDEACDEABDEABCEABCDIninIVVVinmwWVinmmwVinnmwViAAnbmcWdVEVBICndniEWaWcVDIEnaniBniDWeVaIBncnemaWaVcID说明:n个处理就有n-1个正交拉丁方;不是任何拉丁方都有与之正交的拉丁方,如6x6的拉丁方则不存在与之正交的拉丁方;各阶拉丁方所具有的正交拉丁方可以数理统计(北京林学院主编)附表19上查得;从附表19上查得的号码
14、应与试验各因素的处理号随机对应,即必须进行随机化处理。另外,正交拉丁方一般用于两个因素的试验,若安排三个或三个以上的因素,则不仅设计复杂,而且在作方差分析时,随因素增加剩余项自由度减少很多,使得分析可靠度减少很快。同时安排三个或三个以上因素的试验可采用正交设计。(五)、平衡不完全区组设计(TheBalancedIncompleteBlockDesign简称BIB设计)在随机区组设计中,当处理数较多时常常会出现一个区组不能容纳全部处理的情形,这是可以用平衡不完全区组(BIB)设计。BIB设计各区组内的小区数小于试验的处理数,即每个区组不能包含所有的处理(不完全区组),每种处理在同一区组内最多只出
15、现一次,而且在整个试验中有相同的被测次数,此外,任意一对处理都有在同一区组内相遇的机会,而且在整个试验中,相遇的次数相等(平衡)。BIB设计需要满足的条件:设处理数为v,每区组内小区数为k,每处理重复数为r,区组数为b,则整个试验总的小区数n=vr=bk,每对处理在同一区组内同时出现的次数为:=-r(v7综合起来,BIB设计的必要条件是b,k,v,r,九这五个参数都必须是正整数,并且满足:(1) vr=bkK<rv<bk<v九(v-1)=r(k-1)上述几个条件,(2)中的vwb在林木田间试验中很难得到满足,故(3)也难以得到满足。标准的平衡不完全区组设计方案可查数理统计(北
16、京林学院主编)附表20。设计步骤:1 .确定v,r,k,计算出bo2 .查“平衡不完全区组设计表”确定各区组内处理的组成。3 .对各区组内处理做随机排列。4 .对各区组进行随机排列。#当处理数为某数的平方,即v=p2,b=p(p+1),k=p=<v,r=k+1=p+1时,称为平衡格子设计。(六)、裂区设计(TheSplit-PlotDesign)裂区设计适用于参试因素需区别对待时的多因素试验。如有两个因素要区别对待,可先将第一级因素(A)的各处理(主处理Ai,A2,A3)按随机区组设计安排于各小区,称主区;然后把各主区看作第二级因素的区组,每个主区划分成若干个小小区,也按随机区组设计安排
17、第二级因素(B)的各处理(副处理Bi,B2,B3,B4)。如下图:B2ABi1B3;B2B4iaB3B31B4B42Bi/BiB21B4IB3-A3B2!biB2IB3-A1-B4!biBiIB3A2IB4!B2B41jB3B21B41Bi1B2A11-A3-1-A2-1-B2!bibi!B3B3jB4(七)、正交设计(TheCrossoverDesign在试验实践中,有时需要同时考察多个(三个或以上)因素,有时还需要了解这些因素中哪个主要哪个次要,各因素之间有没有互作,或了解在多个因素同时使用情况下什么样的试验条件组合结果最佳,正交设计可有效地解决这些问题。如N、P、K各种肥料单独使用效果不
18、理想,若混合使用,就有必要了解什么样的配比效果最佳,即需要找出最优配比,这时可用正交设计。正交设计利用人工编制的一套试验用表,即正交表来安排试验。与正交拉丁方设计、裂区设计等相比,正交设计的优点是可不受很多条件的限制(如不能有因素间的交互作用,各因素处理必须相等且等于拉丁方阶数,裂区设计则要求事先了解那个因素为主因素等)。多因素全面试验时,试验次数随因素的增加而增加很快,如有A、B、C三个因素,每因素两个处理,全面试验需进行2X2X2=8次此试验,如下图:有5个因素,每因素4个处理,就需要进行45=1024次试验,这在林业上是很难完成的。采用正交设计,分别只需进行4次和16次试验。1 .正交设
19、计的基本思想(以23的试验为例):全面试验需进行8次试验,正交设计是从全面试验中挑选部分试验点进行试验。试验点的挑选有两个特点,即“均匀分散,整齐可比”。“均匀分散”使试验点具有代表性,“整齐可比”便于试验的数据分析。本例总共只需4次试验(如下图)。由上图可以看出,选取的试验点均匀、对称地落在立方体各平面上,每个平面两个试验点。再看33的试验,如下图:2 .正交表(北京林学院主编数理统计附表21)的使用LN(ms)表示试验次数为N,每因素m个水平,共s列。例L8(27),表示7列(最多可安排7个因素),每因素2个水平,需进行8次试验。L9(34)表示4列,每因素3个水平,9次试验。此外还有复合
20、型的正交表,即因素水平不等的正交表,参阅常用数理统计表。正交表的特点:(1)任一列中各水平出现的次数相等。(2)任两列间各水平相遇的次数相等。这两个特点体现了正交设计在试验安排上的均衡性。采用正交设计,通过方差分析可了解哪些因素是主要因素,因素间交互作用的大小,因素间水平的最佳组合,各因素的与目的指标的回归关系等。正交设计与回归分析相结合,还可以找出试验因素水平之外的最优组合。(八)、回归正交设计一般称为回归设计,又称响应曲面设计,它是把试验的安排、数据的处理和建立有效的回2变成-1,1和归模型统一起来加以研究的一种试验统计分析方法。具体做法,是在正交表的基础上增加试验点:坐标平移,两水平正交
21、表的-1分别为“上水平”和“下水平”;在每个试验因子的上水平和下水平的外头分别增加两个星号点;在中心点重复若干试验。如下图所示。X2(-1,1)*(。,。T(1,1)6(0,0)0亿。)X1(-1,-1)*辛(0,-r)(1,-1)回归正交设计一般分为一次回归正交设计和二次回归正交设计。一次回归设计具有正交性和旋转性。常用的是二次回归设计,这种设计要具有正交性、旋转性和通用性,必须满足一定的条件,关键是适当选择星号点和中心点重复次数,如下表,具体可参阅(其诗松.2003.统计手册,科学出版社,p711,表13.5.15),满足这些条件的二次回归设计称为二次回归通用旋转设计。三次回归旋转设计较少
22、使用。二次回归通用旋转设计参数表pmcrm0N241.414513381.6826204162.00073115(1实施)2162.000632,1、,、6(1实施)322.378953,1、7(一实施)2642.8281492注:p一试验因子数,mc二水平正交表上的试验点数,r一星号臂长度,m0一中心点的重复次数,总试验点数N=mc+2p+m。回归正交设计可采用改造后的二水平正交表来安排试验(其诗松,2003),也可利用SAS系统的"DesignofExperiments”功能来安排试验和分析试验数据(注意:SAS的回归正交试验设计表是将二水平正交表的1变成-1,2变成1),参阅正
23、交回归设计的SAS解决方案。(九)、均匀设计当试验因子数较多,且每个因子的水平数较多时,运用正交设计需要做的试验次数仍然比较多,难以安排试验。均匀设计就是在这种背景下,为进一步减少试验次数,而又能保证一定的试验精度而提出的。均匀设计是我国数学家王元和方开泰于1980年提出的,它特别适用于变量取值范围大,水平数多(不低于5)的试验。该方法的基本思路是将正交设计“均匀分散,整齐可比”要求中的“整齐可比”去掉,通过提高试验点的“均匀分散”的程度,使试验点具有更好的代表性,能用较少的试验获得较多的信息。均匀试验是根据均匀设计表来安排试验的。和正交表相似,均匀设计表也是精心编制的一套试验表,它是用数论方
24、法编制的(方开泰,1994)的,每一个均匀设计表都有一个代号UN(qs)o其中N表示试验次数,q表示因子的水平数,s表示该表的列数。通常带“*”的均匀设计表有更好的均匀性,应优先选用。每张均匀设计表都附有一张使用表,它指示我们如何从均匀设计表中选用适当的列,以及由这些列所组成的试验方案的均匀性。如:试验号1234s列号D112362130.18752246531230.265633624412340.2990441535531266541(b)U*6(64)的使用表(a)U*6(64)均匀设计表的均匀性用偏差D衡量,D越小,表示均匀性越高。例如,当只有两个因素时,选用列1和3安排试验偏差最小,
25、均匀性最好。查均匀设计表可参阅方开泰(1994)和蔚诗松(2003)。均匀设计表的特点:(1)每个因素的每个水平做一次且仅做一次试验。(2)任两个因素的试验点描在平面的格子上,每行每列有且仅有一个试验点。如U*6(64)的第1列和第3列描成下图(a)。性质(1)和(2)反映了试验安排的均衡性,即对每个因素的各个水平给予同样的重视。(3)均匀设计表任两列组成的试验方案一般是不平等的。例如用U*6(64)的1,3列和1,4列分别作图,得下图(a)和(b)。显而易见,图(a)的点分布均匀,而图(b)的点分布不均匀。因此,安排均匀设计表的使用表安排试验是十分重要的。(a)(b)(4)运用均匀设计法,试
26、验数随水平数的增加而增加。相比之下,正交设计的试验数随水平数的平方而增加。第四节试验实施一、试验方案的制定与落实确定试验因素,处理数,重复数,区组形状及大小,小区形状与大小等。小区的形状与大小主要取决于试验材料的类型和试验的目的,也受试验地形状与大小的影响。单株小区:当试验的处理数较多时,单株小区可有效减小区组规模,防止因区组过大,区组内环境条件差异太大,造成过大的试验误差;有些情况下,例如,需要将子代测定林改造成种子园和采种林分,为了避免近交,必须采用单株小区。单株小区的主要缺点是,每一株树的位置都必须标注在图纸上,档案管理比较繁琐。行式小区:这是应用最多的小区形状。一般采用46株小区。块状
27、小区:对于树种和种源试验,由于树种间或种源间生长差异可能很大,若采用单株或行式小区,可能出现早期慢生树种/种源与速生树种/种源相邻排列,因强烈竞争使早期慢生树种/种源受压,得不到表现其生长潜力的机会。二、试材与试验地准备(一)处理、区组编号,试验材料力求整齐。(二)试验地选择1 .代表性优良材料的测定林地必须能代表其造林更新的土壤条件。2 .一致性指重复内的条件要尽可能一致。3 .完整性避免零碎的、形状不规则的地块。三、重复和小区的设置、标志的设置重复(区组)与小区的设置示意一种变通的区组设置示意四、实现随机化的方法(1) 随机数表的使用方法:1 .决定页码闭上眼睛,把铅笔放在随机数表上,若笔
28、尖落到的数字是奇数(把0看作偶数),则取第一页,否则取第二页。2 .决定起点以笔尖落到的数字来决定行(当笔尖落到的数字是51-99或00,则加上或减去50,使之成为01-50),以相同的方法决定列。对应的行号和列号,即是随机数的起点。3 .前进方向从起点出发,从左往右取,如果到达右端,则移到下一行的左端继续往右边取。可取任何位数的随机数,抄出的随机数个数等于处理数。(2) 用Excel电子表格产生随机数(参阅用Excel工作表进行田间试验设计)五、观测方法与建立档案一般要求每木调查,若小区面积大,可抽样调查,但各小区的抽样方法要一致。建立完整的资料档案非常重要。第二章SAS统计分析软件参考文献
29、:1李东风,张平,宫明编.1991.SAS珠统使用手册.北京大学概率统计系2高慧璇,李东风,耿直等译.1995.SAS系统与基础统计分析.北京大学出版社3董大钧主编.1993.SAS统计分析软件应用指南.电子工业出版社4彭昭英著.2000.世界统计与分析全才SAS系统应用开发指南(上、下册).北京希望电子出版社5陈子星,徐夕水主编.1997.生物统计SAS程序题解.计算机与农业编辑部6黄少伟,谢维辉主编.2001.实用SAS编程与林业试验数据分析.华南理工大学出版社有关网址:http:www.SAS.comSAS研究所上海宏能计算机软件技术有限公司第一节SAS各模块功能简介一、SAS的功能模块
30、简介SAS系统是由众多模块组成的系统。其中BaseSAS模块是SAS系统的核心。其它各模块均在BaseSAS提供的环境中运行。用户可选择需要的模块与BaseSAS一起构成一个用户化的SAS系统。- BaseSAS(含CoreofSASSystem)BaseSAS作为SAS系统的核心,负责数据管理,交互应用环境管理,进行用户语言处理,调用其它SAS模块。BaseSAS为SAS系统的数据库提供了丰富的数据管理功能,还支持标准的SQL语言对数据进行操作。BaseSAS能够制作从简单列表到比较复杂的统计报表。BaseSAS可进行基本的描述性统计及基相关系数的计算,进行正态分布检验等。- SAS/GHA
31、PHSAS/GHAPH可将数据及其包含着的深层信息以多种图形生动地呈现出来,如直方图、圆饼图、星形图、散点相关图、曲线图、三维曲面图、等高线图及地理图等。SAS/GHAPH提供一个全屏幕编辑器,提供多种设备程序,支持非常广泛的图形输出设备以及标准的图形交换文件。- SAS/ASSISTSAS/ASSIST为SAS系统提供了面向任务的菜单界面,借助它可以通过菜单系统来使用SAS系统其它产品。它自动生成的SAS程序既可辅助有经验的用户快速编写SAS程序,又可帮助用户学习SAS。- SAS/AFSAS/AF是一个应用开发工具。用户使用SAS/AF可将包含众多功能的SAS软件作为方法库,利用SAS/A
32、F的屏幕设计能力以及SCL语言的处理能力来快速开发各种功能强大的应用系统。SAS/AF也了采用了OOP(面向对象编辑)技术,使用户可方便快速开发各类具有图形用户界面(GUI)的应用系统。-SAS/EISSAS/EIS是决策工具,也是一个快速应用开发工具。SAS/EIS完全采用新兴的面向对象的编程模式(OOP)。EIS以生动直观的方式(图或表)将关键性或总结性信息呈现给使用者。-SAS/ACCESS为了对众多不同格式的数据进行查询、访问和分析,SAS/ACCESS提供了与目前许多流行数据库软件的接口,利用SAS/ACCESS,可建立外部其它数据库的一个统一的公共数据界面。SAS/ACCESS提供
33、的接口是透明的和动态的。用户不必将此文件当作真正存储着数据的SAS数据集一样使用,而只需在SAS中建立对外部的描述(即VIEW)文件,便可将此文件当作真正存储着数据的SAS数据集一样使用。对一些经常使用的外部数据,可以利用SAS/ACCESS将数据真正提取进入SAS数据库。SAS/ACCESS提供的接口是双向的,既可将数据读入SAS,也可在SAS中更新外部数据或将SAS数据加载到外部数据库中。目前,SAS/ACCESS支持的数据库主要有:IML-DL/I,SQL/DS,DB2,ADABAS,Rdb,ORACLE,Sybase,INGRES,Informix,DBF/DIF,ODBC等。-SAS
34、/STATSAS/STAT覆盖了所有的实用数理统计分析方法,是国际统计分析领域的标准软件。SAS提供了十多个过程,可进行各种不同模型或不同特点数据的回归分析,如正交回归/面回归、响应面回归、logistic回归、非线性回归等,且具有多种模型选择方法。可处理的数据有实型数据、有序数据和属性数据,并能产生各种有用的统计量和诊断信息。在方差分析方面,SAS为多种试验设计模型提供了方差分析工具。另外,它还有处理一般线性模型和广义线性模型的专用过程。在多变量统计方面,SAS/STAT为主成分分析、典型相关分析、判别分析和因子分析提供了许多专用过程。SAS/STAT还包含多种聚类准则的聚类分析方法。-SA
35、S/QCSAS/QC为全面质量管理提供了一系列工具。它也提供一套全屏幕菜单系统引导用户进行标准的统计过程以及试验设计。SAS/QC提供了多种不同类型控制图的制作与分析。Pareto图(排列图)可用于发现需优先考虑的因素,Ishikawa图(鱼骨图)可用于直观地进行因果分析。- SAS/ETSSAS/ETS提供丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行预测的有力工具。它提供方便的模型设定手段、多样的参数估计方法。- SAS/ORSAS/OR提供全面的运筹学方法,是一种强有力的决策支持工具。它辅助人们实现对人力、时间以及其它各种资源的最佳利用。SAS/OR包含通用的线性规划、混合整数
36、规划和非线性规划的求解,也为专门的规划问题提供更为直接的解决办法,如网络流问题、运输问题、分配问题等。- SAS/IMLSAS/IML提供功能强大的面向矩阵运算的编程语言,帮助用户研究新算法或解决SAS中没有现成算法的专门问题。SAS/IML中的基本数据元素是矩阵。它包含大量的数学运算符、函数和例行程序,用户用很少的语句便可执行很复杂的计算过程。- SAS/WASAS/WAWWarehouseAdministrator)是建立数据仓库的集成工具,它在其它SAS软件的基础上提供了一个建立数据仓库的管理层,包括:定义数据仓库和主题,数据转换和汇总,汇总数据的更新,Metadata的建立、管理和查询
37、,Datamarts和Infomarts的实现。- SAS/MDDBServerSAS/MDDBServer是SAS的多维数据库产品,主要用于在线分析处理(OLAP),可将从数据仓库或其它数据源来的数据以立体阵列的方式存储,以便于用多维数据浏览器等工具快速和方便地访问。- SAS/IntrNetSAS/IntrNet为SASWeb应用提供了数据服务和计算服务,包才htmSQL,它为一UNIXWeb服务器的CGI程序,使得能通过支持Web浏览器动态查询SAS数据或外部的关系型数据库;SASODBCDriver使得能通过支持ODBC的WindowsWeb服务器来访问SAS数据;SASDriverf
38、orJDBC使得可以通过Javaapplet来查询SAS数据;SAS/IntrNetApplicationDispatcher使得可以通过Web浏览器动态地递交SAS程序到SAS应用服务器执行,并将结果返回浏览器。- SAS/GISSAS/GIS集地理位置系统功能与数据的显示分析于一体。它提供层次化的地理信息,每一层可以是某些地理元素,也可与用户定义的主题(例如:人口、产值等)相关联。用户可交互式地缩小或放大地图,设定各层次显示与否,并利用各种交互式工具进行数据显示与分析。- SAS/GRAPHMAPS世界各地地理位置数据。- SAS/ITSVITServiceVision(ITSV)是企业的
39、全面IT服务的性能评估和管理的软件,这些IT服务包括计算机系统、网络系统、Web服务器和电话系统等。ITSV将不同来源的数据进行整理和组织,存放于性能数据仓库中,用GUI或批处理的方式产生组织任意层面的报告。系统程序员及网络工程师能借此识别、研究并解决有关问题,业务分析人员能借此制定资源管理的总体策略,CIO和数据中心经理能借此定期地得到所需的IT运作的汇总和分析报告。- SAS/CFOVisionSAS/CFOVision用于财务整合和报告,内部包含了会计知识,为日常财务工作提供了现成的程序,并提供了访问所有主要数据源的接口。它主要用于;访问财务和非财务的有关住处整合财务数据,通过一个财务信
40、息仓库来管理业务结构,通过财务报告和分析帮助理解财务的结果,并在组织内交流关键的业务结果信息。- SAS/FSPSAS数据管理模块。SAS/INSIGHT:动态数据分析与开发工具,包括制作直方图、盒图、坐标图、散点坐标图、方差分析、回归分析、多元统计分析等。二、SAS发展历史SAS-StatisticalAnalysisSystem1 .08version:forwindows3.x2 .12versionforwindows95/988 .xversionforwindowsme/2000/WinXP9 .xversionforwindowsme/2000/WinXP第二节SAS系统的安装使
41、用一、实现统计功能的四种途径10 分析员应用(Analyst)11 数据分析向导(GuidedDataAnalysis)12 交互式数据分析(InteractiveDataAnalysis)13 编程二、建立SAS数据集的两种方式1 .菜单方式:SAS/FSP模块,数据来源:A输入B外部数据文件2 .编程方式:SAS数据步,数据来源:A.输入(镶嵌到程序中)B.外部数据文件第三节SAS系统与外部文件的数据交换一、供FSP数据接口调用的外部文件各种流行数据库软件创建的数据表或生成的文本文件,字处理软件生成的文本文件,Excel数据表生成的.csv格式文件。二、FSP导出的数据文件Excel数据表
42、文件(.xls)。三、供SAS数据步调用的外部文件文本文件各种流行数据库软件或字处理软件生成的文本文件,字段间以空格、逗号或其它字符分隔,字符型字段不能加引号。Excel:文件/另存为.csv(逗号分隔)。Word:文件/另存为纯文本。(Visual)FoxpPro:文件/数据导出(以选择项界定输出格式),或命令行:copyto数据文件名fields输出字段列表delimitedwithblankcopyto数据文件名fields输出字段列表sdf适宜在纯数值型字段的情况下使用。例:有一个Excel2000的电子表格数据文件(.xls),将它另存为文本文件(.txt,制表符分隔),再通过Wor
43、d另存为纯文本(.txt,紧凑排列,字段间以空格分隔),或直接另存为csv(逗号分隔)格式文本文件。四、SAS数据步导出的数据文件文本文件(.txt)紧凑排列,字段间以空格分隔。Excel-csv格式文件一一字段间以逗号分隔。第四节SAS数据集的创建及其操作SAS程序只能处理SAS数据集中的数据,因此,必须先创建SAS数据集,外部数据文件中的数据均必须转换成SAS数据集才能被程序处理。一、SAS数据集的创建1 .菜单方式(通过FSP创建永久型数据集)打开VIEWTABLE窗口:工具(Tools)表编辑器(TableEditor)与外部数据文件的接口:文件(Files)导入数据(ImportDa
44、ta)注意数据源文件的格式。缺乏变量行的文本文件,第一条记录被自动作为变量行。例:在VIEWTABLE中导入上例生成的各种不同格式的数据。2 .编程方式(SAS数据步)DATA语句:指定建立一个SAS数据集,给即将建立的数据集命名。INPUT语句:定义数据集中的变量。FILENAME语句:指定动态数据交换所用的数据源。INFILE语句:从外部数据文件读取数据。语句格式一(数据镶嵌在程序中,适用于数据量较少的情况):dataSAS数据集名;input变量名表选择项;cards(cards4);(数据);(;;)input语句选择项:数据输入格式:列方式自定义格式列表方式三种变量的表木:数值型,只
45、用变量名表示字符型,变量名$表示日期的变量,变量名DATEwMMDDYYw语句格式二dataSAS数据集名;infile外部数据文件名(含路径)'选择项;input变量名表选择项;infile语句选择项:delimiter(dlm)='字符';Input语句选择项同上。语句格式三filename文件名dde处于活动状态的EXCEL电子表格名称ricj:rkcldataSAS数据集名;infile文件名;input变量名表选择项;二、创建外部数据文件1 .FSP方式文件(Files)导出数据(ExportData)。2 .编程方式语句:dataSAS数据集名;setSAS
46、数据集名;file外部数据文件名(含路径)选择项;put变量名表;file语句选择项:delimiter(dlm)='字符'。三、SAS数据集的操作1 .菜单方式2 .编程方式SET语句:数据集的连接,数据变换。语句格式:DATA数据集;SET数据集1数据集2;MERGE语句:数据集的合并。语句格式:DATA数据集;MERGE数据集1数据集2;TRANSPOSE语句:数据集的转置。语句格式:PROCTRANSPOSE选择项;VAR变量名表;选择项:DATA=原始数据集OUT=输出数据集SORT过程:数据集排序。语句格式:PROCSORT选择项;BY变量名表;选择项:DATA=数
47、据集过程步PROC语句;后面紧跟过程(procedure)名,过程名后面为选择项。第三章SAS系统在林业试验数据处理中的应用第一节菜单驱动的数据分析一、分析员应用(Analyst)1 .FSP方式建立数据集并存入SASUSER库。2 .主菜单Solutions/Analysis/Analyst。3 .打开数据集:主菜单File/Open。4 .主菜单Statistics/,。二、数据分析向导(GuidedDataAnalysis)1 .FSP方式建立数据集并存入SASUSER库。2 .主菜单Solutions/Analysis/GuidedDataAnalysis/,。三、交互式数据分析(In
48、teractiveDataAnalysis)1 .FSP方式建立数据集并存入SASUSER库。2 .主菜单Solutions/Analysis/InteractiveDataAnalysis。3 .“SAS/INSIGHT:Open”对话框,“Library”栏选“SASUSER",“DataSet”栏选数据集,点击“Open”。4 .主菜单Analyze/,。第二节描述统计、SAS基本统计过程及其特点统计量MEANSUNIVARIATESUMMARYTABULATECORR非缺项值数(N)VVVV缺项值数(NMISS)VVVVV权重和(SUMWEIGHT)VVVV平均值(MEAN)
49、VVVVV和(SUM)VVVVV最小值(MIN)VVVVV最大值(MAX)VVVVV全距(RANGE)VVVV未修正平方和(USS)VVVV修正平方和(CSS)VVVV方差(VAR)VVVV标准差(STD)VVVVV标准误差(STDERR)VVVV变异系数(CV)VVVV偏度(SKEWNESS)VV峰度(KURTOSIS)VV学生t值(T)VVVV大于t的概率(PRT)VVVV中位数(MEDIAN)V四分位数(QUARTILE)V众数(MODE)V帕松相关系数V打印输出YesYesNoYesYes输出到SAS数据集YesYesYesNoYesCLASS语句YesYesYesYesNoBY语句Y
50、esYesYesYesYes二、描述性统计功能的实现1 .分析员应用(Analyst)2 .数据分析向导(GuidedDataAnalysis)3 .交互式数据分析(InteractiveDataAnalysis)4 .编程方式用MEANS过程进行描述性统计PROCMEANS选择项;VAR变量名;BY变量名;OUTPUTOUT=数据集名;选择项:NOPRINT不打印计算结果DATA=数据集名一一指定数据源统计项(见上表)VAR语句指定参加统计的变量BY指定分类统计的标识变量,必'须首先对数据进行排序(SORT过程)OUTPUT语句将统计结果建立一个新的数据集第三节参数估计1 .总体平均
51、数的区间估计2 .总体方差的区间估计3 .总体变异系数的区间估计第四节假设检验1 .总体平均数的检验2 .两总体平均数的差异显著性检验1)比较两独立总体平均数的t检验2)比较两相关总体平均数的成对数据的t检验3 .方差齐性检验第五节方差分析一一常用试验方法的统计分析一、ANOVA过程(AnalysisofVariance)用于平衡数据的方差分析语句:PROCANOVA选择项;CLASS分类变量;MODEL因变量=效应;BY变量名;MEANS效应/选择项;TESTH=效应E=效应;PROCANOVA语句选择项:DATA=SAS数据集CLASS语句:检验的主效应MODEL语句:指定统计模型MEAN
52、S语句:求指定效应的平均值并进行差异显著性检验MEANS语句选择项:指定差异显著性检验所用的方法,指定检验的显著性水平。常用的检验方法:T、DUNCAN、SNK(Q)、DUNNETT。TEST语句:对指定效应进行显著性检验。H=效应甘旨定待检验的效应,E=效应甘旨定F检验中的误差项(作为分母的效应)。二、GLM过程(GeneralLinearModel)用于非平衡数据的方差分析PROCGLM选择项;CLASS分类变量;MODEL因变量=效应/选择项;BY变量名;MEANS效应/选择项;OUTPUTOUT=数据集;RANDOM随机效应/选择项;TESTH=效应E=效应;MODEL语句选择项:指定输出的平方和类型SS1,SS2,SS3,SS4,其中SS1和SS3为缺省选项。RANDOM语句:要求列出随机效应的期望均方。RANDOM语句选择项:要求对随机效应进行F检验(随机模型)。方差分析模型是一种线性模型,模型中各效应的平方和是可加
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 淮阴师范学院《中学教育基础》2022-2023学年第一学期期末试卷
- 淮阴师范学院《化工安全概论》2023-2024学年第一学期期末试卷
- 淮阴工学院《数字电子技术4》2021-2022学年期末试卷
- 淮阴工学院《容器造型与纸结构》2023-2024学年第一学期期末试卷
- 工程价款结算指导性案例
- 2021教师法律法规心得体会范文5篇
- 油炸食品原料的采购与供应链管理考核试卷
- 知识风暴激发专业知识的无限潜能考核试卷
- 学前教育的影响因素与挑战考核试卷
- 企业文化与员工培训的连接考核试卷
- 幼儿园优质公开课:中班音乐韵律《打喷嚏的小老鼠》课件
- 质量管理体系品质保证体系图
- 人教版(新插图)三年级上册数学 第9课时 用乘除两步计算 解决-归总问题 教学课件
- 四班三倒排班表
- 《现代汉语》考试复习题库及答案
- 13J104《蒸压加气混凝土砌块、板材构造》
- 初中语文七年级上册《世说新语二则》作业设计
- 银行业信息系统灾难恢复管理规范
- 2023老年重症患者静脉血栓栓塞症预防中国专家共识
- 2023光伏发电工程项目安全文明施工方案
- 汽车发动机构造与维修参考文献
评论
0/150
提交评论