版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-.z.目录实验一 描述性分析实验二 正态总体的均值检验实验三 非参数检验实验四 方差分析实验五 回归分析实验六 判别、聚类分析实验七 主成分分析实验八 因子分析实验一 描述性分析【实验目的】掌握数字特征的计算〔A〕;2. 掌握相关矩阵计算〔A〕。【实验原理】数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进展分析,以求最大化地开发数据资料的功能,发挥数据的作用;是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。要对数据进展分析,当然要分析数据中包含的主要信息,即要分析数据的主要特征,也就是说,要研究数据的数字特征。对于数据的数字特征,要分析数据的集中位置、分散程度。数据的分布是正态的还是偏态等。对于多元数据,还要分析多元数据的各个分量之间的相关性等。【实验工程设计】给定一组单变量数据,分组计算均值、方差、Q1、Q3、偏度、峰度。给定一组多变量数据,计算相关矩阵。【实验容】一、单样本的数字特征计算(习题1.4)从*商店的营业日中随机抽取12天,得日营业额数据为〔单位:万元〕:12.5,17.2,9.1,25.4,31.2,20,18.9,22.8,21.1,17.8,25.1,27.7试求样本均值、样本方差、样本变异系数、样本中位数、上样本四分位数、下样本四分位数、样本四分位数间距和极差。1. 建数据集Datad4;Input*;Cards;12.517.29.125.431.22018.922.821.117.825.127.7;Run;2. 使用"SAS/分析家〞菜单翻开"分析家〞界面。选择SAS界面的级联菜单:"解决方案〞"分析〞"分析家〞。调出数据文件Work.D4。在界面的空白处,右键弹出菜单,选择级联菜单:"文件〞"按SAS名称翻开〞。依次选择逻辑库和文件对象,分别为"Work〞、"D4〞,单击"确定〞按钮。确定分析方法。选择界面上的级联菜单:"统计〞"描述性统计〞"分布〞输送变量。首先选中变量"*〞,然后单击"Analyst〞按钮。即完成变量的输送,确定变量"*〞作为分析变量。单击"OK〞。得到输出结果上述使用"分析家〞的调用过程等价于程序调用univariate过程:procunivariatedata=d4;Var*;Run;3. 解答样本均值mean= 样本方差Variance=样本变异系数CoeffVariation=样本上四分位数75%Q3=样本中位数Median=样本下四分位数25%Q1=极差Range=样本四分位数间距InterquartileRange=二、相关矩阵计算(例3.2.3)今对31个人进展人体测试,考察或测试的七个指标是:年龄(*1)、体重(*2)、肺活量(*3)、1.5英里跑的时间(*4)、休息时的脉搏(*5)、跑步时的脉搏(*6)和跑步时记录的最大脉搏(*7)。数据列于表3.2.1。现欲对这些指标作一些相关分析。1. 对于给定E*CEL数据文件,导入数据建数据集e323.sas7bdat2. 使用SAS/INSIGHT菜单3. 输出实验二 正态总体的均值检验【实验目的】掌握单正态总体样本的均值检验〔B〕;掌握两独立组样本(服从正态总体)进展均值比较〔A〕;掌握两对照组样本(服从正态总体)进展均值比较〔A〕;了解两组样本均值差的置信区间计算〔C〕。【实验原理】单样本总体均值的t检验两独立组样本总体的方差比较【实验工程设计】单个正态总体的均值检验;两独立组样本(服从正态总体)进展均值比较检验;两对照组样本(服从正态总体)进展均值比较检验。【实验容】一、单个正态总体的均值检验(习题1.4)从*商店的营业日中随机抽取12天,得日营业额数据为〔单位:万元〕:12.5,17.2,9.1,25.4,31.2,20,18.9,22.8,21.1,17.8,25.1,27.7试检验:μ0=10。1. 建数据集Datad4;Input*;Cards;12.517.29.125.431.22018.922.821.117.825.127.7;Run;2. 使用"SAS/分析家〞菜单翻开"分析家〞界面。调出数据文件Work.D4。确定分析方法。选择界面上的级联菜单:"统计〞"假设检验〞"均值的单样本T检验〞输送变量。确定变量"*〞为分析变量。得到输出结果3. 解答H0:μ0=10H1:μ0≠10检验方法:t检验统计量取值: t=____检验p值=_______结论:拒绝/承受H0.两独立组样本(服从正态总体)进展均值比较(习题1.22)为比较甲、乙两种安眠药的疗效,将20名患者分成两组,每组10人,假定服药后延长的睡眠时间都近似服从正态分布且方差相等,测得其数据如下:1.9,0.8,1.1,0.1,-0.1,4.4,5.5,1.6,4.6,3.40.7,-1.6,-0.2,-1.2,-0.1,3.4,3.7,0.8,0,2试问在显著性水平a=0.05下检验两种安眠药的疗效有无显著性差异,p值是多少.1. 建数据集前面的"分析家〞界面不要关闭,切换到程序编辑窗口,输入程序。Datad22;Input*y;Cards;1.90.70.8-1.61.1-0.20.1-1.2-0.1-0.14.43.45.53.71.60.84.603.42;Run;2. 使用"SAS/分析家〞菜单回到"分析家〞界面,调出数据文件work.d22确定分析方法。选择级联菜单:"统计〞"假设检验〞"均值的双样本T检验〞设置数据集work.d22中,各样本分组数据对应的变量个数:"Twovariables〞。输送变量。将变量"*〞输送给"group1”,"y〞输送输出结果如下涉及到两独立组的方差,继续检验两组方差是否相等。回到"分析家〞界面上,选择级联菜单"统计〞"假设检验〞"方差的双样本T检验〞输送变量。将变量"*〞输送给"group1”,"y〞输送给"group2〞,单击"OK〞输出结果如下3. 解答H0:σ1=σ2H1:σ1≠σ2检验方法:F检验统计量取值:F=____检验p值=_______结论:拒绝/承受H0.两独立组的方差是/否相等。H0:μ1=μ2H1:μ1≠μ2检验方法:t检验统计量取值:t=____检验p值=_______结论:拒绝/承受H0.两种安眠药的疗效有/无显著性差异三、两对照组样本(服从正态总体)进展均值比较〔习题1.24〕甲、乙两种稻种分别播种在10块试验田中,每块试验田甲、乙稻种各种一半。假设同一块田中两种作物的产量之差服从正态分布。现获10块田的成对产量如下表所示〔单位:公斤〕,试问两种稻种产量有无显著性差异〔a=0.05〕,p值是多少.12345678910甲种140137136140145148140135144141乙种1351251401281311301401311251. 建数据集Datad24;Input*y;Cards;140 135137 136 125140 140145 128148 131140 130135 140144 131141 125;Run;2. 使用"SAS/分析家〞菜单回到"分析家〞界面,调出数据文件work.d24确定分析方法。选择级联菜单:"统计〞"假设检验〞"均值的双样本成对T检验〞输送变量。设置各分组数据对应的变量个数:"Twovariables〞,并输送变量"*〞"y〞,单击"OK〞,得到输出结果如下:3. 解答H0:μ1=μ2H1:μ1≠μ2检验方法:t检验统计量取值:t=____检验p值=_______结论:拒绝/承受H0,两种稻种产量有/无显著性差异.实验三 非参数检验【实验目的】掌握卡方检验〔A〕;熟悉符合检验、符号秩和检验、秩和检验。【实验原理】非参数统计是统计分析的重要组成局部。可是与之很不相称的是它的理论开展远远不及参数检验完善,因而比较完善的可供使用的方法也不多。在SAS中,非参数统计主要由UNIVARIATE过程、MEANS过程和NPAR1WAY过程来实现,使用SAS的"分析家〞系统可以方便地进展界面操作。【实验工程设计】对列联表,检验行变量与列变量的关联性;给定一组未知总体的样本数据,检验μ=μ0;给定两组未知总体的样本数据,检验μ1=μ2。【实验容】一、对列联表,检验行变量与列变量的关联性(习题4.7)下表为*药治疗感冒效果的3*3列表。疗效\年龄 儿童 成年 老年 合计显著 58 38 32 128一般 28 44 45 117较差 23 18 14 55合计 109 100 91 300试问:疗效与年龄是否关联〔a=0.05〕.1. 建数据集Datad0407;Doeffect='显著','一般','较差';Doage='儿童','成年','老年';inputnum;output;end;end;Cards;58 38 32 28 44 45 23 18 14 ;Run;2. 使用"SAS/分析家〞菜单翻开"分析家〞界面。调出数据文件Work.D0407。确定分析方法。选择界面上的级联菜单:"统计〞"表分析〞得到列联表的空白界面。输送变量。选中变量"effect〞,单击"Row〞按钮;选中变量"age〞,单击"Column〞按钮;选中变量"num〞,单击"CellCounts〞按钮。完成变量输送。显示如下。选择附加的统计方法。在列联表分析〔TableAnalysis〕界面的右边下角,点击"statistics〞按钮,翻开选项设置页。勾选"chi-squarestatistics〞。如下列图。单击"OK〞按钮。值得一提的是,卡方检验默认使用近似计算,目的是为了节省时间。当然也可以勾选中间的"E*acttest〞选项卡,来指定准确检验,只是*些时候的运行时间无法控制。得到输出结果3. 解答H0:疗效与年龄独立。检验统计量及其分布:统计量=检验p值=结论:二、对未知总体的一组样本数据,进展均值的非参数检验〔H0:μ=μ0〕(习题4.9)从*企业中随机抽取12名职工,调查他们的年抽入,数据如下〔单位:万元〕:5.42 5.65 5.64 5.13 4.69 5.13 4.81 4.37 5.82 6.31 4.78 5.52试用符号检验对该企业职工年收入的中位数是否显著超过了5万元进展符号检验〔a=0.05〕。建数据集前面的"分析家〞界面不要关闭,切换到程序窗口,运行以下程序。Datad0409;inputine;d=ine-5;cards;5.42 5.65 5.64 5.13 4.69 5.13 4.81 4.37 5.82 6.31 4.78 5.52;run;2. 使用"SAS/分析家〞菜单在未关闭的"分析家〞界面中,调出数据文件Work.D0409。翻开对应于univariate程序功能的菜单分析界面。选择界面上的级联菜单:"统计〞"描述性统计〞"分布〞输送差值变量"d〞。选中差值变量"d〞,单击Analysis框。单击"OK〞。得到输出结果。3. 解答H0:m=5H1:m>5①符号检验检验统计量及其分布:统计量s+=2+E(S+)=8检验p值=0.3877/2=0.194〔单边检验,故概率除以2〕结论:承受H0。②符号秩检验〔前提:假定总体的分布式对称的〕检验统计量代表差值变量d中取值为正的数据项秩总和。统计量T+=19+E(T+)=19+12(12+1)/4=19+39=58,检验p值=0.1455/2=0.〔单边检验,故概率除以2〕结论:承受H0。三、两组未知总体的样本数据,非参数检验总体均值〔习题4.12〕在甲、乙两台同型梳棉机上,进展纤维转移率试验,除机台外其他工艺条件都一样,经试验得两个容量不同的纤维转移率样本数据如下表:甲8.6359.9.2318.7979.8710.325乙7.3427.4368.038.9469.1316.8238.9658.6968.345试用秩和检验,对纤维转移率而言,这两台机器是否存在显著的机台差异〔a=0.05〕.建数据集前面的"分析家〞界面不要关闭,切换到程序窗口,运行以下程序。datad04012;input* class$;cards;8.635 甲9. 甲9.231 甲8.797 甲9.87 甲10.325 甲7.342 乙7.436 乙8.03 乙8.946 乙9.131 乙6.823 乙8.965 乙8.696 乙8.345 乙;run;运行npar1way过程propar1waydata=d04012wilco*on;classc;var*;run;3.得到输出结果4.解答H0:两台机器没有显著的差异〔即μ1=μ2〕H1:两台机器存在显著的差异(即μ1≠μ2)T=67,(统计量T代表甲台机器的样本数据在混合数据中的秩和),检验p值=0.0292〔双边检验,应选用z检验的"Two–sidedPr>|Z|〞〕,拒绝H0,认为两台机器存在显著差异。【思考题】问题1说出非参数检验和参数检验的区别。问题2说出非参数检验中,都有哪几类问题有需要以引入差值变量d。实验四 方差分析【实验目的】掌握单因素方差分析、多重比较〔A〕;掌握两因素方差分析算〔A〕。【实验原理】方差分析(analysisofvariance,简称ANOVA)是用来对多个总体的均值作比较检验的统计方法。在进展单因素方差分析时,如果检验拒绝了原假设,则我们有时还需进一步检验到底哪些均值之间存在差异,把同时比较任意两个水平下的总体均值有无显著差异的问题称为多重比较问题。常用的有费希尔LSD法和邦弗伦尼法。【实验工程设计】进展单变量方差分析;考虑交互作用进展双因素方差分析;不考虑交互作用进展双因素方差分析。【实验容】一、单因素方差分析&多重比较〔例5.1.1〕为检验甲、乙、丙三种型号的机器混合一批原料所需平均时间是否一样,*管理人员得到了混合原料所需时间的如表5.1.1所示的数据。机器 所 需 时 间甲 21 25 22 26 23 22乙 27 23 25 24 27 26丙 19 22 21 25 21 20(例5.2.1)在例5.1.1中,k=3,n1=n2=n3=6,n=18,并假定在三个水平下的总体分布皆为正态,且方差相等。试给出方差分析表〔参考教材124页〕并进展多重比较。1. 建数据集/*引入组别变量a和数值变量*,建数据集c0501*/Datac0501;input*;if_n_<7thena=’甲’;elseif_n_<13thena=’乙’;elsea=’丙’;cards;21 25 22 26 23 2227 23 25 24 27 2619 22 21 25 21 20;run;2. 使用"SAS/分析家〞菜单翻开"分析家〞界面,调出数据文件Work.C0501。翻开单因素方差分析界面。/*SAS\ANALYST菜单:"统计〞"方差分析(A)〞"单向方差分析(O)〞*/输送变量。得到输出结果。验证:SST=SSA+SSE3. 进展多重比较翻开单因素方差分析界面/*SAS\ANALYST菜单:"统计〞"方差分析(A)〞"单向方差分析(O)〞*/单击界面上的"Means〞按钮单击选项卡"parisonMethod〞右侧的黑色下箭头,弹出的列表中选择适宜的方法。使用Fisher’sLSD法的多重比较结果〔参考教材126页〕使用邦弗伦尼法的多重比较结果〔参考教材127页〕二、考虑交互作用的双因素方差分析〔例5.3.1〕 为研究影响合成纤维抗断强度的因素,表5.3.1记录了三位操作员用同一批产品的纤维在四台生产机器上试验的数据。机器 甲 乙 丙 丁操作员1 109,110 110,115 108,109 110,1082 110,112 110,111 111,109 114,1123 116,114 112,115 114,119 120,117〔例5.3.1. 建数据集/*引入因素变量A、B和数值变量*,建数据集c0502*/Datac0502;DoA='p1','p2','p3';DoB='甲','乙','丙','丁';Dor=1,2;Input*;Output;End;end;end;cards;109110 110115 108109 110108110112 110111 111109 114112116114 112115 114119 120117;Run;2. 使用"SAS/分析家〞菜单翻开"分析家〞界面,调出数据文件Work.C0502。翻开双因素方差分析界面。/*SAS\ANALYST菜单:"统计〞"方差分析(A)〞"因子方差分析(O)〞*/输送双因素变量A、B和数值变量*。保存窗口。输送交互因素A×B。单击Model按钮,弹出如下页面。同时选中左侧变量A、B,单击cross按钮,完成交互因素的添加。单击"OK〞按钮。得到输出结果。三、不考虑交互作用的双因素方差分析〔例5.3.3〕为了考察压强与温度对*种粘合剂抗剪强度的影响,选定压强(单位:10−5牛顿/毫米2)的四个水平和温度(单位:℃)的三个水平作试验,每个水平组合下作一次试验,结果见表5.3.6。假定这两个因素无交互作用,且在各水平组合下粘合剂的抗剪强度均服从方差一样的正态分布,试检验两个因素的效应是否显著(α=0.05)。
温度(B)130140150yi∙压强(A)
609.6011.289.0029.88659.6910.109.5729.36708.4311.019.0328.47759.9810.449.8030.22y∙j37.742.8337.4y∙∙=117.93试给出方差分析表〔参考教材136页〕1. 建数据集/*引入因素变量A、B和数值变量*,建数据集c0503*/Datac0503;DoA=60,65,70,75;DoB=130,140,150;Input*;Output;End;end;cards;9.60 11.28 9.009.69 10.10 9.578.43 11.01 9.039.98 10.44 9.80;Run;2. 使用"SAS/分析家〞菜单同上,只是省去添加交互因素这一步骤。实验五 回归分析【实验目的】掌握多元线性回归方程的拟合、检验〔A〕。【实验原理】客观世界中事物之间的关系是各种各样的。从定量的角度看,主要有两种:一是确定性关系,如重力加速度,即自由落体的距离与时间:S=0.5gt2;另一类是不确定性关系,即相关关系。由于事物的变化常常受多种因素的影响,导致了事物变化的不确定性。人们常用相关系数来描述事物之间的这种不确定性程度。但对于如何通过一个事物的值去估计和预测另一个事物的开展变化,相关系数却无能为力。但是,通过大量的实际调查,可以总结出它们之间的关系,回归分析即是对这种关系的描述。"回归〞一词最早由英国统计学家高尔顿〔FrancisGalton〕在19世纪末期研究孩子的身高和他们父母身高关系时提出。研究发现,孩子的身高总是趋于他们父母身高的平均值。孩子的身高,比身材矮的父母要高,比身材高的父母要矮,这种趋于中间值的趋势称作"回归效应〞,而他提出的这种研究两个数值变量关系的方法称作回归分析。回归分析是借助数学模型对客观世界所存在的事物间的不确定关系的一种数量化描写,即通过一个或几个变量的变化去解释另一变量的变化。目的在于对相关随机变量进展估计、预测和控制,确定变这些量之间数量关系的可能形式,并用一个数学模型来表示。回归分析中,自变量(independentvariable)也称为解释变量,给定的或可以控制的、用来解释、预测因变量的变量;因变量(dependentvariable)也称为响应变量,由自变量来解释其变化的变量。只有一个自变量的线性回归叫一元线性回归,也叫简单回归。与方差分析不同,在回归分析中,"元〞是指自变量,而不是指因变量。【实验工程设计】给定样本数据,进展一元线性回归拟合、检验;给定样本数据,进展多元线性回归拟合、检验。带虚拟变量〔哑元变量〕的线性回归。【实验容】一、一元回归分析〔习题5.2〕关于汽车轮胎的等级和承载能力的一个样本统计资料如下:序号123456789承载能力y85310471135120112351356138914332039轮胎等级*7582858788919293105(1)用汽车轮胎的等级作自变量,画出这些数据的散点图;(2)利用最小二乘法,求出估计回归函数;1. 建数据集Datad0604;Inputy*1;Cards;补充;Run;2. 使用"SAS/分析家〞菜单翻开"分析家〞界面。调出数据文件Work.D0602。绘制散点图。单击工具栏"散点图〞图标弹出散点图页面:〔2.1〕输送变量。〔2.2〕设置星号为散点显示符号。单击"display〞按钮,弹出页面如下,单击黑色下箭头,弹出列表中单击"star〞。单击"OK〞返回。拟合回归函数。步骤同实验容二。略。二、多元回归分析〔习题6.4〕关下表是30家计算机硬件设备公司的每股价格(y)、每股账面价值(*1)和每股资本收益率(*2)的统计资料:y*1*2y*1*212.314.94-49.728.756.3515.121.759.46-71.830.53.7811.8114.9517.227.1912.599.83.254.335.116.313.6428.365.59.5820.811.883.56435.948.4613.33310.0316.582.062.3374.528.1910.643.3157.35-11.927.449.12-4.34322.4-12.915.136.1516.114.254.1118.855.522.3811.116.256.8310.7486.426.212.889.13934.249.498.739.136.0728.838.9410.2514.361.514.1418.711.310.681.6101.3820.1229.914.633.4824.3试求估计回归函数;检验H0:0=1=0〔a=0.05〕;试求复判定系数R2;试求0和1的95%置信区间;对于一家每股账面价值*1=9.48和每股资本收益率*2=17.5的计算机,硬件设备公司,试对它的平均每股价格作出点估计并对其每股价格作出点预测;在(5)中,试求平均每股价格的95%置信区间和每股价格的0.95置信区间.1. 建数据集Datad0604;Inputy*1*2;Cards;12.31 4.94 -49.7 28.75 6.35 15.121.75 9.46 -71.8 30.5 3.78 11.811 4.95 17.2 27.19 12.59 9.83.25 4.33 5.1 16.31 3.64 28.365.5 9.58 20.8 11.88 3.56 435.94 8.46 13.3 33 10.03 16.582.06 2.33 74.5 28.19 10.64 3.315 7.35 -11.9 27.44 9.12 -4.343 22.4 -12.9 15.13 6.15 16.114.25 4.11 18.8 55.5 22.38 11.116.25 6.83 10.7 48 6.4 26.212.88 9.13 9 34.24 9.49 8.739.13 6.07 28.8 38.94 10.25 14.361.5 14.14 18.7 11.31 0.68 1.6101.38 20.12 29.9 14.63 3.48 24.3;Run;2. 使用"SAS/分析家〞菜单翻开"分析家〞界面。调出数据文件Work.D0604。翻开〔多元〕线性回归界面。单击工具栏"(多元)线性回归〞图标:设置〔多元〕线性回归界面,如图。〔3.1〕输送变量。〔此步骤操作必选,余下步骤可选〕输送y为Dependent变量;同时选中*1、*2设置为E*planatory变量。〔3.2〕求回归系数求0和1的95%置信区间。单击Statistics按钮,弹出页面:在Parameterestimates选项框中,勾选前两项。如图。即设置输出标准回归系数和参数估计置信区间。〔3.3〕新采样点的点预测。依据题目为例:*1=9.48,*2=17.5。对平均每股价格作出点估计并对其每股价格作出点预测。切换到程序编辑窗口,建立待预测数据集temp并运行程序。Datatemp;*1=9.48;*2=17.5;y=.;run;切换到多元线性回归界面,单击Predictions按钮,弹出页面:在〞预测输入〞选项框中,勾选"Predictadditionaldata〞,单击实黑色右箭头,将弹出"选择成员〞页面,选择新建的待预测数据集work.temp。然后,在"预测输出〞选项框中,勾选"Listpredictions〞,将显示预测结果列表。单击"OK〞返回。多元线性回归界面,单击Savedata按钮,弹出页面:勾选"Createandsavediagnosticsdata〞选项。按住键盘shift按钮,依次单击Predicted、L95M、U95M、L95、U95〔含义分别是:预测值,平均y值的95%置信下限、上限,预测y值的95%置信下限、上限〕,单击界面"Add〞按钮,完成预测统计量的添加。单击OK返回。〔3.4〕完成多元线性回归界面设置,单击OK按钮。得到输出结果。保存数据的查看。在SAS资源管理器中,双击新出现的文件夹_proj_,双击Score,即可查看预测输出保存数据。3. 解答略。带虚拟变量的多元回归分析(习题6.4)一位经济学家想研究采取*项改革措施所需时间〔y〕对保险公司规模〔*1,单位:百万美元〕和保险公司类型〔互助公司和股份公司〕的关系。因变量的计量是第一个公司采纳这项革新和给定公司采纳这项革新在时间上先后间隔的月数。令虚拟变量*2=1互助公司;*2=0股份公司。考虑回归模型:Yi=0+1*i1+2*i2+i10个互助公司和10个股份公司的有关调查数据见下表:公司y*1公司类型公司Y*1公司类型117151互助1128164股份22692互助1215272股份321175互助1311295股份43031互助143868股份522104互助153185股份60277互助1621224股份712210互助1720166股份819120互助1813305股份94290互助1930124股份1016238互助2014246股份试求估计回归函数,并写出对每一公司类型的估计回归函数;解释回归系数的含义;检验H0:1=2=0〔a=0.05〕;检验验H0:1=0和H0:2=0〔a=0.05〕;试求1和2的95%置信区间。实验步骤同上。略。实验六(1) 判别分析【实验目的】掌握待判样品的距离判别法和贝叶斯判别法〔A〕。【实验原理】判别分析要解决的问题是,在历史上用*些方法已把研究对象分成假设干组的情况下,来判定新的观测样品应归属的组别。三种常用的判别分析方法分别是距离判别、贝叶斯〔Bayes〕判别和费希尔〔Fisher〕判别。对组的事先划分有时也可以通过聚类分析得到。【实验工程设计】距离判别;贝叶斯判别。【实验容】〔习题8.4〕 根据经历,今天和昨天的湿度差*1及今天的压温差〔气压与温度之差〕*2是预报明天是否下雨的两个重要因素。现收集到一批样本数据列于下表。1〔雨天〕2〔非雨天〕*1〔湿度差〕*2〔压温差〕*1〔湿度差〕*2〔压温差〕-1.93.20.26.2-6.910.4-0.17.55.220.414.652.52.78.37.302.10.86.812.7-4.64.30.9-15.4-1.710.9-12.5-2.5-2.613.11.51.32.612.83.86.8-2.810今测得*1=0.6,*2=3.0,假定两组的协方差阵相等。试用距离判别法预报明天是否下雨,用〔8.2.7〕式即回判法来估计误判概率;解答:明天下雨/不下雨_明天下雨_。误判率的回判法估计:0.2,0.1。假定两组的均服从二元正态分布,且根据其他信息及经历给出先验概率p1=0.3,p2=0.7,试用贝叶斯判别法预报明天是否下雨;解答:明天下雨/不下雨_____不下雨______。假设你现考虑是否为明天安排一项活动,该活动在时间上有紧迫性,但又不太适合在雨天进展,并认为C(2|1)=3C(1|2),则你今天是否应该安排项这活动呢.判别规则为:,解答:安排/不安排__不安排_________。8.4 程序附录:Datad0804;Inputgroup*1*2;Cards;1 -1.9 3.2 2 0.2 6.21 -6.9 10.4 2 -0.1 7.51 5.2 2 2 0.4 14.61 5 2.5 2 2.7 8.31 7.3 0 2 2.1 0.81 6.8 12.7 2 -4.6 4.31 0.9 -15.4 2 -1.7 10.91 -12.5 -2.5 2 -2.6 13.11 1.5 1.3 2 2.6 12.81 3.8 6.8 2 -2.8 10;Run;Datat_d;*1=0.6;*2=3.0;group=.;run;Procdiscrimdata=d0804testdata=t_dpool=yeslisttestlistlisterr;Classgroup;Var*1*2;run;Procdiscrimdata=d0804testdata=t_dpool=yestestlist;Classgroup;Var*1*2;Priors'1'=0.3'2'=0.7;run;-.z.(习题8.5)对28名一级和25名健将级标枪运发动测试了6个影响标枪成绩的训练项目,这些训练工程〔成绩〕为:30米跑〔*1〕,投掷小球〔*2〕,挺举重量〔*3〕,抛实心球〔*4〕,前抛铅球〔*5〕,五级跳〔*6〕,全部数据列于下表。编号*1*2*3*4*5*6组别13.64.382.3709018.52123.34.187.488010018.48133.34.2287.748511518.56143.214.0588.67510019.1153.14.3889.989512020.14163.24.989.18510519.44173.34.289758519.17183.54.584.28010018.8193.74.682.1708517.681103.44.490.187510019.141113.64.382.1709018.11123.64.582557017.41133.64.282.2709018.121143.44.285.48510018.661153.34.390.18010019.861163.124.28985100201173.14.290.28511520.81183.64.281.96658017.21193.74.4818095171203.34.3908011019.81213.84.0980608016.891223.74.383.98510018.761233.54.285.48510018.71243.44.186.78511018.51253.34.188.1758518.961263.74.184.1709518.71273.64.382709018.41283.24.289.28511519.881293.441039511024.82303.34.51189012025.72313.14.51058511025.12323.84.1104.538010024.9823334.21129512525.352343.93.798.2859021.82353.54.198.79012022.782363.13.998.2609021.982373.33.910910012025.32383.13.9598.49511525.22393.143.995.39011021.422403.64.393.6758520.842413.123.995.88010521.824233.993.8859021.082433.43.9196.311012021.982443.633.7898.568512022.362453.33.9897.48510022.342463.34.41127511025.12473.54.1107.787.511025.12483.44.292.18012022.162493.64.199.488512023.12503.14.41167511025.32513.124102.78011024.682523.64.11158511523.72533.54.397.87510024.12另有14名未定级的运发动也测试了同样6个工程,数据列表如下。编号*1*2*3*4*5*613.54.185.37510518.6523.44.485.4759518.633.64.385.36759018.643.64.183.77510518.653.24.189.35759520.2863.44.1586.286077.518.973.64.284.18010018.783.14.1989513022.3934.112210011527.1103.24.392.688010520.68113.14.291.768510022.2123.34.298.46510022.86133.34.6928019523.07143.44.397.367511022.12假定两组数据均来自于电影正态总体,且C(2|1)=C(1|2)。对14名未定级的运发动,假设p1=p2,试在和的两组情形下分别都他们归属何组作出贝叶斯判别;①判入一级的运发动{1,3,5,6,7,9,11,12,13}判入二级的运发动{2,4,8,10,14}②判入一级的运发动{1,3,5,6,7,9,11,13 }判入二级的运发动{2,4,8,10,12,14 }试按〔8.2.7〕和〔8.2.8〕两式分别对(1)的误判概率作出估计;①回判法的误判率:0,0。刀切法的误判率:0,0。②回判法的误判率:0,0.08。刀切法的误判率:0,0。假设,p1=0.8,p2=0.2,试对14名未定级的运发动的归属作出贝叶斯判别。判入一级的运发动{1,2,3,5,6,7,9,11,12,13}判入一级的运发动{4,8,10,14}.z.8.5程序附录:Datad0805;Inputno*1-*6group;Cards;13.64.382.3709018.521293.441039511024.8223.34.187.488010018.481303.34.51189012025.7233.34.2287.748511518.561313.14.51058511025.1243.214.0588.67510019.11323.84.1104.538010024.98253.14.3889.989512021.1413334.21129512525.35263.24.989.18510519.441343.93.798.2859021.8273.34.289758519.171353.54.198.79012022.78283.54.584.28010018.81363.13.998.2609021.98293.74.682.1708517.681373.33.910910012025.32103.44.490.187510019.141383.13.9598.49511525.22113.64.382.1709018.11393.143.995.39011021.422123.64.582557017.41403.64.393.6758520.842133.64.282.2709018.121413.123.995.88010521.82143.44.285.48510018.6614233.993.8859021.082153.34.390.18010019.861433.43.9196.311012021.982163.124.28985100202143.633.7898.568512022.362173.14.290.28511520.81453.33.9897.48510022.342183.64.281.96658017.21463.34.41127511025.12193.74.4818095171473.54.1107.787.511025.12203.34.3908011019.81483.44.292.18012022.162213.84.0980608016.891493.64.199.488512023.12223.74.383.98510018.761503.14.41167511025.32233.54.285.48510018.71513.124102.78011024.682243.44.186.78511018.51523.64.11158511523.72253.34.188.1758518.961533.54.397.87510024.12263.74.184.1709518.71273.64.382709018.41283.24.289.28511519.881 ;Run;Datat_d;Inputno*1-*6;group=.;Cards;13.54.185.37510518.6583.14.1989513022.323.44.485.4759518.6934.112210011527.133.64.385.36759018.6103.24.392.688010520.6843.64.183.77510518.6113.14.291.768510022.253.24.189.35759520.28123.34.298.46510022.8663.44.1586.286077.518.9133.34.6928019523.0773.64.284.18010018.7143.44.397.367511022.12;run;Procdiscrimdata=d0805testdata=t_dpool=yeslistcrosslistlisterrtestlistout01testout02;Classgroup;Var*1-*6;priors'1'=0.5'2'=0.5;run;Procdiscrimdata=d0805testdata=t_dpool=nolistcrosslistlisterrtestlisttestout03;Classgroup;Var*1-*6;priors'1'=0.5'2'=0.5;run;Procdiscrimdata=d0805testdata=t_dpool=yeslistcrosslistlisterrtestlisttestout04;Classgroup;Var*1-*6;priors'1'=0.8'2'=0.2;run;实验六(2) 聚类分析【实验目的】掌握对未知分类样品进展系统聚类。【实验原理】判别分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。聚类分析:将未分类对象分成假设干类,相似的归为同一类,不相似的归为不同的类。聚类分析分为Q型〔分类对象为样品〕和R型〔分类对象为变量〕两种。Q型聚类分析较多常见。【实验工程设计】教学实验学生实验学生实验参考解答【实验容】一、教学实验例9.3.1〔257页〕设有五个样品,只测量了一个指标,分别是1,2,6,8,11,。例9.3.2〔260页〕对305名中学生测量8个指标: *1:身高 *5:体重 *2:手臂长 *6:颈围 *3:上肢长 *7:胸围 *4:下肢长 *8:胸宽例9.3.3〔261页〕表9.3.14列出了1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。这八个变量是 *1:食品 *5:交通和通讯 *2:衣着 *6:娱乐教育文化效劳 *3:家庭设备用品及效劳 *7:居住 *4:医疗保健 *8:杂项商品和效劳作聚类分析。为同等地对待每一变量,在作聚类前,先对各变量作标准化变换。程序附录1:例9.3.1系统聚类法procclusterdata=e0901method=single|plete|centroid|average|ward stdouttree=treedata1;var*;/*用*作为计算距离的变量 */id*;/*用*作为样品的标识变量*/run;proctreedata=treedata1horizontal;id*;/*用*作为样品的标识变量,显示在谱系聚类图中 */run;程序附录2:例9.3.2变量的距离聚类datae0902(type=distance);array*(8)*1-*8;inputvarname$*1-*8;doi=1to8;*(i)=1-*(i);end;dropi;cards;*11.000.......*2.8461.000......*3.805.8811.000.....*4.859.826.8011.000....*5.473.376.380.4361.000...*6.398.326.319.329.7621.000..*7.301.277.237.327.730.5831.000.*8.382.415.345.365.629.577.5391.000;run;procclusterdata=e0902method=;var*1-*8;idvarname;proctreehorizontal;idvarname;run;程序附录3:例9.3.3大样品的k均值法快速聚类—Fastclus过程大样本快速聚类〔n=100~100,000〕输出类指标均值,比较类间差异没有原始数据标准化功能需要指定类别数或初始凝聚点间最小距离不能输出作树状图的聚类信息procstandanddata=e0903mean=0std=1out=stddata;var*1-*8;/*指定进展标准化的变量*/run;procfastclusdata=stddatama*c=5driftlist;var*1-*8;idregion;run;说明:data=sas数据集,ma*c|ma*cluster=选项:指定允许的最大分类个数。drift选项:初始凝聚点选好后,每当一个观测归入最靠近的凝聚点所在的类后,该类的凝聚点都要被类中现有观测的均值替代。list选项:列表显示所有的样本点、它的id值、它归为哪一个cluster、它到自己的cluster的凝聚点的距离。二、学生实验对例9.3.3,不进展标准化变换,使用系统聚类法;写出程序和聚类结果。使用k均值快速聚类法分为5类;写出程序和聚类结果。学生实验参考解答使用系统聚类法;写出程序和聚类结果程序procstandanddata=e0903mean=0std=1out=stddata;var*1-*8;run;procclusterdata=e0903method=warstdouttree=treedata1;var*1-*8;idregion;run;proctreedata=treedata1horizontaln=3out=clsdata;idregion;run;procsort;bycluster;run;procprintdata=clsdata;run;聚类结果G1={,,,,,**,,,,,,,,,,,,,**,}G2={,,,**,,,}G3={,, }使用k均值快速聚类法分为5类;写出程序和聚类结果。程序procstandanddata=e0903mean=0std=1out=stddata;var*1-*8;run;procfastclusdata=stddatama*c=5driftlist;var*1-*8;idregion;run;聚类结果G1={,, }G2={}G3={**,,,,,**,,,}G4={,,,,,,,,,,,,,,,**}G5={}实验七 主成分分析【实验目的】掌握从多变量中提取主成分的规则、方法〔A〕【实验原理】主成分分析〔或称主分量分析,principalponentanalysis〕由皮尔逊〔Pearson,1901〕首先引入,后来被霍特林〔Hotelling,1933〕开展了。主成分分析是一种通过降维技术把多个变量化为少数几个主成分〔即综合变量〕的统计分析方法。这些主成分能够反映原始变量的绝大局部信息,它们通常表示为原始变量的*种线性组合。主成分分析的一般目的是:a〕变量的降维;b〕主成分的解释。【实验工程设计】给定假设干组多变量数据,进展主成分提取;依据前两个主成分得分绘制散点图;对主成分进展合理解释。【实验容】(习题10.5)表中给出的是美国50个州每100000个人中七种犯罪的比率数据,试做主成份分析。数据下载即可。实验要求:写出主成分的表达式;画出前两个主成分的散点图,并贴图。1参考程序procprintdata=tmp1.c1005;run;procprinpdata=c1005out=prin;var*1-*7;run;procplot;plotprin2*prin1$state='*';run;2解答容变量的个数p=;选取的主成分个数m=。主成分和原始变量的相关系数矩阵〔贴图〕。总方差=。对选取的m个主成分:(3.1)对方差的累计奉献率=;(3.2)对原始变量的奉献率变量*1*2*3*4*2*3*72主成分的表达式。Y1=;Y2=;画出前两个主成分的散点图,并贴图。(习题10.6)下表是纽约股票交易所的5只股票从75年·月到76年12月期间的周回报。周回报率定义为:试做主成分分析。数据下载即可。实验要求:写出主成分的表达式;并依据个人理解进展解释。1参考程序procprinpdata=tmp1.c1006;var*1-*5;run;2主成分的表达式及解释Y1=;解释:;Y2=;解释:;参考答案:10.5表中给出的是美国50个州没100000个人中七种犯罪的比率数据,试做主成份分析。数据下载即可。实验要求:写出主成分的表达式;画出前两个主成分的散点图,并贴图。1参考程序procprintdata=tmp1.c1005;run;procprinpdata=c1005out=prin;var*1-*7;run;procplot;plotprin2*prin1$state='*';run;2解答容〔1〕变量的个数p=7;选取的主成分个数m=3。〔2〕主成分和原始变量的相关系数矩阵〔贴图〕。0.6091-0.70030.1519-0.13060.27330.12210.09430.8758-0.1886-0.2080.0.0957-0.3644-0.10440.80510.0470.4224-0.3139-0.2641-0.0539-0.00140.8046-0.3823-0.05920.3543-0.25730.08120.06750.89290.2263-0.1788-0.03240.05130.2526-0.22830.72490.4478-0.4594-0.13210.01530.01860.21190.59880.55920.48420.23580.1878-0.0270.0518〔3〕总方差=7。对选取的m个主成分:3.1对方差的累计奉献率=86.85%;3.2对原始变量的奉献率变量*1*2*3*4*5*6*720.88440.84590.828820.79710.88040.9370530.9057〔4〕主成分的表达式。Y1=0.3003**1+0.4318**2+0.3969**3+0.3967**4+0.4402**5+0.3574**6+0.2952**7;Y2=-0.6292**1-0.1694**2+0.0422**3-0.3435**4+0.2033**5+0.4023**6+0.5024**7;〔5〕画出前两个主成分的散点图,并贴图。10.6下表是纽约股票交易所的5只股票从75年·月到76年12月期间的周回报。周回报率定义为:试做主成份分析。数据下载即可。实验要求:写出主成分的表达式;并依据个人理解进展解释。1参考程序procprinpdata=tmp1.c1006;var*1-*5;run;2主成分的表达式及解释Y1=0.4635**1+0.4571**2+0.4700**3+0.4217**4+0.4213**4;解释:第一主成分Y1对所有(标准化)原始变量都有近似相等的正载荷,在的Y1值意味着各变量都倾向于有大的值,即表示各股票的市场万分大,小的Y1值意味着各变量都倾向于有较小的值,即表示市场股分小。;Y2=-0.2409**1-0.5091**2-0.2606**3+0.5253**3+0.5822**4;解释:第二主成分Y2在*3,*4上有中等程度的正载荷,而在*1,*2,*3上有中等程度的负载荷,大的Y2值意味着变量*3,*4倾向于有大的值,而变量*1,*2,*3有倾向于小的值。因此第二主成分为行业成分。实验八 因子分析【实验目的】熟悉因子分析的分析过程〔B〕。【实验原理】因子分析起源于20世纪初,K.皮尔逊(Pearson)和C.斯皮尔曼(Spearman)等学者为定义和测定智力所作的努力,主要是由对心理测量学有兴趣的科学家们培育和开展了因子分析。因子分析的用途与主成分分析类似,它也是一种降维方法。因子分析降维的方式是试图用少数几个潜在的、不可观测的随机变量来描述原始变量间的协方差关系。由于因子往往比主成分更易得到解释,故因子分析比主成分分析更容易成功,从而有更广泛的应用。【实验工程设计】依据相关矩阵进展变量因子分析;给定一组多变量数据,进展变量公共因子提取和解释。参考解答【实验容】一、依据相关矩阵进展变量因子分析〔习题11.1〕在例11.1.1中,十项全能运动得分的样本相关矩阵为R=[10.5910.350.4210.340.510.3810.630.490.190.2910.40.520.360.460.3410.280.310.730.270.170.3210.20.360.240.390.230.330.2410.110.210.440.170.130.180.340.241-0.070.09-0.080.180.390-0.020.17-01]写出因子分析的实验程序。databe*ec11c1(type=corr);input*1-*10;cards;1.000.590.350.340.630.400.280.200.11-0.07.1.000.420.510.490.520.310.360.210.09..1.000.380.190.360.730.240.44-0.08...1.000.290.460.270.390.170.18....1.000.340.170.230.130.39.....1.000.320.330.180.00..
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 户外运动居间合同
- 西师版四年级数学实践活动计划
- 咖啡书吧改造合同变更备案
- 信息技术质量控制与保障措施
- 化妆品行业安全生产方案及质量控制措施
- 高效混合式教学的设计与实施心得
- 购物中心装修保修政策
- 南京财经大学文献综述选题技巧分享
- 房地产开发项目管理协调措施
- 2024年度浙江省公共营养师之四级营养师题库附答案(基础题)
- GB/T 12914-2008纸和纸板抗张强度的测定
- GB/T 1185-2006光学零件表面疵病
- ps6000自动化系统用户操作及问题处理培训
- 家庭教养方式问卷(含评分标准)
- 城市轨道交通安全管理课件(完整版)
- 线缆包覆挤塑模设计和原理
- TSG ZF001-2006 安全阀安全技术监察规程
- 部编版二年级语文下册《蜘蛛开店》
- 锅炉升降平台管理
- 200m3╱h净化水处理站设计方案
- 个体化健康教育记录表格模板1
评论
0/150
提交评论