2005北京大学_第1页
2005北京大学_第2页
2005北京大学_第3页
2005北京大学_第4页
2005北京大学_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1复习提纲及考试安排 (2005(2005年年5 5月月2828日日) )统计软件2统计软件sassas基础课程基础课程(一)sassas基础课程基础课程 1. . sas的交互的交互工作环境工作环境 2. sas对数据文件的管理对数据文件的管理 3. 对对sas数据集的处理数据集的处理包括:浏览包括:浏览sassas数据集,数据集, 生成生成sassas数据集,数据集, 加工加工sassas数据集,数据集, 合并合并sassas数据集。数据集。3统计软件sassas基础课程基础课程4. 数据汇总和报表制作数据汇总和报表制作5. sas图形入门图形入门 (包括第一章至第六章的内容).4统计软件

2、sassas基础课程基础课程 要求初步了解要求初步了解sassas系统的功能及特点系统的功能及特点. . 初步掌握启动初步掌握启动sassas系统的一些方法系统的一些方法, ,了了解解sassas系统的基本窗口和常用窗口系统的基本窗口和常用窗口( (交互交互式运行环境式运行环境) )的功能的功能, ,以及窗口间切换的以及窗口间切换的方法方法. . sassas数据集及有关概念数据集及有关概念( (变量变量, ,观测等观测等描述信息描述信息) ,sas) ,sas逻辑库逻辑库( (数据库数据库) )的类型的类型及设定及设定( (用菜单或用菜单或libnamelibname语句语句).).用用vt

3、vt界界面或其它菜单系统浏览面或其它菜单系统浏览, ,加工加工sassas数据集数据集. . 5统计软件sassas基础课程基础课程 基本掌握用基本掌握用datadata步和菜单系统加工处步和菜单系统加工处理理sassas数据集数据集, ,涉及到的涉及到的datadata步语句步语句:data, input,put,set,by,do:data, input,put,set,by,do循环循环,if,keep, drop,format,lable,if,keep, drop,format,lable.(.(仅限仅限于课堂上用到的语句及数据集选项等于课堂上用到的语句及数据集选项等).). 掌握掌

4、握如何导入文本文件如何导入文本文件, ,并转换为并转换为sassas数据集数据集, ,以便用以便用sassas系统对其进行系统对其进行分析处理分析处理. .6统计软件sassas基础课程基础课程 sas sas变量及属性变量及属性( (名字标签类型长度名字标签类型长度输入输入/ /输出格式输出格式), sas), sas日期常数及常用的输入日期常数及常用的输入输出格式输出格式. . 常见常见sassas函数函数( (与正态分布与正态分布, ,t 分布分布, ,卡方分布卡方分布, ,f分布有关的分位数函数和分布函数分布有关的分位数函数和分布函数) )的使用的使用. . 设设xt (n), x的分

5、布函数的分布函数f(x)=pxx; 给定给定p ,若实数若实数xp满足满足:p x=14age=14的观的观测测, , 然后浏览全部观测然后浏览全部观测; ;4.4.浏览数据集浏览数据集classclass的描述信息和数据内容的描述信息和数据内容; ;5.5.浏览浏览sassas永久永久库库sasusersasuser的属性和内容的属性和内容, ,并浏览数据并浏览数据集集airair的描述信息和数据内容的描述信息和数据内容. .27统计软件复复 习习 题题( (二)二)“生成生成sassas数据集数据集”中的练习题中的练习题2,3(2,3(见见“讲讲 义义”中中p21)p21) 2. 使用使用

6、import窗口菜单系统窗口菜单系统,将将dst目录下的目录下的 *.txt 转换为转换为sas数据集数据集; 3. 用数据步生成用数据步生成sas数据集。数据集。可用以下数据:可用以下数据:name(姓名)(姓名) sex(性别)(性别) height(身高)(身高) weight(体重)(体重) born(出生年月)(出生年月) 王仁志王仁志 男男 156 49.2 1994.2.6 尤尤 佳佳 女女 145 44.5 1993.12.10 林国雄林国雄 男男 156 41.5 1994.3.23 苏家国苏家国 男男 142 37.6 1993.9.26 黄黄 维维 男男 146 43.2

7、 1993.10.21 李宏伟李宏伟 男男 152 41.7 1994.3.18 程程 杰杰 女女 140 39.2 1994.9.12 何何 新新 女女 144 38.8 1993.11.1028统计软件复复 习习 题题( (三)三) “ “insightinsight的数据管理功能的数据管理功能”中的练习题中的练习题( (见见 “ “讲义讲义”中中p29)p29) 1 1、浏览数据表:、浏览数据表: 数据集数据集bclassbclass记录从某个学校随机抽取的记录从某个学校随机抽取的4040个中学生的基个中学生的基本数据,包含以下的变量:本数据,包含以下的变量: name name 学生的

8、姓名学生的姓名 sex sex 学生的性别学生的性别 age age 学生的年龄学生的年龄 height height 以厘米为单位的身高数值以厘米为单位的身高数值 weight weight 以公斤为单位的体重数值以公斤为单位的体重数值 (1) (1) 用用insightinsight打开数据集打开数据集bclass,bclass,浏览该数据集的属性浏览该数据集的属性, ,该该数据集有多少个变量,多少个观测值?变量是否使用标签数据集有多少个变量,多少个观测值?变量是否使用标签? ?29统计软件复复 习习 题题 (2) (2) 把变量把变量weightweight移到数据表的第一列移到数据表的

9、第一列, ,而变量而变量heightheight移到移到数据表的第二列数据表的第二列; ; (3) (3) 对以下变量确定其类型和测量水平:对以下变量确定其类型和测量水平: 变量变量 类型类型 测量水平测量水平 sex sex age age weight weight (4) (4) 在数据集在数据集bclassbclass中对变量中对变量namename加上标签名加上标签名students students name.name. 2 2、数据集排序、数据集排序对数据集对数据集bclass:bclass: (1) (1) 按按ageage对数据集从大到小或从小到大重新排序,找出年对数据集从大

10、到小或从小到大重新排序,找出年龄最大的学生的身高和体重;龄最大的学生的身高和体重; (2) (2) 按变量按变量ageage和和heightheight排序,找出排序,找出1515岁的学生中身高最大岁的学生中身高最大的数值。的数值。30统计软件复复 习习 题题 3 3、建立新变量、建立新变量-对数据集对数据集bclass:bclass: 创建一个名为创建一个名为whratiowhratio的新变量,其值等于体重与的新变量,其值等于体重与身高的比,并在其标签名中注明:体重身高比身高的比,并在其标签名中注明:体重身高比. . 4 4、建数据集的子集:、建数据集的子集: 将数据集将数据集bclass

11、bclass中的所有男生抽取出来,生成新中的所有男生抽取出来,生成新的数据集,并把它另存为的数据集,并把它另存为work.mclass.work.mclass.31统计软件复复 习习 题题(四)(四) “ “分析家的数据管理功能分析家的数据管理功能”中的练习题中的练习题1,2, 3,4(1,2, 3,4(见见“讲义讲义”51)51) 1 1、浏览数据表:、浏览数据表: (1) (1) 用分析家打开数据集用分析家打开数据集bclass,bclass,浏览该数据集的浏览该数据集的属性属性, ,该数据集有多少个变量,多少个观测值?变量该数据集有多少个变量,多少个观测值?变量是否使用标签是否使用标签?

12、 ? (2) (2) 把变量把变量weightweight移到数据表的第一列移到数据表的第一列, ,而变量而变量heightheight移到数据表的第二列移到数据表的第二列; ; (3) (3) 在数据集在数据集bclassbclass中对变量中对变量namename加上标签名加上标签名students name.students name.32统计软件复复 习习 题题 2 2、数据集排序、数据集排序对数据集对数据集bclass:bclass: (1) (1) 按按ageage对数据集从大到小或从小到大重新排序对数据集从大到小或从小到大重新排序,找出年龄最大的学生的身高和体重;,找出年龄最大的

13、学生的身高和体重; (2) (2) 按变量按变量ageage和和heightheight排序,找出排序,找出1515岁的学生中岁的学生中身高最大的数值。身高最大的数值。 3 3、建立新变量、建立新变量-对数据集对数据集bclass:bclass: 创建一个名为创建一个名为whratiowhratio的新变量,其值等于体重与身高的比的新变量,其值等于体重与身高的比,并在其标签名中注明:体重身高比,并在其标签名中注明:体重身高比. . 4 4、建数据集的子集:、建数据集的子集: 将数据集将数据集bclassbclass中的所有男生抽取出来,生成新中的所有男生抽取出来,生成新的数据集,并把它另存为的

14、数据集,并把它另存为work.mclass.work.mclass.33统计软件复复 习习 题题(五)(五) “ “sassas语言语言”的练习题的练习题( (见见“讲义讲义”中中p61)p61) 1. 计算标准正态分布在计算标准正态分布在x=-3,-2,-1, 0, 1,2,3时的时的分布函数分布函数f(x)和密度函数和密度函数 (x)的值的值; 2. 设随机变量设随机变量t(n),计算计算t分布的分位数分布的分位数 tp(n),其中其中n=1,5,10,20; p=0.10,0.90, 0.95, 0.975; 3. 当日期值当日期值date=14dec2001d时时,试问这一天试问这一天

15、是星期几是星期几? 4. 设随机变量设随机变量yf(5,12),计算概率值计算概率值p:p=py3.1;求实数求实数x,使使x 满足满足pyx=0.05; 求实数求实数z,使使z 满足满足py=z=0.95. 34统计软件复复 习习 题题(六)(六) “ “数据汇总与报表制作数据汇总与报表制作”中的练习题中的练习题( (见见“讲义讲义”中中p82p82和和p85)p85) 1. 使用菜单系统使用菜单系统analyst(list)以列表形式输出数据以列表形式输出数据集集fitness(不要输出变量不要输出变量group,weight;对对oxygen, runtime求总和求总和;把把age放第

16、一列)放第一列); 2. 使用使用print过程输出数据集过程输出数据集fitness(要求同上要求同上); 35统计软件复复 习习 题题(七)(七) “ “sassas图形入门图形入门”中的练习题中的练习题( (见见“讲讲义义”中中p95)p95); 1. 使用菜单系统使用菜单系统analyst或或insight绘制数据集绘制数据集air中各中各污染变量关于日期时间的连线图及各污染变量间的散污染变量关于日期时间的连线图及各污染变量间的散点图点图; 2. 用用gplot过程生成以上数据的连线图和散点图过程生成以上数据的连线图和散点图; 36统计软件复复 习习 题题( (八八) “) “直方图与

17、分布的拟合直方图与分布的拟合”中的练习题中的练习题1,2(1,2(见见“讲义讲义”110-p111)110-p111)1.1.打开打开fitnessfitness数据集数据集, ,并用菜单系统或编程方法完并用菜单系统或编程方法完成以下分析计算:成以下分析计算:(1)(1) 计算变量计算变量oxygenoxygen和和runtimeruntime的均值、方差、标准差、偏度和峰度的均值、方差、标准差、偏度和峰度;指定;指定groupgroup为为byby变量后,分别计算三组数据的以上几个描述统计变量后,分别计算三组数据的以上几个描述统计 量量; ;(2)(2) 绘制绘制oxygenoxygen和和

18、runtimeruntime的直方图和盒形图,从中可否直观地看出的直方图和盒形图,从中可否直观地看出它们的分布;它们的分布;(3) (3) 从从oxygenoxygen的盒形图中如何显示出均值、中位数等值的盒形图中如何显示出均值、中位数等值? ?盒形图中有异常盒形图中有异常点吗点吗( (用用insight)?insight)?(4) (4) 在在oxygenoxygen的直方图中如何拟合一条正态分布曲线的直方图中如何拟合一条正态分布曲线? ?这条正态曲线的均这条正态曲线的均值和方差是多少值和方差是多少? ?怎样改变拟合曲线的均值和方差怎样改变拟合曲线的均值和方差? ?37统计软件复复 习习 题

19、题(5) (5) 对变量对变量oxygen,oxygen,检验该变量的分布是否为正态分布检验该变量的分布是否为正态分布(=0.05(=0.05和和=0.15)?=0.15)?(6) (6) 对对group=0,1,2group=0,1,2分别绘制分别绘制oxygenoxygen的盒形图的盒形图, ,这些盒形图这些盒形图中有否异常值,他们代表哪些人中有否异常值,他们代表哪些人? ?从这三个并排的盒形图可从这三个并排的盒形图可直观地得出什么结论直观地得出什么结论? ? (7) (7) 变量变量runtimeruntime的标准差和极差是什么的标准差和极差是什么? ?这些值说明什么这些值说明什么?

20、?. . 打开打开classclass数据集数据集, ,可类似完成题可类似完成题1 1中的练习中的练习. .这里这里分类变量为分类变量为sexsex或或age,age,数值变量为数值变量为weightweight和和height.height.另要求另要求: : (1) (1) 计算计算ageage的频数分布表的频数分布表, ,并要求输出按年龄由大并要求输出按年龄由大到小的频数表到小的频数表; ; 38统计软件复复 习习 题题( (九九) “) “参数估计参数估计”的练习题的练习题( (见见“讲义讲义”中中p114)p114) 1. 1.打开数据集打开数据集fitness,fitness,用菜

21、单系统或编程方法求用菜单系统或编程方法求变量变量oxygenoxygen和和runtimeruntime的置信度为的置信度为95%95%和和97.5%97.5%的置信的置信区间区间; ; . .打开打开bclassbclass数据集,并用数据集,并用sas/insightsas/insight或分析家或分析家分别计算变量分别计算变量heightheight和和weightweight均值的均值的90%90%和和97.5%97.5%的的置信区间置信区间. .39统计软件复复 习习 题题( (十十) “) “假设检验假设检验”中的练习题中的练习题1,4(1,4(见见“讲义讲义” 中中p121,p1

22、21,用菜单系统或编程用菜单系统或编程) ) 1. 1.打开打开bclassbclass数据集,并用数据集,并用sas/insightsas/insight检验检验: : h0: h0: =50(=50(公斤公斤) ),对立假设,对立假设h1: h1: 50( 50(公斤公斤),), 其中其中 表示表示weightweight的均值的均值( (显著水平显著水平 = =0.05)0.05)。 使用使用t t检验时请验证数据是否为正态数据;检验时请验证数据是否为正态数据; 4.4.打开打开bclassbclass数据集,并用数据集,并用sas/insightsas/insight,分析家或,分析家

23、或 编程检验男女两组学生的身高和体重是否有显著编程检验男女两组学生的身高和体重是否有显著 差异。差异。40统计软件复复 习习 题题 (1) (1) 首先检验两组身高和体重的分布是否为正态分布。首先检验两组身高和体重的分布是否为正态分布。 (2) (2) 检验两组身高检验两组身高( (或体重或体重) )的方差是否相等。即检验的方差是否相等。即检验 h0:h0: 2 2( (男男h)= h)= 2 2( (女女h)h),对立假设,对立假设h1: h1: 2(2(男男h) h) 2(2(女女h)h) h0: h0: 2 2( (男男w)= w)= 2 2( (女女w)w),对立假设,对立假设h1:

24、h1: 2(2(男男w) w) 2(2(女女w)w)( (显著水平显著水平 = =0.05); (3) (3) 检验检验 h0:h0: ( (男男h)= h)= ( (女女h)h),h1: h1: ( (男男h) h) ( (女女h).h).( (显著水平显著水平 = =0.05,并根据并根据(2)(2)的结果确定使用哪项输出结果)的结果确定使用哪项输出结果). . (4) (4) 检验检验h0: h0: ( (男男w)= w)= ( (女女w)w),h1: h1: ( (男男w) w) ( (女女w),w),( (显著水平显著水平 = = 0.05,并根据并根据(2)(2)的结果确定使用哪项

25、输出结果的结果确定使用哪项输出结果).).41统计软件复复 习习 题题( (十一十一) “) “相关分析相关分析”中的练习题中的练习题( (见见“讲义讲义” ” p126)p126) 对中学生数据对中学生数据(bclass),(bclass),用用sassas菜单系统或编程完成菜单系统或编程完成以下练习以下练习: : (1) (1) 计算计算age,weight,heightage,weight,height的相关系数的相关系数, ,并写出最并写出最大相关系数及检验大相关系数及检验r=0r=0的的p p值值. . (3) (3) 用用sas/insightsas/insight绘制绘制weig

26、htweight与与heightheight的散布图的散布图( (男女用不同颜色男女用不同颜色, ,不同年龄用不同的符号表示不同年龄用不同的符号表示).). 42统计软件复复 习习 题题( (十二十二). “). “一元线性回归分析一元线性回归分析”中的练习题中的练习题( (见见 “ “讲义讲义”中中p131)p131) 讨论某种合成纤维的强度讨论某种合成纤维的强度y y与拉伸倍数与拉伸倍数x的相关关系的相关关系( (数据见数据集数据见数据集dst.rege21).dst.rege21).试用试用sassas菜单系统及编程完菜单系统及编程完成以下练习成以下练习: : (1) (1) 建立建立(

27、 (合成纤维的强度合成纤维的强度) )与与x( (拉伸倍数拉伸倍数) )回归关回归关系式系式, ,并给出回归系数的检验结果并给出回归系数的检验结果. . (2) (2) 给出当给出当x= =.2,3.2,6.2和和10.2时时, ,合成纤维的强度合成纤维的强度的预测值及的预测值及预测均值的预测均值的90%置信置信区间区间. . (3) (3) 绘制绘制y对对x的散点图的散点图, ,回归线及均值或预测值的回归线及均值或预测值的95%的置信限(用二种方法)的置信限(用二种方法). .43统计软件复复 习习 题题( (十三十三) “) “多元线性回归分析多元线性回归分析”中的练习题中的练习题( (见

28、见“讲讲 义义”中中 p136)p136) 对不同类型汽车的价格和性能的数据对不同类型汽车的价格和性能的数据(dst.cars)(dst.cars),用用sassas菜单系统及编程完成以下练习菜单系统及编程完成以下练习: : (1) (1) 建立建立midpricemidprice与与citympg,cylinder,hwympg,rpm, citympg,cylinder,hwympg,rpm, egnsize,revltns,fueltnkegnsize,revltns,fueltnk和和performperform的多元线性的多元线性 回回归关系式归关系式, ,并给出各个回归系数的检验结

29、果并给出各个回归系数的检验结果( ( =0.10).=0.10). (2) (2) 由回归系数的显著性检验结果由回归系数的显著性检验结果, ,能否指出影响中能否指出影响中间价格的主要因素是哪些间价格的主要因素是哪些? ?哪几个因素是不显著的哪几个因素是不显著的( ( =0.10)?=0.10)? (3) (3) 对对9292辆辆汽车汽车的数据用以上拟合的回归式进行预的数据用以上拟合的回归式进行预测测, ,并且给出均值的并且给出均值的95%95%的置信的置信区间区间. .44统计软件复复 习习 题题( (十四十四) “) “变量选择变量选择”中的练习题中的练习题( (见见“讲义讲义”中中 p14

30、0)p140); 对不同类型汽车的价格和性能的数据对不同类型汽车的价格和性能的数据(dst.cars)(dst.cars),用菜单系统用菜单系统“分析员应用分析员应用”及编程完成以下练习及编程完成以下练习: : (1) (1) 用逐步筛选方建立用逐步筛选方建立midpricemidprice与与 citympg, citympg, cylinder, hwympg,egnsize,rpm,revltns,fueltnkcylinder, hwympg,egnsize,rpm,revltns,fueltnk和和performperform的最优回归方程的最优回归方程( (引入和保留引入和保留变量

31、的变量的显著性水显著性水平平为为0.05).0.05). (2) (2) 计算计算midprice(midprice(中间价中间价) )与与citympg,cylinder, citympg,cylinder, hwympg,egnsize,rpm,revltns,fueltnkhwympg,egnsize,rpm,revltns,fueltnk和和performperform的的所有可能回归式,对每种变量个数输出最好的三个回所有可能回归式,对每种变量个数输出最好的三个回归子集,并输出统计量归子集,并输出统计量cpcp和和rmsermse; ;然后由输出结果然后由输出结果找出按找出按rmser

32、mse准则最优的回归模型。准则最优的回归模型。 45统计软件复复 习习 题题( (十六十六) “sas) “sas与方差分析与方差分析”中的练习题中的练习题1,2(1,2(见见“讲讲 义义”p165)p165) 1 1. .为研究广告的效果为研究广告的效果, ,考察四种广告方式考察四种广告方式: :当地报纸当地报纸广告(广告(paperpaper),当地广播广告),当地广播广告(ratio)(ratio),店内销售员,店内销售员(peoplepeople),店内展示(),店内展示(displaydisplay),该省共分为),该省共分为144144个销售点,每种广告方式随机地在个销售点,每种广

33、告方式随机地在3636个销售点实施。个销售点实施。在每个销售点以千美元为单位计量其销售水平,要考在每个销售点以千美元为单位计量其销售水平,要考察各种广告方式下其平均销售水平是否有显著差异。察各种广告方式下其平均销售水平是否有显著差异。数据集数据集adsads中包含这些变量的数据:中包含这些变量的数据: ad ad 广告类型广告类型 sales sales 以千美元记录的销售水平以千美元记录的销售水平46统计软件复复 习习 题题 (3) (3) 检验四种广告方式下销售均值相等的假设,原假检验四种广告方式下销售均值相等的假设,原假设和备选假设是什么?设和备选假设是什么? (4) r(4) r平方的

34、值是什么?如何说明这一统计量?平方的值是什么?如何说明这一统计量? (5) (5) 在在(3)(3)中这一检验的中这一检验的p值是什么?假设值是什么?假设 = =0.01,可得到什么结论?可得到什么结论? (7) (7) 查看残差的分布并作正态性检验,残差是否为正查看残差的分布并作正态性检验,残差是否为正态性分布态性分布( (用用sas/insight)sas/insight)? (9)(9)计算计算各种广告方式的平均销售量,并找出最佳的各种广告方式的平均销售量,并找出最佳的广告方式。广告方式。 47统计软件复复 习习 题题 2.2. 假若在设计关于广告效果的实验时必须考虑省内不同区假若在设计

35、关于广告效果的实验时必须考虑省内不同区域间的差异。您并不特别感兴趣这一差异,但希望排除这一因域间的差异。您并不特别感兴趣这一差异,但希望排除这一因素的影响。数据集素的影响。数据集ads1ads1中包含下列变量的数据:中包含下列变量的数据: ad ad 广告类型,广告类型, area area 省内地区的类型,省内地区的类型, sales sales 销售水平(千美圆)销售水平(千美圆). . (1)(1)检验四种广告方式下销售均值相等的假设检验四种广告方式下销售均值相等的假设. .当模当模型中包含所有因素型中包含所有因素( (变量变量):ad):ad和和area,area,从分析中可得什从分析中可得什么结论?在模型中加入区组因素么结论?在模型中加入区组因素areaarea后后, ,对分析是否是对分析是否是有益的?有益的? (2)(2)计算计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论