SAS软件与统计应用论文_第1页
SAS软件与统计应用论文_第2页
SAS软件与统计应用论文_第3页
SAS软件与统计应用论文_第4页
SAS软件与统计应用论文_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SAS软件与统计应用教程论文第 页摘 要本学期通过对SAS软件与统计应用这门课的学习,让我知道SAS系统是一个大型的应用软件系统,具有完备的数据访问、管理、分析、呈现,以及应用开发功能。这篇文章运用主成分分析综合评价方法,对1999年我国西部地区教育人力资源发展水平进行处理和分析,采用的是西藏,新疆等西部省份教育人力资源发展水平(原始数据见附录)。选出14个省的情况作为统计分析数据,其中分析的项目为:每百万人口学校数;每十万人口毕业生数;每十万人口招生数;每十万人口在校生数;每十万人口研究生数;每十万人口教职工数;每十万人口专职教师数;高级教师占专职教师的比例;每所学校在校生数;生师比。依次用

2、A1,A2,A3,A4,A5,A6,A7,A8,A9,A10表示。用“分析家”作主成分分析,并且对数据进行如下处理:第一:对于所选取的统计数据进行简单描述统计分析,得出数据的平均值、数据标准差,最大值,最小值等。第二:对于所选取的统计数据用”analyst”作主成分分析计算相关系数矩阵的特征值、上下特征值之差、各主成分的方差贡献率、以及累积贡献率。第三:由相关系数矩阵的两个最大特征值的特征向量,可以写出第一、第二主成分的得分。第四:在“insight”里面绘制了散点图。由图可知,在散点图越靠向右上角的地区,教育人力资源发展水平越高,越靠向左上角的地区,教育人力资源发展水平越低。从以上结论分析可

3、以知道影响各省份教育人力资源发展水平的主要因素,从而可以更好地帮助国家调整教育人力资源结构,更好地发展我国西部教育事业。关键字: analyst 主成分分析 教育人力资源发展 MEANS过程目 录TOC o 1-3 h u HYPERLINK l _Toc11134 第一章 基本介绍 PAGEREF _Toc11134 3 HYPERLINK l _Toc18411 1.1 研究目的 PAGEREF _Toc18411 3 HYPERLINK l _Toc567 1.2 采用方法 PAGEREF _Toc567 3 HYPERLINK l _Toc9798 1.3 理论知识 PAGEREF _

4、Toc9798 3 HYPERLINK l _Toc31796 第二章 数据预处理 PAGEREF _Toc31796 4 HYPERLINK l _Toc17228 第三章 具体模型 PAGEREF _Toc17228 4 HYPERLINK l _Toc9677 3.1 建立数据集 PAGEREF _Toc9677 4 HYPERLINK l _Toc24477 3.2 具体模型(程序) PAGEREF _Toc24477 4 HYPERLINK l _Toc13355 运行结果及分析 PAGEREF _Toc13355 5 HYPERLINK l _Toc32439 4.1 使用“分析家

5、”做主成分分析的步骤 PAGEREF _Toc32439 5 HYPERLINK l _Toc7134 4.2 主成分的结果分析 PAGEREF _Toc7134 8 HYPERLINK l _Toc3510 参考文献 PAGEREF _Toc3510 12 HYPERLINK l _Toc23867 附录 PAGEREF _Toc23867 13第一章 基本介绍1.1 研究目的通过SAS软件分析,对1999年我国西部地区教育人力资源发展水平有一个大致了解。随着国家教育方针的调整,西部各地区为了促进本地区的教育发展,分别采取了各种措施,教育方面的发展有了显著地成就。本文通过SAS软件分析,对1

6、999年我国西部地区教育人力资源发展水平有一个大致了解,从而可以更好地帮助国家调整(优化)教育人力资源结构,使人民的受教育水平更加优越。1.2 采用方法(1)描述性统计量:means。(2)检验:使用analyst模块进行主成分分析。1.3 理论知识Means过程(均值过程): 用于对数据型变量产生针对单个变量的简单描述性统计。proc means过程时,会对所有数值型变量进行操作,得到各变量的非缺失观测数N,均值MEAN,标准差STD DEV,最大值Max和最小值Min五种统计值,但means过程可以计算16种统计量。主成分分析:是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量

7、是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标(比如p个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合。为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)0。称F2为第二主成分,依此类推可以构造出第三、第四、

8、第p个主成分。第二章 数据预处理对数据较少的程序,可以用DATA步建立永久的SAS集。永久的SAS集,由定义逻辑库与定义数据集两步完成。逻辑库定义通过LIBNAME语句完成,数据集定义用DATA 语句实现。指定逻辑库的命令语句为全程语句,其格式如下:LIBNAME ;指定要建立数据集的命令语句格式如下:DATA .;LIBNAME语句把磁盘中的子目录与用户定义的逻辑库名连接起来。用此方法根据已知的数据就可以建立生成以下的数据集。第三章 具体模型3.1 建立数据集 2012年11月19日 星期一 下午12时19分55秒 5Obs region A1 A2 A3 A4 A5 A6 A7 A8 A9

9、 A101 海南 0.66 49 64 191 12.0 47 19 0.33 2914 10.1602 广西 0.62 41 69 192 34.0 40 18 0.33 3113 10.4503 山西 0.72 61 118 193 60.0 74 30 0.33 4092 10.1704 内蒙古 0.80 46 77 211 53.0 71 32 0.36 2617 7.4305 四川 0.75 66 112 314 164.0 77 32 0.39 4199 10.1006 重庆 0.50 41 77 211 120.0 53 21 0.37 4192 10.1007 贵州 0.54

10、28 67 152 21.0 35 16 0.33 2823 8.9508 云南 0.57 38 66 176 49.0 44 20 0.38 3079 83619 西藏 1.56 42 65 157 3.9 68 30 0.14 1005 5.10010 陕西 1.19 100 188 496 398.0 140 55 0.36 4173 9.90011 甘肃 0.71 55 90 246 113.0 65 27 0.31 3480 9.23012 青海 1.18 49 68 183 17.0 68 34 0.20 1558 5.32013 宁夏 0.92 49 83 242 25.0 73

11、 33 0.33 2624 7.52014 新疆 0.96 66 110 305 51.0 96 42 0.30 3180 7.2303.2 具体模型(程序)Data work.data1;input region $1-10 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10;cards;海南 0.66 49 64 191 12 47 19 0.33 2914 10.16广西 0.62 41 69 192 34 40 18 0.33 3113 10.45山西 0.72 61 118 193 60 74 30 0.33 4092 10.17内蒙古 0.8 46 77 211 53 7

12、1 32 0.36 2617 7.43四川 0.75 66 112 314 164 77 32 0.39 4199 10.1重庆 0.5 41 77 211 120 53 21 0.37 4192 10.1贵州 0.54 28 67 152 21 35 16 0.33 2823 8.95云南 0.57 38 66 176 49 44 20 0.38 3079 8361西藏 1.56 42 65 157 3.9 68 30 0.14 1005 5.1陕西 1.19 100 188 496 398 140 55 0.36 4173 9.9甘肃 0.71 55 90 246 113 65 27 0.

13、31 3480 9.23青海 1.18 49 68 183 17 68 34 0.2 1558 5.32宁夏 0.92 49 83 242 25 73 33 0.33 2624 7.52新疆 0.96 66 110 305 51 96 42 0.3 3180 7.23;run;proc print;run;第四章 运行结果及分析4.1 使用“分析家”做主成分分析的步骤 1) 在“分析家”中打开数据集work.data1; 2) 选择菜单“Statistics(统计)”“Multivariate(多元分析)”“Principal Components(主成分分析)”,打开“Principal C

14、omponents”对话框;3) 在对话框中输入主成分分析的变量,如图4-1;图4-14) 单击“Statistics(统计)”按钮,打开“Principal Components:Statistics”对话框;在“# of components:”右边的框中指定主成分的个数10,如图4-2,单击“OK”返回;图4-25) 单击“Save Data”按钮,打开“Principal Components:Save Data”对话框,在该对话框中可选择存储数据。选中“Create and save scores data”,如图4-3所示。单击“OK”返回;图4-3 6) 单击“Plots”按钮,

15、打开“Principal Components:Plots”对话框,可以设置图形输出。在“Scree Plot (碎石图)”选项卡中(图4-4),选中“Create scree plot(建立碎石图)”复选框。在“Component Plot (成分图)”选项卡中(图4-5),选中“Create component Plot(建立成分图)”复选框。图4-4图4-54.2 主成分的结果分析输出的数字分析结果包括4个部分:简单统计量、相关系数矩阵、相关系数矩阵的特征值以及相关系数矩阵的特征向量。1) 图4-6给出变量的简单统计量,图中显示10项指标中A9(每所学校在校生数)、A5(每十万人口研究生

16、数)、A4(每十万人口在校生数)是最为重要的,其标准差远远高出其他变量图4-62) 图4-7可得:A2(每十万人口毕业生数)与A3(每十万人口招生数)、A4(每十万人口在校生数)、A6(每十万人口教职工数);A7(每十万人口专职教师数)与A6(每十万人口教职工数与);A4(每十万人口在校生数)与A3(每十万人口招生数)、A5(每十万人口研究生数)有较强的相关性。图4-73) 图4-8给出相关系数矩阵的特征值(Eigenvalues)、上下特征值之差(Difference)、各主成分的方差贡献率(proportion)以及累积贡献率(Cumulative)图4-8相关系数矩阵的特征值即各主成分的

17、方差,可以看出,第一主成分的方差贡献率为58.54%,第二主成分的方差贡献率为34.40%,第三主成分的方差贡献率为3.05%。说明第一、二主成分方差贡献率已经达到85%以上,可以很好地概括这组数据。在“分析家”左边的管理窗口中双击“Scree plot”项,打开的“Scree plot”对话框显示10个特征值的“碎石图”,很直观地看到第一、二主成分远远大于其它特征值,说明第一、二主成分已经代表了绝大部分信息。图4-9根据步骤1-4,在“# of components:”右边的框中指定主成分的个数2, 单击“OK”返回,其他步骤均一样。得到输出结果如图4-10。图4-104) 图4-11给出相

18、关系数矩阵的特征向量,由最大特征值所对应的特征向量可以写出第一、二主成分的表达式。 Prin1=0.103724A1*+0.399505A2*+0.404750A3*+0.401993A4*+0.380404A5* +0.379236A6*+0.348603A7*+0.137677A8*+0.243173A9*-0.126794A10* Prin2=-0.508787A1*-0.070746A2*+0.001527A3*-0.010396A4*+0.072045A5* -0.201026A6*-0.265655A7*+0.466344A8*+0.415852A9*+0.479168A10*图4

19、-11可见,第一主成分中A2、A3、A4、A5、A6、A7的系数最大;第二主成分中A8、A9、A10具有较大的正系数,A1则具有较大的负系数。因此,可以把第一主成分看成是由A2(每十万人口毕业生数)、A3(每十万人口招生数)、A4(每十万人口在校生数)、A5(每十万人口研究生数)、A6(每十万人口教职工数)、A7(每十万人口专职教师数)所刻画的反映1999年我国西部地区教学水平的综合指标;把第二主成分看成是由A1(每百万人口学校数)、A8(高级教师占专职教师的比例)、A9(每所学校在校生数)、A10(生师比)所刻画的我国西部地区教育发展水平的综合指标。利用特征向量各分量的值可以对主成分进行解释

20、,对于第一、二主成分而言,各变量所占比重如图4-11,且(第一主成分各变量对应的比重)均为正数,说明第一,二主成份是对所有指标的一个综合测度,作为综合的信用等级指标。 5) 在“分析家”窗口中,双击左边项目管理中的“Scores Table”项,打开“Scores Table”对话框;选择菜单“File” “Save as By SAS Name”,将其保存为数据表Scores;里面包含了第一、二主成分的得分。图4-12图4-13由图4-13可知:陕西、四川、新疆的第一主成分取值较高,重庆,广西,云南第二主成分取值较高。 结果分析陕西、四川、新疆的第一主成分取值较高说明这些地区教学水平较高,其

21、次是山西、甘肃等。由于在第二主成分中A1(每百万人口学校数)具有负的载荷量,因此处于右半图中的重庆、四川、广西等地的每百万人口学校数较小,A10(生师比)较大, 表明这些地区的教育发展水平较高;而左半图中青海、西藏等地的每百万人口学校数水平较高,A10(生师比)较小,表明这些地区的教育发展水平较低。从以上统计分析可以看出,高等教育人力资源发展水平受地域的影晌很大中部,陕西、四川的教育水平较高。总体上说来,教育人力资源的发展水平与地域的关系为:东高西低,北高南低,四周低于中间,沿海高于内地,中部省区发展水平居中,其中陕西、四川的教育基础好,排名稍微靠前。这些统计分析结果与实际情况是相吻合的。从以上分析可以看出,我国高等教育在地域布局上偏重于沿海大城市和中部重要地区,边远地区很少有高等院校分布。这有深层次的经济原因。我国地域辽阔,资源分布不均,生产力发展不平衡:东部地区得天独厚,基础好,发展快;而西部边沿地区经济基础却非常薄弱。经济上的不平衡特征反应在高等教育上表现为地域间存在很大差异,并且这种差异将随着经济差异的扩大而扩大。高等教育水平地域差异的过分扩大将导致高等教育的地区分割与对立。相关部门有必要采取措施逐步缩小这种差距。参考文献【1】SAS软件与统计应用教程 汪远征,徐雅静,北京机械工业出版,2007;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论