![建模培训技巧讲座_第1页](http://file2.renrendoc.com/fileroot_temp3/2021-10/18/aff2f712-809b-4cf5-a424-05d5d3fbe66e/aff2f712-809b-4cf5-a424-05d5d3fbe66e1.gif)
![建模培训技巧讲座_第2页](http://file2.renrendoc.com/fileroot_temp3/2021-10/18/aff2f712-809b-4cf5-a424-05d5d3fbe66e/aff2f712-809b-4cf5-a424-05d5d3fbe66e2.gif)
![建模培训技巧讲座_第3页](http://file2.renrendoc.com/fileroot_temp3/2021-10/18/aff2f712-809b-4cf5-a424-05d5d3fbe66e/aff2f712-809b-4cf5-a424-05d5d3fbe66e3.gif)
![建模培训技巧讲座_第4页](http://file2.renrendoc.com/fileroot_temp3/2021-10/18/aff2f712-809b-4cf5-a424-05d5d3fbe66e/aff2f712-809b-4cf5-a424-05d5d3fbe66e4.gif)
![建模培训技巧讲座_第5页](http://file2.renrendoc.com/fileroot_temp3/2021-10/18/aff2f712-809b-4cf5-a424-05d5d3fbe66e/aff2f712-809b-4cf5-a424-05d5d3fbe66e5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、建模培训讲座第二讲 统计模型与SAS软件 理学院 吴有炜7月10日第一部分 SAS与Excel数据第二部分 统计推断一.SAS与Excel数据的转换1.SAS数据输入2.调用Excel数据3.SAS输出结果的保存与转化成Excel数据二.数据图表与曲线第二部分 统计推断一.假设检验与区间估计模型二.假设检验的各种类型与结论7月11日第三部分 方差分析与列联表分析一.单因素方差分析二.多因素方差分析三.列联表分析7月12日第四部分 回归分析1多元线性回归模型与显著性检验2非线性回归模型3相关性分析7月13日第五部分 多目标综合第六部分 主成份分析第七部分 聚类分析与判断分析第一部分 SAS与Ex
2、cel数据一.SAS与Excel数据的转换1.SAS数据输入2.调用Excel数据3.SAS输出结果的保存与转化成Excel数据二.数据图表与曲线附录一:SAS数据输入和调用Excel数据、SAS输出结果转化成Excel表格SAS一维数据输入: data E21; input N $ x1 x2 x3; /*说明N是字符型变量,N后加$*/ y=x1+x2;z=x1*x2;u=x1*3; /*用加,乘,乘方产生新变 量*/ cards; /*说明以下输入数据说明以下输入数据*/ A 1.1 2.6 3.8 B 4.5 5.7 6.0 C 7.6 8.2 9.7; /*空语句说明数据输入结束*/
3、Proc print; /*有此打印语句则在output窗口有输出,否则只在 explorework储存*/run;SAS程序不区分大小写字母请看演示SAS数据输入(带三个下标的一维变量Rijr)SAS数据输入(带二个下标的二维变量(x,y)ij)SAS输出结果转化成Excel表或进行修改的方法将SAS的输出结果保存后,重点Program Editor,点File,点Open,”文件类型”选中”All Files”,打到该文件后,右击,选中记事本打开方式,重新存入某位置(要记住该位置) (如果需要修改或解释此时可在记事本上进行);打开空白Excel,数据导入外部数据导入数据找到记事本所在位置并
4、打开按提示进行Example:将SAS数据文件f66转化成Excel文件1.打开SAS,运行p252.点击save保存(设起名为f66out)3.(点击Program Edit后)点File,Open,文件类型选择为All File后找到保存的文件,右击文件名f66out,选择用记事本打开,并重新保存在某位置。4.打开空白Excel,数据导入外部数据导入数据找到记事本所在位置并打开f66out 按提示进行(选择按”固定宽度”),最后对Excel文件保存二.图表及散点图一.图表 图表-使你所要的资料一目了然,图表是当中最常用的统计方法,它包括折线图、长条图、圆形图以及带状图等等。 1. 折线图(
5、趋势图、历史线图)-以时间为横坐标,给出定量变量(计量、计数)的数据随时间的变化 去年度某快餐店的外卖数统计表如下(单位:次) 当你手头有这样一个数据的时候,你如何直观地怎么向你的主管汇报? 我们可以用Excel的折线图功能来做一个图表给主管看(用Excel操作过程见附录1,): 点此超链接 这样是不是很直观呢?折线图可以让人很直观的看到不良异常的变化状况.掌握各时段的具体数据.所以折线图的作用是能让人很直观的看到你想了解的数据.2. 长条图(柱形图)-以定性变量的各水平为横坐标对各水平的指标值进行比较如果你是人事小姐,老板要你报告05年度的人员流失情况,你会用什么方式去汇报?直接一个一个同老
6、板讲吗?肯定不行,老板没有那么多时间听你的长篇大论,也不利于他了解真实的状况.这个时候你就可以用到长条图了.数据如下:用Excel作长条图(作图操作方法点此超链接附录2)如下: 4. 带状图(条形图)-可以反映出分层情况下对定性变量的不同水平的指标值进行比较如果要对分层的定性变量的不同水平间进行比较,则带状图是个很好的选择。 上表是快餐店在3年中三类业务的销量百分数据,我们先用年份作分层标志,然后对定性变量业务类别进行比较,即欲比较同一年不同业务类的销售百分数;然后我们又以业务类作分层标志,对定性变量年份进行比较,即比较同一类不同年份的销售百分数。我们可以作带状图(用附录4用Excel作带状图
7、.docExcel作图见附录4点此超链接)进行分类对比 以上数据做图如下:下面带状图是业务类别为组比较每个业务类别内三个年度销量百分数,下面带状图是以年份为组比较同一年三个业务类别的销量百分数图表中的各种图形,都是表示数据变化情况的一种工具。它们均可以将杂乱无章的资料,解析出规则性,比较直观的看出要项(如产品质量)的特性的分布状况。常用的简单图表还有环形图、雷达图、甘特图等等,示例如后多层圆环图用于分析同时多个总体内各部分的比例关系或一个总体不同时期内各部分比例关系(点此链接)雷达图作用 1)用于同时对多个指标(用多条射线表示)在某时刻(譬如QC活动)前后变化(对比每条射线刻度上)的对比分析(
8、点此链接)2)用于对同一指标在多个时期(用多条射线表示)的值(刻划在射线上)进行分析对比(点此链接)第二部分 统计推断一.假设检验与区间估计模型二.假设检验的各种类型与结论未知参数问题的一些提法:总体X,总体均值未知问题提法 问题的模型(为总体均值) 1. =? 参数的双侧区间估计2.? 参数的上方有界的单侧区间估计3.? 参数的下方有界的单侧区间估计4. (H0) =0? 参数的双侧假设检验问题5. (H1) 0? 参数的上方有界的单侧假设检验6. (H1) 0? 参数的下方有界的单侧假设检验Unit 3 第三单元第三单元9 Hypothesis Testing:Mean and Varia
9、nce 假设检验假设检验:均值和方差均值和方差9.1 Developing Null and Alternative Hypothesis提出零假设和备择假设一个参数假设检验的例子一个参数假设检验的例子这里,先结合例子来说明假设检验的基本思想和做法. Exmple 某车间用一台包装机包装精制盐. 包得精制盐袋重是一个随机变量,它服从正态分布. 当机器正常时,其均值为0.5公斤,标准差为0.015公斤. 某日开工为检验包装机是否正常,随机地抽取它所包装的精制盐9袋,称得净重为(公斤):0.499 0.514 0.508 0.512 0.498 0.515 0.5160.513 0.524问机器是
10、否正常(即均值是否为0.5)?用SAS进行假设检验(数据文件p355)说明:SAS软件把参数的区间估计和假设检验置于同一菜单系统运行数据文件后SolutionAnalysis Analyst (分析员系统) (出现空白数据表)FileOpen By Sas Name(在Make one selection窗口中) work 选中数据名 (p355)(OK) Statistics Hypothesis TestsOne Sample ztest for a Mean待分析变量xVariablestd.dev.of(即)填入0.015(或Variance(即2)内填入0.0152) Tests I
11、nterval OK OK 输出结果和解释见后图类似可以求未知方差的的均值的假设检验及方差的假设检测.请看演示利用SAS讨论数据文件p304中学生体重超过60公斤(定义为超重)时wf=1否则为0.问 1).有半数学生超重吗? 2).学生超重比例p超过1/3吗? 3).学生超重比例p不到2/3吗?利用SAS讨论以下配对数据问题(数据名p383)24只小猪随机分三组喂三种不同催肥饲料作以下研究1. 24只小猪平均增肥有70公斤吗?2. 24只小猪平均增肥超过65公斤吗?3. 24只小猪平均增肥不到76公斤吗?4.按饲料不同分组平均增肥有70公斤吗?相应研究对应假设检验1. H0:d=70 ;H1:
12、d70 2. H0:d65 ;H1:d65 3. H0:d76 ;H1:d764.分组讨论 H0:d=70 ;H1:d70用SAS对50名中国和40名美国16岁女孩的身高数据作身高超过1.58m的比例比较。 H0: pcpa; H1:pcpa(数据名p420)7月10日下午练习题一.从数学建模网上下载有以下词的赛题数据”中国人口增长预测、艾滋病、高速公路、高校收费”(以上赛题数据分析涉及方差分析、多项式回归、非线性回归、主成份分析等)二.将以下数据编成SAS数据,并转化成Excel文件三1.数据文件p304中学生身高超过170时x=1否则为0.问 1).有半数学生身高超过170吗? 2).学生
13、身高超过170比例p超过1/3吗? 3).学生身高超过170比例p不到2/3吗?利用SAS讨论以下配对数据问题(数据名p383) 24只小猪随机分三组喂三种不同催服饲料作以下研究1). 分组讨论小猪平均增肥为65公斤吗?2). 分组讨论小猪平均增肥不到76公斤吗?四重复老师上午的操作7月11日第三部分 方差分析与列联表分析一.单因素方差分析二.两因素方差分析三.列联表分析问题-方差分析研究(分类)变量取不同水平对指标的影响,同时在回归分析等分析方法以及产品设计、生产过程控制、采购过程、纠正措施、质量持续改进、试验结果分析等方面均用到方差分析的内容第一节 方差分析模型如下问题提法所涉及的都是方差
14、分析模型:“问不同机器对生产的铝合金板的厚度有无影响?” -单因素方差分析模型,考察因素机器对指标厚度的影响“导弹射程试验: 问推进器和燃料的不同水平对射程是否有显著的影响? 推进器和燃料不同水平组合对射程有无显著影响?” -有交互效应的双因素方差分析模型,考察因素推进器、燃料以及它们的交互作用对指标射程的影响“高速公路质量试验:问在沥青型号、岩性相同的情况下,不同的沥青生产厂家、不同的岩料产地对高速公路质量指标(抗水指标、抗高温指标、抗低温指标)有无显著影响?” -带二个分组变量(沥青型号、岩性)的多指标(抗水指标、抗高温指标、抗低温指标)双因素(沥青生产厂家、岩料产地)方差分析模型利用正交
15、试验提高产品得率.指标y(回收率),因素:XA(尿素量),XB(水量),XC(反应时间),XD(溶剂量) -多因素(3)方差分析模型,研究各因素对指标的定量影响第二节 方差分析的统计原理统计原理-将指标的总波动(方差)分解成诸因素和随机误差之和,以随机误差的平均方差为参照对被考察对象的平均方差即方差比进行分析.统计结论-方差分析的零假设是模型或效应不显著,软件在输出结果中给出了零假设成立的概率Pr1)Pr0.05时则接受零假设称模型(或效应)不显著;2)0.05Pr0.01时则拒绝零假设称模型(或效应)显著;(本例因素f的效应是显著的)3)Pr0.05或0.01);*为显著(0.010.05)
16、,*为高度显著(2=1.9747=0.00122 而Proportion给出了每个主成份对方差(由大到小)的贡献率,由累计贡献率(Cumulative)知前三个主成份已提取了96.29%的方差,可以用特征值归一化后作为权进行多指标综合:综合指标=(1/1+2+3)prin1+( 2/1+2+3)prin2+(3/1+2+3)prin3即综合指标=3.789/(3.789+1.974+0.979)*z1+1.974/(3.789+1.974+0.979)*z2+0.979/ (3.789+1.974+0.979)*z3=0.562*z1+0.293*z2+0.14*z3 data prn123;
17、 set outprin; /*调用主成份分析的输出文件产生数据集prn123*/ prin123=0.562*z1+0.293*z2+0.145*z3; proc print; var area prin123; proc rank data =prn123 descending; var prin123; ranks rankprin123; /*以上三行语句作用为先对prin123由大到小排序(descending降序),再转换成名为rankprin123的名次变量*/proc sort; by rankprin123; /*对rankprin123排序(默认为升序即由小到大)*/pro
18、c print; var area z1-z3 prin123 rankprin123;/*印出对rankprin123排序后的city 等变量*/ run;请看演示E1321out对数据的排序也可由数据表直接完成SolutionAnalysis Interactive Data Analysis (SAS/INSIGHT系统系统)work选中数据名(pn123)Open 出现数据表,点左上角然后利用Move to First和Sort等功能将变量prin123自大到小排序(Asc/Des分别为递增/递减)并和变量city放在一起.请看演示主成分分析的例还可见数据economy,Jordan(
19、乔丹的篮球生涯)主成份的解释:利用分析员应用系统进行主成份分析利用分析员应用系统进行主成份分析以下以数据E1321为例,设当前SAS数据库work中已有该数据文件,操作如下:Solutionanalysis Analyst(出现空白数据表) FileOpen By Sas Name(在Make one selection窗口) work 选中数据名 (data E1321)(OK) Statistics Multivariate Princinpal Component进入多变量分析主窗口Princinpal Component:Economy在多变量分析主窗口里选择y1y7Variables
20、 Statistics 选择相关阵还是协方差阵及主成份个数,本例选相关阵、主成份个数2个OK Id样本本例用number) OK (OK)请看演示第十三章练习题第十五章 聚类分析与判别分析系统聚类法聚类分析是数值分类学的基本内容,是对统计样本进行定量分类的一种多元统计分析方法. 将这种方法应用于综合评价,一方面可以对分类评价问题给出直接的评价结果,另一方面,也为其他综合评价方法如判别分析提供训练样本,形成综合评价的框架结构以便提高综合评价的效果. 以下介绍系统聚类. 设有n个样本x1,x2,xn用p个指标描述,形成相应的数据阵.np阶阵X的第i行xi= (xi1,xi2,xip)给出了第i个样
21、本的p个指标值(i=1,2,n);第j列=(x1j,x2j,xnj)(j=1,2,p)给出了第j个指标上n个样本的取值. 聚类分析有两类问题:对于样本的聚类分析和对于指标的聚类分析. 先讨论对样本的聚类分析,再推广到对指标的聚类分析 第一节 综合评价的系统聚类法聚类分析对所研究的事物(或指标,或因素)进行分类,俗话讲物以类聚,人以群分,把多个事物中具有相同或相近属性的事物归成一类. 聚类分析是数值分类学的基本内容,是对统计样本进行定量分类的一种多元统计分析方法. 将这种方法应用于综合评价,一方面可以对分类评价问题给出直接的评价结果,另一方面,也为其他综合评价方法如后续判别分析提供训练样本,形成
22、综合评价的框架结构以便提高综合评价的效果. 以下介绍系统聚类 先讨论对样本的聚类分析,再推广到对指标的聚类分析,为此我们先引入一些基本概念.三种类距离:最小距离法,类平均距离法,ward法离差平方和距离(ward)法: 设有用p个指标描述的n个样本x1,x2,xn(均为p维行向量),求得重心为为p维行向量),分成k个类A1,A2,Ak,记为类Ai的重心,可以证明如下平方和分解定理成立:总离差平方和=类间离差平方和+类内离差平方和=常数 当两个类并成一个新类时, 类间离差平方和而类内离差平方和,定义两个类的ward距离为将这两个类合并时类间离差平方和的减少量(也即类内平方和的增加量)例15.2.
23、1 对于北京地区19511961年11年的冬季12月、1月、2月 三个月的气温采用类平均法进行聚类分析.data temperat; input year Dec Jan Feb; cards; (数据略);proc cluster /*系统聚类*/ data = temperat method=average;/*类平均法*/var Dec Jan Feb;id year;proc tree horizontal /*水平树;缺省即为垂直树*/ id year;/*年为样本*/ run;请看演示对指标的聚类:作变换dij=1-rij后采用系统聚类cluster过程 /*例 中学生8个体型指标的聚类分析 在中学生中测量八个体型指标的相关系数x1=身高 x2=手臂长 x3=上肢长 x4=下腿长 x5=体重 x6=颈围 x7=胸围 x8=胸宽;*/ data E102 (type=distance); array x(8) x1-x8; input _name_ $ x1-x8; do i=1 to 8; x(i)=1-abs(x(i); e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 现代交通枢纽的铁路货运效率优化
- 深度解读如何用云计算构建高效智能制造平台
- 国庆节巡航摩旅活动方案
- 小学趣味运动会活动方案策划
- 2024年春七年级地理下册 第九章 第二节 巴西说课稿 (新版)新人教版
- 23 梅兰芳蓄须说课稿-2024-2025学年四年级上册语文统编版001
- 8 千年梦圆在今朝(说课稿)2023-2024学年部编版语文四年级下册
- 5 协商决定班级事务 说课稿-2024-2025学年道德与法治五年级上册统编版
- 2023八年级英语上册 Module 9 Population Unit 3 Language in use说课稿(新版)外研版
- 《10天然材料和人造材料》说课稿-2023-2024学年科学三年级下册青岛版
- 禅密功筑基功法
- SHT+3413-2019+石油化工石油气管道阻火器选用检验及验收标准
- 2024年云南省中考数学真题试卷及答案解析
- 新疆乌鲁木齐市2024年中考英语模拟试题(含答案)
- (正式版)JBT 14932-2024 机械式停车设备 停放客车通-用技术规范
- 2024年度-胫腓骨骨折
- 应用密码学课件
- 矿井通风安全培训课件
- 2024年中国国际投资促进中心限责任公司招聘高频考题难、易错点模拟试题(共500题)附带答案详解
- 苯胺合成靛红工艺
- 质量保证发展史和国外相关标准简介
评论
0/150
提交评论