统计分析-sas课程后两天analystall案例课件_第1页
统计分析-sas课程后两天analystall案例课件_第2页
统计分析-sas课程后两天analystall案例课件_第3页
统计分析-sas课程后两天analystall案例课件_第4页
统计分析-sas课程后两天analystall案例课件_第5页
免费预览已结束,剩余39页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、/*/*/*/*/*NOTE: Copyright 2011, SAS Institute Inc., Cary, NC, USA */NOTE: SAS (r) Proprietary Software 9.3 */NOTE: 部分例子源于 SAS 手册及其 NOTE: 更新日期:2016-01-05*/ NOTE: 图标 SASING 引 Alex Yu的书籍 */ 主讲:丁亚军上度经管之家数据分析*/*课程大纲:SAS 程序基础篇SAS 总体概览课程介绍SAS 模块介绍SAS 界面讲解SAS 数据集SAS 数据集与逻辑库直接创建数据:手动创建间接获取数据:3.SAS 语法基本概念本地文件

2、与数据库语则语法错误与修正-SAS 编程之 data 步数据预分析案例 1:如何管理数据集案例 2:数据格式的排列组合案例 3:数据的纵向汇总案例 4:条件语句的设置-SAS 编程之 proc 步统计描述平均数和标准差的意义正态分布有多重要数据标准化变换缺失值填补-SAS 编程之 proc 步统计推论差异性分析假设检验原理t 检验:判断组间差异方差分析:判断多组间差异协方差分析:存在协变量的群组差异-相关性分析散点图提供了变量间的关系模式变量关系的基础:pearson、spearman 相关系数偏相关分析多变量相关性:典型相关-线性回归分析简单回归分析*截距意义何在:数据平移*斜率反应关系的大

3、小多元回归分析*多元回归分析:回归概览性描述*处理异常值:残差分析*常用的对数变换*模型的可接受误差评析*哑变量变换6.4 稳健的 logistic 回归预分析:卡方独立性检验构建模型与模型、修正自变量筛选与多模型评估:roc 曲线自变量的筛选:逐步回归何谓稳健?6.5 poisson 回归poisson 回归的6.6 稳健回归poisson 回归稳健性之模型稳健性估计方法稳健回归分析比较-6.7 主成分分析偏好分析探索性因子分析*问卷的结构效度指标*因子得分的应用:潜变量对应分析预分析:频数、交叉表与卡方一元对应分析:行为与选择的对应特征多元对应分析:维度的意义联合分析联合分析流程析因设计与

4、效应值计算联合分析过程-数据挖掘(SAS/EM)统计模型与数据挖掘的区别:数据量、数据精确度、时间、关注点构建模型:倾向分析:基于回归、决策树、神经网络模型的/*=Tutorials Section 1=*/*=;*SAS 程序基础篇;*=;/*SAS 模块 proc setinit;run;-Base:整个 SAS 系统的基础-SAS/S:统计模型,所有模块都可以在这里得到整合;-SAS/GRAPH:建议使用 sg 开头的绘图功能,并结合 GTL template 过程;-SAS/ETS:计量经济模型-SAS/OR,运筹学模块,可进行线性与非线性规划。-SAS/AF,见-SAS/IML:矩阵

5、运算;见:-SAS/QC,质量控制-SAS/SHARE,见-SAS/LAB,引导式数据分析模块-SAS/ACS,对不同格式的数据进行查询、 SAS,也可在 SAS 中更新外部数据。和分析,其接口是双向的,既可将数据读入-SAS/ASSIST:面向任务的菜单驱动,可以帮助初学者快速学习,帮助有经验者快速编程。-SAS/INSIGHT:探索模块,提供基本的数据探索和数据分析功能,可以快速的实现数据分析-SAS/EIS,主管信息系统, 方便用户的企业信息系统;-SAS/GIS,见-SAS Dataegration Studio,见-SAS/Warehouse Administrator,见-SAS/

6、Entrise Miner,见*/*-;*2.1 怎样导入数据;*-;*创建 sas 数据集方法种种;*date 步,输入数据建立。orange 例; title 对 oranges 数据集的品尝检验结果; data oranges;input variety $ flavor texture looks;cards;naveltemple valen9 8 67 . 78 9 9mandarin 5 7 8;proc pr; run;*data 步,利用 set 语句建立。set 例; data abc;set sashelp.class; run;proc pr;run;*从外部调入。In

7、file、import 例; data abcd;infile C:UsersThinkDesktopaa.txt;* input a b c;run;proc pr;run;obs= 、missover、dlm=;proc import datafile=C:UsersThinkDesktoptemp.txtout=work.aadbms=dlm replace;delimiter=,;getnames=yes;*导入文本文件时使用;run;proc import datafile=C:UsersThinkDesktoptemp.xlsx out=work.aadbms=xlsx repla

8、ce;run;*外部数据库;libname work.db2_sets db2 user=* password=* datasrc=datadb2;libname work.oracle_sets oracle user=* password=* path=dbmssrv schema=educ;libname work.teradata_sets teradata user=* password=*database=p_cac_t td=caracal override_resp_len=yesmit=0;proc sql;connecttoteradata(user=*password=*

9、database=acs_viewstd=wildcat mode=teradata);create table sas_table aect *from connection to teradata(select*from connect_views.table);*是 terdata 里 connect_views 下的表 table; disconnect from teradata;quit;*acs_views 是数据库;*此外用户也可以参考 proc acs 语句数据库;*-;*2.2 程序的基本语*-;则;data aa;*data 为深蓝色;input x y z$; *inp

10、ut 为浅蓝色, 输入数据为黄色; cards;12 3 a2 3 b;proc pr;title 示例数据;run;*语则:;*SAS 程序由语句组成,语句用分号结束。;*SAS 语句可以从某一行的任意位置开始。;*几个 SAS 语句可以写在同一行上,但每句要使用分号。;*一个语句也可以写成几行,只要语句中的单词不被断开就可以,在一个语句中各个单词之间至少要有一个空格。;*SAS 程序中一般不区分大小写(字符串中要区分大小写)。;*用/* */来对程序进行注释.;*在增强型编辑器里,SAS本身携带的关键语句,分别标以不同的颜色。;*PDV 运行规则:;/*data 步包括编译、执行阶段两个阶

11、段#1 编译阶段(Compilation Phase) a、编译流程:检查语法;程序转换为机器码;输入缓冲器(Input Buffer);建立 PDV(Program Data Vector);确定变量名,类型,长度等的属性。b、PDV 运行规则DATA 步的每一次运行_N_ERROR_用于指示信息. 如果等于 0 表示没有出错,1 表示出错误以此确定数据集名、观测数和变量名及其属性等信息。#2 执行阶段(Execution Phase)PDV 执行之初,其所有值为缺省值(除了_N_与_ERROR_)输入每条至输入缓冲器,按 INPUT 语句读至 PDV按数据步的其它语句处理后存入 PDV在数

12、据步结束时缺省地将 PDV 的内容作为一条观测写入新的数据集回到数据步的开始.使 PDV 中外部变量初始化为缺省值*/*4.SAS 编程之 data 步数据预分析*案例 1:如何管理数据集(set merge)组合语句(set);/*set sas-data-set(s) ;sas-data-option(s):keep=变量 drop=变量 rename=表达式where=表达式 in=变量 options:nobs=变量 po=变量 */obs=常数 obs=常数data one;input a b; datalines; 1 32 42 63 10;dawo;input a c;data

13、lines; 2 53 9;proc sort data=one;by a;run;proc sort dadata aaa;wo;by a;run;set one(in=x) two(in=y);by a; in_x=x; in_y=y;one=.a;two=last.a;run;*append 功能;data a1;data a2;=1 to 10000000;x=1;output;end;run;=1 to 20000000;x=2;output;end;run;data a3;set a1 a2;run;proc append base=a1 data=a2;run;*force;*/

14、*合并语句(merge);/*merge sas-data-set-1 sas-data-set-2.sas-data-set-n ;*/*例:merge;datrson;input id sex $ ;cards;234;FF Mdata place;input id sex $ region; cards;1 M 23 f 6x 1F 5;*主键取值情况一对一、一对多、多对一;proc sort datrson;by id;run;proc sort data=place;by id;run;data a;mergeby id; run;proc pr;run;place;*数据集连接方式

15、完全连接、左连接、右连接、内连接;proc sort datrson;by id;run;proc sort data=place;by id;run;data a;mergeby id;*if(in=) place(in=place);*左连接;*if place;*右连接;and place;*内连接;*ifrun;proc pr;run;*案例 2:数据格式的排列组合(sort trans data fishdata;infile datalines missover ;input location & $10. date date7. length1 weight1 length2 w

16、eight2 length3 weight3 length4 weight4;format date date7.;datalines;e);cole pondcole pond cole pond eagle lake eagle lake eagle lake;*宽 to 长;2jun95 31 .25 32 .332 .25 33 .33jul95 33 .32 34 .41 37 .48 32 .284aug95 29 .23 30 .25 34 .47 32 .32jun95 32 .35 32 .25 33 .303jul95 30 .20 36 .454aug95 33 .30

17、33 .28 34 .42/*proc sort data=fishdata;by locationdescending date;run;*/proc transe data=fishdata out=fishlength(rename=(col1=Measurement);var length1-length4 ;by location date notsorted;run;proc pr;run;*长 to 宽;proc transe data=fishlength out=fish1; varmeasurement;by location date;run;proc pr;run;*d

18、ata=或 out=都可以跟括号加 keep、drop、rename、where 等常见选项notsorted 意味着数据无需排序,同时也意味着按数值的相对位置对数据进行分割;;*案例 3:数据的纵向汇总(by、retain、do、forel);*例:赋值与累加 ,要求:实现对不同 by 组观测值的求和; data pay;input area amount; cards;111 100 111 25 111 20333;142.66proc sort data=pay;by area;run;data subtotal; set pay;by area;if.area then total=

19、0;total+amount;*drop amount;*if last.area;run;proc pr;run;/*例:需求及字段说明: 1)汇总区域交易次数、累积订单;2)找出供应商 001 和 002 的交易次数;3)汇总区域订单周期(以天为);4)字段:2 位:5 表示快消品,/后面的数值表示促销类型(2 积分、6 购物金、8 代金劵);需求:计算交易金额净利润(交易金额扣除促销类型);5)*/%let label=id=区域 cust=供应商 num_trans=交易数量 amt_trans=交易金额trad_date=交易日期 good_chara=商品特征;data order

20、;input id cust$ num_trans amt_trans 17 trad_date yymmdd10. 28 good_chara$;format id z4. trad_date yymmdds10.;*2; label &label.;*1;cards;111001 13 7.52009.02.01 175562003 22 42.22 2008-07-09 1564/83002 933.053.1009 11 50.0008 15 20002 28 5.8005 12 51.2001 32 5.806/03/03080105157714222662005 05 05 15/

21、82402006 01 06 1206/262008:03:04 1585602008.04.01 $null$20080906158/6622004 02 042006 03 04 1226/6815 001 21 1411 2.215 002 13 29.620070406;run;122678proc prlabel;run;proc sort data=order;by id trad_date;run;daest;*(keep=min_date sum_trans count_trans coun_cust ss_trans);*3;set order;by id trad_date

22、;format min_date yymmdd10.;label min_date=首订单 sum_trans=累积订单额 count_trans=交易次数 coun_cust=特殊供应商 ord_cycle=交易周期 shop_g=购物金 ss_trans=净金额;retaifin_date sum_trans count_trans coun_cust shop_g;.id thendo;min_date=trad_date;sum_trans=0; count_trans=0; coun_cust=0; shop_g=0;end;sum_trans+num_trans;*求累积订单额;

23、count_trans+1;*求交易次数;coun_cust+(cust in(001 002);*求特征供应商交易次数; ord_cycle=(trad_date-min_date)/count_trans;*求交易周期;in=substr(good_chara,index(good_chara,/6),3);*4;in2=input(substr(in,lengthn(in),1),2.); shop_g+in2;ss_tranm_trans-shop_g;*求交易金额净利润; if last.id;run;proc pr/*label;run;*1:label 对变量加*2:,为了节省空

24、间变量功能封装;*z4.显示数值前补零,如 12 变为 0012,注意小数位会被忽略;*informat 与 format 格式=informat期的设定可以使用 ddmmyyw.(或 yymmddw.、yymmmw.等格式),w 用于控制输出格式;=format 中显示格式样例 ddmmyyxw.其中 x 可以为 b(空格)、c(:)、d(-)、n(无)、p(.)、s(/)*3:drop 与 keep 相对于的一组操作,分别表示删除或保存字段;赋值与累加语句:X=X1+X2 表示新变量 X 为 X1 与 X2 的和;X=X+Y 表示为变量 X,每次迭代时使用 X+Y 更新 X 值*4:借助文

25、本函数 substr、index 将/6截取,然后将其后的数值(表示使用多少购物金),转化成数值;*/*案例 4:条件语句与函数的设置;/* if 表达式为真(非 0 且非缺失),则继续执行下面的表达式;if 表达式为假(0 或缺失),系统将返回到 data 步开头,开始执行下一条观测;*/*例:If_x、if、If_else、where ;*If_x ;data aa;input x ; if x then y=x;cards; 1 0 . 4;run;proc pr;run;*if ; data a;input x y; datalines; 1 22 34 2;data b;set a;

26、 if x=2; z=y;run;d;set a;*put _all_;*显示 z 和 c 在 PDV 中的取值; if x=2 then output;z=y;c=x+y;run;*If_else ;*效率:如果不使用 else 语句,每执行一条观测都需要判断 if 语句; data;input x ;if x=1 then y=x;else if 2=x=4 then y=x*10; else if 5=x=7 then y=x*100; else y=x*1000;cards;1 2 8 3 4 5 6 7;proc pr;run;*where ;/*where where-expres

27、-1 ;notes:where 表达式是在 PDV 中运行,因此一些语句将不可使用,例如:_n_、obs、po等*/ data aa;set sashelp.class;*where age14;*where name=简;*精确搜索;where age no betn 12 and 15;*where age in (14,16);*where age is missing; *where age is null;*null 可以表示文本和数值缺失;*where name ? Ja;/* ? means contains*/*where name like %a%;/* % can subs

28、titute many char*/*where name ? 罗 and age11 and (sex=女 or weight60 );run;proc pr;run;proc sort data=dm01(keep=good_id ord_date clss_nm good_id ord_sby clss_nmdescending sex_cd;run;data dm0_6 dm6_12 dm12_18;set dm01(obs=10000 in=invar) end=last_case; *测试数据; retain count_dele 0;_cd sex_cd);label ord_d

29、ate=日期 sex_cd= by clss_nm descending sex_cd;where datepart(ord_date) = 01nov2013dand (good_id not in(199823,148894) or ord_s_cd in(出库完成,出库指示,订单接收);if not(last.clss_nm) then count=1;*不同类别中非最后第一笔订单;if 0=hour(timepart(ord_date)6 and not last_casethenoutput dm0_6; do;*date=input(substr(strip(v0),1,10),y

30、ymmdd10.);*通过 do 循环完成多组任务;time = 0;*count_dele=0;ord_s_cd_substr=substr(ord_s_cd,11,4);end;time+1;iford_s_cd_substr=取消 then count_dele+(-1);else if 6=hour(timepart(ord_date)12 and not last_casedo;if ord_s_cd =订单接收 then amou+ord_am; end;else if 12=hour(timepart(ord_date)18 and not last_case elsedo;te

31、mp =的报表;date= put(datepart(ord_date),mmddyy10.); repor=date!temp;drop temp date;end;thenoutput dm6_12;then output dm12_18;run;*-5.SAS 编程之 proc 步统计描述平均数和标准差的意义正态分布有多重要数据标准化变换缺失值填补*平均数和标准差的意义;*给变量取值添加 proc format ;value code1fmt 1=B1 类产品2=D2 类产品 3=X3 类产品; value code2fmt 1=生产线 1 2=生产线 2;run;*调用 format

32、格式、添加 label; data data_anl.qualif_label;set data_anl.qualification;format code_category code1fmt. addrss code2fmt.; label code_category=品类分组addrss=生产线 raw_material=韧性原料auxiliary_materials1=加固材料 1auxiliary_materials2=保温材料 2auxiliary_materials3=防湿材料 3 p_sale =促销前营业额s_sale =促销后营业额;run;proc univariate d

33、ata=data_anl.qualif_label plot freq normal; var raw_material;*by code_category; id code;run;*计算稳健统计量;proc univariate data=data_anl.qualif_label trimmed=.1 winsorized=.1 robustscale; var raw_material;id code; run;*trimmed:截掉尾端 10%的观测值;*winsorized: 截掉尾端不同比例的观测值,使用其最近的观测值替代;*robustscale:输出尺度(scale)的稳健估

34、计;*正态分布有多重要;proc sgplot data=data_anl.qualif_label; histogram raw_material;density raw_material;density raw_material / type=kernel; run;proc univariate data=data_anl.qualif_label plot freq normal; var raw_material;id code;run;data a;input student test1-test3 gender ; newtest1=test1;newtest2=test2;ne

35、wtest3=test3;cards;238900545238806445263924860416724915252760674;5452391120 1 254701167.145596140 276110 27612324069761231012 9990012304.118 291 2 99000125216685 1*正态分布变换; data a ;set data_anl.qualif_label; ylog=log(raw_material);*yexp=exp(ylog),对数变换及其反函数; ysqrt=sqrt(raw_material);*ysq=ysqrt*2,平方根及其

36、反函数; ysin=sin(raw_material);*ysq=arsin(ysin),sin 及其反函数;run;proc stdize data=a method=iqr out=stdize;*稳健变换; var newtest1-newtest3;run;/*method= mean, median, sum, euclen, ustd, std, range, iqr, mad注:std(均值,标准差)、mad(中位数,中位绝对偏差)、iqr(中位数,四分位距)、range(最小值,全距)*/*数据标准化变换;proc stdize data=a method=std out=st

37、dize; var newtest1-newtest3;run;/*method=std, range注:std(均值,标准差)、range(最小值,全距) */*缺失值填补;/*MI 适用条件:缺失类型单调单调单调任意任意任意任意待填补变量的类型连续离散(有序)离散(无序)连续连续离散(有序)离散(无序)协变量任意任意连续连续任意任意任意方法单调回归单调 logistic单调判别分析MCMCFCS 回归FCS/logisticFCS 判别分析*/*导入数据:; proc format;value groupfmt 1=期 2=非run;data data_anl.missing_label;

38、 set data_anl.missing; format group groupfmt.;期;=电动车滞流量=汽车滞流量 =自相车滞流量label e_flowa_flow b_flowtraffic_jam=交通堵塞程度;run;proc stdize data=a replace method=iqr missing=median out=missing;var newtest1-newtest3; run;/*replace missing=median 替换缺失值,如果 missing 选项缺失,则使用 method=的位置信息填补,reponly 选项表示替换缺失值,但不标准化数据

39、*/*问题:5;proc mi data=data_anl.missing_label seed=123 nimpute=6 out=out6; fcs nbiter=10 reg(/details);var e_flow a_flow b_flow traffic_jam;run;*相当效率用于估计多重归因结果(参数估计)的稳定情况;*问题:6;proc mi data=data_anl.missing_label seed=123 nimpute=6 out=out6; class group;fcs nbiter=5 logistic(group/details);*当研究车堵塞程度时,

40、可以认为 group 有序; var group e_flow a_flow b_flow traffic_jam;run;*问题:7;proc mi data=data_anl.missing seed=123 nimpute=6 out=out6; class group;fcs nbiter=5 discrim(group/details);var group e_flow a_flow b_flow traffic_jam;run;*#反映变量关联程度:散点图;*data_anl.performanvariables:ssearch sleadership srelationshipg

41、characteristicjaim jhonour jpromotion jcompetency;proc sort data=data_anl.performance;by scale;run; proc sgplot data=data_anl.performance;scatter x=gcharacteristic y=jaim /group=scale; ellipse x=gcharacteristic y=jaim;*by scale;run;*reg to fit;proc sort data=data_anl.performance;by scale;run; proc s

42、gplot data=data_anl.performance;title reg to fit;*reg y=gcharacteristic x=jaim/group=scale clm cli; reg y=gcharacteristic x=jaim/clm cli;*clm 置信区间;*reg y=gcharacteristicpetency;run;*matrix;proc sgscatter data=data_anl.performance;matrix gcharacteristic jaim jhonour jcompetency jpromotion/group=scale

43、 diagonal=(histogram normal);run;/*=6.SAS 编程之 proc 步统计推论=*/*6.1 差异性分析;*假设检验原理;*概率和小概率;*产生不同分布的随机数; data a;mu=1.72;sigma=0.06;=1 to 300000;x = rand(Normal, mu, sigma);*正态分布; output;end; run;proc sgplot data=a; histogram x; density x;*density x / type=kernel;run;data a;y1=cdf(normal,1.665,1.72,0.06);*

44、cumulative distribution function; y2=pdf(normal,1.665,1.72,0.06);*Probability density function;put y1= y2=; run;/*常见分布:x = rand(Poisson, lambda);泊松分布,x = rand(Bernoulli, p); 二项分布,p 表示概率,x = rand(Uniform);均匀分布, x = rand(Exponential);*/*-t 检验:判断组间差异方差分析:判断多组间差异协方差分析:存在协变量的群组差异*-;*数据整理:导入 spss 文件;proc

45、import out=data_anl.qualification datafile=C:UsersThinkDesktopqualification.sav dbms=sav replace;run;*显示数据集信息;proc contents data=data_anl.qualification;run;*给变量取值添加 proc format ;value code1fmt 1=B1 类产品2=D2 类产品 3=X3 类产品; value code2fmt 1=生产线 1 2=生产线 2;run;*调用 format 格式、添加 label; data data_anl.qualif_

46、label;set data_anl.qualification;format code_category code1fmt. addrss code2fmt.;*调用格式:变量后跟定义格式; label code_category=品类分组Addrss=生产线 raw_material=韧性原料auxiliary_materials1=加固材料 1auxiliary_materials2=保温材料 2auxiliary_materials3=防湿材料 3 p_sale =促销前营业额;s_sale =促销后营业额; *定义变量;run;/*适用条件:一列是二分类的离散变量,另一列为连续变量;

47、问题:不同生产线(二分类)在主要原材料上,有无显著差异;*/*独立样本 t 检验;/*formula:t=(u1-u2)/SE_u1u2;notes:u1、u2 分别表示二分类取值对应的均值;SE_u1u2:表示其对应联合标准误。*/ ods graphics on;proc ttest data=data_anl.qualif_label; class addrss;var raw_material;run;ods graphics off;*-;*方差分析:判断多组间差异*协方差分析:存在协变量的群组差异*-;/*适用条件:变量要求为离散变量(2 个取值)与另列连续变量(正态分布)、不同组

48、方差齐性;问题:单多*/:产品类型(三分类)在主要原材料上有无显著差异;:产品类型与生产线在主要原材料上有无显著差异,及其是否存在交互效应;* 3.2.1 单方差分析:(1);/*formula:y_ij=u+a_i+e_ij;notes:u 表示总体均值;a_i 表示不同类别,残差项e_ij(d,w2)*/ ods graphics on;proc anova data=data_anl.qualif_label;class code_category;mraw_material=code_category;*means code_category/hovtest=levene welch

49、tukey snk LSD;*tukey lsd、snkwelch;run;quit;ods graphics off;*tukey:组内观测数不等的情况;*lsd:单元格观测数相同的配对 t 检验;*snk:组内观测数相同,执行配对 t 检验;*hovtest=levene 方差齐性检验,welch 统计量对方差不齐比较稳健;*方差分析:判断多组间差异;/*适用条件:多指的是多个自变量;formula:y_ijk=u+a_i+b_j+e_ijk;notes:u 表示总体均值;a_i、b_j 分别表示不同类别,残差项 e_ijk(d,w2)*/ title 方差分析_图形分析;proc sgp

50、anel data=data_anl.qualif_label;panelby code_category address/layout=lattice; hbox raw_material;run;*平衡数据建模; ods graphics on;proc anova data=data_anl.qualif_label;class code_category addrss;mraw_material=addrss code_category;*means code_category/tukey;*LSD、SNK;run;quit;ods graphics off;*平衡:表示每个单元格内观

51、测样本相同;*协方差分析:存在协变量的群组差异; ods graphics on;proc glm data=data_anl.qualif_label plot=meanplot(cl); class code_category addrss;mraw_material= code_category addrss;*连续变量:auxiliary_materials1; lsmeans code_category/bon;*bonferi 检验;output out=result(keep=stud_r pre) r=stud_r p=pre;*保存残差和 run;quit;ods graph

52、ics off;*pdiff:差异的显著性; proc sgplot data=result;scatter y=stud_r x=pre;run;值;*-6.2 相关性分析散点图提供了变量间的关系模式变量关系的基础:pearson、spearman 相关系数偏相关分析多变量相关性:典型相关-;*变量关系的基础:pearson、spearman 相关系数;/* 适用条件: 数据间相互独立,包括观测间相互独立与变量间相互独立。两列变量均服从正态分布。变量为连续变量(积差相关的条件)。两变量间的关系是线性的。;formula:p_xy=cov(x y)/sqrt(v(x)v(y);notes:v(

53、x)、v(y)分别表示方差;cov(x y)表示 x 和 y 的协方差*/*var:ssearch sleadership srelationship gcharacteristicjaim jhonour jcompetency jpromotion;*散点图提供了变量间的关系模式; ods graphics on;proc corr data=data_anl.performancepearson spearmendallplots=scatter(ellipse=confidence alpha=.05 .01);*confidence:均值的区间,去除 ellipse=confiden

54、ce,表示 var gcharacteristic;区间,可以验证线性关系和侦察异常值;with jaim jhonour jcompetency jpromotion;run;ods graphics off;*适用于不同情况的相关分析:; ods graphics on;proc corr data=data_anl.performance pearson spearm plots=matrix(histogram);var gcharacteristic jaim jhonour jcompetency jpromotion;*with gcharacteristic;run;ods g

55、raphics off;/*相关系数与相关程度对应情况endall无相关000.2) 弱相关注意:大样本的情况可能会使弱相关显著。0.2 0.5)0.50.8)0.81)低相关 显著相关高相关注意:这里的“显著”有别于统计中的显著。1完全相关系数超过 0.96,需注意后续模型变量间的共线性问题。注:该对应关系需视学科背景或项目背景的具体情况而定。*/*偏相关分析;/*formula:r_12(3)=(cov(x1 x2)-cov(x1 x3)cov(x2 x3)/sqrt(1-cov(x1 x3)_2)(1-cov(x2 x3)_2);*/ods graphics on;proc corr d

56、ata=data_anl.performance plots=scatter(alpha=.05 .1); var jaim jhonour;*partial gcharacteristic;run;ods graphics off;*偏残差图; title ;proc reg data=data_anl.performance;m1 and m2: mjaim jhonour=gcharacteristic;output out=resid r=y_jaim y_jhonour;run;quit;proc corr data=resid;var y_jaim y_jhonour;run; p

57、roc sgplot data=resid;scatter x=y_jaim y=y_jhonour;ellipse x=y_jaim y=y_jhonour/type=predicted alpha=0.05; ellipse x=y_jaim y=y_jhonour/type=predicted alpha=0.1;run;*多变量相关性:典型相关;*适用条件:两组变量间的相关; proc format;value scalefmt 1=小 2=大;value managefmt 1=低 2=较低 3=高 4=较高;run;data data_anl.perfor_label; set d

58、ata_anl.performance;format scale scalefmt. management_eff managefmt. ;label scale=企业规模 management_eff=管理绩效ssearch=信息搜集 sleadership=团体 jaim=目标 jhonour=荣誉 jcompetency=职能 jpromotion =晋升 gcharacteristic=管理特征;力 srelationship=人际关系run;*典型相关;ods graphics on ;proc cancorr data=data_anl.perfor_label allvprefi

59、x=sswprefix=jj vname=胜任力wname=绩效 out=aa;*all or ms=exact ; var ssearch sleadership srelationship;with jaim jhonour jcompetency jpromotion;*partial gcharacteristic;run;ods graphics off;/*冗余分析解释的标准差,胜任力的第一典型变量解释组内方差 63.61%,解释另外一组 67.27%;多重相关平方,其取值可以使用下面语句得到proc reg data=aa;mrun;quit;Sleadership=jj1-jj

60、3;表示绩效的第一典型变量可以很好的人际关系(79.75%)、对团体*/力的良好(67.84%)、对信息搜集几乎没有(4.88%)*-6.3 线性回归分析简单回归分析*截距意义何在:数据平移*斜率反应关系的大小多元回归分析*多元回归分析:回归概览性描述*处理异常值:残差分析*常用的对数变换*模型的可接受误差评析*哑变量变换*-;*6.1 简单回归分析;*-;*截距意义何在:数据平移;*斜率反应关系的大小;proc reg data=data_anl.qualif_label;mraw_material=auxiliary_materials1; run;quit;*看 R_square|cor

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论