版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于简单统计分析与过程一、假设检验与SAS过程平均每户消费支出5006007008009001000家庭数8153025139例题6.1:为了了解农村居民家庭消费水平是否有所提高,2008年,某市对其农村居民家庭进行了一次抽样调查,其中100户被抽样家庭的调查结果如下表:表6.12008年某市农村居民家庭月均消费水平若3年前该市农村居民家庭月均消费支出服从N(720,17580),假定2008年月均消费支出服从正态分布,问该市农村居民家庭月均消费支出是否有显著提高?(显著性水平0.05)即在方差未知的情况下检验第2页,共43页,2024年2月25日,星期天统计量的计算值、临界值、显著性水平及检验概率之间的关系假定检验统计量Z服从正态分布统计量的计算值:一次抽样观测值代入统计量Z后得到的数值Z0.临界值:在给定的显著性水平下,由第3页,共43页,2024年2月25日,星期天统计量的计算值、临界值、显著性水平及检验概率之间的关系检验概率:由临界值和检验概率的计算公式,可知因此,判断接受或拒绝H0只需看p大于还是小于第4页,共43页,2024年2月25日,星期天单样本和两样本下的假设检验单样本的假设检验(一)单样本的参数假设检验(正态分布总体)
总体均值的假设检验检验统计量:拒绝域:第5页,共43页,2024年2月25日,星期天检验统计量:拒绝域:第6页,共43页,2024年2月25日,星期天对于总体均值的假设检验,可转化为均值是否为零的检验,可通过PROCMEANS过程实现,只需在选项中选择t,prt,和clm,alpha。例6.1程序:dataconsume;inputexpendnumber@@;dif=expend-720;cards;50086001575030800259001310009;procmeansmeantprt;vardif;freqnumber;outputout=meantt=tv;run;第7页,共43页,2024年2月25日,星期天由于检验变量dif=expend-720的t值=3.17,概率pr>|t|的值为0.0020,小于显著性水平0.05,故在0.05的显著性水平下推断出dif的均值显著不为0,也即居民月均消费支出显著不等于720.第8页,共43页,2024年2月25日,星期天dataa;setmeant;k=_freq_-1;p=1-probt(tv,k);t1=tinv(0.95,k);procprint;run;
p=1-probt(t,k)t1=tinv(0.95,k);计算t分布的0.95分位数显然,tv的值>t1且p值也<0.05,故在0.05的显著性水平下拒绝原假设,也即接受居民月均消费支出显著大于720.第9页,共43页,2024年2月25日,星期天
总体方差的假设检验检验统计量:拒绝域:第10页,共43页,2024年2月25日,星期天例6.2:检验例6.1中居民消费支出的方差是否有变化,即是否仍为17580。procmeansvar;varexpend;freqnumber;outputout=testvar=varex;run;dataA(drop=_type_);settest;k=_freq_-1;chisq=k*varex/17580;p=1-probchi(chisq,k);
ci1=cinv(0.025,k);ci2=cinv(0.975,k);procprintdata=anoobs;run;第11页,共43页,2024年2月25日,星期天程序说明:ci1=cinv(0.025,k);ci2=cinv(0.975,k);chisq=k*varex/17580;p=1-probchi(chisq,k);
分别计算分布的0.025和0.975分位数。由于chisq统计量值满足ci1<chisq<ci2,正好落在拒绝域外,故接受原假设,认为方差没有发生显著变化。另一方面,p=0.48018>0.05也表明,在0.05的显著性水平下,接受原假设。第12页,共43页,2024年2月25日,星期天(二)单样本的非参数假设检验K.Pearson提出以下统计量:
总体分布的拟合优度检验拟合优度检验是根据样本的经验分布对总体分布作出的估计。拒绝域:第13页,共43页,2024年2月25日,星期天表6.3订单频数分布表星期一星期二星期三星期四星期五合计71215111560问:该企业的订单在每星期5天中是否服从均匀分布?(显著性水平0.05)例6.3
某企业欲了解其产品订单的分布情况,在随机选择的一周中发现,其订单频数分布如下表:第14页,共43页,2024年2月25日,星期天程序实现:datachisq;inputfoifei@@;dif=(foi-fei);div=dif*dif/fei;cards;7121212151211121512; procmeanssum;vardiv;outputout=testsum=chisq;run;dataA;settest;k=_freq_-1;p=1-probchi(chisq,k);ci1=cinv(0.025,k);ci2=cinv(0.975,k);procprintdata=anoobs;run;第15页,共43页,2024年2月25日,星期天程序说明:ci1=cinv(0.025,k);ci2=cinv(0.975,k);div=dif*dif/fei;procmeanssum;vardiv;outputout=testsum=chisq;
p=1-probchi(chisq,k);
分别计算分布的0.025和0.975分位数。第16页,共43页,2024年2月25日,星期天由于chisq统计量值满足ci1<chisq<ci2,正好落在拒绝域外,故接受原假设,认为订单在每周的5天中服从均匀分布。另一方面,p=0.45299>0.05也表明,在0.05的显著性水平下,接受原假设。第17页,共43页,2024年2月25日,星期天
总体均值的非参数检验(总体不服从正态分布)利用UNIVARIATE过程中的符号检验与威尔克森秩和检验。dataconsume;inputexpendnumber@@;dif=expend-720;cards;50086001575030800259001310009;procunivariatealpha=0.1;vardif;freqnumber;run;第18页,共43页,2024年2月25日,星期天总体不服从正态分布,利用符号检验与威尔克森秩和检验(符号秩检验)。由于Pr>=|M|的P值小于0.0001,Pr>=|S|的P值为0.002,都小于给定的显著性水平,故拒绝原假设,认为dif均值不为零,与即认为居民家庭月均消费支出显著大于720.第19页,共43页,2024年2月25日,星期天两样本的假设检验(一)两独立组的假设检验独立组:两样本来自于两个独立总体样本需满足以下两个条件:正态性,方差齐次性。检验统计量:拒绝域检验可通过Procttest实现第20页,共43页,2024年2月25日,星期天
满足正态性而不满足方差齐次性时,采用参数的近似T检验或非参数的威尔克森秩和检验。
两个条件都不满足时,采用非参数的威尔克森秩和检验。(procnparlwaywilcoxon;)第21页,共43页,2024年2月25日,星期天满足正态分布条件表6.4地区A和B家庭平均收入水平情况A地区2.52.93.25.33.84.24.03.93.33.14.54.74.25.75.13.04.92.73.84.6B地区3.74.14.33.63.93.84.74.45.35.13.83.76.05.52.93.45.23.84.84.6问:这两个地区的家庭平均收入是否有显著差异?(显著性水平0.05)例6.4:某银行考虑在两个相邻地区A和B之间开设一个新的营业网点。银行所关心的时这两个地区家庭平均收入是否相同。为此,在这两个地区分别抽取了20户居民家庭进行调查,调查结果如下表:第22页,共43页,2024年2月25日,星期天dataincome;inputarea$income@@;cards;A2.5B3.7A3.2B4.3A3.8B3.9A4.0B4.7A3.3B5.3A4.5B3.8A4.2B6.0A5.1B2.9A4.9B5.2A3.8B4.8A2.9B4.1A5.3B3.6A4.2B3.8A3.9B4.4A3.1B5.1A4.7B3.7A5.7B5.5A3.0B3.4A2.7B3.8A4.6B4.6;procsort;byarea;run;procunivariatenormal;varincome;byarea;run;procttest;classarea;varincome;run;第23页,共43页,2024年2月25日,星期天area=A的正态性检验结果area=B的正态性检验结果由于W检验的P值都大于给定的显著性水平,故接受原假设,认为都服从正态分布。第24页,共43页,2024年2月25日,星期天又由方差是否相等(EqualityofVariances)的F检验:F值=1.31,P值Pr>F=0.5658(>0.05),故认为两组方差相等。因此可用T检验对两组均值是否相等进行检验,对应T检验的T值=-1.32,P值Pr>|T|=0.1938(>0.05),接受原假设,即A,B两地区家庭收入没有显著差异。第25页,共43页,2024年2月25日,星期天正态性不满足datazichfz;inputtype$rate@@;cards;pt99.4pt94.8pt38.4pt52.7pt92.1pt87.9pt334.2pt86.9pt134.5pt74.9pt69.9pt48.0pt104.9pt67.8pt60.8pt59.5pt62.0pt75.4pt715.2pt15.3pt224.6pt90.6pt86.7pt65.4pt77.1pt354.2pt59.7nopt31.3nopt54.7nopt29.7nopt40.0nopt55.1nopt32.6nopt59.2nopt46.9nopt52.9nopt29.1nopt64.8nopt35.0nopt56.6nopt44.5nopt52.3nopt21.8nopt52.0nopt28.0nopt24.0nopt13.5nopt29.8nopt67.1nopt17.1nopt48.1nopt30.8nopt32.6nopt24.1;procsort;bytype;run;procunivariatenormal;varrate;bytype;run;procnpar1waywilcoxon;classtype;varrate;run;见课本例6.6第26页,共43页,2024年2月25日,星期天type=nopt的正态性检验结果type=pt的正态性检验结果由于W检验的P值0.2488>0.05,故接受原假设,认为服从正态分布。由于W检验的P值<0.0001,故拒绝原假设,认为不服从正态分布。第27页,共43页,2024年2月25日,星期天采用非参数检验WilcoxonTwo-SampleTest检验中的近似Z检验和近似T检验的双侧检验的P值都<0.001,故拒绝原假设,即两类公司的资产负债率有显著差异。第28页,共43页,2024年2月25日,星期天又由于nopt类公司资产负债率rate的均值39.7629630显然小于Pt类公司的均值,故Pt类公司的资产负债率显著高于nopt类公司的资产负债率。第29页,共43页,2024年2月25日,星期天(二)成对组的假设检验成对组:两样本来自于同一总体在不同时间或不同处理下的数据。差值来自正态总体:用MEANS过程中T检验来自其它分布总体:用UNIVARIATE过程中的符号检验或符号秩检验。第30页,共43页,2024年2月25日,星期天课本例6.7datapackage;inputsale1sale2@@;dif=sale2-sale1;cards;667270757568798765849073857082839795959092827378716969747786;procunivariatenormal;vardif;run;第31页,共43页,2024年2月25日,星期天课本例6.8datastock(keep=rate1rate2dif);inputprice1price2@@;rate1=(price1-lag(price1))/lag(price1)*100;rate2=(price2-lag(price2))/lag(price2)*100;dif=rate2-rate1;cards;25.7924.9024.3724.8823.2425.2022.1125.1022.0024.9922.1224.7820.2924.9019.7024.8020.4626.0519.9825.4120.6825.46;procunivariatenormal;varrate1rate2dif;run;第32页,共43页,2024年2月25日,星期天相关分析与CORR过程两连续型变量:Pearson积矩相关系数两有序变量:(1)Spearman等级相关系数(或秩序相关系数)(2)Kendall’stau_b相关系数两分类变量:列联系数相关关系的度量第33页,共43页,2024年2月25日,星期天主要功能:计算变量间的相关系数:包括Pearson相关系数,Spearman等级相关系数、Kendall’stau_b相关系数、Hoeffding的相关性度量D.还可以计算偏相关和Cronbach系数及一些单变量的描述性统计量。CORR(相关)过程第34页,共43页,2024年2月25日,星期天CORR(相关)过程的一般格式PROCCORR<option-list>;VARvariable-list;WITHvariable-list;PARTIALvariable-list;WEIGHTvariable;FREQvariable;BYvariable-list;第35页,共43页,2024年2月25日,星期天CORR(相关)过程中语句说明:(1)PROCCORR语句一般格式为:PROCCORR<option-list>;<option-list>有以下几类:数据集选项:
DATA=SAS-data-set;OUTP=SAS-data-set;创建存放Pearson统计量的数据集,需同时使用PEARSON选项。
OUTS=SAS-data-set;创建存放Spearman统计量的数据集,需同时使用SPEARMAN选项。第36页,共43页,2024年2月25日,星期天OUTH=SAS-data-set;创建存放Hoeffding统计量的数据集,需同时使用HOEFFDING选项。
OUTK=SAS-data-set;创建存放Kendall的tau_b统计量的数据集,需同时使用KENDALL选项。相关类型选项:
Pearson相关系数;没有规定选项,即默认为Pearson相关系数。
Spearman秩序相关系数;
Kendall等级相关系数tau_b;Hoeffding的相关性度量;第37页,共43页,2024年2月25日,星期天(2)VAR语句一般格式为:VARvariable-list;如:varabc;(3)WITH语句一般格式为:WITHvariable-list;该句与VAR语句一起使用,得到变量间特殊组合的相关系数。如:varabc;withxy;第38页,共43页,2024年2月25日,星期天(4)PARTIAL语句一般格式为:PARTIAL
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论