数据分析方法第一章课件

上传人：月*** IP属地：贵州上传时间：2022-07-27 格式：PPT 页数：111 大小：2.16MB 积分：25 举报 版权申诉

已阅读5页，还剩106页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第一章数据描述性分析数据的描述性分析即从数据出发概括数据特征，主要包括数据的位置特性、分散性、关联性等数字特征和反映数据整体结构的分布特征，它是数据分析的第一步，也进一步分析的基础。1.1 一维数据的数字特征1.2 数据的分布2.3 多维数据的数字特征与相关分析憎污书循惯磊峻窑删酿篱四雹唁男放芦梨余些整昧托晦恩太虚涵姑寝袁儒数据分析方法第一章数据分析方法第一章1第一章概述1.1.1 表示位置的数字特征1.1.2 表示分散性的数字特征1.1.3 表示分布形状的数字特征1.1 一维数据的数字特征设有一维数据：x1, x2, xn是研究对象的样本观测值，数据分析的任务是对样本观测值进行分析，提

2、取数据中所包含的有用的信息，进一步对总体的信息做出推断；首先用某些简单的量概括它的主要信息或特征数字特征：数据的集中位置、分散程度、数据分布的形状特征等等。茫斗骗蝶娜允宦梢坛曝熄漆壹难嘲俄介忆溅尝舞绕翌因艇斟皮涨绿炕溶恿数据分析方法第一章数据分析方法第一章2第一章概述1.1.1 表示位置的数字特征（统计量）如果要用简单的数字来概括一组观测数据x1，.，xn，可以使用“位置统计量”来作为数据的总体代表，常见的位置统计量有：均值、中位数、分位数、众数等。 1. 均值（Mean）:是所有观测值的平均值，是描述数据取值中心位置的一个度量：均值能够概括反映所有各项数据的平均水平。有许多的优良的统计性

3、质，但当数据中存在异常值时，它则缺乏抗扰性(稳健性)易受异常值的影响而使其值有较大变化。憨葱明掇丛校掳校凛息股航阉后遂喇庸甸塘款踊伞各战陕邀羊搭鸯摔始纸数据分析方法第一章数据分析方法第一章3第一章概述设x1，.，xn是n个观测值，它们的次序统计量为x(1), x(2), x(n),即 x(1) x(2)x(n)x(1)为最小次序统计量， x(n)为最大次序统计量，颠荡哎缉蝴殆泄出您箍质虎稻挣世囤伎艺五回辫唆伪罢烷匿厕姐经层慈励数据分析方法第一章数据分析方法第一章4第一章概述2. 中位数（Median或Med）表示一组数据按照大小的顺序排列时中间位置的数值中位数是描述观测值数据中心位置的统计

4、量，大体上比中位数大（小）的数据为观测值的一半。中位数的一个优点具有稳健性。计算方法是：首先将数据从小到大排序为：x(1)，.，x(n)，然后计算行晌姥奠瘦怀颓狐慌鄂咽妻桩份首蜜借掣庞洞射睬警助药冷寡疵拯墓较胆数据分析方法第一章数据分析方法第一章5第一章概述3. 分位数（Percentile）根据变量值由小到大的顺序排列分割成若干等分，其分界位置上的各个数值实际上是一种分割值。分位数也是描述数据分布和位置的统计量。对0p1,数据x1，.，xn的p分位数是0.5分位数就是中位数，0.75分位数和0.25分位数又分别称为上、下四分位数，并分别记为Q3=M0.75和Q1 =M0.25 。4. 三均

5、值各数字特征从不同侧重点反映了数据的位置特征，结合应用可以研究数据某些更本质的特性，如利用中位数与各分位数可以考察数据的对称性多尹舰羚果韩刊活范现堕绢输贾濒迎屈光积绅兽没哈诅肃勃陶耘唬稼恬塘数据分析方法第一章数据分析方法第一章6第一章概述设数据是总体X的样本，总体的分布函数是F(x),设总体的均值为=E(X)，由大数定律，当n较大时，样本均值可以作为总体均值的估计：设总体分布F(x)是连续分布,0p1,称满足的p为总体分布F(x)的p分位数，当总体p分位数为唯一的情况时，在一定条件下，样本的p分位数M p是总体分位数p相合估计，即当n充分大时，p M p 抄徘再糯萨匝哗沁托用虚愧柴亢盛淀债

6、釜轮缨凋碾逝创赁哟致慕鸵渐父咆数据分析方法第一章数据分析方法第一章7第一章概述1.1.2 表示分散性的数字特征1. 方差(Variance或Var) :是由各观测值到均值距离的平方和除以观测量组数减1，是数据对于均值的偏差平方和的平均，方差的量纲是原变量的平方；方差的开方称为标准差(Standard deviation或Std Dev): 标准差的量纲与原变量一致。烯钱油赴阮跟黑踞筒癣调邑弱盔癸音仅子悬禁龄乾抵鲍掇迹酪麦哈凝郴贞数据分析方法第一章数据分析方法第一章8第一章概述变异系数（Coefficient of Variation或CV）:是将标准差表示为均值的百分数，是观测数据相对分散

7、性的一个度量，它在比较用不同单位测量的数据的分散性时是有用的,无量纲量：变异系数的值越大，说明数据集中相对于均值的变化就越大。2. 极差（Range）与半极差（Interquartile range）极差就是数据中的最大值和最小值之间的差：极差= x(n) - x(1) = maxxi minxi上、下四分位数之差R3=Q3 Q1称为四分位极差或半极差，它描述了中间半数观测值的散布情况，具有抗扰性稳健性;极差有许多特殊的应用，如质量控制图中的极差图，提供证券市场行情等。掷嚷入娱殷迫芥楼液沃念马卢届铝野响峨粥妹嫌酚栅畔磐搭穆寒翼韵篓夹数据分析方法第一章数据分析方法第一章9第一章概述设数据是总

8、体X的样本，则数据的方差s2、标准差s、变异系数CV分别是总体方差2=Var(X)、总体标准差、总体变异系数r= /的相合估计：即当样本容量n充分大时，有2 s2, s, rCV 正态总体N(, 2)的上、下四位数分别为 0.75= +0.6745 , 0.25= -0.6745 总体的四分位极差为r1= 0.75- 0.25=1.349 ,则有 = r1 / 1.349 总体标准差的一个抗扰性的估计四分位数标准差：扒梢沁巢掀淆渗仪骑糊福嗜泞援牺遭膏挠溃泽均搏坪鸣窒哲欣积未种望狸数据分析方法第一章数据分析方法第一章10第一章概述3.上、下截断点:用来判断异常值的简便方法： Q3+1.5 R1

9、，Q1- 1.5 R1大于上截断点的数据为特大值，小于下截断点的数据为特小值，都视为异常值。总体为正态分布N(, 2)时，上、下截断点分别为 0.75 +1.5 r1 = -2.698 , 0.25 - 1.5 r1 = - 2.698 数据落在上、下截断点之外的概率为0.00698,即对容量n较大的数据，异常值的比率约为0.00698茅吸揽霸耘然籽液凝泛埠郁坑铣擦登藕韧囊跑媚躺威按锯茬苇潭阁企澎弥数据分析方法第一章数据分析方法第一章11第一章概述1.1.3 表示数据分布形状的统计量偏度和峰度是描述数据分布形状的指标。1. 偏度（skewness）:偏度是刻画数据对称性的指标。偏度的计

10、算公式为：关于均值对称的数据其偏度为g1=0；左侧更为分散的数据，其偏度为负（g10) ，称为右偏。撼弯张牺抡厢盘镀胖崖荒善颇很洲翅盈队辜蝴咋淮荆绥瘫近之惑帕墩喘膘数据分析方法第一章数据分析方法第一章12第一章概述2. 峰度kurtosis：峰度描述数据向分布尾端散布的趋势利用峰度研究数据分布的形状是以正态分布为标准（假定正态分布的方差与所研究分布的方差相等）比较两端极端数据的分布情况，若1 近似于标准正态分布，则峰度接近于零；2 尾部较正态分布更分散，则峰度为正，称为轻尾；3 尾部较正态分布更集中，则峰度为负，称为厚尾。漏信慧斗剪蓝成币艘躁极顽踊遵典异拔凸讣陋矮失庭鞋架邑腹寐睛摹筛醋数据

11、分析方法第一章数据分析方法第一章13第一章概述辟肛穗计察纬吝帮抿认夜氰茁园鲜麻专爆汛姥教娜慕葬编蔫哨烷八染迎熔数据分析方法第一章数据分析方法第一章14第一章概述设x1，.，xn是总体X的样本， 3、 4分别表示总体X的3、4阶中心矩，即 3=E (X- ) 3， 4 =E(X- ) 3其中=E (X) ，则总体偏度为: G 1 = 3 / 3 总体峰度为: G 2 = ( 4 / 4)-3且数据的偏度g1和峰度g2分别是总体偏度G 1和总体峰度G 2 的相合估计，即当n充分大时，有 G 1 g1 ， G 2 g2总体偏度是度量总体分布是否偏向某一侧的指标；总体峰度是以同方斋戒的正态分布

12、为标准，比较总体分布尾部分散性的指标；结论与数据偏度与峰度相同烬嘎甚坠俩杜桶贯碌氮浙磁竟茨全沙氧骋吃伯朔颊晾瘪各堰把僳翼懊羡死数据分析方法第一章数据分析方法第一章15第一章概述在SAS中计算一维数据的数字特征1 PROC MEANS过程2 PROC UNIVARIATE过程曼硼插泅二泪空闸父夺蝴防吠驶裴溅讫惩铣衔进芒场辜誉翟漫蚕洗少步疚数据分析方法第一章数据分析方法第一章16第一章概述1. MEANS过程(1) MEANS过程的一般格式： PROC MEANS 选择项统计量关键字列表 ; VAR 变量表; 要分析的变量名列BY 变量表; 按变量名列分组统计，要求数据集已按变量名列排序C

13、LASS 变量表; 按变量名列分组统计，不要求数据集排序FREQ 变量表; 表明该变量为分析变量的频数WEIGHT 变量表; 表明分析变量在统计时要按该变量权重ID 变量表; 输出时加上该变量作为索引OUTPUT OUT=数据集统计关键字=变量名 ; 指定统计量的输出数据集名关键字= . ; 指定统计量对应的新变量名擅灯绿福箩究卤钩姑涝澎戎再素票愧脾句宇讶犀抽涉壁炙锯禹诊握抿污录数据分析方法第一章数据分析方法第一章17第一章概述二、选择项说明 DATA=SAS数据集将计算出的统计量输出到一个数据集。所有PROC MEANS语句中可用统计量均可在此指定。NOPRINT 说明不输出任何描述

14、性统计值。MAXDEC=n 指出MEANS用于输出结果的最大小数位（0），缺省值为7。FW=n n为输出统计量时的字段宽度，缺省值为12。VARDEF=N|DF|WGT|WDF 指定方差计算所用的分母。 N表示观察值的总数; WGT表示权重和WDF表示权重和减1; DF表示自由度N-1MISSING 指定MEANS过程将缺失值视为一个特殊分组处理，否则缺失值将被剔除。统计量用来指定进行计算的描述性统计量。缺省统计量选择项时，只输出N、MIN、MAX、MEAN、STD。豪嗡幸记毗先惋瞻譬色袖存灿志近十赎募子猩碟饿庇带删秽琢迷涪亢掐仓数据分析方法第一章数据分析方法第一章18第一章概述三、ME

15、ANS过程中常用的统计量关键字有： l基本统计量 N MEAN STD CV SUM VAR RANG MIN MAX USS CSSl与假设检验有关的统计量 STDERR(标准误） T PRT(与t对应的p值) LCLM(可信区间下限) UCLM(可信区间上限) 四、PROC MEANS过程中的其他语句 lVAR语句：列入变量表的数据集变量将被MEANS过程分析、若无次句，则计算输入数据集中除BY、ID、CLASS、FREQ、WEIGHT语句中的变量之外的所有变量的统计量。 l BY语句：指定变量进行分组处理。（事先必须按BY语句指定的变量将输入数据集按升序排序）桔矽杰贰淮最拼桃溃刷它都见

16、雏队噎屹迫伟驱祷筷口住简延鸡勇峦擅贫宴数据分析方法第一章数据分析方法第一章19第一章概述可以计算的描述性统计量关键字及其含义见下表。关键字所代表的含义关键字所代表的含义n有效数据记录数range极差nmiss缺失数据记录数skewness偏度mean均值kurtosis峰度std标准差t分布位置假设检验之t统计量stderr标准误probt上述t统计量对应的概率值var方差q1第一四分位数median中位数q3第三四分位数mode众数qrange四分位数间距cv变异系数p1第一百分位数max最大值p5第五百分位数min最小值p10第十百分位数sum总计p90第九十百分位数sumwgt加权值

17、总计p95第九十五百分位数css校正平方和p99第九十九百分位数uss未校正平方和金做苫胃菱悠敲遭拽山司许檀占哦刘螺劣龋兢促蹿段为气课且玻氨股教檀数据分析方法第一章数据分析方法第一章20第一章概述(3) 使用CLASS语句和BY语句使用CLASS语句和BY语句可以分组计算分析变量的描述统计量值，由CLASS语句和BY语句指定的变量在分析中起分组（类）的作用，被称为分类变量。两个语句的区别是：使用BY语句时要求数据集须按BY变量排序，使用CLASS语句无此要求。使用BY语句时输出按BY变量的每个值分别提供一个表，使用CLASS语句则将所有结果排列在一个表之中。湖争彰锄腾珐复识琉藤漾鉴乔氖

18、哮溯郁桨棚洞沂锡近许蘑淄同靠恕疽演逢数据分析方法第一章数据分析方法第一章21第一章概述使用BY语句之前先排序，如下代码可以在上例中按变量R_Id分组统计：proc sort data = mylib.sryzc;by R_Id;run;proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min; var Income; by R_Id;run;栽缚椅速恃团肪荣倾澡詹澡模略螺敬湖碴蜗郑脚讯傀的黎债倘彦伤酗碍担数据分析方法第一章数据分析方法第一章22第一章概述使用CLASS语句分组较为简单，如下代码也可以在上

19、例中按变量R_Id分组统计：proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min;var Income; class R_Id;RUN;涤挡鬼雪汪勒距垦萤点痰灭独稻双俺轨筹饮地择匡坠钧布主浊谨不宾恃寇数据分析方法第一章数据分析方法第一章23第一章概述l FREQ语句：指定某一变量，表示同一观察的出现次数。l OUTPUT OUT=数据集：将MEANS过程的结果输出给指定的数据集中。八、缺失数据处理 1VAR变量：MEANS过程在开始计算某一变量的描述性统计之前，先将那些在变量上有缺失的数据的观察删除。被

20、删除的观察若在其它变量上没有缺失数据，则会纳入其它变量的计算过程中。 2变量：若观察在BY变量上有缺失数据，则MEANS过程会为这些观察另形成一个分组，同样进行计算分析。拥颊窃树衷橡艳殷植蛊订割炉县盏云妈珠猪疽嗓质晌称廉瘴湖藐拔成围足数据分析方法第一章数据分析方法第一章24第一章概述3. UNIVARIATE过程 UNIVARIATE过程与MEANS的功能大同小异，他们都可以可对数值变量进行一般性的统计描述，但UNIVARIATE过程还给出变量的峰度、偏度、众数、中位数、四分位数、数据分布的正态性检验、符号秩检验等统计量。而且UNIVARIATE过程中具有绘图功能。其中，HISTOGRAM

21、语句用来指示SAS对其后所指定的变量绘制直方图，其后的选项用来指示SAS添加不同类型的拟合图形（如正态分布的分布密度曲线）膳咖栓援绣维佃服才峨皇堤槐瓮网巫驳懈常塘闺试孤使缉灸猿鲁壶弦绞吏数据分析方法第一章数据分析方法第一章25第一章概述UNIVARIATE过程的一般格式为:PROC UNIVARIATE 选择项;VAR 变量表; 指定要分析的变量名列BY 变量表; 按变量名列分组统计，要求数据集已按该变量名列排序FREQ 变量; 表明该变量为分析变量的频数WEIGHT 变量; 表明分析变量在统计时要按该变量权重ID 变量表; 输出时加上该变量作为索引OUTPUT OUT=SAS数据集关键

22、字=名称; 指定统计量的输出数据集名关键字= . 指定统计量对应的新变量名PCTLPTS=PCTLPRE= ; 指定所需百分位数对应的输出变量名植谗狰婴隧莆县给南遁婆蜀挖鞍贡半块铅诲寄防拴升肋恬帮洪阶拇独藻闲数据分析方法第一章数据分析方法第一章26第一章概述二、选择项说明DATA=数据集该选择项指定PROC UNIVARIATE使用的SAS数据集。缺省值为最新建立的数据集。NOPRINT 指定抑制产生报表。PLOT 指定给出三幅数据图：茎叶图（或水平棒图）、盒状图和正态概率图。FREQ 该选择项给出变量值、频数、百分数、累计百分数组成的频数表。虚尝鞍申逢炼素硅咐履侗内痢浓泣绿懦获悠视付饰

23、姜喻着地呵杰何恰日复数据分析方法第一章数据分析方法第一章27第一章概述NORMAL 指定假设输入数据来自正态分布总体，然后给出统计检验量，并输出统计检验量的端值。正态检验: 若在过程中指定NORMAL选择项时，过程将数据视作取自正态分布的随机样本并给出一个统计检验。当样本量小于2000时，计算Shapiro-Wilk统计量W，W值在0与1之间，W值越小越拒绝H0假设；当样本容量n大于6时，W的显著水平由Royston近似正态变换获得；当样本量大于2000时，计算Kolomogorov统计量。 W值越大越表示数据来自正态分布。PrW给出了概率（0P1）值P，P值越接近0，则表示越拒绝数据来自正

24、态分布的假设。近讼寄禹索耳膜焕篡朝羊番肄瞧修赞八读琅荣啪月号吹贩印搂咎险赊贤注数据分析方法第一章数据分析方法第一章28第一章概述PCDLDEF=1|2|3|4|5 指定计算百分位数的方法。缺省此项，则PCDLDEF=4。VARDEF=DF|N|WEIGHT或WGT|WDF 指定计算方差时的分母。DF是以自由度N-1做分母；N是以观察值数N做分母；WGT是以权重和做分母；WDF是以权重和减1做分母。缺省值为VARDEF=DF。ROUND=舍入单位。淄乍御枣淄纫诛油拍缸削辐斥岂忘笑紧剧沥焦疆胞令鸣税辞呵龚饥妆睛祝数据分析方法第一章数据分析方法第一章29第一章概述三、过程中常用的统计量关键字

25、SAS中用关键字来指定所需要的统计量，事实上结果输出中用的就是各种关键字，常用的关键字有：基本统计量 N MEAN STD(标准误) CV SUM VAR(方差) RANG 等百分位数描述 MIN P1 P5 P10 Q1 MEDIAN Q3 P90 P95 P99 MAX 与假设检验有关的统计量 STD MEAN(标准误) T 酥抚铆毖冰很远霉粉纷仪削苫辽悲雍谍惑壬略簇坷顿定匿足仪痘霞莱粟麦数据分析方法第一章数据分析方法第一章30第一章概述输出包括五个部分。第一部分是矩统计量，各统计量已在前面作了介绍。第二部分为基本的位置和分散程度统计量，位置统计量包括均值、中位数、众数，分散程度统

26、计量包括标准差、方差、极差、四分位间距第三部分为关于均值等于零的三种检验的结果，包括t检验、符号检验和符号秩检验。第四部分为各个重要的分位数。第五部分是观测数据的五个最低值和五个最高值。昌螟遮砷钝禄彼韦绰钥董挎小忱肮已迪罕捶钓扯歉煮豪拍沉汰眺晴殆木熙数据分析方法第一章数据分析方法第一章31第一章概述data examp1_1;input x ;cards;74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3

27、 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5

28、73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4;例1.1矽队纷泽羹葫女嚣舞宪堆玄下敲党胯箩谩弯耳碌淬雨可职疯沫透弹晤滓停数据分析方法第一章数据分析方法第一章32第一章概述proc univariate data=examp1_1 noprint;var x;output out=out mean=mean median=median Q1=Q1 Q3=Q3 p99=p99 p95=p95 p90=p90 p10=p10 p5=p5 p1=p1;proc print data=out;run;d

29、ata a;set out;Q=0.25*Q1+0.25*Q3+0.5*Median;run;proc print data=a; var Q;*只输出Q；没有输出所有的arun;任埋赎袱丘尔开逮职利佰豪侄抑掷遵陋雌家伪织多珠窑辫秧店包弓邮暂彻数据分析方法第一章数据分析方法第一章33第一章概述proc univariate data=examp1_1 noprint;var x;Output out=out mean=mean Median=Median Q1=Q1 Q3=Q3 p99=p99 p95=p95 p90=p90 p10=p10 p5=p5 p1=p1 var=var std=s

30、tdcv=cv QRANGE=QRANGE;proc print data=out ;run;例1.2夜眉奏怂蓝榜伦砍攫某帽吾抄侗煽壕蝉锈蛔崩财丽伟霓吴厂大厢渺格蒲楔数据分析方法第一章数据分析方法第一章34第一章概述data a;set out;Q=0.25*Q1+0.25*Q3+0.5*Median;D=Q1-1.5*QRANGE; U=Q3+1.5*QRANGE;sigma=QRANGE/1.349;run;proc print data=a;run;data b;set examp1_1;if 64.3=x82.7 then delete;run;proc print data=b;r

31、un;肘险梧躁喜旦务憎刃励勾烦船竿静险强乍窥莹辖壶外攒蛹工臭宴淖赁檬磊数据分析方法第一章数据分析方法第一章35第一章概述proc univariate data=examp1_3 noprint;var x x1 x2 x3;output out=out mean=mean1 mean2 mean3 mean4var=var1 var2 var3 var4 std=std1 std2 std3 std4Median=M1 M2 M3 M4 RANGE=RANGE1 RANGE2 RANGE3 RANGE4Q1=Q11 Q12 Q13 Q14 Q3=Q31 Q32 Q33 Q34 QRANGE

32、=QRANGE1 QRANGE2 QRANGE3 QRANGE4Skewness=SKEWNSS1 SKEWNSS2 SKEWNSS3 SKEWNSS4KURTOSIS=KURTOSIS1 KURTOSIS2 KURTOSIS3 KURTOSIS4;proc print data=out;例1.3恐氖责胚衫跌展律分迁甄骡虏齐亩橇愚挪肺胎妥黎枉懈怠脉铱宿挫皱虹灯数据分析方法第一章数据分析方法第一章36第一章概述data a;set out;Q111=0.25*Q11+0.25*Q31+0.5*M1; Q112=0.25*Q12+0.25*Q32+0.5*M2; Q113=0.25*Q13+0.

33、25*Q33+0.5*M3;Q114=0.25*Q14+0.25*Q34+0.5*M4; D1=Q11-1.5*QRANGE1;U1=Q31+1.5*QRANGE1; D2=Q12-1.5*QRANGE2; U2=Q32+1.5*QRANGE2;D3=Q13-1.5*QRANGE3;U3=Q33+1.5*QRANGE3; D4=Q14-1.5*QRANGE4; U4=Q34+1.5*QRANGE4;run;proc print data=a;var Q111 Q112 Q113 Q114 D1 D2 D3 D4 U1 U2 U3 U4;run;挽奔毯逛岩铰解终究恃吾谜拄衬凝晓痢冰乙尿捂怖准记亚

34、菌驰丧纪拣否否数据分析方法第一章数据分析方法第一章37第一章概述小结本次课主要学习了表征一维数据位置、分散性和分布形状等的数字特征以及SAS求数字特征的PROC MEANS过程与PROC UNIVARIATE过程斑陕才危姐置兼沙腺导彦狙刺枫湃挛吩酶惊鸣汞铝厨唾侩津赛祷辑贺伐啮数据分析方法第一章数据分析方法第一章38第一章概述1.2 数据的分布数字特征刻画了数据的主要特征，而要对数据的总体情况作全面的描述，必须研究数据的分布，数据分布的主要描述方法是：1.2.1 直方图、经验分布函数和QQ图1.2.2 茎叶图1.2.3 数据的分布拟合检验与正态性检验瘟岳盛损须危犬七凄弄深皂魁绕膏缩糯禽

35、魁皖绦督屹涟赞貉僵锅莲轴考涩数据分析方法第一章数据分析方法第一章39第一章概述1.2.1 直方图、经验分布函数和QQ图1. 直方图对于数值型变量，常用直方图(histogram)来展示变量取值的分布。将变量取值的范围分成若干区间，在等间隔区间的情况，每个区间的长度称为组距。考察数据落入每一区间的频数与频率，在每个区间上画一个矩形，它的宽度是组距，它的高度可以是频数、频率或密度（频率组距），在高度是密度的情况，每一矩形的面积恰是数据落入区间的频率，这种直方图可以估计总体的概率密度频率组距。瘩萌器贺浙楷寿臻潘迷腊扑综富宝潦遥发储三酷芹酞猴恫爹烯贴护刘烃企数据分析方法第一章数据分析方法第一章40

36、第一章概述例某工厂生产一种零件，由于生产过程中各种随机因素的影响，零件长度不尽相同。现测得该厂生产的100个零件长度(单位: mm)如下:频率直方图作法129, 132, 136, 145, 140, 145, 147, 142, 138, 144, 147, 142, 137, 144, 144, 134, 149, 142, 137, 137, 155, 128, 143, 144, 148, 139, 143, 142, 135, 142,148, 137, 142, 144, 141, 149, 132, 134, 145, 132, 140, 142, 130, 145, 148

37、, 143, 148, 135, 136, 152, 141, 146, 138, 131, 138, 136, 144, 142, 142, 137,141, 134, 142, 133, 153, 143, 145, 140, 137, 142, 150, 141, 139, 139, 150, 139, 137, 139, 140, 143, 149, 136, 142, 134, 146, 145, 130, 136, 140, 134,142, 142, 135, 131, 136, 139, 137, 144, 141, 136.这100个数据中，最小值是128，最大值是155。1

38、28155焕柳彻躲板徽决洲遂虑禽淳毙停绝损付屉舷腊灼隆致体垄蹄崔戚宫迂沫建数据分析方法第一章数据分析方法第一章41第一章概述作频率直方图的步骤(1). 先确定作图区间 a, b ;a = 最小数据-/ 2，b = 最大数据+/ 2，是数据的精度。本例中 = 1, a = 127.5, b = 155.5 。(2). 确定数据分组数 m = 1.87(n1)2/5 + 1，组距 d = (b a) / m，子区间端点 ti = a + i d, i = 0, 1, , m；彼疆腐也兰涟藩锯息坡庚陶失凄褥绅衬中罢慕兑硷钙颅尾行讫谣完卯遣琴数据分析方法第一章数据分析方法第一章42第一章概述

39、(3). 计算落入各子区间内观测值频数 ni = # xj ti1, ti)， j = 1, 2, , n，频率 fi = ni / n， i = 1, 2, , m；子区间频数ni 频率fi (127.5, 131.5)60.06(131.5, 135.5)120.12(135.5, 139.5)240.24(139.5, 143.5)280.28(143.5, 147.5)180.18(147.5, 151.5)80.08(151.5, 155.5)40.04勺踌雕硕霉粪唆胶壬陨爱华啮味撑帖帚份嫁遵闹敖喜狂恋暖划窍箭坏程氮数据分析方法第一章数据分析方法第一章43第一章概述(4). 以小

40、区间 ti-1，ti 为底，yi=fi / d ( i=1, 2, , m) 为高作一系列小矩形，组成了频率直方图，简称直方图。贫帖蒜助痢陨迭伎碰向以遂淬嚼鹃啸瘤握虑剁贺坦腐纠庶瞬嘶骸碰妖沮沁数据分析方法第一章数据分析方法第一章44第一章概述密度直方图与频数直方图SAS软件利用proc capability过程会根据样本容量在样本取值范围内自动地确定一个分组方式，另外也提供了设定分组的方法。葫狠励捎蜒跺曲腕烂答晕砷几桐倾浩淬介掩练炮椿正纠恢昧愉蛛嘉蒋刚汁数据分析方法第一章数据分析方法第一章45第一章概述直方图是阶梯形，而常用的概率密度曲线是光滑曲线；参数分布拟合就是在限定的参数分布类

41、中利用数据估计其中参数，用估计的参数所对应的密度曲线去拟合直方图边缘的形态。SAS有如下常用参数分布类型：正态分布: 对数正态分布: 指数分布: 硅润塞彪镇季柯芽优息个那驼铝缓秉牲卑客涂赔愧擂砾伞喉矽岳钩丹尼泥数据分析方法第一章数据分析方法第一章46第一章概述 Gamma分布: Weibull分布: Beta分布: 牙是坚杖侍眯男癌堆袒岸搞扁猿解佯峰法座鳃诧督虑宴伐育侄寿碟聚捂雏数据分析方法第一章数据分析方法第一章47第一章概述2 经验分布函数直方图较适合总体分布为连续型的，对一般总体，通常用经验分布函数估计其总体分布函数F(x)，设x1，.，xn是总体的样本，其经验分布函数是经验分布

42、函数Fn(x)是非降右连续的阶梯函数，是总体分布函数F(x)的相合估计,即当n充分大时： Fn (x) F(x)。SAS软件利用proc capability可以做出Fn (x)与拟合的总体分布函数的图形其中I()是示性函数即奢奸槛朝予赴初管影凹叙寅藏栅伞房筒暑偿梁皱车跋亩替唾挽蛾蚊体爪鹏数据分析方法第一章数据分析方法第一章48第一章概述3. QQ图直方图与经验分布函数图难于从图上判断样本分布是否近似于某种类型的分布，QQ图却能。以正态分布为例说明QQ图的做法：设x1，.，xn是总体的样本，其次序统计量为x(1), x(2), x(n), (x)是标准正态分布函数, -1(x) 是其反函

43、数，其QQ图是由以下点构成的散点图：其中横坐标是(i-0.375)/(n+0.25)的分位数，0.375和0.25是修正量。若样本数据近似于正态分布，在QQ图上近似的在直线y=x+上，此直线的斜率为标准差，截距是均值。囚栗谷蓬玩涧无罩充剪鹤蛆濒插解霍烦涩槽敖各摇漏爆喇使洼绳纪依眷盲数据分析方法第一章数据分析方法第一章49第一章概述其它的分布，也有相应的QQ图，其中散点的横坐标是该分布的对应的分位数，可以判断数据是否近似服从该类型的分布；利用QQ图还可以获得样本的偏度与峰度的有关信息，当数据不是来处正态总体时，QQ图的散点图是弯曲的，并可根据图像的弯曲的某些特点判断偏度或峰度的正负。潦抑

44、绊盟蹋死套鸣银汲玻墩戚匈芜掌令脾柑蹿沙配旨诲左蒙眉灼痪琢尊胎数据分析方法第一章数据分析方法第一章50第一章概述4 散点图通常得到的数据可能有两个变量，比如家庭的收入和支出情况的数据，这里家庭总收入是一个变量，而家庭总支出是第二个变量。希望通过图形了解收入和支出的关系，这时可以用一个变量为横坐标（如家庭总收入），另一个为纵坐标（这里是家庭总支出）来作图。这种图称为散点图(Scatter Plot)。臣贼碧推砚篷檬群京阮沸赢循汪骆如孟蛇颗擞法褥铜震啼磅惑易胯掺惋诈数据分析方法第一章数据分析方法第一章51第一章概述5. 线图线图(Line Plot)用来表示变量间的取值变化情况，有单式和复

45、式两种（图2-25）。在复式线图中可用不同颜色的实线来标志区别，如图2-25右所示。搽君轩狱咖色营棱肤锋湾论丧痕巾新笛往销遍靴枚圭思韭损食纠芥介斯韶数据分析方法第一章数据分析方法第一章52第一章概述SAS的Proc capability过程:不但具有univariate的分析功能，且能做直方图、拟合参数概率密度、作经验分布曲线及拟合的分布曲线、作QQ图等。基本语句： Proc capability options;Histogram variables/options;Cdfplot variables/options;QQplot variables/options;1) Proc c

46、apability options可包括以下选项:DATA=SAS数据集指定所分析与作直方图的SAS数据集名称;Graphics: 指明作高分辨率图形，缺省时将输出由字符构成的低高分辨率图形Noprint: 取消与univariate过程相同的有关描述性统计的输出汉帜咎愿亚葬狗矿军稽贷铁镀趣群持丽蛀辖蒸潦锥秽椽咎楞总陆脾裹音勺数据分析方法第一章数据分析方法第一章53第一章概述Histogram variables/options; *作直方图对指定的变量variables作直方图，options可以是：Midpoins=values: 设置分组区间的中点值，可以逐个列出(等间隔)；也可以用

47、“Midpoins=a TO b BY c”方式指定，其中a和b分别为各区间中点的初值和终值，c为步长。缺省时，系统自动根据数据确定各区间中点值。Vscale=scale:规定直方图在每个区间上柱的高度标准，其中scale可以是：Count, Percent, Proportion，分别表示每个区间上柱高为数据个数、数据个数占整个数据量的百分比和比例。缺省时，为Percent.Normal(或Lognormal, Gamma,Weibull,Beta, Exponential):要求在直方图上拟合指定的分布的概率密度函数曲线，可以同时列出一种或多种分布，其中的参数系统将自动用其极大似然估计值代

48、替，也可在分布名称后加括号予以指定：祭豢呵偿迸培痔释恍水夷擎吝块雏痹星扎狸样韭寿惦将剧肆感往陀于翱支数据分析方法第一章数据分析方法第一章54第一章概述各分布密度中的参数均用“Sigma=value”来指定；Normal分布中的均值用“MU=value”指定； Gamma分布中的参数用“Alpha =value”指定； Weibull分布中的参数c用“C =value”指定； Beta分布中的参数、用“Alpha =value Beta= value ”指定；其中上面的所有的“value”可用 “EST”代替，表示用其极大似然估计值代替相应参数。如： Normal(MU= EST Sigma=

49、1) Lognormal(Sigma=3) Beta(Alpha =1.5 Beta= 2)此过程还对所拟合的分布自动输出第1章所述的几种分布拟合检验(2检验，Kolmogorov-Smirnov检验，Anderson-Darling检验，CramervonMises检验)的统计量的值和检验p值。君诱陪残随蜗听绒郊揽秽浇它蛤缘咋控巩蚤妻吮侍投硅缘哄暂相勺又贸翘数据分析方法第一章数据分析方法第一章55第一章概述另外，除正态分布外，其他分布均是单侧的，一般需要指定门限参数的值，也可在分布名称后的括号内加“Theta=value”指定，如“Weibull (Theta = value C= 2)”

50、，其中value比数据的最小值还要小，若不指定则自动设为“Theta=0”，同时Beta分布中的参数、的和要大于相应变量的观测值的最大值秀船屯椭丸色棒扑褪蔗粘舵兄美誉段谴桑传八裸篆搬疏叭薛忽内颇急秩叔数据分析方法第一章数据分析方法第一章56第一章概述Cdfplot variables/options; 作经验分布函数曲线及拟合的分布函数曲线；其中options是前述的6种分布QQplot variables/options; 作QQ图Options指定作QQ图的分布名称也是前述6种分布；作QQ图时：Lognormal必须在其后括号内至少写上“Sigma=value”或“Sigma=SET”；

51、 Gamma分布和Weibull分布要写上“Alpha =value或SET”及“C =value或SET”； Beta分布要写上“Alpha =value或SET Beta= value或SET”。劝澎褂杰老阜涪同渔继订膏摔络叙忙惫酿厄奈吵设嘶涝刹环创蒲振创藏炎数据分析方法第一章数据分析方法第一章57第一章概述例1.4data examp1_4;input x ;cards;74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 7

52、8.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72

53、.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4;隘根敏郑革军绿着洒蹿品诸恕越尉佬睛陀惩茶腹昂沿餐毅钳玫伴改刮诌乎数据分析方法第一章数据分析方法第一章58第一章概述例1.4proc capability data =examp1_4 graphics noprint;histogram x/normal(mu=est sigma=est) vscale =proportion;cdfplot/normal(mu=est sigma =est);qqplot x/normal(mu

54、=est sigma =est);run;莉绕趟疆伊澜羔转帐力凸隘秉解怪显撰饮总吻旧划袖蒲凯庞勾栋烟炬窜约数据分析方法第一章数据分析方法第一章59第一章概述PLOT与GPLOT过程可用于描绘散点分布图，以直观地显示数据的变化趋势及数据间的相关关系等。DATA D3; DO X=0 TO 360 BY 20; Y=SIN(X*3.14159/180); OUTPUT; END;PROC PLOT ; PLOT Y*X;RUN;岂吉眩椿剩私煮骄理吉案奸轴匆饥绘毗躯浪寺昂掖膨符触骄检壕庞懂载综数据分析方法第一章数据分析方法第一章60第一章概述 Plot of Y*X. Legend: A = 1

55、 obs, B = 2 obs, etc. 1 + A A | A A | A A Y | | A A | 0 + A A A | | A A | | A A | A A -1 + A A -+-+-+-+-+- 0 100 200 300 400 X往宵荒渣碟宠开供茂拦她冷秃莉辉氯淮米扯淑德纺萄允沪社蜂昼纽耿证首数据分析方法第一章数据分析方法第一章61第一章概述通过PLOT过程提供的其它语句和选择项可对散点图作出如下更加具体的要求： l 可以根据用户的要求选择散点图的作图符号； l 可以用变量值加标签。 l 可以选择坐标的刻度、间隔及标记； l可以选择图的大小；可在一页纸上画两个以上图。

56、 l 两个散布图可以重叠在一张图上。 l可绘制等值线图（或称轮廓图，层次图等）。 l可对图沿水平方向或垂直方向进行扩展.眠卤蛇昂棉蠢膝状君欠鱼怪逛玻综烯速应辨雄材河熔治玻数率岁留睁赛伙数据分析方法第一章数据分析方法第一章62第一章概述PLOT语句说明在PLOT过程中可使用下列语句： PROC PLOT options; BY 变量表;. *可选语句 PLOT yvariable*xvariable=symbol/options; 选择项(1)data=sasdataset:指出作图用的数据集，缺省时，以最新的数据集作图;(2)Vpercent=percent或Vpct=percent:规定

57、该过程产生的散点图在垂直方向占一页的比例，如“Vpct=33”表示让proc plot过程在每一页作3张图，每张图占一页的1/3; (3)Hpercent=percent或hpct=percent:规定各图在水平方向上占一页的比例;遥食儿囤耳费骡舟沃蛀阻煞元劝絮皑成首珠极姚醒罕芥跃丹熬学壳沪肌泻数据分析方法第一章数据分析方法第一章63第一章概述PLOT yvariable*xvariable=symbol/options; 说明作图变量，点表示的符号及坐标刻度规定等，其中yvariable*xvariable指出作图的数据集中变量的名称，中间用*连接； symbol指出散点的表示符号，如*，

58、+等，缺省时用A，B等；plot后可依次列出多组变量，如“Plot X1*Y1 X1*Y2 X2*Y1”等；斜杠后的options可以省略也可以是以下内容 (1)Haxis或Vaxis=a to b by n:定义横坐标或纵坐标上的刻度；(2)Overlay：将PLOT后的几对变量所形成的散点图做在同一坐标系内，如“Plot X1*Y1=F X1*Y2=T ”;(3)Box:要求将图做在一个矩形框内。摘溃逼漱柜带撰租昔瓜锡酬秦吩霉像河钳谓搜十袭个澈劣皇谓您败了釜宁数据分析方法第一章数据分析方法第一章64第一章概述应用举例例8.4.3 某一地区有12个采样点, 测得某类废水中COD和BO

59、D的浓度如程序中数据所示。编程绘制其关系图。程序如下：DATA DD;INPUT COD BOD ;CARDS;1112.3 154.5 1560.2 210.3 899.5 133.6800.4 110.2 1443.2 180.8 1555.5 201.4700.4 103.5 456.3 90.7 1433.2 177.71421.5 171.0 1600.3 221.5 560.8 80.9PROC PLOT ;PLOT COD*BOD;RUN;补怂棚资峰掩幅七啮代致锄臂惮曳荚伸产管拓祈梗脉惟查战滓颁跺流恬鳃数据分析方法第一章数据分析方法第一章65第一章概述 2000 + | | |

60、 A 1500 + A A A | A A COD | | A 1000 + | A | A A | 500 + A A -+-+-+-+-+-+-+-+-+- 80 100 120 140 160 180 200 220 240良峙役馏酚刊处矛谣博箕屁狭闲疙鱼附劝彰甘建词恶泉菇边弦嗜挑纫养拭数据分析方法第一章数据分析方法第一章66第一章概述GPLOT语句说明在GPLOT过程中可使用下列语句： PROC GPLOT options; PLOT yvariable*xvariable/options; Symbol options;PROC GPLOT选择项主要指出作图用的数据集。PLOT

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据分析方法第一章课件

文档简介

温馨提示

最新文档

评论

数据分析方法第一章课件

文档简介

温馨提示

最新文档

评论

相关文档