版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第1章 数据的描述性分析1.1 数据的数字特征 数据分析研究的对象是数据,一元数据是 个观测值 要研究数据的数字特征,分析数据的集中位置、分散程度、数据的分布是正态还是偏态。对于多元数据,要分析数据各个分量的相关性等等 . 1.1.1 均值、方差等数字特征 1.均值 2.方差 标准差 变异系数 nnxxx,21niixnx11niixxnS122)(112SS (%)100 xSCV3. 阶原点矩 阶中心矩 偏度 偏度是刻画数据对称性的指标,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负,关于均值对称的数据偏度为0. 峰度 当总体分布为正态时,峰度近似为0;当分布较正态分布的尾部更分散,峰
2、度为 正,否则峰度为负.kknikikxnv11nikikxxnu1)(13321331)2)(1()()2)(1(SnnunxxSnnngnii)3)(2() 1(3)()3)(2)(1() 1(21442nnnxxSnnnnngnii) 3)(2() 1(3) 3)(2)(1() 1(2442nnnSnnnunn 当数据是某些总体随机取出的样本时,数据数字特征即是样本的数字特征.与样本数字特征对应的是总体的数字特征.样本数字特征是相应的总体数字特征的矩估计. 例例1.21.2 某单位对100名女学生测定血清总蛋白含量(g/L),数据如下: 74.3 78.8 68.8 78.0 70.4
3、80.5 80.5 69.7 71.2 73.5 79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0 75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0 73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5 75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0 70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3 73.5 79.5 73.5 74.7 65.0
4、76.5 81.6 75.4 72.7 72.7 67.2 76.5 72.7 70.4 77.2 68.8 67.5 67.5 67.3 72.7 75.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.3 73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4计算均值、方差、标准差、变异系数、偏度、峰度解 用SAS系统PROC UNIVARRIATEPROC UNIVARRIATE 过程计算,得 偏度、峰度的绝对值皆较小,可以认为数据是来自正态总体的样本.1.1.2 中位数、分位数、三均值与极差 这些数字特
5、征适合总体分布未知或有偏态的数据.设 是 个观测值,将它们按由小到大排为:称为次序统计量.最小次序统计量 与最大次序统计量 分别为940.3524.15660.732SSx034.0061.0349.521ggCV,21xxnnx,)() 2() 1 (,nxxx) 1 (x)(nxiiniixxxxmaxmin)()1(1. 中位数与极差 中位数 中位数位于数据中心位置,中位数具有稳健性,受异常值影响较小. 极差 2. 分位数 对 , 分位数其中 是 的整数部分,当 定义 . 分位数又称第100 百分数.大体上有100 %的观测值不超过 分位数. 即中位数.为偶数为奇数nxxnxMnnn)(
6、21)12()2()21()1()(xxRn10pp为整数为分位数npxxnxMnpnpnpp)(21)1()()1(npnp1p)(1nxM pppp5 . 0M上四分位数 下四分位数 下列分位数经常用到:四分位极差 四分位标准差 总体标准差 的稳健估计三均值 描述数据集中位置的稳健估计 下截断点 小于下截断点的数据为特小值上截断点 大于上截断点的数据为特大值特小值、特大值合称异常值. 用PROC UNIVARIATE过程计算分位数、四分位极差;用PROC IML过程计算三均值、四分位标准差,下、上截断点.75. 03MQ 25. 01MQ 01. 005. 010. 090. 095. 0
7、99. 099. 0,MMMMMMM131QQR349.11R31412141QMQM115 . 1 RQ 135 . 1 RQ 例1.8(续例1.2)用PROC UNIVARIATE 过程,PROC IML过程计算得到: 下、上截断点分别为64.3和82.7,故数据84.3是异常值(特大值). 将异常值84.3剔除,在进行计算分析,得 可见, 更为接近, 与 与原数值相等,说明有稳健性,而 原数据的值为3.940,现为3.810说明 对异常值无稳健性. 95.82, 2 .71, 8 .75, 5 .7399. 013MQQM3 .674 .68,15.79, 5 .8005. 010. 0
8、90. 095. 0MMMM,41. 3, 6 . 4,20,65.64101. 0RRM4 .73M810. 3,55.73Sx8 .75, 5 .733QM6 . 4, 2 .7111RQMx、13QQM、1RSS1.2 数据的分布数据的分布 对数据的总体情况作全面描述要研究数据的分布。1.2.1 直方图、经验分布函数与直方图、经验分布函数与QQ图图1. 直方图 数据取值范围分成若干区间,区间长度称为组距,每个区间上画一矩形,宽度是组距,高度是频率/组距,每一矩形的面积是数据落入区间的频率.SAS系统根据样本容量和样本取值范围自动确定合适的分组方式.PROC CAPABILITY过程可以做
9、出直方图. 直方图可以对总体概率密度 的估计,这就是拟合分布曲线.SAS系统用PROC CAPABILITY 过程做直方图与拟合参数分布密度曲线.)(xf SAS系统中分布类型: 1)正态分布; 2) 对数正态分布; 3)指数分布; 4) 分布(Gamma分布); 5)Weibull分布; 6)Bata分布.2. 经验分布函数 设来自总体分布 的样本是 ,其次序统计量是 .经验分布函数是 是非降阶梯函数, 处跃度是 (若 重复取值 次,则跃度为 ). 是充分大时, .)(xFnxxx,21)()2()1(,nxxx)()1()1()1(111,/;0)(ninxxnixxxnixxxF)(xF
10、n)()(xFxFn)(ix)(ixn1knkn3. QQ图 设总体分布为正态分布 ,标准正态分布函数 ,其反函数 .QQ图是由以下的点构成的散点图:若样本数据近似于正态分布,在QQ图上这些点近似地在直线 附近. 例1.10(续例1.2) 利用例1.2的数据 (1)作直方图,并拟合正态分布曲线; (2)做经验分布函数图,并拟合正态分布函数曲线; (3)作正态QQ图,并在直观上鉴别样本数据来自正态总体. 解 利用PROC CAPABILITY 过程可解决上述问题.nixnii1),25. 0375. 0()(1),(2N)(x)(1x xy直方图经验分布函数图QQ图1.2.2 茎叶图、箱线图及五
11、数总括1. 茎叶图 例1.11 某班有31个学生,某门课程考试成绩如下: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100作出茎叶图. 解 第一个数25十位数为2,个位数为5.以个位数为单位,将25用“”分开:25 2 | 5. 这样,得茎叶图. 频数 2 5 1 3 4 5 1 5 0 4 5 3 6 1 4 8 3 7 2 5 5 8 9 5 8 1 3 4 4 4 5 6 6 6 7 9 9 9 13 9 0 1 1 2 4 100 1特点: 1)直观
12、看出数据分布情况,绝大部分数据在7095之间,在8089之间形成一个高峰,数据没有30余分,数据有间隙. 2)自然显出数据排序.可看出原数据次序统计量. 例1.12 铅压铸件硬度数据如下: 53.0 70.2 84.3 55.3 78.5 63.5 71.4 53.4 82.5 67.369.5 73.0 55.7 85.8 95.4 51.1 74.4 54.1 77.8 52.469.1 53.5 64.3 82.7 55.7 70.5 87.5 50.7 72.3 59.5作出茎叶图. 解 利用PROC UNIVARIATE过程,可作茎叶图.为简化,将小数点后数据四舍五入,以十位数为茎,
13、个位数为叶,并把每茎分裂成两行:一行的叶取0,1,2,3,4,另一行取5,6,7,8,9.计算结果数据从大到小排列. 频数频数 9 5 1 9 8 6 8 2 8 2 3 4 3 7 8 8 2 7 0 0 0 1 2 3 4 7 6 7 9 2 6 0 4 4 3 5 5 6 6 3 5 1 1 2 3 3 4 4 7 2. 箱线图 画一个矩形,两个端边分别是 ,中间两道线,处于 位置.两端向外各画一道直线,分别到上截断点 ,下截断点 .异常值用“”号表示.31,QQMx,135 . 1RQ 115 .1RQ 例1.15 作例1.11的箱线图. 解 下、上截断点:36.5,120.5.异常值
14、25.3.五数总括 2171.76,84,68,89113RxMQQMaxMinQQM311002589688431MaxMinQQM1.2.3 正态性检验与分布拟合检验正态性检验与分布拟合检验 检验的 值方法 设检验问题的显著水平为 .检验统计量为 .当假设 成立时,有样本算得的检验统计量的值为 . 设 (双侧检验),则当 , 拒绝 ;当 ,接受 .1. 检验法 样本容量 分组数 落入第i组频数, 落入第 组理论频数 待估参数数 充分大 pT0H0T|0TTPpp0Hp0H2liiiiliiiiEEOnpnpm12122)()(n) 1(22 klliimO iinpE kni假设检验问题
15、不是其中 为指定的总体分布 值方法:则对给定的显著水平 ,当 ,拒绝 ,当 ,接受2. Kolmogorov-Smirnov检验法 假设检验问题仍如上, 经验分布函数 设由样本 算得的 值为 ,又则对给定显著水平 ,当 , 拒绝 ,当 ,接受 . 用PROC CAPABILITY 过程可进行 检验与Kolmogorov-Smirnov检验.)(:)()(:100 xFHxFxFH)(0 xFp202 Ppp0Hp0H)(xFn|)()(|sup0 xFxFDnxnxxx,21D0D0DDPpp0H0Hp2)(0 xF3.正态性W检验方法 设样本观测值为 ,其次续统计量为当n偶, 当n奇 , (
16、 系数) :总体为正态分布 总体非正态分布总有 , 成立时,W值接近于1.当 ;拒绝 ;当 ,接受 .用PROC UNIVARIATE 过程可得W值与p值,从而完成正态性W检验.21)() 2() 1 ()(,xxCSSxxxininnxxx,2121nki211nkiCSSbWdabiiki21,ia0H1H10W0H0WWPpp0H0Hp 例1.19(续例1.2) 对例1.2数据,作 (1) 正态性W检验; (2) 关于正态分布假设的 检验; (3) 关于正态分布假设的Kolmogorov-Smirnov检验 解 (1) 由PROC UNIVARIATE 过程,算得 W=0.9827 p=
17、pW0.9827=0.6709取 ,因p=0.5382 ,接受正态性假设. (2)由PROC UNIVARIATE 过程,算得 =4.0784 p=P 0.4784=0.5382取 ,因 p=0.5328 ,接受正态性假设. (3)由PROC UNIVARIATE 过程,算得 D=0.0655 , p= D0.0655=0.15取 ,因 p=0.15 ,接受正态性假设05. 005. 0205. 005. 005.005. 0221.3 多元数据的数字特征与相关分析1.3.1 二元数据的数字特征及相关系数二元数据的数字特征及相关系数 二元总体,观测数据 观测矩阵 均值向量 的协方差 的协方差
18、的协方差 协方差矩阵相关系数T),(YX,),(,),( ,),(TT22T11nnyxyxyxnnyxyyxxX2121iniiniynyxnx1111yxyxT),(2121)(11)(11yynSxxnSiniyyinixx)(11111yyxxnSnixyyyyxxyxxSSSSSXSxxYSyyYXSxy,)(xyyxSS1,rSSSryyxxxy ,正相关 , 负相关 ,完全线性相关 ,不相关二元总体 分布函数 协方差总体相关系数 当 大,假设检验 成立时, 值, 设显著水平当 ,拒绝 ; 接受 上述定义的相关系数成为Pearson相关系数 设 ,则其次序统计量 ,若 ,则称是 在
19、样本中的秩,记为 .秩统计量.10 xyr01xyr0 xyr1xyrT),(YX),(yxF),(yxCovxyxyrnrt120:0:10 xyxyHH)2( nt0H)var()var(),(YXYXCovxyxyxyrn0H0H0ttPpppp)()2()1(,nxxxnxxx,21)(kixx nRRR,2, 1iRix 例 -0.8 -3.1 1.1 -5.2 4.2次序统计量 -5.2 -3.1 -0.8 1.1 4.2秩统计量 3 2 4 1 5 例 -0.8 -3.1 0.8秩统计量 2 1 3 或 3 1 2对相同观测值 取值为秩平均值: 2.5 1 2.5 样本, 秩统计
20、量 秩统计量 SpearmanSpearman相关系数定义为两组秩统计量的相关系数,记为 ,可证TT22T11),( ,),( ,),(nnyxyxyxT),(YXnxxx,21nRRR,21nyyy,21nSSS,21niSRddnnqiiiinixy, 2 , 1,) 1(61212xyq 例例1.21 某种矿石成分A,B,A的含量百分数x(%),B的含量百分数y(%): (1)计算Pearson相关系数,作假设检验 (2)计算Spearman 相关系数,作上述检验 解 由 PROC CORR 过程,得 (1) , 值为 ,取 拒绝 ,认为 有实际意义 (2) 取 拒绝 ,认为 有实际意义
21、x67 54 72 64 39 22 58 43 46 34y24 15 23 19 16 11 20 16 17 13 0:0:10 xyxyHH3920. 0 xyr2000. 0pp01. 0p0Hxyrp01. 00H4000. 0,90. 0pqxyxyq1.3.2 多元数据数字特征及相关矩阵多元数据数字特征及相关矩阵 是 元总体,样本数据第i个观测数据 ,称样品观测矩阵第i行构成的量有 1) 第 行 的均值 2) 第 行 的方差T21T22221T11211),( ,),( ,),(npnnppxxxxxxxxxT21),(PXXXPnnpppnnxxxxxxxxxxxxX,212
22、12221212111nixxxipiii, 2, 1,),(T21xpjxxxxnjjji, 2 , 1,),(T21)(T)(T)2(T)1(PxxxXiT)( jxipjxnxijnij, 2 , 1,11pjxxnSjijnij, 2 , 1,)(11212T)( jx 的Spearman相关系数 , Spearman相关矩阵 Spearman相关矩阵具有稳健性 数据观测矩阵 数据的标准化处理样品 ,变量观测数据 的协方差阵即 的相关阵.)()(,kjxxjkqkjjkppppqqqqqqqq11121221112QXpjmisxxxjjijij, 2 , 1;, 2 , 1,nppp
23、nnxxxxxxxxx212221212111Xnxxx,21)()2()1(,pxxxT)(T)2(T)1(21),(pnxxxxxxXXX (3) 的协方差均值向量协方差矩阵 (4) 的相关系数相关矩阵 非负定矩阵 刻画变量之间线性联系的密切程度.pjSSpkjxxxxnSjjjkikjijnijR, 2 , 1, 2 , 1,),)(1121)()(ji、xxkjjkppppppSSSSSSSSSSS212222111211ST21)(pxxxx)()(kj、xxkjjkjjjkkjjkjkrrrrpkjSSSr, 1, 1, 2 , 1,11121221112pppprrrrrrRRR
24、1.3.3 总体的数字特征及相关矩阵总体的数字特征及相关矩阵 元总体. 总体分布函数 总体概率密度 总体均值向量 总体 的协方差矩阵设 的相关系数为 总体 的相关矩阵T21),(PXXXXp),()(, 2, 1pxxxFFx),()(, 2, 1pxxXffxpiXEii, 2 , 1)(T21),(PMMMXpxpjkppppppXCovXXE)()()(212222111211TkjXX ,)(),(2jjjjkjjkXVarXXCovXpxpjkpppp)(11121221112jk 设 1) 特别 2) 特别 分别是 的相合估计,当 充分大时, 简单随机样本 与总体 有相同分布; 是
25、相互独立的 元随机向量. T21T21),(,),(qPYYYXXXYXTT)()()()(AAAXACovAXCovAXAEAXEprAccXcVarcXEcXcEccccpTTTTTT21)()()(,),(T)()(),(YEYXEXEYXCovqsBdYXCovcYdXcCovddddccccqp),(),(),(,),(TTTT21T21RSx、RSxnnxxx,21pXnxxx,21 的无偏估计分别是 : 证 记对于随机向量 , 总有故,可证(自证) 故得从而 是 的相合估计:、Sx、 SxEE xxxnnEnnEEiniini1)(1111TT1T1xxxxxxxxnUiinii
26、inizzZCovZEZ)(,)(,TTzzzZZE TTTT,xxxxxCovEEzzzii nCov1xTT1xxnE) 1(1)(TTnnnnUE)(SEx 01limlimnCovnnx 元正态分布其中性质性质:1) 元常向量 则2) 划分 作相应划分则3) 相互独立p)( ,pN)()(21exp21),(,1T21221T21XXXXxxxxxfppP)(),(XXCovEMpbbNp:),(AXYXlArankApl)(,), 6(TAAAYlNppppp2121)2()1(,XXX)(,XPN22222112112)2()1(111pppppp,),(),(12)2(2)2(1
27、1)1(1)1(XXppNN)2()1(21)2()1(, XXXXXpp012 的最大似然估计 设 是来自正态总体 的简单随机样本,其联合概率密度.称似然函数,它是 的函数,若满足 ,则 称 的最大似然估计 定理定理:各为 的最大似然估计 (证略). 注: 的最大似然估计为 . 大时, 因 是 的无偏估计,仍以 作为 的估计.,nxxx,21),(pN)()(21exp)2()(1T122xx,iininnpL),(),( 2121nnxxxxxx)(max)(,LLT11xxxxxiininSnn 1SnSnxxx,21,S, 例例1.23 对某少数民族的21位同袍测量血液中四种成份,的含
28、量,结果如下: 求 的无偏估计. 解 由PROC CORR 过程,计算得到x1x2x3x4118.8217.425.64.933.931627.4532.2419.329.51.729.1517.427.44.535.6615.325.33.632.3716.725.84.433817.426.74.433933.91016.726.76.4351118.2283.229.71216.71331.51416.726332.71518.130.2734.91634.41736.21821.531.55.836.51918.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新能源汽车智能安全-洞察分析
- 网络虚拟化资源调度优化洞察报告-洞察分析
- 污染物吸附材料研发-洞察分析
- 历史中考备考经验交流主题发言稿范文(6篇)
- 外汇市场干预效果评估-洞察分析
- 网络文化对表情包的影响-洞察分析
- 文化遗产保护与环境保护-洞察分析
- 医生申请换科室申请书范文(6篇)
- 农业教育中的技术培训与能力提升
- 办公环境中提升工作效率的色彩配置
- 2024年执业药师资格继续教育定期考试题库附含答案
- 中南运控课设-四辊可逆冷轧机的卷取机直流调速系统设计
- 江苏省苏州市2023-2024学年高二上学期1月期末物理试卷(解析版)
- 2024-2025学年五年级科学上册第三单元《计量时间》测试卷(教科版)
- 大学生国家安全教育智慧树知到期末考试答案章节答案2024年
- 欧美电影文化智慧树知到期末考试答案章节答案2024年上海工程技术大学
- 2024年辽宁盘锦市政建设集团招聘笔试参考题库含答案解析
- 佛山市教育局教学研究室招聘教研员考试试卷真题及答案2022
- 国家开放大学《C语言程序设计》形考任务1-4参考答案
- 博士研究生综合素质及科研能力综合考评评分表
- 氟化物测定方法
评论
0/150
提交评论