版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章数据的描述性分析1.1数据的数字特征
数据分析研究的对象是数据,一元数据是个观测值
要研究数据的数字特征,分析数据的集中位置、分散程度、数据的分布是正态还是偏态。对于多元数据,要分析数据各个分量的相关性等等.
1.1.1均值、方差等数字特征
1.均值2.方差标准差
变异系数阶原点矩阶中心矩偏度偏度是刻画数据对称性的指标,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负,关于均值对称的数据偏度为0.
峰度
当总体分布为正态时,峰度近似为0;当分布较正态分布的尾部更分散,峰度为正,否则峰度为负.
当数据是某些总体随机取出的样本时,数据数字特征即是样本的数字特征.与样本数字特征对应的是总体的数字特征.样本数字特征是相应的总体数字特征的矩估计.
例1.2某单位对100名女学生测定血清总蛋白含量(g/L),数据如下:
74.378.868.878.070.480.580.569.771.273.579.575.675.078.872.072.072.074.371.272.075.073.578.874.375.865.074.371.269.768.073.575.072.064.375.880.369.774.373.573.575.875.868.876.570.471.281.275.070.468.070.472.076.574.376.577.667.372.075.074.373.579.573.574.765.076.581.675.472.772.767.276.572.770.477.268.867.567.567.372.775.873.575.073.573.573.572.781.670.374.373.579.570.476.572.777.284.375.076.570.4计算均值、方差、标准差、变异系数、偏度、峰度
解用SAS系统PROCUNIVARRIATE过程计算,得
偏度、峰度的绝对值皆较小,可以认为数据是来自正态总体的样本.1.1.2中位数、分位数、三均值与极差这些数字特征适合总体分布未知或有偏态的数据.设是个观测值,将它们按由小到大排为:称为次序统计量.最小次序统计量与最大次序统计量分别为中位数与极差中位数
中位数位于数据中心位置,中位数具有稳健性,受异常值影响较小.
极差2.分位数对,分位数其中是的整数部分,当定义.
分位数又称第100百分数.大体上有100%的观测值不超过分位数.
即中位数.上四分位数下四分位数下列分位数经常用到:四分位极差四分位标准差总体标准差的稳健估计三均值描述数据集中位置的稳健估计下截断点小于下截断点的数据为特小值上截断点大于上截断点的数据为特大值特小值、特大值合称异常值.用PROCUNIVARIATE过程计算分位数、四分位极差;用PROCIML过程计算三均值、四分位标准差,下、上截断点.例1.8(续例1.2)用PROCUNIVARIATE过程,PROCIML过程计算得到:下、上截断点分别为64.3和82.7,故数据84.3是异常值(特大值).将异常值84.3剔除,在进行计算分析,得可见,更为接近,与与原数值相等,说明有稳健性,而原数据的值为3.940,现为3.810说明对异常值无稳健性.1.2数据的分布对数据的总体情况作全面描述要研究数据的分布。1.2.1直方图、经验分布函数与QQ图1.直方图数据取值范围分成若干区间,区间长度称为组距,每个区间上画一矩形,宽度是组距,高度是频率/组距,每一矩形的面积是数据落入区间的频率.SAS系统根据样本容量和样本取值范围自动确定合适的分组方式.PROCCAPABILITY过程可以做出直方图.直方图可以对总体概率密度的估计,这就是拟合分布曲线.SAS系统用PROCCAPABILITY过程做直方图与拟合参数分布密度曲线.
SAS系统中分布类型:1)正态分布;2)对数正态分布;3)指数分布;4)分布(Gamma分布);5)Weibull分布;6)Bata分布.2.经验分布函数设来自总体分布的样本是,其次序统计量是.经验分布函数是是非降阶梯函数,处跃度是(若重复取值次,则跃度为).是充分大时,.3.QQ图设总体分布为正态分布,标准正态分布函数,其反函数.QQ图是由以下的点构成的散点图:若样本数据近似于正态分布,在QQ图上这些点近似地在直线附近.
例1.10(续例1.2)利用例1.2的数据(1)作直方图,并拟合正态分布曲线;(2)做经验分布函数图,并拟合正态分布函数曲线;(3)作正态QQ图,并在直观上鉴别样本数据来自正态总体.
解利用PROCCAPABILITY过程可解决上述问题.直方图经验分布函数图QQ图1.2.2茎叶图、箱线图及五数总括茎叶图
例1.11
某班有31个学生,某门课程考试成绩如下:
254550545561646872757578798183848484858686
86878989
8990919192100作出茎叶图.
解第一个数25十位数为2,个位数为5.以个位数为单位,将25用“|”分开:25→2|5.这样,得茎叶图.
频数
2|513|
4|515|04536|14837|2558958|1344456667999139|01124
10|0
1特点:1)直观看出数据分布情况,绝大部分数据在70~95之间,在80~89之间形成一个高峰,数据没有30余分,数据有间隙.2)自然显出数据排序.可看出原数据次序统计量.
例1.12铅压铸件硬度数据如下:53.070.284.355.378.563.571.453.482.567.369.573.055.785.895.451.174.454.177.852.469.153.564.382.755.770.587.550.772.359.5作出茎叶图.
解利用PROCUNIVARIATE过程,可作茎叶图.为简化,将小数点后数据四舍五入,以十位数为茎,个位数为叶,并把每茎分裂成两行:一行的叶取0,1,2,3,4,另一行取5,6,7,8,9.计算结果数据从大到小排列.
频数
9|519|8|6828|23437|8827|000123476|7926|04435|56635|112334472.箱线图画一个矩形,两个端边分别是,中间两道线,处于位置.两端向外各画一道直线,分别到上截断点,下截断点.异常值用“×”号表示.
例1.15作例1.11的箱线图.
解
下、上截断点:36.5,120.5.异常值25.3.五数总括
1.2.3正态性检验与分布拟合检验检验的值方法设检验问题的显著水平为.检验统计量为.当假设成立时,有样本算得的检验统计量的值为.设(双侧检验),则当,拒绝;当,接受.
检验法
——样本容量——分组数
——落入第i组频数,——落入第组理论频数
——待估参数数充分大
假设检验问题不是其中为指定的总体分布值方法:则对给定的显著水平,当,拒绝,当,接受2.Kolmogorov-Smirnov检验法假设检验问题仍如上,—经验分布函数设由样本算得的值为,又则对给定显著水平,当,拒绝,当,接受.用PROCCAPABILITY过程可进行检验与Kolmogorov-Smirnov检验.3.正态性W检验方法设样本观测值为,其次续统计量为当n偶,当n奇,(系数):总体为正态分布总体非正态分布总有,成立时,W值接近于1.当;拒绝;当,接受.用PROCUNIVARIATE过程可得W值与p值,从而完成正态性W检验.例1.19(续例1.2)对例1.2数据,作(1)正态性W检验;(2)关于正态分布假设的检验;(3)关于正态分布假设的Kolmogorov-Smirnov检验解(1)由PROCUNIVARIATE过程,算得
W=0.9827p=p{W≤0.9827}=0.6709取,因p=0.5382>,接受正态性假设.(2)由PROCUNIVARIATE过程,算得=4.0784p=P{≥0.4784}=0.5382取,因p=0.5328>,接受正态性假设.(3)由PROCUNIVARIATE过程,算得
D=0.0655,p=
{D≥0.0655}=0.15取,因p=0.15>,接受正态性假设1.3多元数据的数字特征与相关分析1.3.1二元数据的数字特征及相关系数——二元总体,观测数据观测矩阵
——均值向量的协方差的协方差的协方差
——协方差矩阵相关系数
①,正相关②,负相关③,完全线性相关④,不相关二元总体分布函数协方差总体相关系数当大,假设检验成立时,~值,设显著水平当,拒绝;接受上述定义的相关系数成为Pearson相关系数设,则其次序统计量,若,则称是在样本中的秩,记为.秩统计量.例-0.8-3.11.1-5.24.2次序统计量-5.2-3.1-秩统计量32415
例
-0.8-3.10.8秩统计量213或312对相同观测值取值为秩平均值:2.512.5样本,秩统计量秩统计量
Spearman相关系数定义为两组秩统计量的相关系数,记为,可证
例1.21某种矿石成分A,B,A的含量百分数x(%),B的含量百分数y(%):(1)计算Pearson相关系数,作假设检验(2)计算Spearman相关系数,作上述检验解由PROCCORR过程,得(1),值为,取拒绝,认为有实际意义(2)取拒绝,认为有实际意义x67547264392258434634y241523191611201617131.3.2多元数据数字特征及相关矩阵是
元总体,样本数据第i个观测数据,称样品观测矩阵第i行构成的量有
1)第行的均值2)第行的方差的Spearman相关系数,Spearman相关矩阵
Spearman相关矩阵具有稳健性数据观测矩阵数据的标准化处理样品,变量观测数据的协方差阵即的相关阵.(3)的协方差均值向量协方差矩阵
(4)的相关系数相关矩阵非负定矩阵
刻画变量之间线性联系的密切程度.1.3.3总体的数字特征及相关矩阵元总体.总体分布函数总体概率密度总体均值向量总体的协方差矩阵设的相关系数为总体的相关矩阵设1)特别
2)特别分别是的相合估计,当充分大时,简单随机样本①与总体有相同分布;②是相互独立的元随机向量.
的无偏估计分别是:证
记对于随机向量,总有故,可证(自证)故得从而是的相合估计:元正态分布其中性质:元常向量
则2)划分作相应划分则3)相互独立的最大似然估计设是来自正态总体的简单随机样本,其联合概率密度.称似然函数,它是的函数,若满足,则称的最大似然估计
定理:各为的最大似然估计(证略).注:的最大似然估计为.大时,因是
的无偏估计,仍以作为的估计.
例1.23对某少数民族的21位同袍测量血液中四种成份,的含量,结果如下:求的无偏估计.解由PROCCORR
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 互联网技术外包合同
- 重型货物仓储运输合同
- 培训咨询服务评估合同
- 【项目管理】邵洪芳 教材精讲班教案 34-第3章-3.2.3-专业分包与劳务分包合同管理(二)
- 2024的林业承包合同
- 2024年劳动合同样本范文
- 森林经营中的濒危物种保护策略考核试卷
- 建设放射性金属矿精细化管理系统考核试卷
- 土木工程中的建筑物医院设计与施工考核试卷
- 广告投放方式与效果评估考核试卷
- (新统编版)语文八年级上册 第六单元 大单元教学设计
- 《扇形统计图》(教学设计)-2023-2024学年北师大版数学六年级上册
- 教师个人业务学习笔记(41篇)
- 机械工程导论-基于智能制造(第2版) 第四章 机械制造工艺技术
- 2024北师大版新教材初中数学七年级上册内容解读课件(深度)
- 2024年公共营养师三级考试试卷及答案
- 《乘法分配律》 (教案)2023-2024学年数学 四年级上册 北师大版
- 三位数乘两位数乘法竖式计算练习100道及答案
- 【金融模拟交易实践报告书3700字(论文)】
- DLT5196-2016 火力发电厂石灰石-石膏湿法烟气脱硫系统设计规程
- 2024年青海省中考英语试卷真题(含答案解析)
评论
0/150
提交评论