第六讲数据分析技术_第1页
第六讲数据分析技术_第2页
第六讲数据分析技术_第3页
第六讲数据分析技术_第4页
第六讲数据分析技术_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六讲数据分析技术主要内容数据分析基础单变量分析——就一道题的结果进行分析双变量分析——两道题之间的关联性多变量分析数据分析基础按照计量尺度的不同,数据可以划分为四种类型:定类:只有分类意义定序:只表示顺序,加减无意义定距:没有绝对零点,可以加减,不能做除法定比:有绝对零点定类、定序数据为定性数据,定距、定比数据为定量数据,不同数据有不同的分析方法一、单变量分析原始数据的数量较多,难以把握其本质特征,难以进行比较,所以经常需要使用一些统计量或统计图作为工具来帮助分析一、单变量分析统计量按照测度对象不同,可以分为集中趋势度量离散趋势度量一、单变量分析集中趋势度量指标用以判断数据的位置离散趋势指标用以判断数据的分散程度一、单变量分析1、集中趋势指标

均值(mean)中位数(median)众数(mode)2、离散趋势指标

标准差(standarddeviation)离散系数(coefficientofvariation)四分位距(quartiledeviation)异众比率(variationratio)1、集中趋势指标均值适用于正态分布数据(必定为定量数据)优点:包含了所有数据的信息,是数据的重心、数学性质较好缺点:不稳健,受异常数据的影响很大1、集中趋势指标均值应用时应注意:均值对于个体决策而言意义不大均值必须与标准差结合,才能对数据特征有较客观的认识1、集中趋势指标中位数适用于定序数据和非正态分布或存在异常值的定量数据优点:稳健,含义清晰缺点:将定量数据当定性数据处理,浪费了信息1、集中趋势指标五数概括将中位数、上下四分位数和最大最小值这5个数放在一起,就能刻画出数据分布的大致状态,即为五数概括1、集中趋势指标众数

出现次数最多的数值,适用于定类数据2、离散趋势指标标准差与离散系数适用于定量数据优点:包含了所有数据的信息,数学性质较好缺点:不稳健,受异常数据的影响很大与标准差相比,离散系数更具可比性,对于水平差异较大的数据,通常用后者进行比较2、离散趋势指标四分位距:上、下四分位数的差适用于定序数据和存在异常值的定量数据优点:稳健缺点:将定量数据当定性数据处理,浪费了信息2、离散趋势指标异众比率适用于定类数据

测度集中、离散趋势有三套指标:1、均值——标准差、离散系数适用于正态分布数据2、字母值——四分位距适用于定序数据,当注重稳健性时,也用于定量数据3、众数——异众比率适用于定类数据一、单变量分析尽管有一系列的统计量可用来概括数据特征,但由一组数据变为1个或几个数据,信息的遗漏是很严重的,而统计图则提供了一类在不损失信息情况下,方便观察数据规律性的工具一、单变量分析1、条形图与直方图2、饼图3、箱线图1、条形图与直方图1、条形图与直方图1、条形图与直方图2、饼图3、箱线图二、双变量分析二、双变量分析二、双变量分析二、双变量分析列联表分析关联性测量假设检验列联表分析列联表分析关联性测量关联——association相关——correlation关联性测量常用测量指标按适用范围分类两个变量之间两组变量之间典型相关系数(Canonical)其他因素不变其他因素可变偏相关系数(Partial)皮尔逊系数(Pearson)数量相关等级相关斯皮尔曼系数(Spearman)部分相关系数(Part)名义关联肯达尔系数(Kendall)列联系数(contingency)关联性测量Pearson相关系数(简单相关系数、积矩相关系数)的构造同方向性的一种表现是:一个变量的某个观测值如果高于均值,则另一个变量的相应观测值也高于均值关联性测量Pearson相关系数的构造关联性测量可以构造如下统计量关联性测量关联性测量关联性测量存在两个问题:

1、受样本数据多少的影响2、受计量单位的影响关联性测量相关系数关联性测量相关系数的取值范围:[-1,1]关联性测量如果相关系数越接近于1,意味着X大于均值,则Y也大于均值的可能性越大如果相关系数越接近于-1,意味着X大于均值,则Y小于均值的可能性越大如果相关系数越接近于0,意味着X大于均值,则Y大于均值或小于均值的可能性越接近关联性测量相关系数的绝对值越接近于1,意味着X与Y的线性关系越明显,数量关系越确定。相关系数的绝对值越接近于0,意味着X与Y之间越没有明显的线性关系。关联性测量相关系数的局限性不能用以测度非线性相关受到异常值的影响关联性测量关联性测量测度等级以及名义相关的统计量

斯皮尔曼等级相关系数(Spearmanrankcorrelationcoefficient)

肯达尔t系数(Kendalltcoefficient)关联性测量斯皮尔曼等级相关系数关联性测量可以通过两种方式计算Spearman系数:

专门计算程序将原始数据排序,计算样本的秩,然后对秩计算Pearson系数对于定序数据而言,Spearman系数与Pearson系数是等价的如果一个变量为定量数据,一个变量为定序数据,应计算Spearman系数或将定量数据变为定序数据后使用Pearson系数关联性测量肯达尔t系数关联性测量关联性测量肯达尔系数一个重要优点在于便于解释,如果肯达尔系数等于1/3,意味着:一致情况的出现频率是不一致的两倍关联性测量就一个连续总体而言,肯达尔t系数可以定义为:如果没有结点,则从样本计算出来的统计量是总体系数的无偏估计,记为关联性测量如果存在结点,则要对统计量进行调整:关联性测量关联性测量列联系数phi和Cramer也都是基于卡方的名义变量关联程度的测量指标关联性测量偏相关系数在控制其他变量的情况下,研究两个变量之间的相关程度,由于去除了其他变量的干扰,能更准确的反映两个变量之间的相关程度假设检验假设检验sig.或者p-value是一个概率如果这个概率等于0.340,意味着如果两个变量实际独立(原假设),则产生能计算出这样一个列联系数(0.130)的样本的概率有0.340;显然,sig.或者p-value越小,越有充分的证据拒绝原假设假设检验假设检验假设检验假设检验的流程——反证法提出原假设——你希望拒绝他,是希望证明对象的反面计算在此原假设下,统计量的分布——可知各种结果的出现概率则可知样本结果的出现概率小概率事件是不可能事件拒绝原假设假设检验如果概率很小,可以拒绝原假设

一般有三条线:0.01(0.001),0.05,0.1,小于它们,意味着高度显著、显著、比较显著;或者说在0.05显著性水平上显著如果概率较大,能否接受备择假设?

不能,只是没有充分证据拒绝原假设假设检验在抽样调查数据的双变量分析中,最重要的假设检验是卡方检验,这是一个基于列联表的关键检验。列联表的深入分析列联表的深入分析123……K1n11n12n13n1jn1Kn1+2n21n22n23n2jn2Kn2+……ni1ni2ni3nijniKni+LnL1nL2nL3nLjnLKnL+n+1n+2n+3n+jn+Kn列联表的深入分析卡方检验关联性的各种分析指标列联表的深入分析卡方检验观测值期望值(如果两个变量是独立的,在现有样本量下,各种情况的期望频数)列联表的深入分析实际值与期望值越接近——不相关差距越大——拒绝不相关的原假设列联表的深入分析拟合优度卡方检验统计量似然比卡方系数检验统计量(likelihoodratiochi-squarecoefficient)列联表的深入分析“一个显著的卡方数值告诉我们两个变量在总体中可能是相关的,但是它没有带来更多的信息,更糟糕的是,如果生吞活剥的使用卡方检验,它带来的误导不亚于所提供的信息。”列联表的深入分析大多数(80%)的期望频次应该超过5如果一个2×2的列联表,样本量小于20,应该采用Fisher检验(Fisher’sexacttest)列联表的深入分析卡方统计量的结果与样本量相关,如果样本量足够大,即使存在着微弱的关系,也可以非常显著的拒绝原假设列联表的深入分析如果拒绝了原假设,确认存在关联,那么关联由何而来?卡方的分解计算子列联表卡方列联表的深入分析卡方的分解列联表的深入分析分割列联表,计算卡方,这样可以检验更多的假说ABCabc列联表的深入分析ABabA+BCabABa+bcA+BCa+bc列联表的深入分析卡方检验只能用来判断两个变量是否独立(关联,相关)关联程度如何,卡方值不是一个好指标样本量有影响没有好解释的取值范围列联表的深入分析2×2列联表Cross-productratio(oddsratio)

交叉乘积比或发生比率列联表的深入分析类别1在因变量上的发生比类别2在因变量上的发生比列联表的深入分析发生比率是发生比之比发生比率是1,意味着无关联性发生比率距离1越大,意味着关联性越强列联表的深入分析YuleQ列联表的深入分析基于卡方的度量取值范围在0和1之间,越接近1,关联性越强但一个具体的值还是没有直观的含义列联表的深入分析成比例消减误差度量法

假设没有任何自变量的信息,预测因变量错误的概率:P(A)有了自变量的信息,预测因变量错误的概率:P(B)列联表的深入分析Goodman&Kruskal的λ(Lambda)ABa0.30.20.5b0.10.40.50.40.6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论