数据统计分析方法_第1页
数据统计分析方法_第2页
数据统计分析方法_第3页
数据统计分析方法_第4页
数据统计分析方法_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据统计分析常用方法目录统计学基础知识 3统计的含义 3统计的分类 3样本 3数据的概括性度量 4总规模度量 4总量指标 4比较度量 5相对指标 5平均度量 6概念 6平均数的种类和计算方法 6离散变量 8变异指标 8数据的标准化 11Min-max标准化 11-e标准化 .1相关分析 113.1 概念 113.2 分类 12相关分析的作用 12相关系数的计算 12相关系数的性质 12相关性类型 12相关性强弱 12数据分析 13数据分析的含义 13数据分析的作用 13数据分析方法 13对比分析法 13分组分析法 14结构分析法 15平均分析法 15交叉分析法 15综合评价分析法 16漏斗图分析法 17抽样分析法 17相关分析 18时间序列预测 20统计学基础知识统计的含义据和统计学。统计活动性的活动过程。统计资料告、政府统计公报、统计年鉴等各种数字和文字资料。统计学统计学是指阐述统计工作基本理论和基本方法的科学计分析的理论与方法,是一门方法论科学。统计的分类描述统计学推断统计学研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容。样本样本是统计学中非常重要的概念,理解这个概念需要注意三大问题:构成某一样本的每一单位都必须取自某一特定的统计总体,不允许该总体之外的单位介入该总体的样本。除人的主观因素对样本单位抽取和样本生成的干扰。子集,且具有随机性,故由样本去推断总体会产生代表性误差。数据的概括性度量总规模度量总量指标概念总量指标是反映社会经济现象总体在一定时间标。其表现形式通常是绝对数,所以也称为绝对指标或绝对数。作用总量指标反映的是总体情况总量指标是计算相对指标和平均指标的基础总量指标的计算方法总量指标的计算方法,抽掉其具体内容,都可以归结到加法上,分简单加法和加权加法。简单算法Mxxx…xnx1 2 3 n0加权算法Mxfxfxf…xfnxf11 22 33 nn0其中,式中:M表示总量指标;x表示变量值;f表示权数比较度量相对指标概念数量对比关系。作用反映现象的内部结构、比例关系、普遍程度与速度。使某些不能直接进行对比的统计指标,取得可以比较的基础相对数的种类和计算方法结构相对数结构相对数是表明总体内部各个组成部分在总体中所占比重的相对指标。比例相对数反映一个统计总体内部各个组成部分之间数量对比关系的相对指标,常用系数和倍数表示。比较相对数反映同一时期的同类现象在不同地区、部门和单位之间数量对比关系的相对指标。动态相对数同类现象在不同时间上数量对比关系的相对指标称为动态相对数,说明现象发展变化的方向和程度。常见的例如同比、环比等。强度相对数强度相对数反映两个性质不同但有联系的统计指标之间数量对比关系的相对指标。计划完成相对数计划完成相对数也称计划完成百分比数的比值,用来检查、监督计划的执行情况,一般用百分数表示。运用相对指标的原则可比性原则多种相对指标综合运用的原则同总量指标、平均指标综合运用的原则平均度量概念依存关系。平均数的种类和计算方法数值平均数算数平均数:算术平均数也称为均值,是全部数据算术平均的结果。简单算数平均数加除以数值个数。加权算数平均数根据分组整理的数据计算算术平均数计算加权的算术平均数。调和平均数有时会遇到已知各组变量值和各组标志总量而缺少总体单位数的情况,这时就要用调和平均数法计算平均指标。调和平均数是各个变量值倒数的算术平均数的倒数。简单调和平均数加权调和平均数几何平均数几何平均数是n个变量值乘积的n次方根,可分为简单几何平均数和加权几何平均数。简单几何平均数、加权几何平均数几何平均数是适应于特殊数据的一种平均数,在实际生活中,通常用来计算平均比率和平均速度,如过去历年的平均增长率。平方平均数平方平均数是n个数据的平方的算术平均数的算术平方根。a2a2a2……a2M 1 2 3 n n中位数中位数是一组数据按从小到大排序后,处于中间位置上的变量值,用Me表示。根据未分组数据计算中位数时,要先对数据排序,然后确定中位数的位置,其公式为nnn为偶数时,处在中间位置上有两个变量值。众数Mo的数值,一组数据分布的最高峰点所对应的数值即为众数。分位数和百分位数等。离散变量变异指标数据的差异程度就是各变量值远离其中心值的程度。概念明总体分布的离中趋势。变异指标的作用单位变量值分布的离散趋势越高、均衡性越低;判断平均指标对总体各单位变量值代表性的高低;标志变异指标是衡量风险大小的重要指标。变异指标的类型根据所依据数据类型的不同,变异指标有异众比率、四分位差、全距、平均差、方差和标准差、离散系数等。异众比率非众数组的频数占总频数的比率n,称为异众比率,用r表示。式中:Σfi为变量值的总频数;fm为众数组的频数。异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。全距或极差全距又称极差,是一组数据的最大值与最小值之差,用R表示Xi、(X)分别表示为一组数据的最大值与最小值R越大,表明数即数列中各变量值差异小。平均差平均差是各变量值与其算术平均数离差绝对值的平均数,用MD表示。简单平均法对于未分组资料,采用简单平均法。加权平均法在资料分组的情况下,应采用加权平均式方差和标准差方差是各变量值与其算术平均数离差平方的算术平均数标准差是实际中应用最广泛的离中程度度量值。方差用来度量随机变量和其数学期望(即均值)之间的偏离程度;标准差用来反映反映组内个体间的离散程度。总体的方差与标准差设总体的方差为2,标准差为,对于未分组整理的原始资料样本的方差和标准差差在对各个离差平方平均时是除以数据个数或总频数各个离差平方平均时是用样本数据个数或总频数减1去除总离差平方和。标准分数有了均值和标准差之后,我们可以计算一组数据中各个数值的标准分数( Standard,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离值。变量值与其平均数的离差除以标准差后的值,称为标准分数,也称标准化值或z值。相对离散程度:离散系数离散系数是反映一组数据相对差异程度的指标,是各变异指标与其算术平均数的比值。离散系数通常用V表示,常用的离散系数有平均差系数和标准差系数。数据的标准化Min-max标准化Min-Max标准化方法是对原始数据进行线性变换。设MinAMaxA分别为属性A的最A的一个原始值xMin-Max[0,1]新数据=(原数据-极小值)/(极大值-极小值)Z-score标准化基于原始数据的均值(Mean)和标准差(Standarddeviation)进行数据的标准化,以距离平均数的远近程度及数据的“离散程度”为基础,将数据的价值转换为易于探讨的数值。Z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。新数据=(原数据-均值)/标准差相关分析概念相关关系是指现象之间存在着的一种非确定性的数量依存关系数值,在一定的范围内变动着,这些数值分布在它们的平均数周围的一种数量依存关系。分类按相关关系涉及的变量(或因素)按相关关系的表现形式来分,有线性相关和非线性相关;则称为负相关;独立,相互之间没有联系,则称不相关。相关分析的作用相关分析是研究两个或两个以上的变量之间相关程度的大小的一种统计方法,其主要作用包括:确定现象之间有无关系存在,以及相关关系呈现的形态。系数。相关系数的计算n0rn0

(xx)(yy)i in

xyxy表示样本平均值。i i(xx)2 (yy)2i i0 0相关系数的性质相关性类型x,yx,y。相关性强弱|r|>0.95存在显著性相关;|r|≥0.8高度相关;0.5≤|r|<0.8中度相关;0.3≤|r|<0.5低度相关;|r|<0.3关系极弱,认为不相关数据分析数据分析的含义数据分析是指用适当的统计分析方法对收集来的大量数据进行分析成结论而对数据加以详细研究和概括总结的过程。分类、聚类、关联与预测,重点在于模式与规律。数据分析和挖掘的本质都是一样的,都是从数据里面发掘关于业务的知识。数据分析的作用本可分别对应对比、细分、预测三大基本方法。数据分析方法对比分析法概念对比分析法可分为静态比较和动态比较两大类:家的比较,也叫横向比较,简称横比;动态比较是在同一总体条件下对不同时间指标数值的比较,也叫纵向比较,简称纵比。这两种方法既可单独使用,也可结合使用。进行对比分析时,可以单独使用总体指标、相对指标或平均指标,也可将他们结合起来进行对比。比较的结果可用相对数、倍数等指标。实践运用与目标对比实际完成值与目标进行对比,属于横比不同时期对比与去年同期对比简称同比,与上个月完成情况对比简称环比同级部门、单位、地区对比同级部门、单位、地区进行对比,属于横比行业内对比与行业内的标杆企业、竞争对手或行业的平均水平进行对比,属于横比活动效果对比与某项活动开展前后进行对比,属于纵比对比分析的关键点对比的对象要有可比性对比的指标类型必须一致分组分析法概念做数据分析不仅要对总体的数量特征与数量关系进行分析联系的规律性。实际运用)进行研究,以揭示其内在的联系和规律性。方法来结构内在的数量关系,因此分组法必须与对比法结合运用。分组的方法以等距分组为例进行说明:确定组数=(-最小值组数根据组距大小,对数据进行分组整理,划归至相应组内。结构分析法概念结构分析法是指被分析总体内的各部分与总体之间进行对比的分析方法分占总体的比例,属于相对指标,已办某部分的比例越大,说明其重要程度越高影响就越大。实际运用结构相对指标(比例)的计算公式为:结构相对指标(比例)=(总体某部分的数值/总体总量)*100%典的应用。市场占有率=(某种商品销售量/该种商品市场销售总量)*100%平均分析法概念平均分析法就是运用计算平均数的方法反映总体在一定时间实际运用平均指标有算数平均数、调和平均数、几何平均数、众数和中位数,其中最为常用的时算数平均数,即日常所说的平均数或平均值。算数平均数的计算公式为:算数平均数=总体各单位数值的总和/总体单位个数的数量差异抽象化,它只能代表总体的一般水平,掩盖了在平均数后各单位的差异。交叉分析法(字段综合评价分析法综合评价分析法的基本思想是将多个指标转化为一个能够反映综合情况的指标来进行分析评价。进行综合评价,主要有五个步骤:确定综合评价的指标体系,即包括哪些指标,是综合评价的基础和依据收集数据,并对不同计量单位的指标数据进行标准化处理确定指标体系中各指标的权重,以保证评价的科学性对经处理后的指标再进行汇总计算出综合评价指数或综合评价分值根据评价指数或分值对参评单位进行排序,并由此得出结论。综合评价法的三大特点完成在综合评价过程中,一般要根据指标的重要性进行加权处理评价结果不再是具有具体意义的统计指标的排序。综合评价的关键数据标准化0-1标准化和Z标准化。0-1标准化0-1标准化也叫离差标准化,就是对原始数据做线性变化,使结果落在[0,1]区间。0-1标准化的转换公式:第N个经标准化处理的值=(第N个原始值-最小值)/(最大值-最小值)需要注意的是,当有新数据加入时,需要对最大、最小值进行重新计算。Z标准化Z标准化也叫Z分数(z-score),是一个数与平均数的差再除以标准差的过程。用公式表示为:z=(x-μ)/σ。其中x为某一具体分数,μ为平均数,σ为标准差。Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。权重确定方法确定指标权重的方法较多,比如专家访谈法、德尔菲法、层次分析法、主成分分析法、因子分析法、回归分析法等。还有一种比较简单的权重确定法,即目标优化矩阵表。1/0后得出量化的结果,这种方法不仅量化准确,而且简单、方便、快捷。104个,人品、动手能力、创新意识、教育背景,则可按照下表进行打分人才评价人品动手能力创新意识教育背景

人品 动手能力 创新意识 教育背景 合计 排序0排序。则可得出各维度的重要性和权重。某指标权重=(某指标新的重要性合计得分/所有指标新的重要性合计得分)*100%漏斗图分析法所在。通过漏斗图可以很快发现业务流程中存在问题的环节。例如,下属漏斗图用于分析网站中某些关键路径的转化率分析:抽样分析法在做数据分析的时候,尤其现在我们正往大数据时代迈进,通常会遇到分析的总体数据据进行分析,并根据这一部分样本去估计与推断总体情况。抽样分析方法是利用己知的有效样本去估计未知的庞大总体,这是抽样分析的本质。常用抽样方法周期间隔:选择间隔抽样,需要输入周期间隔。随机抽样直接输入将本数,系统自行进行随机抽样,不用受间隔的规律限制。相关分析相关系数相关系数|r|的取值范围0|r|0.3相关程度低度相关0.3r相关系数|r|的取值范围0|r|0.3相关程度低度相关0.3r0.8中度相关0.8r1高度相关相关系数计算公式n0rn0

(xx)(yy)i in(xx)2 (yy)2i i0 0回归分析身高与体重存在的依存关系。回归是研究自变量与因变量之间关系形式的分析方法,它主要是通过建立因变量Y与影响它的自变量X,(i=1,2,3,)之间的回归模型,来预测因变量Y的发展趋势。回归分析举例回归分析模型主要包括线性回归及非线性回归两种回归为例进行介绍。线性回归分析的五个步骤根据预测目标,确定自变量和因变量;绘制散点图,确定回归模型类型;绘制模型参数,建立回归模型对回归模型进行检验利用回归模型进行预测线性回归。简单线性回归模型为:Y=a+bX+εY-自变量;a-随机误差,即随机因素对因变量所产生的影响。线性回归分析方法。检验回归分析验、回归模型的显著性检验F检验、回归系数的显著性检验t检验)回归模型的优劣相关分析与回归分析相关分析与回归分析的联系相关分析与回归分析的联系是均为研究及测量两个或两个以上变量之间关系的方法后用回归模型推算或预测。相关分析与回归分析的区别自变量与因变量之分,并且自变量是确定的普通变量,因变量是随机变量。相关分析主要描述两个变量之间线性关系的密切程度X对变量Y的影响大小,还可以自回归模型进行预测。时间序列预测时间序列预测是指通过时间序列来分析预测目标变量未来的发展趋势

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论