商务数据分析课件:数据获取与数据理解_第1页
商务数据分析课件:数据获取与数据理解_第2页
商务数据分析课件:数据获取与数据理解_第3页
商务数据分析课件:数据获取与数据理解_第4页
商务数据分析课件:数据获取与数据理解_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据获取与数据理解

第一节数据获取数据获取主要有两个渠道一个是直接获取数据,即自己在经营过程中累积的数据,或者通过实验或调查直接获得的数据,这些数据被称为一手数据.另一个是间接获取数据,指的是数据是由其他人通过各种形式搜集的,使用者仅仅是找到这些数据并加以加工和使用,间接地获取了这些数据,这些数据通常被称为二手数据。

1.直接获取(1)经营数据企业在经营过程中积累了大量数据,包括运营、人事、财务、供应链、客户管理等。这些数据通常存储在企业信息系统的数据库中,是企业经营的真实反映。获取相对比较简单,但由于经营数据通常涉及企业的竞争优势,所以企业外部人员甚至不同部门的人员很难得到。(2)市场调查市场调查是指用科学的方法(引用正规),有目的、系统地搜集、记录、整理和分析市场现状的数据获取和分析方法。市场调查通常比较适用于社会问题和企业经济问题。

1.直接获取(3)试验在试验中,研究者围绕想要解决的问题,设定相应情景,记录不同条件下相应的试验观测结果,并对试验结果展开分析。

(4)爬虫更多数据被保留在了各个网页上,使用者可以针对自己的需要,利用爬

虫技术自行对网页上的数据进行爬取。

2.间接获取从相关渠道获取与研究内容有关的而且已经存在的二手数据。二手数据的优势:二手数据获取过程通常时间短、成本低二手数据除了可以用来分析研究问题,还可以从中剖析研究问题的背景。二手数据的局限性二手数据通常不是为使用者想要进行研究的问题而收集的,所以与直接收集数据相比,在和研究问题的契合度上必定有所欠缺。在使用二手数据时,提前对数据进行评估是非常必要的。在使用二手数据时,避免错用、误用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。

2.间接获取(1)文献相关专业期刊、学术会议、专业图书的文献资料中提供了一些可供使用或参考的数据资料。文献中的数据往往经过了原作者的处理,对使用者来说省去了数据处理的过程,但是文献数据的计算口径有时难以获知,适用性相对较弱。(2)学术单位的数据库为了研究需要,大学等学术单位提供了一些以数据库为存储形式的数据集,供公众访问获取。这些数据集来自实践,体量通常比较大,涵盖的范围也比较广。基于这些共同的数据集,研究者们可以更方便公正地比较各自所提出的数据分析策略、方法的优劣,因此学术数据库集被众多研究者青睐。

2.间接获取(3)统计部门机构统计部门和各级政府部门定期公布的有关资料中提供了宏观统计数据。对于使用者了解所感兴趣的领域的整体情况是有很大帮助的,但通常并不能用于解决具体的决策问题。

(4)第三方机构具有数据资源优势的数据源提供商、咨询机构以及一些自身有数据积累的互联网企业都已经成为大数据产业中能够提供海量数据的中流砥柱。在第三方机构获取的数据比较完整,有丰富的描述,通常需要付费才能获取。(5)国内外各类数据挖掘竞赛国内外了各类数据挖掘竞赛中都提供了大量真实的数据集,这些数据通常有实际的应用背景和明确的使用目的。第二节数据描述也称为描述性数据分析,通常指对数据的整体分布情况、数据各特征之间的关系进行估计和描述,从而有利于了解数据的整体情况,发现显著特点,为进一步的数据分析提供重要的思路。数据描述通常可以从三个方面进行:集中趋势分析、离散程度分析和分布形状分析

1.集中趋势分析集中趋势是指一组数据向某一中心值靠拢的程度,是对数据一般水平的概括性度量,它反映了一组数据中心点的位置所在。(1)均值是最常用的也是最有效的度量集中趋势的指标。将一组数据的总和除以数据数量,便能得到均值。在有些情况下,每个数据的重要程度或者意义可能不是相同的,这时候需要对不同的数据赋予不同的权重。这样根据权重计算得到的平均数叫作加权平均数或加权算术均值。均值能够充分利用所有数据的信息,但也正是因为这种特性,均值非常容易受到极端值的影响。

1.集中趋势分析(2)中位数一组数据排序之后处于中间位置的值,它把数据较大的一半和较小的一半分开。是一个由位置决定的值,因此即便数据中存在极端值,中间位置上的数值也不会受到影响。对于存在极值或非对称数据的情况来说,中位数是一个比均值更好的度量。(3)分位数分位数是将总体的全部数据递增排列后,处于各等分位置的数据点。分位数将数据划分为基本上规模相等的区域。如果分为四部分,则得到的数据点就是四分位数。在各类分位数中,常用的是四分位数。相比于中位数只有一个,四分位数有两个,能够更充分地反映数据的集中程度。1.集中趋势分析(4)众数一组数据中出现次数最多的变量值,不会受到数据中极端值的影响。一组数据可能各不相同,既可能不存在众数,也可能存在多个众数。一般来说,数据量较大的时候众数才有意义,将众数作为数据整体特征才

有代表性。对比前面的集中指标,众数不涉及数值计算,因此,对于类别数据,众数是常用的集中程度测度。

2.离散程度分析离散程度指的是一组数据远离其中心值的程度。数据的离散程度分析主要是用来反映一组数据的差异程度。(1)异众比率(Variationratio)指的是非众数数据的数量占数据总数的比例。异众比率越小,表示众数所占的比例越大,众数对于数据的代表程度越好。(2)极差(Range)也称全距,指的是数据最大值与最小值之差。因为极差选取最值来进行计算,所以必然会受到极端值的影响。此外,极差的计算只考虑了最大最小值,遗漏了中间部分的更多信息,换句话说,只用两个数据表示一组数据集合的特点,一般情况下不能准确地描述。

2.离散程度分析(3)四分位差(Quartiledeviation)指的是一组数据的上四位数和下四分位数之差,反映了数据分布的中心、散布情况的特征,它表示的是中间50%的数据的离散程度,因此也不会受到极端值的影响。四分位数越小,表示中间的一半数据越集中。

(4)平均差(Meandeviation)指的是一组数据中各个值与其平均数的差的绝对值的平均数。平均差越大,表明样本值与均值差异越大,数据的离散程度越大。平均差充分运用了数据中的每个样本值,因此是一个能较全面反映数据离散程度的指标。2.离散程度分析(5)方差或标准差(Variance)指的是数据中各个值与其平均数离差的平方的平均数。能够反映出数据偏离均值的程度,是衡量数据离散程度最常用的指标。方差或标准差越小,表示数据越集中,数据的离散程度越小。

(6)变异系数(Coefficientofvariation)也叫作离散系数,它是标准差与均值之比。变异系数可以用来比较不同数据集之间的离散程度。变异系数越小,表明数据的离散程度越小。3.分布形状分析离散程度和集中程度的度量方式选择是否恰当,与数据分布关系密切。在分析之前首先观察数据的分布形状,对于选择合适的指标对数据的整体情况进行描述,避免产生错误的分析结果很有必要。(1)偏态(Skewness)是对数据分布对称性的一种度量,通过计算数据相对于中心点的倾斜方向以及程度,衡量数据分布的对称性,如果一组数据是对称的,则偏态系数为0。偏态系数的正负表明了数据分布是否对称,以及倾斜的方向,而绝对值的大小表明了倾斜的程度。3.分布形状分析离散程度和集中程度的度量方式选择是否恰当,与数据分布关系密切。在分析之前首先观察数据的分布形状,对于选择合适的指标对数据的整体情况进行描述,避免产生错误的分析结果很有必要。(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论