数据分析基本原理介绍(基于excel)课件_第1页
数据分析基本原理介绍(基于excel)课件_第2页
数据分析基本原理介绍(基于excel)课件_第3页
数据分析基本原理介绍(基于excel)课件_第4页
数据分析基本原理介绍(基于excel)课件_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据分析基本原理介绍(基于excel)主讲人:邓光耀数据分析基本原理介绍(基于excel)1、数据分析概述 1.1定义:数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。 1.2 通常需分析的数据有商务与经济数据、医药统计数据、游戏运行数据等。数据分析工作者需要有多学科背景,首先要对所分析的对象要有比较全面的了解。 1.3 数据分析的常规方法是用exce

2、l做统计表与统计图,专业方法有模型、回归分析、时间序列分析、聚类分析、神经网络、正交设计、方差分析、结构方程模型、关联分析等。这些方法的具体内涵等用到时再讲。数据分析基本原理介绍(基于excel) 1.4 常用的数据分析软件简介: spss软件是全球范围内最流行的数据分析软件;sas软件具有比较强大的编程功能,适合专业人士使用;eviews软件进行计量经济分析的人员用得比较多;dps软件是浙江大学唐启义发明的数据分析软件,它是目前唯一的中国人自己发明的数据分析软件,是spss软件与excel的山寨版;其它的数据分析软件还有gauss与minitab等。这些软件的基本功能都差不多,只是侧重点有些

3、差别。 excel也有数据分析功能,对于一般的数据分析用excel也就足够了,本讲后面讲述excel函数与绘图功能。数据分析基本原理介绍(基于excel) 1.5 数据分析的一般步骤: 1、数据的收集、整理、录入、校对等; 2、对收集的数据进行描述性统计分析,选择数据分析的方法。 3、利用已知数据建立模型,发现数据的内在规律,并利用模型对未来作出预测或者做出理性的决策。 4、比较预测的数据与现实数据,校正模型,提高预测的准确性或者做出更理性的决策。数据分析基本原理介绍(基于excel)2、判定数据计算错误的办法 2.1 在数据收集的过程中,或多或少会出现数据误差或者错误。数据校对工作者有必要掌

4、握一些判定数据计算错误的办法。当然多算几次会提高计算的准确率,但是数据较多时,如何快速有效的判定计算的正误就需要一些专业的方法了。 2.2 位数估计与首位、末尾数据校对法:这是一个简单的办法,当你没有时间来校对数据时可以采用此法做些粗略的判断。数据分析基本原理介绍(基于excel) 2.3 弃九法:此法的数学原理是利用同余的性质。我们先从例子开始叙述: 加法: 例1:假设商品一的销售金额为1568964元,商品二的销售金额为3625878元,统计表上两者的结果为5194742元,问此表有没有问题?我们计算1568964的各位数字的和,注意超过9就取除以9的余数即可,这样我们可以口算得到数字3,

5、同理3625878可以用弃九法得到数字3,5194742用弃九法得到数字5,由于3+3=6不是5,故可以判定数据计算有误。 减法:我们可以先转化到加法,再用弃九法判断。数据分析基本原理介绍(基于excel)12121010aaaaaannn 乘法: 例2:假设某件商品的单价是137元,销售量为128793件,经计算得到17653741,判断此计算结果的正误。137用弃九法处理等于2,128793经处理等于3,那么23=6,17653741经处理等于7,故可以判定数据计算失误。我们用正确的数据来验证弃九法的合理性,正确结果应该是17644641,此数经弃九法处理等于6,满足弃九法。 除法:我们可

6、以先转换到乘法,再用弃九法处理。 弃九法的数学原理:记数据分析基本原理介绍(基于excel) 那么此数除以九之后所得余数与各位数字相加除以九之后得到的结果相同。即由于99)110(910nnnnnaaa99910222aaa9911aa) 9(mod1212aaaaaann即数据分析基本原理介绍(基于excel) 最后一个式子表示两边除以九后的余数相同,是同余理论中的符号。 不知道听者有没有发现,用弃九法判断计算的正确性有时候失效,实质上用此法判断计算正误,如果判断计算是错误的,那么一定是计算错了,但是判断是正确的,却实质上计算不一定正确。例如上面的乘法的例子,如果我们计算得到17554641

7、,那么按照弃九法,不能判断出此结果是错误的,但是实质结果应当是17644641。 不过由于出现计算错误的原因一般是忘记进位,或者用计算机计算时少输入一个数字等,故用弃九法来检验计算的正确性还是比较有效的。数据分析基本原理介绍(基于excel)3、描述性统计 3.1 频数与频率:频数指样本中某数据出现的次数;频率指频数除以样本的数目。 例3:我们分析下列数据: 上面数据中2出现的频数为3,频率为3/20=0.15。 我们在RFM模型中会遇到这样的数据组。13243521523434133434数据分析基本原理介绍(基于excel) 我们用excel函数求上面数据的频数与频率:假如我们依次把以上数

8、据输入在A1到A20中,那么我们可以在B1中用countif函数计算2出现的频数,即输入=countif(A1:A20,2)即可得到2的频数为3;我们在B2中输入=B2/20或者=countif(A1:A20,2)/20即可。 注: 1.我们可以用=count(A1:A20)计算这组数据的个数。 2.当数据很多时,用excel函数计算频数与频率是个很好的办法。 3.用spss等数据分析专门的软件也有此功能,实际上后面提到excel函数与图表功能用spss等数据分析专门的软件都能做,并且效果可能更好。数据分析基本原理介绍(基于excel) 下面用excel绘图功能画出这组数据的频数分布图: 我们

9、先把这组数据中1,2,3,4,5的频数计算出来,得到3,3,7,5,2;依次输入到C1,C5单元格中;然后选择excel中的图表向导(当然ppt中也有绘图功能),选择直方图,随意选择一种子图表类型,点击下一步,接下来在出现的界面中的数据区域输入=sheet1!$C$1:$C$5;系列选择列;点击下一步,在图表标题中输入频数分布图,分类轴中输入数值,数值中输入频数,点击完成得到下图:数据分析基本原理介绍(基于excel)0246812345频数分布图数值频数系列1数据分析基本原理介绍(基于excel) 做频数分布图与上面的方法类似,不过我们为了更形象一下,选择饼图,作图如下:频率分布图0.15

10、0.15 0.35 0.25 0.10 12345数据分析基本原理介绍(基于excel) 3.2平均数:表示一组数据的总和除以数据的个数。 我们用excel函数计算例3那组数据的平均值,即=average(a1:a20),经excel计算得到3. 3.3数学期望(用E表示):变量的一切可能取值与其对应的概率P的乘积之和称为数学期望。实际上就是一组数据的加权平均值。这组数据中1,2,3,4,5出现的概率分别为:0.15,0.15,0.35,0.25,0.10 ,故E=1*0.15+2*0.15+3*0.35+4*0.25+5*0.10=3,与平均数相同。数据分析基本原理介绍(基于excel) 3

11、.4方差( ):方差就是所有数据偏差的平方和除以数据的总数。即 这里 是平均值。我们用excel函数计算例3中那组数据的方差,即=var(a1:a20),经计算得1.473684. 注:对于样本的方差,数学上取样本数据偏差的平方和除以(样本数据总数减一),这样处理是可以有更优良的统计性质,即无偏性: 具体证明要用到比较多的数学知识,excel中的var函数也是这样计算的,听者可以参看该函数的帮助功能。 3.5标准差 :即方差的算术平方根。excel函数计算表达式为=stdevp(a1:a20),经计算得1.213954.)1/()(21nxxnii2x221)1/)(nxxEnii数据分析基本

12、原理介绍(基于excel)nyEyxExyxniii1)()(),cov( 3.6协方差(cov):我们直接用公式定义: 我们计算a1:a10,a11:a20这两组数据的协方差,用excel函数计算的表达式=covar(a1:a10,a11:a20),可得到-0.16. 数据分析基本原理介绍(基于excel) 3.7相关系数:定义式为 计算a1:a10,a11:a20这两组数据的相关系数,excel函数的表达式为 =correl(a1:a10,a11:a20),可得-0.13109. 以上为数据分析中经常碰到的几个基本概念。yxxyyx),cov(数据分析基本原理介绍(基于excel) 3.8

13、现在有必要对excel函数做一个大概的总述了,数据分析用到的excel函数一般是以下三类:1.数学与三角函数;2.统计函数;3.逻辑函数。财务的同事对excel函数可能比我可精通,因为excel中有大量的财务函数,及查找与引用函数。 我们用excel函数可以做基本的四则混合运算,也可以求对数、三角函数等,例如求sin45的值,不过excel只能识别弧度制的角,故先要换算,excel函数的表达式为: =sin(45*pi()/180)或者=sin(radians(45),这里pi表示圆周率,radians表示弧度,可得到结果为0.707107.数据分析基本原理介绍(基于excel) 3.9数据分

14、析中对excel绘图功能也用得比较多,下面再介绍几种图表的绘制方法: 1:折线图,做时间序列分析时用得比较多。 时间序列数据指的数据按时间变动的一组数据,例如2000年到2010年中国的GDP数据,销售人员1月份到12月份的销售量数据,最近一个月内的股票收盘价数据等都是时间序列数据。 与时间序列数据对应的是截面数据,即固定时间的数据,如2010年世界各国的GDP数据,某交易日股票收盘价数据。数据分析基本原理介绍(基于excel) 例4:某销售人员1月份到8月份的销售量数据如下,请用折线图描述出来。月份月份12345678件325336378421368370290387数据分析基本原理介绍(基

15、于excel) 我们按照作图步骤可得到一下图像:0100200300400500123456781月份到八月份的销售量12345678325336378421368370290387月份件月份件数据分析基本原理介绍(基于excel) 2:散点图 例5:我们分析价格与销售量的数据,收集到的资料如下: 我们思考以下问题:价格与销售量的函数表达式?并预测单价下降到30时的销售量?销售金额最大化时的价格与销售量分别是多少? 具体计算涉及到回归分析,我们本讲先画去散点图,看价格与销售量的关系如何。单价单价45424038373532销售量102105108110112115120数据分析基本原理介绍(基

16、于excel)我们按照以前的方法画出散点图如下:注意添加趋势线,以便观察单价与销售量的关系。我们观察散点图,可以知道它们是近似线性的关系,这条趋势线的方程如何得到,等回归分析再讲。909510010511011512012501020304050单价与销售量的关系102105108110112115120单价销售量系列1线性 (系列1)数据分析基本原理介绍(基于excel)4、正态分布与数据标准化222)(21)(xexf 4.1正态分布:概率论中最重要的一种分布,也是自然界最常见的一种分布。该分布由两个参数平均值和方差决定。概率密度函数曲线以均值为对称中线,方差越小,分布越集中在均值附近。概

17、率密度函数的表达式为:数据分析基本原理介绍(基于excel) 这里 为均值, 为标准差。概率密度函数指的是满足以下两个条件的函数:1: ;2: 或者 ,前面指的是离散形式,后者指连续形式。 实际中,例如一个省所有学生的高考成绩,大量的销售量数据等,近似地服从正态分布,我们可以先通过做频数分布图,再添加趋势线,可以得到近似的正态分布图。 学过概率论的人知道,由中心极限定理,许多其他分布的极限形式都是正态分布,也就是说数据越多,成为正态分布的趋势越明显。1)(ixf0)(ixf1)( dxxf数据分析基本原理介绍(基于excel) 我们用excel画出标准正态分布 的图像。首先我们求x对应的函数值

18、,得到数据表如下:2221)(xexf-4-2-1.414-1011.414240.0001340.0539910.1467630.2419710.398942280.2419707250.1467626630.0539909670.00013383数据分析基本原理介绍(基于excel) 我们用平滑散点图的办法得到如下图形:00.10.20.30.40.5-6-4-20246标准正态分布的图像系列1数据分析基本原理介绍(基于excel)正态曲线下面积分布:1实际工作中,正态曲线下横轴上一定区间的面积反映该区间的数据占总数据的百分比,或变量值落在该区间的概率(概率分布)。不同 范围内正态曲线下的面积可用公式计算。2.几个重要的面积比例轴与正态曲线之间的面积恒等于1。正态曲线下,横轴区间(-,+)内的面积为0.68,横轴区间(-1.96,+1.96)内的面积为0.95,横轴区间(-2.58,+2.58)内的面积为0.9973。3.我们可以用excel函数验证第2条的性质。我们在标准正态分布的条件下验证,即=0,=1,的情况下。如在(-1.96,1.96)区间内面积的计算,由正态分布的对称性,我们先求(-,-1.96)时的标准正态分布曲线下的面积,用excel函数的表达式为=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论