数据分析与统计学基础V0.2_第1页
数据分析与统计学基础V0.2_第2页
数据分析与统计学基础V0.2_第3页
数据分析与统计学基础V0.2_第4页
数据分析与统计学基础V0.2_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析与统计学基础数据分析的重要性制定具有针对性的营销策略帮助产品定位、生命周期管理与销售分析深层次研究竞争分析理解市场动向与趋势为管理、经济以及投资决策提供依据我司目前数据分析的现状第五阶段第四阶段第三阶段第二阶段第一阶段(我司现状)分析竞争型分析型企业拥有数据分析意向有限采用数据分析法数据分析法利用薄弱如何提升我司数据分析能力统计学基础参数估计假设检验方差分析回归-线性回归

-方差回归

-逻辑回归

-定序回归

-生存回归提升数据分析两大方法数据分析软件Excel——初级SPSS——中级SAS——高级默认所有人都学过《概率论与数理统计》

统计学的基本概念——话术总体样本总体:所研究的全部个体的集合样本:总体中的一部分元素参数统计量参数:描述总体特征的概括性数字度量统计量:描述样本特征的概括性数字度量变量分类变量:说明事物类别的一个名称顺序变量:说明事物有序类别的一个名称数值型变量:说明事物数字特征的一个名称统计学的基本概念——度量集中趋势的度量众数(分类)

一组数据中出现次数最多的变量值中位数(顺序)

一组数据排序后处于中间位置上的变量值四分位数(顺序)

一组数据排序后处于25%和75%位置上的值平均数(数值)异众比率(分类)

非众数组的频数占总频数的比例四分位差(顺序)

上四分位与下四分位数之差方差与标准差(数值)离散程度的度量偏态及其测度

数据分布对称性的测度,记作SK。

SK>1或SK<-1称为高度偏态;

0.5<SK<1或-1<SK<-0.5称为中度偏态;

SK越接近0偏斜度越低峰态及其测度

数据分布平峰或尖峰程度,记作K。

K>0尖峰,K<0扁平偏态与峰态的度量123统计学基础123参数估计与假设检验方差分析回归分析统计学基础123参数估计与假设检验方差分析回归分析参数估计的基本原理与置信区间参数估计:用样本统计量去估计总体的参数参数估计的方法:点估计和区间估计置信度为95%置信度为99%95%的区间包含总体参数的真值99%的区间包含总体参数的真值置信区间的理解置信度95%指有95%的区间包含总体参数的真值,5%则不包含;通过样本求得的区间是固定的、已知的,而总体是未知的、随机的;在实际问题中,我们希望构造的区间是包含总体真值其中的一个区间。一个总体参数的区间估计*Z

α/2=1.96(置信度95%)两个总体参数的区间估计*Z

α/2=1.96(置信度95%)通过Excel获得参数估计所需的参数某公司3个月电脑销售数量(台)234159187155172183182177163158143198141167194225177189196203187160214168173178184209176188161152149211196234185189196206150161178168174153186190160171228162223170165179186175197208153163218180175144178191197192166196179171233179187173174210154164215233175188237194198168174226180172190172187189200211156165175210207181205195201172203165196172176182188195202213描述统计【数据】->【数据分析】->【描述统计】【输入区域】:源数据选择“汇总统计”选择“平均置信度”为95%描述统计平均184.566667标准误差1.97915373中位数182众数196标准差21.6805429方差470.045938峰度-0.2243562偏度0.40528478区域96最小值141最大值237求和22148观测数120置信度(95.0%)3.91892206假设检验的基本原理及思路

假设检验举例

Excel:【插入】->【函数】->NORM.S.DIST统计学基础123参数估计与假设检验方差分析回归分析方差分析基本原理及概念通过误差来判断分类型自变量对数值型因变量的影响原理:SST(总误差)=SSE(组内误差)+SSA(组间误差)误差:通过假设检验,利用误差分布或概率来检验各总体的均值是否相等。如果各总体的均值相等无影响,不相等则有影响思路:基本原理及概念方差分析表的一般形式及含义误差来源平方和SS自由度df均方MSF值P值F临界值组间(因素影响)SSAk-1MSA=SSA/k-1MSA/MSE组内(误差)SSEn-kMSE=SSE/n-k总和SSTn-1SSA:反映自变量对因变量的影响。SSE:反映除自变量对因变量的影响之外,其他因素对因变量的影响。SST:反映自变量和残差变量的共同影响。MSE和MSA:组内和组间均方差,为了计算F值。F值:统计决策。F值>F临界值,拒绝原假设,表明所检验因素对观测值有显著影响;F值<F临界值,不拒绝原假设,表明所检验因素对观测值没有显著影响。方差分析的强度测量与多重比较

强度测量

多重比较用Excel实现单双因素方差分析单因素方差分析选择【数据】选择【数据分析】选择【方差分析:单因素方差分析】【输入区域】:源数据选择“α:0.05”【输出区域】:输出区域双因素方差分析选择【数据】选择【数据分析】选择【方差分析:无重复双因素方差分析】or【方差分析:有重复双因素方差分析】【输入区域】:源数据选择“α:0.05”【输出区域】:输出区域双因素方差分析举例

地区因素地区1地区2地区3地区4地区5品

素品牌1365350343340323品牌2345368363330333品牌3358323353343308品牌42882802982602984个品牌的彩电在5个地区的销售数量数据方差分析:无重复双因素分析SUMMARY观测数求和平均方差行151721344.2233.7行251739347.8295.7行351685337442.5行451424284.8249.2列1413563391224.667列241321330.251464.25列341357339.25822.9167列441273318.251538.917列541262315.5241.6667方差分析差异源SSdfMSFP-valueFcrit行13004.5534334.8518.107779.46E-053.490295列2011.74502.9252.1008460.1436653.259167误差2872.712239.3917总计17888.9519(kr-1)

双因素方差分析【数据】->【数据分析】->【方差分析:无重复双因素方差分析】【输入区域】:源数据选择“α:0.05”统计学基础123参数估计与假设检验方差分析回归分析我司可能用到的回归及应用场合线性回归方差回归逻辑回归定序回归生存回归数值型因变量与自变量品质型因变量与数值型自变量逻辑型因变量与自变量顺序型因变量与自变量生存周期与自变量线性回归的基本概念

回归的由来线性回归模型起源:回归源于高尔顿的豌豆实验现象:一个总体中在某一时期具有某一极端特性的个体在未来的某一时期将减弱它的极端性y=β0+

β1x1+

β2x2+

β3x3+……+βixi+ε

Excel输出回归分析结果SUMMARYOUTPUT回归统计MultipleR0.914430892RSquare0.836183857AdjustedRSquare0.803420628标准误差1.600268457观测值25方差分析

dfSSMSFSignificanceF回归分析4261.433265.358325.522021.30295E-07残差2051.217182.560859总计24312.6504

Coefficients标准误差tStatP-valueLower95%Upper95%Intercept-1.1855948160.696385-1.70250.104155-2.6382284520.26703882XVariable10.0342482220.0071564.7858830.0001130.0193208750.049175569XVariable20.2179018930.0650753.3484590.00320.0821572410.353646545XVariable30.0017078160.0737460.0231580.981754-0.1521244880.15554012XVariable4-0.0205045590.012704-1.613990.122197-0.04700520.005996081常规统计量,回归方程的拟合优度对回归方程的线性关系进行显著性检验回归参数估计相关内容回归方程的拟合优度回归统计MultipleR0.914430892RSquare0.836183857AdjustedRSquare0.803420628标准误差1.600268457观测值25方差分析

dfSSMSFSignificanceF回归分析4261.433265.358325.522021.30295E-07残差2051.217182.560859总计24312.6504

拟合优度:回归直线与各观测点的接近程度,需计算判定系数R2或调整的R2。

回归方程的显著性检验方差分析

dfSSMSFSignificanceF回归分析4261.433265.358325.522021.30295E-07残差2051.217182.560859总计24312.6504

Coefficients标准误差tStatP-valueLower95%Upper95%Intercept-1.1855948160.696385-1.70250.104155-2.6382284520.26703882XVariable10.0342482220.0071564.7858830.0001130.0193208750.049175569XVariable20.2179018930.0650753.3484590.00320.0821572410.353646545XVariable30.0017078160.0737460.0231580.981754-0.1521244880.15554012XVariable4-0.0205045590.012704-1.613990.122197-0.04700520.005996081显著性检验:检验线性回归方程是否能真实反映变量x和y之间的关系。显著性检验分为两部分:线性关系和回归系数。线性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论