基础统计知识介绍_第1页
基础统计知识介绍_第2页
基础统计知识介绍_第3页
基础统计知识介绍_第4页
基础统计知识介绍_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、10/26/20211基础统计学概述基础统计理论在管理中的应用10/26/20212纲要一、绪论二、统计数据的描述性分析三、抽样与抽样分布四、参数估计五、假设检验六、方差分析七、一元线性回归八、其它回归九、时间序列分析与预测 十、指数10/26/20213一、绪论参考书目:n应用统计学教材统计学(第二版) n 贾俊平 编著 n清华大学出版社 2006年2月出版 n质量专业理论与实务(中级)n国家质量监督检验检疫总局质量司 组织编写n中国人事出版社 2001年6月出版10/26/20214一、绪论1、统计的含义n“Statistics”一词有多种含义:统计工作、统计数据、统计科学等。n统计学:是

2、关于收集、处理、分析、解释数据并从数据中得出结论的科学。n几个定义n总体population:研究对象的全体。个体或总体单位n总体容量population size:用N表示。n样本sample:总体的一个数据子集。n样本容量sample size:用n表示。n大样本n30,小样本n30。10/26/20215一、绪论2、学习统计学的意义管理基层管理基层管理中层管理中层管理高层管理高层管管理理文文化化哲哲学学管管理理科科学学信信息息统计学统计学运筹学运筹学管理信息系统管理信息系统各类管理工具各类管理工具 10/26/20216一、绪论2、学习统计学的意义n管理就是决策,而决策成败的关键在于能否

3、对系统的状态、规律有充分的认识和准确的判断。n系统分析与决策的进程(1)对系统的描述性分析(2)对系统的解析性分析(3)对系统的预测性分析(4)决策阶段3、统计学分科n描述性的统计学与推断性统计学n理论统计学和应用统计学10/26/20217一、绪论反应客反应客观现象观现象的数据的数据实验设计法实验设计法大量观察法大量观察法-描述性描述性统计统计推断推断统计统计概率论概率论分布理论分布理论大数定律大数定律中心极限定律中心极限定律总体内在总体内在的数据规的数据规律性律性总体数据总体数据样本数据样本数据支持决策支持决策10/26/20218一、绪论3、数据类型数据定性数据(品质数据)定量数据(数量

4、数据)连续型数据离散型数据10/26/20219一、绪论4、统计学的运用n生产计划与预测:对经济发展趋势、商务活动动向、销售预测情况、存货管理系统的统计分析。n市场调查:市场研究、消费者行为研究、消费者满意度研究、产品研究、广告研究。n质量管理:统计分析有助于质量控制、抽样检验、实验设计。n项目风险评估:风险发生的概率与损失。n人力资源管理、财务管理、民意调查、农业生产等等。10/26/202110二、统计数据的描述性分析1、数据收集间接来源间接来源直接来源直接来源出版物、网络出版物、网络调查调查实验数据实验数据抽样调查抽样调查非概率抽样非概率抽样系统抽样系统抽样分层抽样分层抽样随机抽样随机抽

5、样整群抽样整群抽样统计报表统计报表数据来源数据来源数据来源数据来源人口普查人口普查数据来源数据来源普查普查无法用样本定量资无法用样本定量资料来推断总体,适料来推断总体,适合于探索性研究!合于探索性研究!概率抽样概率抽样能够用样本定量资能够用样本定量资料来估计和推断总料来估计和推断总体!体!10/26/202111二、统计数据的描述性分析2、数据的整理与图表展示n数据审核n调查数据:完整性、准确性。n间接数据:又叫二手数据,适用性和时效性。从数据的来源、统计口径和相关背景资料等角度审核。n数据筛选nMicrosoft Office Excel 功能:排序、筛选等。n图表n茎叶图、直方图、饼分图、

6、累计分布图、雷达图等等。10/26/202112二、统计数据的描述性分析n一个好的图形的基本特征。n显示数据。n让读者把注意力集中在图形内容上,而不是制作图形上。n避免歪曲。n强调数据之间的比较。n服务于一个明确的目的。n有对图形的统计描述和文字说明。10/26/202113二、统计数据的描述性分析n5个鉴别图形优劣的准则(1)一个好的图形是精心设计,有助于洞察问题的实质。(2)一张好的图形应当是使复杂的观点得到简明、确切、高效的阐述。(3)一张好的图形应当能在最短的时间以最少的笔墨给读者提供最大量的信息。(4)一张好的图形应当是多维的。(5)一张好的图形应当表述数据的真实情况。10/26/2

7、02114二、统计数据的描述性分析n统计表 表一:不同密度下在光源为300、500lx时人眼的JND水平 (单位:)密度值300lx500lx300lx比率500lx比率0.070.00440.00346.36%4.86%0.200.00540.00392.69%1.97%0.600.01020.00721.70%1.19%0.700.01200.00841.71%1.20%0.900.01580.01161.76%1.29%1.300.02420.01931.86%1.49%1.700.03180.02901.87%1.71%1.900.03440.03181.81%1.67%2.200.0

8、3900.03441.77%1.56%2.400.03900.03581.63%1.49%备注:摘自Digital Imaging and Communication in Medicine (DICOM), Published by USA National Electrical Manufecturers Association。10/26/202115二、统计数据的描述性分析n统计表密度级密度级300lx300lx500lx500lx300lx300lx500lx500lx0.070.070.00440.00440.00340.00346.36%6.36%4.86%4.86%0.20.2

9、0.00540.00540.00390.00392.69%2.69%1.97%1.97%0.60.60.01020.01020.00720.00721.70%1.70%1.19%1.19%0.70.70.0120.0120.00840.00841.71%1.71%1.20%1.20%0.90.90.01580.01580.01160.01161.76%1.76%1.29%1.29%1.31.30.02420.02420.01930.01931.86%1.86%1.49%1.49%1.51.50.0290.0290.02420.02421.93%1.93%1.62%1.62%1.71.70.03

10、180.03180.0290.0291.87%1.87%1.71%1.71%1.91.90.03440.03440.03180.03181.81%1.81%1.67%1.67%2.02.00.03440.03440.03180.03181.72%1.72%1.59%1.59%2.22.20.0390.0390.03440.03441.77%1.77%1.56%1.56%2.42.40.0390.0390.03580.03581.63%1.63%1.49%1.49%密度级密度级300lx300lx500lx500lx300lx300lx500lx500lx0.070.070.00440.0044

11、0.00340.00346.36%6.36%4.86%4.86%0.20.20.00540.00540.00390.00392.69%2.69%1.97%1.97%0.60.60.01020.01020.00720.00721.70%1.70%1.19%1.19%0.70.70.0120.0120.00840.00841.71%1.71%1.20%1.20%0.90.90.01580.01580.01160.01161.76%1.76%1.29%1.29%1.31.30.02420.02420.01930.01931.86%1.86%1.49%1.49%1.51.50.0290.0290.02

12、420.02421.93%1.93%1.62%1.62%1.71.70.03180.03180.0290.0291.87%1.87%1.71%1.71%1.91.90.03440.03440.03180.03181.81%1.81%1.67%1.67%2.02.00.03440.03440.03180.03181.72%1.72%1.59%1.59%2.22.20.0390.0390.03440.03441.77%1.77%1.56%1.56%2.42.40.0390.0390.03580.03581.63%1.63%1.49%1.49%10/26/202116二、统计数据的描述性分析n图表实

13、例n数据分布集中趋势的度量n集中趋势central tendency:是指一组数据向中心靠拢的程度。n位置平均数:众数moden位置平均数:中位数median相对位置:四分位数、十分位数、百分位数n数值平均值:均值mean(简单平均数、加权平均数)n数值平均值:几何平均数即n个变量乘积的n次方。主要用于比率的平均。10/26/202117二、统计数据的描述性分析n数据分布集中趋势的度量n众数、中位数、平均数的比较n定性变量:最好采用众数mode描述集中趋势。n定量变量:当数据呈现对称分布或近似对称分布时应当选择均值mean作为集中趋势的代表值。当数据呈现偏斜分布时,应当选择中位数media作为

14、集中趋势的代表值。n对称分布:三者相等。n左偏分布:众数中位数平均值n右偏分布:众数中位数3时为离群数据。 nEXCEL在描述性统计中的运用10/26/202121三、抽样与抽样分布1、非概率抽样non-probability sampling:n抽样时不遵守随机原则,而是从方便出发或根据研究者个人的经验和判断来抽取样品。它无法估计和控制抽样误差,无法用样本的定量资料来推断总体,适合于做探索性研究。2、概率抽样probability sampling:n也称随机抽样,是按照抽样原则抽取样本,能够有效的避免主观带来的倾向性误差,使得样本资料能够用于估计和推断总体的数量特征,可以计算误差,能够说明

15、估计结果的可靠度。(随机抽样EXCEL的应用)n简单随机抽样、顺序随机抽样、分层随机抽样、整群随机抽样。10/26/202122三、抽样与抽样分布n常见的离散型概率分布:两点分布、二项分布(binomdist)、泊松分布(poisson)、超几何分布(hypgoemdist)。例1:已知一批产品的次品率为4%,从中有放回地抽取5个。求5个产品中:没有次品的概率是多少?恰好有1个次品的概率是多少?有3个以下(不含3)的概率是多少?(binomdist)例2:假定有10支股票,其中3支购买后可获利,另外7支购买后将亏损。如果打算从10支股票中选购4支,但不知道哪3支是获利的哪3支是亏损的。求所有3

16、支能获利的股票都被选中的概率是多少?3支获利的股票中有两只被选中的概率是多少?(hypgeomdist)10/26/202123三、抽样与抽样分布3、抽样分布n中心极限定理n定义:多个相互独立随机变量的平均值(仍然是一个随机变量)将服从或近似服从正态分布。n定理一:如果总体分布是正态的,那么样本均值的分布也是正态的。n定理二:如果总体为非正态分布,当样本容量很大时(n30),样本均值的抽样分布可用正态分布近似。n几种常用的统计量的分布10/26/202124三、抽样与抽样分布n几种常用的统计量的分布nz分布:正态分布,用于已知样本均值X和总体方差2,估计总体均值。n?2分布:服从标准正态分布,

17、用于已知s、n估计总体标准偏差。nt分布:小样本理论或Student分布,与n有关,适用于n30,正态总体方差未知时,用样本标准差s代替总体标准差,由样品均值推断总体均值以及两个总体均值之差的区间估计与显著性检验等。当n30时几乎与z分布相同。nF分布:偏态分布,用于估计和检验两个正态总体是否相等,并在方差分析、协方差分析和回归分析中应用。10/26/202125三、抽样与抽样分布n样本统计量的抽样分布形式概括如下:样本统计量样本统计量样本均值样本均值x样本比例样本比例p样本方差样本方差s2正态总体或非正正态总体或非正态总体大样本态总体大样本正态分布正态分布非正态总体非正态总体小样本小样本非正

18、态分布非正态分布大样本大样本正态分布正态分布?2分布分布10/26/202126四、参数估计1、参数估计parameter estimation:用样本统计量去估计总体的参数。2、点估计point estimation:用样本统计量的某个取值直接作为总体参数的估计值,称为参数的点估计。3、区间估计interval estimation:在点估计的基础上,给出总体参数估计的一个范围,称为参数的区间估计。n置信区间:由统计量所构造的总体参数的估计区间。 (统计量概率度抽样平均误差)n置信水平:如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比率,称为置信水平1-,或称为置信

19、区间的可靠度。n显著性水平:区间估计的不可靠度,用表示。10/26/202127四、参数估计4、一个总体参数的估计及所使用的分布待估参数待估参数均值均值比例比例大样本大样本z z分布分布小样本小样本方差方差2 2未知未知2 2已知已知t t分布分布z z分布分布?2 2分布分布大样本大样本z z分布分布10/26/202128四、参数估计5、样本容量的确定n估计总体均值时样本容量的确定 E为边际误差 1-为置信水平n估计总体比例时样本容量的确定 为总体比例,可用样本比例作为估计值,如果估计值也没有可取0.50,E一般小于0.10。2 2/ /2 22 2z z( ( 1 1) )n nE Ea

20、 ap p - - p p= =22/22znEas=p p10/26/202129四、参数估计5、样本容量的确定例:根据以往的生产统计,某产品的合格率约为90%,现要求边际误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本? 解:已知 =90%,E=5%,95%置信度下的z /2=1.96 所以根据上述公式得n=138.3139(个)p p10/26/202130四、参数估计5、样本容量的确定 简单随机抽样,对总体比率进行参数估计,置信水平、抽样误差、样本容量三者之间的关系: 表:需要的最小样本容量 1- 1-90%90%95%95%99%99% E E1%1%6806680696

21、04960416641166412%2%1702170224012401416041603%3%75675610671067184918494%4%425425600600104010405%5%2722723843846666666%6%1891892672674624627%7%13913919619634034010/26/202131五、假设检验1、假设检验hypothesis testn定义:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程,称为假设检验。两种假设:原假设和备择假设。n备择假设:通常将研究者想收集证据予以支持的假设称为备择假设,用H1表示。n原假设:通

22、常将研究者想收集证据予以反对的假设称为原假设,用H0表示。2、假设检验的基本思想:假设检验所采取的的逻辑推理方法是反证法,合理性所依据的是“小概率原理”。10/26/202132五、假设检验3、显著性水平n两类错误:第类错误,又叫弃真错误,概率记为;第类错误,又叫存伪错误,概率记为 。n假设检验中犯的第类错误的概率称为显著性水平level of significance,记为。但“significance显著的”的意义在这里并不是重要的,而是指“非偶然的”。常用的显著性水平=0.01、0.05、0.10,当然也可以取其他值。4、假设检验的步骤。5、检验统计量的拒绝域。10/26/202133六

23、、方差分析n统计应用:SARS病毒灭活疫苗临床试验。n试验设计是取得数据的有效方法,而试验设计数据的分析方法则是方差分析。n试验设计(Design of Experiment, DOE):包括两部分,一是对试验进行科学有效的设计,二是对试验数据进行正确的统计分析。n随机化原则、重复试验原则、区组原则、对照原则。n方差分析:检验多个总体均值是否相等的统计方法。分为单因素方差分析和多因素方差分析。10/26/202134六、方差分析n举例说明因子设计与方差分析 小麦种植中的小麦品种和施肥方式n假定有两种施肥方式和三个小麦品种。这样搭配方式为23=6种。如果选择30块地进行试验,每一种搭配做5次试验

24、,也就是每个样本容量为5。这种考虑两个因素(可推广到多个因素)的搭配试验设计称为因子设计,该设计主要用于分析两个因素及其交互作用对试验的影响。10/26/202135六、方差分析n小麦种植方差分析方差分析差异源差异源SSSSdfdfMSMSF FP-valueP-valueF critF crit施肥方式施肥方式5605602 228028054.3689354.368931.22E-091.22E-093.4028263.402826小麦品种小麦品种4804801 148048093.2038893.203889.73E-109.73E-104.2596774.259677交互交互10.41

25、0.42 25.25.21.0097091.0097090.3792840.3792843.4028263.402826内部内部123.6123.624245.155.15总计总计117411742929n施肥方式的P-value= 1.22E-09=0.05,表明施肥方式对产量有显著影响。n小麦品种的P-value= 9.73E-10 =0.05,即没有证据表明小麦品种与施肥方式的交互作用对产量有显著影响。10/26/202136七、一元线性回归1、相关分析correlation analysisn定义:对变量之间的相关程度进行分析。n相关系数r:描述现象之间相互关系的密切程度n简单相关系数

26、:两个变量Y与X之间线性相关程度的度量。n复相关系数:一个变量Y与多个变量X1、X2、X3Xn之间线性相关程度。n相关图:散点图,变量之间相关关系的统计图。10/26/202137七、一元线性回归2、一元线性回归n一元线性回归模型:y=0+1x+n估计的回归方程:n最小二乘法:使因变量的观察值yi与估计值 之间的离差平方和达到最小来估计0和1的方法。3、利用回归方程进行估计和预测n举例说明-1n举例说明-201yx i iy y) )10/26/202138八、其它回归方式1、多元线性回归2、非线性回归10/26/202139九、时间序列分析与预测1、时间序列times series :同一现

27、象在不同时间上的相继观测值排列而成的序列。n分为平稳序列和非平稳序列。n非平稳序列n趋势 trend:也称长期趋势,时间序列在长时间内呈现出来的某种持续向上或持续下降的变动。n季节性 seasonality:也称季节变动,时间序列在一年内出现的周期性波动。n周期性 cyclity:也叫循环波动,时间序列中呈现出来的围绕长期趋势的一种波浪性或振荡式变动。n随机性 random:也称不规则波动,时间序列中除去趋势、周期性和季节性之后的偶然性波动。10/26/202140九、时间序列分析与预测2、时间序列预测模型n加法模型:假定四种变动因素相互独立,时间序列各时期发展水平是各个构成因素的总和。即Y=

28、T+S+C+I。n乘法模型:假定四种变动因素之间存在着交互作用,时间序列各个时期发展水平是各个构成因素的乘积。即Y=TSCI。10/26/202141九、时间序列分析与预测3、时间序列预测的程序,分为四步。第一步:确定时间序列包含的成分,也就是确定时间序列的类型。第二步:找出适合此类时间序列的预测方法。第三步:对可能的预测方法进行评估,以确定最佳方案。第四步:利用最佳方案进行预测。10/26/202142九、时间序列分析与预测n选择预测方法时间序列数据时间序列数据是否存在趋势?是否存在趋势?是否存在季节?是否存在季节?是否存在季节?是否存在季节?平滑法预测平滑法预测简单平均法简单平均法移动平均

29、法移动平均法指数平滑法指数平滑法季节性预测法季节性预测法季节多元回归模型季节多元回归模型季节自回归模型季节自回归模型时间序列分解时间序列分解趋势预测方法趋势预测方法线性趋势推测线性趋势推测非线性趋势推测非线性趋势推测自回归预测模型自回归预测模型否否是是否否是是否否是是10/26/202143十、指数1、定义:测试多个项目在不同场合下综合变动的相对数,称为指数(index number)。按计算形式不同,分为简单指数和加权指数。目前主要应用的是加权指数。2、几种常用的指数n消费者价格指数 CPI(consumer price index):反应一定时期内消费者购买的生活消费品价格和服务项目价格的变动趋势和程度的一种指数。n通货膨胀率=(报告期CPI-基期CPI)/基期CPI100%n货币购买力指数=1/CPI 100%n实际工资=名义工资/CPI

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论