基础统计知识介绍_第1页
基础统计知识介绍_第2页
基础统计知识介绍_第3页
基础统计知识介绍_第4页
基础统计知识介绍_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基础统计知识介绍第1页,共48页,2023年,2月20日,星期四纲要一、绪论二、统计数据的描述性分析三、抽样与抽样分布四、参数估计五、假设检验六、方差分析七、一元线性回归八、其它回归九、时间序列分析与预测十、指数2023/4/52第2页,共48页,2023年,2月20日,星期四一、绪论参考书目:应用统计学教材《统计学(第二版)》

贾俊平编著清华大学出版社2006年2月出版《质量专业理论与实务》(中级)国家质量监督检验检疫总局质量司组织编写中国人事出版社2001年6月出版2023/4/53第3页,共48页,2023年,2月20日,星期四一、绪论1、统计的含义“Statistics”一词有多种含义:统计工作、统计数据、统计科学等。统计学:是关于收集、处理、分析、解释数据并从数据中得出结论的科学。几个定义总体population:研究对象的全体。个体或总体单位总体容量populationsize:用N表示。样本sample:总体的一个数据子集。样本容量samplesize:用n表示。大样本n≥30,小样本n﹤30。2023/4/54第4页,共48页,2023年,2月20日,星期四一、绪论2、学习统计学的意义管理基层管理中层管理高层管理文化哲学管理科学信息统计学运筹学管理信息系统各类管理工具

…2023/4/55第5页,共48页,2023年,2月20日,星期四一、绪论2、学习统计学的意义管理就是决策,而决策成败的关键在于能否对系统的状态、规律有充分的认识和准确的判断。系统分析与决策的进程(1)对系统的描述性分析(2)对系统的解析性分析(3)对系统的预测性分析(4)决策阶段3、统计学分科描述性的统计学与推断性统计学理论统计学和应用统计学2023/4/56第6页,共48页,2023年,2月20日,星期四一、绪论反应客观现象的数据实验设计法大量观察法----描述性统计推断统计概率论分布理论大数定律中心极限定律总体内在的数据规律性总体数据样本数据支持决策2023/4/57第7页,共48页,2023年,2月20日,星期四一、绪论3、数据类型数据定性数据(品质数据)定量数据(数量数据)连续型数据离散型数据2023/4/58第8页,共48页,2023年,2月20日,星期四一、绪论4、统计学的运用生产计划与预测:对经济发展趋势、商务活动动向、销售预测情况、存货管理系统的统计分析。市场调查:市场研究、消费者行为研究、消费者满意度研究、产品研究、广告研究。质量管理:统计分析有助于质量控制、抽样检验、实验设计。项目风险评估:风险发生的概率与损失。人力资源管理、财务管理、民意调查、农业生产等等。2023/4/59第9页,共48页,2023年,2月20日,星期四二、统计数据的描述性分析1、数据收集间接来源直接来源出版物、网络调查实验数据抽样调查非概率抽样系统抽样分层抽样随机抽样整群抽样统计报表数据来源数据来源人口普查数据来源普查无法用样本定量资料来推断总体,适合于探索性研究!概率抽样能够用样本定量资料来估计和推断总体!2023/4/510第10页,共48页,2023年,2月20日,星期四二、统计数据的描述性分析2、数据的整理与图表展示数据审核调查数据:完整性、准确性。间接数据:又叫二手数据,适用性和时效性。从数据的来源、统计口径和相关背景资料等角度审核。数据筛选MicrosoftOfficeExcel功能:排序、筛选等。图表茎叶图、直方图、饼分图、累计分布图、雷达图等等。2023/4/511第11页,共48页,2023年,2月20日,星期四二、统计数据的描述性分析一个好的图形的基本特征。显示数据。让读者把注意力集中在图形内容上,而不是制作图形上。避免歪曲。强调数据之间的比较。服务于一个明确的目的。有对图形的统计描述和文字说明。2023/4/512第12页,共48页,2023年,2月20日,星期四二、统计数据的描述性分析5个鉴别图形优劣的准则(1)一个好的图形是精心设计,有助于洞察问题的实质。(2)一张好的图形应当是使复杂的观点得到简明、确切、高效的阐述。(3)一张好的图形应当能在最短的时间以最少的笔墨给读者提供最大量的信息。(4)一张好的图形应当是多维的。(5)一张好的图形应当表述数据的真实情况。2023/4/513第13页,共48页,2023年,2月20日,星期四二、统计数据的描述性分析统计表表一:不同密度下在光源为300、500lx时人眼的JND水平(单位:)密度值300lx500lx300lx比率500lx比率0.070.00440.00346.36%4.86%0.200.00540.00392.69%1.97%0.600.01020.00721.70%1.19%0.700.01200.00841.71%1.20%0.900.01580.01161.76%1.29%1.300.02420.01931.86%1.49%1.700.03180.02901.87%1.71%1.900.03440.03181.81%1.67%2.200.03900.03441.77%1.56%2.400.03900.03581.63%1.49%备注:摘自DigitalImagingandCommunicationinMedicine(DICOM),PublishedbyUSANationalElectricalManufecturersAssociation。2023/4/514第14页,共48页,2023年,2月20日,星期四二、统计数据的描述性分析统计表密度级300lx500lx300lx500lx0.070.00440.00346.36%4.86%0.20.00540.00392.69%1.97%0.60.01020.00721.70%1.19%0.70.0120.00841.71%1.20%0.90.01580.01161.76%1.29%1.30.02420.01931.86%1.49%1.50.0290.02421.93%1.62%1.70.03180.0291.87%1.71%1.90.03440.03181.81%1.67%2.00.03440.03181.72%1.59%2.20.0390.03441.77%1.56%2.40.0390.03581.63%1.49%密度级300lx500lx300lx500lx0.070.00440.00346.36%4.86%0.20.00540.00392.69%1.97%0.60.01020.00721.70%1.19%0.70.0120.00841.71%1.20%0.90.01580.01161.76%1.29%1.30.02420.01931.86%1.49%1.50.0290.02421.93%1.62%1.70.03180.0291.87%1.71%1.90.03440.03181.81%1.67%2.00.03440.03181.72%1.59%2.20.0390.03441.77%1.56%2.40.0390.03581.63%1.49%2023/4/515第15页,共48页,2023年,2月20日,星期四二、统计数据的描述性分析图表实例数据分布集中趋势的度量集中趋势centraltendency:是指一组数据向中心靠拢的程度。位置平均数:众数mode位置平均数:中位数media相对位置:四分位数、十分位数、百分位数数值平均值:均值mean(简单平均数、加权平均数)数值平均值:几何平均数即n个变量乘积的n次方。主要用于比率的平均。2023/4/516第16页,共48页,2023年,2月20日,星期四二、统计数据的描述性分析数据分布集中趋势的度量众数、中位数、平均数的比较定性变量:最好采用众数mode描述集中趋势。定量变量:当数据呈现对称分布或近似对称分布时应当选择均值mean作为集中趋势的代表值。当数据呈现偏斜分布时,应当选择中位数media作为集中趋势的代表值。对称分布:三者相等。左偏分布:众数>中位数>平均值右偏分布:众数<中位数<平均值2023/4/517第17页,共48页,2023年,2月20日,星期四二、统计数据的描述性分析数据分布离散程度的度量全距(range)即极差。易受极端值的影响。内四分位距inter-quartilerange:IQR=Q3-Q1,反应的是中间50%数值大小的差异,不会受到极端值的影响。方差variance离差deviation:观察值与均值之差。方差:数据集中所有观察值的离差平方和的平均值。标准差standarddeviation:方差的平方根。标准差和方差都是以均值为中心描述分布的离散程度因而与均值有同样的弱点,易受到极端值的影响。2023/4/518第18页,共48页,2023年,2月20日,星期四二、统计数据的描述性分析数据分布离散程度的度量变异系数coefficiengtofvariation:当均值水平不同时,使用变异系数进行对比。Vσ=(标准偏差/均值)×100%经验规则empiricalrule:当数据处于对称分布时如下范围合格率不合格率备注ave.±1s68.27%31.73%--ave.±2s95.45%4.55%--ave.±3s99.73%0.27%--ave.±4s999936.65863.34ppmave.±5s999999.4270.5733ppmave.±6s999999.9980.0020ppm2023/4/519第19页,共48页,2023年,2月20日,星期四二、统计数据的描述性分析切比雪夫定理Chebyshevinquality:对于任意分布,如下至少75%的数据落在ave.±2s的范围内;至少89%的数据落在ave.±3s的范围内;至少94%的数据落在ave.±4s的范围内;z值法(zscore):发现离群数据离群数据outlier:数据集里的某个观测值与其余观测值相比异常的大或异常的小。

z=(x-x平均)/s当z的绝对值>3时为离群数据。EXCEL在描述性统计中的运用2023/4/520第20页,共48页,2023年,2月20日,星期四三、抽样与抽样分布1、非概率抽样non-probabilitysampling:抽样时不遵守随机原则,而是从方便出发或根据研究者个人的经验和判断来抽取样品。它无法估计和控制抽样误差,无法用样本的定量资料来推断总体,适合于做探索性研究。2、概率抽样probabilitysampling:也称随机抽样,是按照抽样原则抽取样本,能够有效的避免主观带来的倾向性误差,使得样本资料能够用于估计和推断总体的数量特征,可以计算误差,能够说明估计结果的可靠度。(随机抽样EXCEL的应用)简单随机抽样、顺序随机抽样、分层随机抽样、整群随机抽样。2023/4/521第21页,共48页,2023年,2月20日,星期四三、抽样与抽样分布常见的离散型概率分布:两点分布、二项分布(binomdist)、泊松分布(poisson)、超几何分布(hypgoemdist)。例1:已知一批产品的次品率为4%,从中有放回地抽取5个。求5个产品中:没有次品的概率是多少?恰好有1个次品的概率是多少?有3个以下(不含3)的概率是多少?(binomdist)例2:假定有10支股票,其中3支购买后可获利,另外7支购买后将亏损。如果打算从10支股票中选购4支,但不知道哪3支是获利的哪3支是亏损的。求所有3支能获利的股票都被选中的概率是多少?3支获利的股票中有两只被选中的概率是多少?(hypgeomdist)2023/4/522第22页,共48页,2023年,2月20日,星期四三、抽样与抽样分布3、抽样分布中心极限定理定义:多个相互独立随机变量的平均值(仍然是一个随机变量)将服从或近似服从正态分布。定理一:如果总体分布是正态的,那么样本均值的分布也是正态的。定理二:如果总体为非正态分布,当样本容量很大时(n≥30),样本均值的抽样分布可用正态分布近似。几种常用的统计量的分布2023/4/523第23页,共48页,2023年,2月20日,星期四三、抽样与抽样分布几种常用的统计量的分布z分布:正态分布,用于已知样本均值X和总体方差σ2,估计总体均值μ。ϰ2分布:服从标准正态分布,用于已知s、n估计总体标准偏差σ。t分布:小样本理论或Student分布,与n有关,适用于n<30,正态总体方差未知时,用样本标准差s代替总体标准差σ,由样品均值推断总体均值以及两个总体均值之差的区间估计与显著性检验等。当n≥30时几乎与z分布相同。F分布:偏态分布,用于估计和检验两个正态总体是否相等,并在方差分析、协方差分析和回归分析中应用。2023/4/524第24页,共48页,2023年,2月20日,星期四三、抽样与抽样分布样本统计量的抽样分布形式概括如下:样本统计量样本均值x样本比例p样本方差s2正态总体或非正态总体大样本正态分布非正态总体小样本非正态分布大样本正态分布ϰ2分布2023/4/525第25页,共48页,2023年,2月20日,星期四四、参数估计1、参数估计parameterestimation:用样本统计量去估计总体的参数。2、点估计pointestimation:用样本统计量的某个取值直接作为总体参数的估计值,称为参数的点估计。3、区间估计intervalestimation:在点估计的基础上,给出总体参数估计的一个范围,称为参数的区间估计。置信区间:由统计量所构造的总体参数的估计区间。(统计量±概率度×抽样平均误差)置信水平:如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比率,称为置信水平1-α,或称为置信区间的可靠度。显著性水平:区间估计的不可靠度,用α表示。2023/4/526第26页,共48页,2023年,2月20日,星期四四、参数估计4、一个总体参数的估计及所使用的分布待估参数均值比例大样本z分布小样本方差σ2未知σ2已知t分布z分布ϰ2分布大样本z分布2023/4/527第27页,共48页,2023年,2月20日,星期四四、参数估计5、样本容量的确定估计总体均值时样本容量的确定

E为边际误差1-α为置信水平估计总体比例时样本容量的确定

为总体比例,可用样本比例作为估计值,如果估计值也没有可取0.50,E一般小于0.10。2023/4/528第28页,共48页,2023年,2月20日,星期四四、参数估计5、样本容量的确定例:根据以往的生产统计,某产品的合格率约为90%,现要求边际误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?解:已知=90%,E=5%,95%置信度下的zα/2=1.96所以根据上述公式得n=138.3≈139(个)2023/4/529第29页,共48页,2023年,2月20日,星期四四、参数估计5、样本容量的确定简单随机抽样,对总体比率进行参数估计,置信水平、抽样误差、样本容量三者之间的关系:表:需要的最小样本容量

1-α90%95%99%

E1%68069604166412%1702240141603%756106718494%42560010405%2723846666%1892674627%1391963402023/4/530第30页,共48页,2023年,2月20日,星期四五、假设检验1、假设检验hypothesistest定义:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程,称为假设检验。两种假设:原假设和备择假设。备择假设:通常将研究者想收集证据予以支持的假设称为备择假设,用H1表示。原假设:通常将研究者想收集证据予以反对的假设称为原假设,用H0表示。2、假设检验的基本思想:假设检验所采取的的逻辑推理方法是反证法,合理性所依据的是“小概率原理”。2023/4/531第31页,共48页,2023年,2月20日,星期四五、假设检验3、显著性水平α两类错误:第Ⅰ类错误,又叫弃真错误,概率记为α;第Ⅱ类错误,又叫存伪错误,概率记为β。假设检验中犯的第Ⅰ类错误的概率称为显著性水平levelofsignificance,记为α。但“significance显著的”的意义在这里并不是重要的,而是指“非偶然的”。常用的显著性水平α=0.01、0.05、0.10,当然也可以取其他值。4、假设检验的步骤。5、检验统计量的拒绝域。2023/4/532第32页,共48页,2023年,2月20日,星期四六、方差分析统计应用:SARS病毒灭活疫苗临床试验。试验设计是取得数据的有效方法,而试验设计数据的分析方法则是方差分析。试验设计(DesignofExperiment,DOE):包括两部分,一是对试验进行科学有效的设计,二是对试验数据进行正确的统计分析。随机化原则、重复试验原则、区组原则、对照原则。方差分析:检验多个总体均值是否相等的统计方法。分为单因素方差分析和多因素方差分析。2023/4/533第33页,共48页,2023年,2月20日,星期四六、方差分析举例说明因子设计与方差分析小麦种植中的小麦品种和施肥方式假定有两种施肥方式和三个小麦品种。这样搭配方式为2×3=6种。如果选择30块地进行试验,每一种搭配做5次试验,也就是每个样本容量为5。这种考虑两个因素(可推广到多个因素)的搭配试验设计称为因子设计,该设计主要用于分析两个因素及其交互作用对试验的影响。2023/4/534第34页,共48页,2023年,2月20日,星期四六、方差分析小麦种植方差分析差异源SSdfMSFP-valueFcrit施肥方式560228054.368931.22E-093.402826小麦品种480148093.203889.73E-104.259677交互10.425.21.0097090.3792843.402826内部123.6245.15总计117429

施肥方式的P-value=1.22E-09<α=0.05,表明施肥方式对产量有显著影响。小麦品种的P-value=9.73E-10<α=0.05,表明小麦品种对产量有显著影响。而交互作用的P-value=0.3793>α=0.05,即没有证据表明小麦品种与施肥方式的交互作用对产量有显著影响。2023/4/535第35页,共48页,2023年,2月20日,星期四七、一元线性回归1、相关分析correlationanalysis定义:对变量之间的相关程度进行分析。相关系数r:描述现象之间相互关系的密切程度简单相关系数:两个变量Y与X之间线性相关程度的度量。复相关系数:一个变量Y与多个变量X1、X2、X3…Xn之间线性相关程度。相关图:散点图,变量之间相关关系的统计图。2023/4/536第36页,共48页,2023年,2月20日,星期四七、一元线性回归2、一元线性回归一元线性回归模型:y=β0+β1x+ε估计的回归方程:最小二乘法:使因变量的观察值yi与估计值之间的离差平方和达到最小来估计β0和β1的方法。3、利用回归方程进行估计和预测举例说明-1举例说明-22023/4/537第37页,共48页,2023年,2月20日,星期四八、其它回归方式1、多元线性回归2、非线性回归2023/4/538第38页,共48页,2023年,2月20日,星期四九、时间序列分析与预测1、时间序列timesseries:同一现象在不同时间上的相继观测值排列而成的序列。分为平稳序列和非平稳序列。非平稳序列趋势trend:也称长期趋势,时间序列在长时间内呈现出来的某种持续向上或持续下降的变动。季节性seasonality:也称季节变动,时间序列在一年内出现的周期性波动。周期性cyclity:也叫循环波动,时间序列中呈现出来的围绕长期趋势的一种波浪性或振荡式变动。随机性random:也称不规则波动,时间序列中除去趋势、周期性和季节性之后的偶然性波动。2023/4/539第39页,共48页,2023年,2月20日,星期四九、时间序列分析与预测2、时间序列预测模型加法模型:假定四种变动因素相互独立,时间序列各时期发展水平是各个构成因素的总和。即Y=T+S+C+I。乘法模型:假定四种变动因素之间存在着交互作用,时间序列各个时期发展水平是各个构成因素的乘积。即Y=T×S×C×I。2023/4/540第40页,共48页,2023年,2月20日,星期四九、时间序列分析与预测3、时间序列预测的程序,分为四步。第一步:确定时间序列包含的成分,也就是确定时间序列的类型。第二步:找出适合此类时间序列的预测方法。第三步:对可能的预测方法进行评估,以确定最佳方案。第四步:利用最佳方案进行预测。2023/4/541第41页,共48页,2023年,2月20日,星期四九、时间序列分析与预测选择预测方法时间序列数据是否存在趋势?是否存在季节?是否存在季节?平滑法预测简单平均法移动平均法指数平滑法季节性预测法季节多元回归模型季节自回归模型时间序列分解趋势预测方法线性趋势推测非线性趋势推测自回归预测模型否是否是否是2023/4/542第42页,共48页,2023年,2月20日,星期四十、指数1、定义:测试多个项目在不同场合下综合变动的相对数,称为指数(indexnumber)。按计算形式不同,分为简单指数和加权指数。目前主要应用的是加权指数。2、几种常用的指数消费者价格指数CPI(consumerpriceindex):反应一定时期内消费者购买的生活消费品价格和服务项目价格的变动趋势和程度的一种指数。通货膨胀率=(报告期CPI-基期CPI)/基期CPI×100%货币购买力指数=1/CPI×100%实际工资=名义工资/CPI20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论