应用统计学期末复习_第1页
应用统计学期末复习_第2页
应用统计学期末复习_第3页
应用统计学期末复习_第4页
应用统计学期末复习_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用统计学期末复习应用统计学期末复习应用统计学期末复习V:1.0精细整理,仅供参考应用统计学期末复习日期:20xx年X月应用统计学期末复习总论统计学是一门关于客观现象数据的搜集、整理、归纳、分析的方法论学科,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。统计的研究对象是具有某种相同属性的群体现象,并探索群体现象数量表现的内在规律性。特点:总体性、数量性、规律性。分类:按统计方法的构成分为描述统计学和推断统计学,按统计方法研究和应用的侧重分为理论统计学和应用统计学。统计总体是指根据一定的目的要求所确定的研究事物的全体。总体单位是构成统计总体的个别事物。统计标志:总体各单位所具有的属性或特征。标志表现:总体单位各标志的具体体现。标志的分类:按性质分为品质标志和数量标志,按变异情况分为不变标志和可变标志。变量:可变的数量标志。变量值:变量的具体表现。分类:按变量值是否具有连续性分为连续变量和离散变量,按性质分为确定性变量和随机变量。统计指标:反映统计总体数量特征的概念和数值。统计指标六要素:指标名称、计量单位、计量方法、时间状态、空间范围、指标具体数值。统计指标特征:数量性、综合性、具体性。统计指标与标志的区别:统计指标说明的是总体数量特征,而标志是说明总体单位特征的名称;指标都可用数值表示,而标志有不能用数值表示的品质标志和能用数值表示的数量标志。统计指标分类(第21页):按反映总体的内容分为数量指标和质量指标,按作用分为总量指标、相对指标和平均指标。总量指标分类:按反映的内容分为总体单位总量和总体标志总量,按反映的时间状况分为时期指标和时点指标,按指标数值采用的计量单位分为实物指标、价值指标和劳动量指标。相对指标(相对数)的表现形式分为无名数(系数、倍数、百分数)和复名数(人口密度)。相对指标的种类:(第23页)计划完成程度指标(%)=已完成数结构相对指标(%)=总体部分数值比例相对指标=甲地区比例相对指标=总体中动态相对指标动态相对数(%)=报告期强度相对指标=某一总量指标

统计数据的搜集数据的计量方法:定类尺度、定序尺度、定距尺度、定比尺度。数据的分类:按计量层次分为名义级数据、顺序级数据和刻度级数据;按收集方法分为观测数据和实验数据;按时间状况分为截面数据和时序数据。统计数据的来源:直接来源(原始数据)、间接来源(二手数据)。统计调查是根据统计研究预定的目的、要求和任务,运用科学的调查方法,有组织、有计划地向客观实际搜集资料的过程。统计调查方案应包括:确定调查目的、确定调查对象和调查单位。调查对象是指调查研究总体或调查范围。调查单位是构成调查对象的每一个具体单位。报告单位(填报单位)指负责回答或提交调查资料的单位。统计调查方式统计报表普查:一次性或周期性、需要规定统一的标准调查时间、数据比较准确、适用范围较窄。重点调查:在调查对象的全部单位中,只选择少数重点单位进行非全面调查。典型调查:初步分析全部研究对象,选择一个或几个具有代表性的单位进行详细深入的调查。抽样调查特点:客观性、经济性、时效性、适用性、准确性。抽样调查组织形式:简单随机抽样类型随机抽样(分层抽样)机械随机抽样(等距抽样、系统抽样):它是将总体单位按某一标志排队,计算出抽样间隔,并在第一个抽样间隔内随机确定一个抽样起点,再按固定的顺序和间隔来抽取样本单位。整群随机抽样:它是先将总体中各个个体,按照某一标志分为若干群,然后以群为单位,按随机原则从中抽取一部分群体,抽中群体的所有个体构成样本。阶段随机抽样(分级抽样):如两阶段抽样是先将总体划分为R组,从R组中随机抽取r组,再从r组中分别随机抽取mi(i=1,2,⋯,r)个个体,构成样本。统计误差:调查性误差有技术性误差、登记性误差、责任性误差;代表性误差是指抽样调查而言,因抽样方式不当或存在随机性误差。

统计数据的整理统计数据整理的程序:审核和订正原始资料;分组和汇总;编制各种统计图表;积累和保管统计数据。统计分组的种类:按分组标志的多少分为简单分组和复合分组;按分组标志的性质不同分为品质分组和数量分组;按分组的作用和任务不同分为类型分组、结构分组和分析分组。单项式变量数列:每个组只有一个变量值的变量数列;组距式变量数列:将变量的取值范围划分为若干个区间,以一个变动区间为一个组的变量数列。数据分组步骤:排序,求全距(极差=最大值-最小值)确定变量的数据形式确定组数(四舍五入)确定各组组距根据分组整理成频数分布表累计频数(频率)分布图分为向上累计和向下累计。统计表的结构:从表的形式上看有总标题、横行标题、纵栏标题和指标数值;从表的内容上看有主词栏和宾词栏。注意:分组时一般为左闭右开。

统计数据特征的描述平均指标:计算均值包括算术平均数、调和平均数、几何平均数;位置均值包括中位数(Me)、众数(Mo)。分位数是指按顺序排列的一组数据被划分为若干相等的部分的分割点的数值。离中趋势的描述:极差(R),方差(σ2),标准差(σ)。是非标志在总体标志间以是非两种形式出现,非此即彼。总体中具有某种属性的单位数占全部单位数的比率称为成数(p)。p+q=1相对离中趋势:相对变异指标包括极差系数和标准差系数。极差系数:VR=Rx×100%;标准差系数:Vσ=σ偏态系数SK=3(算术平均数-中位数)标准差=或SK=算术平均数-众数标准差=偏斜的方向:当x>Me时,偏态系数为正值,是一种右偏的分布;当x<Me时,偏态系数为负值,是一种左偏的分布。峰度系数(K)用来度量次数分布曲线的扁平程度。K=m4σ4(m4、σ4),m4表示变量X的四阶中心矩。(第95页

参数估计全及总体:根据一定的研究目的和要求所确定的研究对象的全体,简称总体,总体所包含的单位数称为总体容量,用N表示。抽样总体:从全及总体中按随机原则抽取一部分单位所构成的集合体称为抽样总体,简称子样或样本,抽样总体所包含的单位数称为样本容量,用n表示。一般情况下,当n≫30时,称为大样本;当n<30时,称为小样本;n/N称为抽样比例。总体指标(全及指标):根据总体计算的综合指标。总体指标:总体均值X、总体成数、总体方差σ2和总体标准差σ。样本指标(抽样指标):根据抽样总体计算的综合指标。样本指标:样本均值X、样本成数、样本方差S2和样本标准差s。重复抽样每次抽取时总体单位数相同,不重复抽样每次抽取时总体单位数不相同。设X1,X2,⋯,Xn是总体X的样本,g(X1,X2,⋯,Xn)是一个连续函数,若此函数中不含任何未知参数,则称函数g(X1,X2,⋯,Xn)为一个统计量。样本均值、样本方差和样本成数是最为常用的几个统计量。统计量的概率分布称为抽样分布。大数定律(第107页),中心极限定理(第108页)。参数估计的方法:点估计、区间估计。根据样本X1,X2,⋯,Xn构造一个统计量Τ(X1,X2,⋯,Xn)作为参数θ的估计,Τ称为θ的估计量。评级估计量的标准:无偏性即点估计量的抽样分布的期望值等于总体参数;有效性即一个无偏估计量与任意一个无偏估计量相比,其方差最小;一致性即估计量与总体参数的绝对离差小于某一任意小的正数ε的极限概率等于1。区间估计用两个估计量构成区间去估计总体参数。设X1,X2,⋯,Xn是来自总体X的一个简单随机样本,θ是总体参数,由样本确定的估计量为Τ1=Τ1(X1,X2,⋯,Xn)和Τ2=Τ2(X1,X2,⋯,Xn),对于给定的α(0<α<1),如果有P(Τ1≤θ≤Τ2)=1-a,则称(Τ1、Τ2)为θ的置信区间。其中,Τ1称为置信区间的下限值,Τ2称为置信区间的上限值,1-α设X~N(μ,σ2),当σ已知时,求μ的置信区间。一般地,若给定α(0<α<1),μ的置信区间为:P{X-Zα/2σn≤μ≤X+Zα/2设X~N(μ,σ2),当σ2未知时,求μ的置信区间。P{X-tα/2(n-1)Sn≤μ≤tα/2(n-1)非正态总体或总体分布未知时,求μ的置信区间。根据中心极限定理,当n充分大时(一般认为n大于或等于30),若给定α(0<α<1),μ的置信区间同第十条。总体方差未知,只要样本容量n≥30,可以用样本方差代替统计量Z中总体方差,这时μ的置信区间为:P{X-Zα/2Sn≤μ≤X+Zα/2样本中某种特征的单位数占样本全部单位数的比例称为样本成数,记为p。根据中心极限定理,在大样本条件下,样本成数的抽样分布可用正态分布来近似表示,通常用样本成数p来代替置信上下限中的总体成数P,这时总体成数P的置信区间为:P{p-Zα/2p(1-p)n≤P≤p+Zα/2p(1-p)总体方差的区间估计:给定α0<α<1,总体方差σ2的100(1-α)%的置信区间为P{n-1测定平均数的样本单位数目:当X~N(μ,σ2),σ2已知时,或非正态总体、总体分布未知时的大样本情形,n=Z

参数假设检验原假设是要进行检验的假设,又称“零假设”;备择假设是与原假设对立的假设,也称“替换假设”。关于一个总体参数μ的假设检验有三种基本形式:双侧检验:H0:μ=μ0H1:μ≠μ0左侧检验:H0:μ≥μ0H1:μ<μ0右侧检验:H0:μ≤μ0H1:μ>μ0假设检验的基本思想是基于小概率原理,即小概率事件在一次试验或观察中不会发生。单个总体均值的假设检验设总体X~N(μ,σ2),σ2已知,μ的假设检验:双侧检验建立假设:H0:μ=μ0H1:μ≠μ0;计算检验统计量的数值:Z=X-μ0σn;给定显著性水平α,查正态分布表,确定临界值Zα2,从而确定拒绝域为(-∞,-Zα2)和[Zα2,+∞),接受域为(-Zα2,+Zα2);统计决策:若Z≥Zα2,拒绝H0,否则接受H0。右侧检验:H0:μ≤μ0H1:μ>μ0,拒绝域为[Zα,+∞),接受域为(-∞,Zα);左侧检验设总体X~N(μ,σ2),σ2未知,μ的假设检验:当σ2未知时,用样本方差S2来替代,选择统计量T=X-μSn,在双侧检验(H0:μ=μ0H1:μ≠μ0)中,当T≥tα2(n-1)时,拒绝H0,否则接受H0;在右侧检验(H0:μ≤μ0H1:μ>μ0)中,当T≥tα(n-1)时,拒绝H0,否则接受H0;在左侧检验(H0:μ≥μ0H1:μ<μ0)中,当T≤-tα非正态总体或总体分布未知时,μ的假设检验:当n充分大时,样本均值近似服从正态分布,选择检验统计量Z=X-μσnP值为拒绝H0的最低显著性水平。判别规则:当p<α时,拒绝H0,接受H1;当p≥α时,接受H0。两个总体均值差异的假设检验检验H0:μ1=μ2H1当两个总体为正态分布,且已知总体方差σ12和选择检验统计量:Z=X-Y-(μ1-μ2)σ12n1+σ22n2~N(0,1);当Z≥Zα2,拒绝H当两个总体为正态分布,且未知总体方差σ12和根据方差齐性检验的结果,选择不同的检验统计量T进行检验。总体分布未知,对大样本情形:n1≥30和n2≥30,已知总体方差σ12和选择检验统计量:Z=X-Y-(μ1-μ2)σ12n1+σ22n2~N(0,1);当Z≥Zα2,配对样本的T检验令:μi=xi-yi(i=1,2,⋯,n),用单样本的T检验方法,检验μi的均值与0是否有显著的差异,从而得出两个总体的均值是否有显著差异。T=X单个总体成数的假设检验总体成数假设检验的三种基本形式:双侧检验H0:P=P0H1:P≠P0左侧检验H0:P≥P0H1:P<P0右侧检验H0:P≤P0H1:P>P0选择统计量:Z=p-PP(1-P)/n,p是样本成数,P是对双侧检验:当Z≥Zα2时,拒绝H0,接受H1,对右侧检验:当Z≥Zα时,拒绝H0,接受H1,否则接受H对左侧检验:当Z≤-Zα时,拒绝H0,接受H1,否则接受H两个总体成数之差的假设检验当假设H0:P1=P2成立时,有P1=P2=P,于是有检验统计量:Z=p1对双侧检验:H0:P1=P2H1:P1≠P2,当Z≥Zα2时,拒绝H0,接受H1,对右侧检验:H0:P1≤P2H1:P1>P2,当Z≥Zα时,拒绝H0,接受H1,否则接受H对左侧检验:P1≥P2H1:P1<P2,当Z≤-Zα时,拒绝H0,接受H1,否则接受H单个总体方差的假设检验χ2检验统计量χ2=(n-1)对双侧检验H0:σ2=σ02H1:σ2≠σ02,当χ1-α/22(n-1)<χ2<χ对右侧检验H0:σ2≤σ02H1:σ2>σ02,当χ2≥χα2对左侧检验H0:σ2≥σ02H1:σ2<σ02,当χ2≤χ1-α2

方差分析方差分析是利用各因素水平下重复试验样本观测值来检验各水平总体的均值是否相等。单因素方差分析的统计模型

相关与回归分析变量之间的关系存在着两种不同的类型:一种是确定性的对应关系函数关系,另一种是相关关系。相关关系的种类:按相关程度分为完全相关、不完全相关和不相关;按相关方向分为正相关和负相关;按相关形式分为线性相关和非线性相关;按变量多少分为单相关、复相关和偏相关;按相关性质分为“真实相关”和“虚假相关”。将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。相关图又称散点图。根据总体全部数据计算的,称为总体相关系数,记为ρ;根据样本数据计算的,称为样本相关系数,记为r。对变量x与y作n次观测,得到容量为n的样本观测值(xi,yi)(i=1,2,⋯,n)。变量x与y的样本协方差为:Lxy=1n-1变量x与y的样本相关系数为r=l其中,Lxx=1n-1i=1上述相关系数称为Pearson相关系数。样本相关系数r是总体相关系数ρ的无偏估计量。若0<r≤1,表明x与y之间存在正线性相关关系;若-1≤e<0,表明x与y之间负线性相关关系;当r=1时,y的取值完全取决于x,二者之间即为函数关系,若r=1,表明x与y之间为完全正线性相关关系,若r=-1,表明x与y之间为完全负线性相关关系;当r=0时,说明x与y之间不存在线性相关关系。样本相关系数的显著性检验:提出假设,H0:ρ=0,H1构造并计算检验统计量:F=r21-r在显著性水平α下,当F≥Fα(1,n-2)时,拒绝H0,认为x与y之间线性相关关系显著;当F<Fα(1,n-2)时,接受H0等级相关系数是把数量标志或品质标志的具体表现按等级次序排列后,用来测定两个标志等级序列之间的相关密切程度和相关方向的指标。spearman等级相关系数:R式中,D为两个变量之间的等级差,即D=Vx-Vy;相关分析所涉及的变量都是随机变量,且都处于平等的地位;回归分析必须事先确定哪个是自变量,哪个是因变量,一般要求自变量是确定性变量,而因变量是随机变量。一元线性回归模型:yi=β0+β1式中,β0,β1为未知参数,称为回归系数;β0+β对任一给定的xi值,yi的期望值为Eyi=β0+β1xi。由此可见,因变量根据样本数据推算出回归系数β0,β1的估计量β0,β1,于是可得经验回归方程一元线性回归模型的估计回归系数β0,ββ1=i=1nxiyi一元线性回归模型预测点预测:利用经验回归方程对x的一个特定值x0,求出y0的一个预测值y0,即:y0=β0+β

时间序列分析与预测时间序列也称动态数列。时间序列有两个构成要素:一是现象所属的时间,二是现象达到的水平。时间序列的种类:时间序列按其排列的指标表现形式的不同可分为三类,即绝对数时间序列、相对数时间序列和平均数时间序列。绝对数时间序列又分为时期序列和时点序列。编制时间序列的原则:同一时间序列,指标值所属时间应当统一;总体范围一致;经济内容应一致;计算方法要一致;计算价格和计量单位要一致。时间数列中每个指标数值称为发展水平。根据发展水平在时间序列中的位置,把序列中第一个指标数值叫最初水平,最后一个指标数值叫最末水平,其余各指标数值叫中间水平。在对比两个时间的发展水平时,把所研究的那个时间的发展水平叫报告期水平或计算期水平,把用来作为比较基础的发展水平叫基期水平。增减水平或称增减量,表示现象在一定时期内增减的绝对数量,等于报告期水平(ai)与基期水平(a0)之差:增减量∆a=逐期增减量:a1-a0,a2-a1,a3-a2,⋯,an-累积增减量:a1-a0,a2-a0,a3-a0,⋯,an-a平均发展水平也称序时平均数或动态平均数,它是对时间序列中各时期发展水平计算的平均数。绝对数时间序列序时平均数由时期序列计算序时平均数:a=1nai,其中ai为各时期的发展水平(i=1,2,⋯,由时点序列计算序时平均数:eq\o\ac(○,1)由连续时点计算:资料逐日登记排列时计算公式为a=1nai,ai表示各时点的指标值,n为时点个数;指标值发生变动才记录时计算公式为a=aff,ai(i=1,2,⋯,n)为各时点的指标值,fi(ieq\o\ac(○,2)由间断时点计算:间隔相等时计算公式为a=12a1+a2+a3+⋯+an-1+12ann-1相对数时间序列序时平均数先分别计算出分子、分母两个总量指标时间序列的序时平均数,再进行对比,以c表示动态序列中的相对指标,计算公式为:若c=ab,则c=由平均数时间序列计算序时平均数计算一般平均数时间序列的序时平均数与相对数时间序列的计算方法一样由序时平均数时间序列计算序时平均数时,如果序列中各个时期的时间长度相等:a=an;如果序列中各个时期的时间长度不等:a=af平均增减水平用来表明某种现象在较长时期内平均每期增减的绝对量。水平法:平均增减量∆a=逐期增减量之和逐期增减量个数总和法:∆a=2年距增减水平可以消除季节变动的影响,反映本期发展水平比去年同期发展水平的增减绝对量。年距增减水平=本期发展水平-去年同期发展水平发展速度是以相对数形式表示的两个不同时期发展水平的比值。发展速度=报告期水平定基发展速度:a1a0,a2a0环比发展速度:a1a0,a2a1年距发展速度:年距发展速度=本期发展水平增减速度=发展速度-1(或100%)定基增减速度环比增减速度环比增长速度的连乘积不等于定基增长速度增减1%的绝对值=前一期水平平均发展速度是现象各期环比发展速度的平均数。平均增减速度是现象各期环比增减速度的平均数。平均增减速度=平均发展速度-1平均发展速度的计算几何法(水平法):x=nx1×x2×x3×⋯×方程式法(累计法):x+x2+⋯+xn-i=1naia0=0,利用累计法平均发展速度(时间序列的总变动可以分解为四种变动形式:长期趋势变动(T),季节变动(S),循环变动(C),不规则变动(I)。对于以上四种变动形式的结合,可以用两种假设来描

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论