统计学原理复习重点概述_第1页
统计学原理复习重点概述_第2页
统计学原理复习重点概述_第3页
统计学原理复习重点概述_第4页
统计学原理复习重点概述_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章绪论。本章介绍统计学及有关概念,勾勒了本课程的框架构造——描(一)统计工作(统计的基本含义(二)(三)(四)1代表人物:英国的威廉·配第(1623-1687)、约翰·格朗特(1620-1674)威廉·配第的代表著《政治算术》对当时的英、荷、法等国的“国富和力能够说,威廉·2、记述学派(代表人物:德国的康令阿亨瓦尔(1719-1772;1764年首创统计学一词 3代表人物:比利时的凯特勒(1796-古典统计学时期(17世纪中后期~18世纪中后期图表学派:近代统计学时期(18世纪末~19世纪末当代统计学时期(20世纪初至今)重要成果:借助计算机手段,1、描述统计学(descriptive2、推断统计学(inferential研究如何根据样本数据去推断总体数量特性1、理论统计学(theoretical2、应用统计学(applied(一)1研究对象不同研究办法不同2.()统计的研究对象、特点:界限等1、数量性交换活动、分派活动、消费活动等统计查、实统计收集统计查、实统计收集推断统整理资料整理资料开发总体同质 是拟定总体的前提和基础。它是根据统计的研究目的而定的大量性 样本由总体的部分单位构成的集合称为样本(又称子样品质标志数量标志不变标志 一种总体中各单位某标志的具体体现都相似,称之为不变标志。不变标是总体同质性的基础。一种总体最少要有一种不变标志,才干够使各单位结合成一种总变异标志统计指标是反映统计总体数量特性的概念和数值。如我国国内生产总值104790.6标标标 ::×:(一)(二)(三)(四)1234(“同类”“大户”5▼重点调查、典型调查与抽样调查的不同1、访问调查(派员调查):35统计数据的整顿(summarizingdata)是指对所收集的数据进行加工整顿、使之系统化、条统计数据的整顿◎统计分组标志:分组时所根据的特性或原则,有品质标志和数量标志◎频数分布或次数分布(Frequencydistribution):分布在各组内的数据个数称为频数或 frequencydistributionisatabularsummaryofasetofdatashowingthefrequency(ornumber)ofitemsineachofseveralnonoverlappingclasses.◎相对频数(Relativefrequency)/频率/比重:Therelativefrequencyofaclassistheproportionofthetotalnumberofdataitemsbelongingtotheclass.(=Frequencyoftheclass/n)◎百分数频数(Percentagefrequency):istherelativefrequencymultipliedby拟定组数→⎯拟定组距→⎯(按组)第一步,拟定组数(Numberofclasses)。组数的拟定普通视数据本身的特点及数5~20KK1log第二步,拟定组距(Widthofclasses):组距是一种组的上限与下限之差,可根据组距=(最大值-最小值)/第三步,拟定各组组限(Classlimits)1、分组所遵照的重要原则是“不重不漏”(eachdatavaluebelongstooneclassandonlyoneclass)。因此,最低组限(Thelowerclasslimit)≤数据的最小值,最大组限(Theupperclasslimit)≥数据的最大值;另外,数据在每组中的归属习惯上采用“上组限不在内”2、对离散型数据,可采用相邻两组组限间断的措施解决“不重”的问题(6~10,11~15,16~20等1组和最后一组可采用“XX下列”及“XX以上”/组距3、有时为了统计需要,需进一步计算累积频数(某数值以上或下列的频之数和统计分组的概念、原则、则和办法统计表(14word文档分派数列/重要有钟形分布、UJ形分布。集中趋势是指一组数据向某一中心值靠拢的倾向均值(Mean)均值就是一组数据的平均值(averagevalue),用来测度中心位置(central1算算术平均数总体标志总总体单位总加权算术平均Xi为各组变量代表值(往往取组中值,Fi为各组变量值出现的频数。算术均值xy,它们的代数和的算术平均数等于两个变量的算术平均数的2、NN几何平均数的应用及特点107.5%,108.3%,109.3%,则各年的平均发展31.0751.083G31.0751.08326%355%3%G101.0621.0531.0354.2%调和平均数,是各数据倒数的(简朴)价格=鸡蛋种价格(元销售额(元ABCXH

1

152008000 7.8115200180001

x(个(万元253x

8550095160010580096.03%5001600800中位数中位数是一组数据按大小排序后,处在中间位置上的变量值1、对于未分组数据Me

XN12 2 如果1据个数为偶数,Me XNXN22 21 中位数的位置=中位数的位置= 2n对于M

L

2fm

mMeU

f2f

m式中:m为中位数所在的组,dL、U分别为该组的下限值与上限值,fm为该组的频数,Sm-1Sm+1Sm1fmSm1众数MMLfmo(f )(f )MMUfmo(f )(f )式中:fm为某数值出现次数(频数)最多的组(m组)fm-1fm+1m-1m+1L、Um组的下限与上限值,d2、对描述品质数据的分布特性的“位置”四、1、如果数据具有单一众数,且分布是对称的,则众数Mo中位数Me与均值X相等MoMe2、对于非对称分布当分布左偏时(说明存在极端小的值XXMeMo当分布右偏时(说明存在极端大的值XXMeMoMXMX1 Xe3O1、均值4、对靠近正态的分布数据,惯用均值描述数据的集中趋势;对偏态分布,惯用众数中位数极差Range=LargestValue-Smallest▲

R=最高组上限 最低组下1、方差方差是各变量值与其均值离差(deviationaboutthemean)平方的平均数总体方差(Populationσ2其中:FiiXii个数(未分组)i组组中值(分组样本方差(SampleS2其中:fiixii个数(未分组)i组组中值(分组原则差:方差的平方根(正2、原则差是对方差的开方运算,因此,其单位与原始数据的单位一致(原则差就是指数据“离散程度的测度值”距“均值”的距离离散系数(Coefficientof离散系数:一组数据原则差与其均值的比,也称为原则差系数四、离散系数(Coefficientof一一一一一一一一一一一一一一 一一一一 一一一一 例:五个班级规模的例中2、由于离散系数偏态(Skewness)和峰度(Kurtosis)测定偏态的办法重要有两种算术平均数<中位数<偏态=算术平均数-众数这是偏态的绝对数SKp

XMoσSKp3(XMeσSKp

44460.279(二) a 一一 k一一一一一一(XN一一一 X k一一 当a=0时,即数据以原点为中心,上式称为原点k阶动差(矩当a

时,数据以算术平均数为中心,上式称为中心k阶统计学中常以中心3阶动差(矩)来测度分布的偏K(XiX)Ki3i KiKi3=0时,为对称分布3>0时,为正偏(右偏)分布3<0时,为负偏(左偏)分布班级规模3阶动差矩计算的峰度某种频数分布的曲线与正态分布曲线相比,是尖顶,还是平顶,其尖峰度4阶动差为基础进行α α K(XX)4ii4Kii量N表达。n表达。大样本和小样本:n≥30时称大样本,n<30**应用:4015人进行健康状况调查,概率抽样:**应用举例:(三)重复(置)抽样与不重CnCn N(N-不不不不不不不不不不不不不不不不不不不不不不不不不不不不

PnPnN(N-

52Nn-(Nn-(N-总体参数: ,其中具有某种属性的 单位,不具有某种属性的 个单位,XXXi 或XNNmi Xifimfii⒈总体平均数(又叫总体均值设总体中N个总体单位某项标志的标志值分别为X1,X2XN,其中具有某种属性的有N1个单位,不具有某种属性的有N0个单位,则1NN21mmXX2iiiσ21NNXX2σ2 imm2ii⒉⒊PPN1,QN01NNσ2P1P⒋总体⒌总体是非标志的标准差P⒍总体是非标志的 P1P nmxi 或xi1 xinmfii⒈样本平均数(又叫样本均值分别为x1x2xn,其中具有和不具有某为为自⒉样本单位标志值的标准1n1nxx21mxx2ii为mif1i⒊样本单位标志值的方差s21n1nxx21mxx2is2imi1ppn1,qn01nnsp2nnp1pnn⒋⒌σP的 pnn n1⒍P的 1 lim n

当样本容量n充分大时,可以用当试验次数n可以olimpm当试验次数n可以o XX~N nE(x)(xX 1nx~N( E(p)(p 1np~N(P,P1Pn)np5,n(1p)5统统计误差⎧ 误⎪⎨代 ⎪⎪⎪⎨⎧⎩⎪⎩⎨均误的抽的抽样平均误差M第i个可能样本的平式中x为样本平x数X为总体平均抽样实际误差:抽样平均误差:样本估计值的标准差。抽样极限允许误差置信区间抽样误差的可能范围周围变动的范围,记作ΔμμxM MxX2ii数,即样本估计量注意:不要混淆抽为标准差与样本标准差!数S(xx)2n1 样本单位数的多少:简单随机抽样的抽σ(xσ(xσ(xσ(xnNnNσP(1(σP(1(nσP(1(nNN(()P 在 断 (()nnt x±xp±Δ由于提高把握程度,会增大允许误差,由于提高把握程度,会增大允许误差,个允许误差范围再求相应的把握程度。系,常用Z值及相应的概率保证程度1αxx pz ?σσσn?σσσnαxsnxσsnxσσnxS 总体均值区间估计总结1 XXα2σnX Nα2 NX所服从的分 N NXα2 NnNXtα2Sn N Ntn1)总体均值区间估计总结2或nσXSnNnN或SnnNnNX NXμ近似服σX Nσ标准正态分布求置信区间即可。(Δ,F(tF(t⑴给出Δ,求 抽取样本,计算样本指标(样本平均数、样本方差、抽样平均误差②根据给定的抽样误差——允许误差Δt,F(tF(t 抽取样本,计算样本指标(样本平均数、样本方差、抽样平均误差F(t③求出抽样极限误差Δ和预计区间的上、下限,对总体参数作区间预计。,四、zzσzXF(z)1当当抽样平均误差保持不变时,极限误差Δ(体现估计精度)概率度z(体现可靠性)两者同向变化。因此,抽样估计的精度与可靠性之间存在矛盾。为了调和这一矛盾的,可以低抽样平均误差。而要降低σ,则必须增加样本容量n。样容量n究竟取多x 必要的样不超过给定的允许误差范围时至少应该抽取的样本单位称必n zα2n zα2p12 2σnn Nzα2p1N2 2p122 N2n N2Nzα1 nx2zαn 12345•–––•• 第五章假设检查与方差分析。理解原假设、备择假设、两类错误、单侧检假设(hypothesis)假设检查(hypothesistest)是先对总体参数提出某种假设,然后运用样本信息判(一)原假设(nullhypothesis),又称零假设,用 备择假设(alternativehypothesis),用 设μ0表示在原假设和备择假设中考虑的某一特定数值,μ表示总体的实际值。对总体H0⑴⑵⑶H1:μpH1:μ第Ⅰ类错误/弃真错误(typeⅠα。第Ⅱ类错误/取伪错误(typeⅡβ。显著性水平0.05和0.01。(一)拟定检查的明显性水 用明显性水平来拟定回绝原假 的检查统计量的临界值、回绝域回绝原假 ,否则不回绝原假 或⑵根据第5步的检查统计量的值计 值。运 值来拟定与否回绝当总体方差σ2已知,用正态分布来检验总⑴当样本数n30(大样本)时的任意分布总体(根据中心极限定理);⑵当样本数np30 sn一般用P来表示总体比例0表示总体比例因为是大样本,中心极限定理保证了统计量p(()0H1:μ≠0于为α态量的数过大或过小,都将否定著α件每尾假2为Z Z≥Z时H0Z<Z就 α2α2Zα(临界值2Zα(临界值21方法1:选择检验统计UXμ6.16 的95%nX1.96σ6.11.96 右边检 左边检αα接受 否定 否定 接受再查得临界值Zα1.645ZαH:65分;H:65ZX6965n因为ZZ,检验统计量的数值落在否定域内,否定原假设,说明样本平均数6分与总体平均数6分存在显著差异,即新的教学方法提高了学生的成绩。(右边检验0.05时,Z1H0:1千克;H1:1ZX0.99621n因为Z1.64,所以认为抽样平均数x0.9962千克与总体平均数无显著差异,可以相信该厂生产的某饮料平均重量1千克。(左边检验2一、区间估计与假设检验的1-(1)橘黄、(2)粉红、(3)绿色、(4)无制制制制制制制制制制制制制制制制制制制制,随机抽取了5家超市前一期的销售量(表水平进一步的F 一一一一一一一一 一 一一 一一一 设xij=第j个子样本中第i个观测值nj=第j个子样本的样本nxj

nj=第j个子样本的样本rnxj1

n=全体子样本合并的大样本的其中 r为子样本个于是,大样本的总离差平方和(SumofSquaresfor n

j1

x)2设xij=第j个子样本中第i个观测值nj=第j个子样本的样本nxj

nj=第j个子样本的样本rnxj1

n=全体子样本合并的大样本的其中 r为子样本个于是,大样本的总离差平方和(SumofSquaresfor n

j1

x)2rn

rn

rn(xijj1

x)2(xjj1j

x)2(xjjj1jj

x rn nj(xj

x)2(xj1

x)2jj第一项变量系统性影响,可当作一一一一一一一mofqresforFctor,SS);第二项(),可当作一一一一一一一(mofqresforrror,E。 一一一一一一一一一一一一一用离差平方和除以自由度即得到平均平方(Mean(方差合并的(扩大的)样本方差:TSS/(n-水平间方差(组间方差 MSA=SSA/(r-水平内方差(组内方差 MSE=SSE/(n-F对原假设: 按按数列中所排列指标的表现形式不同 a1,a2,,aN1,aNNa0,a1,,an1,aaaa 12NNN N aN1aaa N12NN N※ aN1aNa a2 a3 a4 2a2a3a4 51a1一般有:a22NN2※aa2a42a32a22a1aa 2fa 1f N22 2Nf1f2fN※a1aa2a1a21a2a31a3a4 112a32a2a1caiibi则cbcaaNacb b b b1c a1caa2 aN N2 1b2 bN N2 abcaa1a2 aN1aN 1bb2 1N2N anan1anaia0ai1a0ai ,,ana1a0,a2a0a1a0,a2a1 ,ana0,a1 ,an1, i i,平均增长量 n (aiai1n aa1,a2 ,,,a1,a2a0,a1 ,an1, (iaiaian1an a1a2 , 说明 aiLaiLaiaia0aiai1ana0a 100a0aaaiai1 100 nn0Xn,X,aa X ,a Xn XGRnX nn X517695.32.0678XG1115.64﹪100﹪ 已知a0XG和n,则最末水平ana0Xn:n已知a0XG和an,所需要的时间为:nlganlglgXana0m20 56.6万吨:由2man有,mlganlglg mlg40500lg79862.34番lg 1G14 1 nn实际水平推算水平aaaXnnnii X2X,n,aaX X ,aa Xa Xn 已已知a015a1a2a360n则3 X2na00, X40,解得X32n①逐渐逼近 ②查“累计法查对表” 影响时间数列变动的因素可分影响时间数列变动的因素可分a0Xn X 2n:1T2S 3C4 I————先综先综合,后对比p销售量指数Iq0销售额销售量价格指数Ipqpqq0ppqqq0q0原理:引入一个媒介因素同度量因素,解决不能直接加总的问题。2.将同度量因素固定于某一时期商品价格(元销售销售额(百元商单基报告基报告大百公猪公服件冰台合同度量因素固定在报告期(报告期加权综合指数P

P

70500111.55%

q070500105.48%7050063200

百元

q1p1q070500668403660(百元氏同度量因素固定在基期(基期加权综合指数L

L q1p0

q066840113.15%绝对p1q066840590707770(百元

63200106.99%q1p0q063200590704130(百元四、拉氏指数与帕氏指数的比L

P 绝对数分

p1q0

PP1L Vrip

因为ViVi (例如价格与销售量)123质量指标和数量指标的水平都下降,但在其中一个的下降速率加快的同时,另一个的下降速率则在减缓。五、综合指数的其(一)马歇尔——埃奇沃斯指数(马——埃公式是对拉氏指数和帕氏指数的权数(同度量因素)进行平均(权交叉)的结果。pq0pE p

p1(q0q1)

p1q0

q02p0

p0(q0

p0q0E

q1(p0p1)

0 0

p02

(

p1

(二)理想指数(费雪公式 LpLpp0q0p1q0qq0p0q0q1p0q1 p1qc

Iq1pc q0我国的工业生产指数

q1q0

q2000q1995 计算每一个项目的个体指数ip1或iq 0选定权数,计算个体指数的加权算术平均数或加权调和平均x

Hmxm权数p0q0

不不

不不不不不不不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论