9709统计学公式表_第1页
9709统计学公式表_第2页
9709统计学公式表_第3页
9709统计学公式表_第4页
9709统计学公式表_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

9709统计学公式表样本加权平均数:\bar{x}=\frac{M_{1}f_{1}+M_{2}f_{2}+...+M_{k}f_{k}}{f_{l}+f_{2}+...+f_{k}}=\frac{\sum_{i=1={k}{M_{i}f_{i}}}{n}总体加权平均数:\mu=\frac{M_{1}f_{1}+M_{2}f_{2}+...+M_{k}f_{k}}{f_{1}+f_{2}+...+f_{k}}=\frac{\sum_{i=1={k}{M_{i}f_{i}}}{n}几何平均数:G=\sqrt[n]{x_{1}\cdotx_{2}...x_{n}}=\sqrt[n]{\prod_{i=1={n}x_{i}}深度理解几何平均数的含义:1、比如持有了一只股票4年,买入价100元,每年的收益率分别为4.5%,2.1%,25.5%,1.9%,这是该用算术平均数还是几何平均数来呢?我们先算出实际的收益是多少:每股实际收益=100(1+4.5%)(1+2.1%)(1+25.5%)(1+1.9%)-100=36.4457实际年利率为r则:100*[(1+r厂{4}-1)]=36.4457求出r=8.0787%我们再来看看算术平均数和几何平均数是多少:\bar{x}=(4.5+2.1+25.5+1.9)/4/100=0.085G=\sqrt[4]{1.045*1.021*1.255*1.019}-1=0.080787显然实际收益率是和用几何平均数算出来的是一样的,为什么会这样呢,因为算术平均数并没有考虑到利息的时间价值。几何平均数也主要用于计算这种平均比率。而且几何平均数<=算术平均数2、再换个角度来理解几何平均数:当n=2时,x_{1}=2,x_{2}=18,那么根据公式可得G=\sqrt[2]{2\times18}=6,用二维图来表示就是一个长宽分别为18和2的长方形面积和边长为6的正方形面积相等。当n=3时,x_{l}=10,x_{2}=51.2,x_{3}=8,则G=\sqrt[3]{10\times51.2\times8}=16,用三维图形来表示就是一个长方体的体积等于边长为16的正方体体积。3、来看看为什么几何平均数比算术平均数低异众比率:V_{r}=\frac{\Sigmaf_{i}-f_{m}}{\Sigmaf_{i}}=1-\frac{f_{m}}{\Sigmaf_{i}}\Sigmaf_{i}为变量的总频数,f_{m}为众数的频数。异众比率越大,非众数的频数越大,众数代表性越差。极差:R=max(x_{i})-min(x_{i})平均差:未分组数据的平均差M_{d}=\frac{\sum_{i=1={n}{\left|x_{i}-\bar{x}\right|}}{n}分组数据的平均差M_{d}=\frac{\sum_{i=1={k}{\left|M_{i}-\bar{x}\right|}f_{i}}{n}表中演示了怎么计算分组平均差:2040/120=17(台)样本方差:未分组数据方差SY2}=\frac{\sum_{i=1={n}{(x_{i}-\bar{x})={2}}{n-l}分组数据方差SY2}=\frac{\sum_{i=1={k}{(M_{i}-\bar{x}厂{2}f_{i}}}{n-l}总体方差:未分组\sigma^{2}=\frac{\sum_{i=1={n}{(x_{i}-\bar{x})={2}}{N}分组\sigma^{2}=\frac{\sum_{i=1={k}{(M_{i}-\bar{x})={2}f_{i}}{N}n-1称为自由度:自由度是指附加给独立的观测值的约束或限制的个数。通俗的理解就是,因为公式中已经知道了\bar{x},如果样本数据有n个,这时独立观测值就不是njy,而是n-ijy。比如已知\bar{x}=5,样本有三个数据,x_{1}=2,x_{2}=10,这时x_{3}就不能任意取值,此时x_{3}只能等于3,独立观测值就只有2个而不是3个。更一般的就是对于n个样本数据,如果附加的约束个数有卜个,则自由度为n-k。理解为什么样本方差要除以n-1,而总体就不需要,而是直接除以N:我们实际上是用样本的方差去估计总体的方差,既然是估计肯定就会有误差,我们除以n-1后计算出的方差就叫对总体\sigmaY2}的无偏估计;而总体计算出来的就是实实在在的总体方差,并没有估计一说。下面用图表来解释为什么要除以n-1。标准差:未分组数据标准差s=\sqrt{\frac{\sum_{i=1={n}{(x_{i}-\bar{x})={2}}{n-1}}分组标数据准差s=\sqrt{\frac{\sum_{i=1={k}{(M_{i}-\bar{x}厂{2}f_{i}}}{n-1}}标准分数(z分数):z_{i}=\frac{x_{i}-\bar{x}}{s}标准分数也称标准化值或z分数,表示某个数据距离平均值多少个标准差。在对量纲不同的数据集进行比较时就需要使用标准分数这个概念了。比如一个数据集为[1,3,5,6,8],另一个数据集为[134,345,872,1004,2309]。这两个数据集的平均值和标准差都不同,而且第一个数据集中的数据与第二个数据集中的数据相差甚大,但是通过标准分数就能比较每个数据相较于自身数据集的离散程度。经验法则:当一组数据对称分布时,经验法则表明:约有68%的数据在平均数\pm1个标准差的范围之内。约有95%的数据在平均数\pm2个标准差的范围之内。约有99%的数据在平均数\pm3个标准差的范围之内。也就是说,一组数据中有相当多的数据低于或高于平均值3个标准差,超出这3个标准差的数据称为异常值。切比雪夫不等式:P(\left|X-\mu\right|\geqk\sigma)\leq\frac{l}{k^{2}}其中k>0,\mu是期望,\sigma是标准差。经验法则适合对称分布的数据,对于不是对称分布的数据可以用切比雪夫不等式,它对任何分布形状的数据都适用将上面的式子变一下形:P(\left|X-\mu\right|\leqk\sigma)\geq1-\frac{l}{k^{2}}切比雪夫不等式提供的是下界,也就是所占比列至少是多少。通过上式的理解就是至少有1-\frac{l}{k~2}的概率数据落在\pmk个标准差之内,对于k=2,3,4,该不等式的含义是:至少有75%的数据在平均数\pm2个标准差范围之内。至少有89%的数据在平均数\pm3个标准差范围之内。至少有94%的数据在平均数\pm4个标准差范围之内。离散系数(变异系数):\upsilon=\frac{s}{\bar{x}}对于平均水平不同或计量单位不同的不同数据集,不能用标准差直接比较它们的离散程度,需要引入离散系数进行比较。离散系数是衡量数据离散程度的相对统计量,主要用于比较不同样本数据的离散程度。离散系数越大,数据的离散程度越大。偏态与峰态的度量:偏态系数:未分组数据SK=\frac{n\Sigma(x_{i}-\bar{x}厂{3}}{(n-1)(n-2)sY3}}分组数据SK=\frac{\sum_{i=1={k}{(M_{i}-\bar{x})f_{i}}}{nsY3}}偏态是对数据分布对称性的测度,测度偏态的统计量是偏态系数SK。如果数据的分布是对称的,则\Sigma(x_{i}-\bar{x}厂3=0,所以偏态系数为0,如果偏态系数不等于则表明分布是非对称的。SK>1或SK<-1,称为高度偏态分布SK在0.5〜1或-1〜-0.5之间,称为中等偏态分布当SK为正值时,表示数据正偏或右偏,所谓右偏就是均值在众数的左边。当SK为负值时,表示数据负偏或左偏,所谓左偏就是均值在众数的左边。峰态系数:未分组数据K=\frac{n(n+1)\Sigma(x_{i}-\bar{x}厂{4}-3[\Sigma(x_{i}-\bar{x}厂{2}「{2}(n-1)}{(n-1)(n-2)(n-3)sY4}}分组数据K=\frac{\sum_{i=1={k}{(M_{i}-\bar{x}厂{4}f_{i}}}{nsY4}}-3峰态是对数据分布平峰或尖峰程度的测度,测度峰态的统计量是峰态系数K。峰态是相对于标准正态分布而言的,标准正态分布的峰态为0。当K>0时,为尖峰分布。当K<0时,为扁平分布。概率的性质与运算法则:P(\Omega)=1P(\Phi)=0必然事件表示为\Omega,不可能事件表示为\Phi事件A与B互斥:P(A\cupB)=P(A)+P(B)一般情况下:P(A\cupB)=P(A)+P(B)-P(A\capB)条件概率:P(A|B)B发生的条件下,A发生的概率P(A|B)=\frac{P(AB)}{P(B)}\RightarrowP(AB)=P(B)P(A|B)随机变量:概率函数:P(x_{i})=P(X=x_{i})X称为P(X)的随机变量P(X)称为随机变量X的概率函数离散型随机变量的期望和方差,标准差:\mu=E(X)=x_{1}p_{1}+x_{2}p_{2}+...+x_{n}p_{n}=\sum_{i=1={n}{x_{i}p_{i}}'sigma/二D(X)=E[X-E(X)「2=\sum_{i=1={n}{[x_{i}-E(X)「{2}p_{i}}=E(XY2})-[E(X)「{2}\sigma=\sqrt{D(X)}随机变量的方差定义为每个随机变量的值与期望值的偏差平方的期望值。离散变量离散系数:V=\frac{\sigma}{E(X)}与之前抽样调查中的离散系数\upsilon=\frac{s}{\bar{x}}完全相同,只是符号表示不一样而已。二项分布X'simB(n,p):P\{X=x\}=C_{n={x}pYx}qYn-x},x=0,1,2,...,nE(X)=np,D(X)=npq用X表示n次重复独立试验中时间A成功出现的次数。这种试验被称为伯努利试验。\sum_{x=0={n}{C_{n={x}pYx}qC{n-x}}=(p+q)Yn}=1,而这就是二项式定理。二项式展H^n+1项):(p+q厂{n}=C_{n={O}pYn}qYO}+C_{n={l}pYn-1}qYl}+C_{n={2}pYn-2}qY2}+...+C_{n={n-1}pYl}qYn-l}+C_{n={n}pY0}qYn}泊松分布:P(X)=\frac{\lambda^{x}e^{-\lambda}}{x!},x=0,1,2...E(X)=\lambda,D(X)=\lambda\lambda为给定时间间隔内事件的平均数。泊松分布是用来描述在一指定范围内或在指定的面积或体积之内某一事件出现的次数的分布。在n重伯努利试验中,当成功的概率很小,即p\rightarrow0,试验次数很大时,二项分布可近似等于泊松分布。泊松分布近似等于二项分布:C_{n}^{x}p^{x}q^{n-x}\approx\frac{\lambda^{x}e^{-\lambda}}{x!}在实际应用中,当p\leq0.25,n>20,np\leq5时上式成立。连续性随机变量的概率分布:概率密度函数f(x): (1)f(x)\geq0,(2)\int_{-\infty={+\infty}f(x)dx=1分布函数:F(x)=P(X\leqx)=\int_{-\infty={x}f(t)dt,一\infty<x<+\infty期望和方差:\mu=E(X)=\int_{-\infty={+'infty}xf(x)dx\sigmaY2}=D(X)=\int_{-\infty={+\infty}[x-E(X)「{2}f(x)dx正态分布X\simN(\mu,\sigma^{2}):f(x)=\frac{l}{\sigma\sqrt{2\pi}}e^{一\frac{l}{2\sigma^{2}}(x-\mu厂{2}},-\infty<x<+\infty标准正态分布N(0,1):概率密度函数\varphi(x)=\frac{l}{\sqrt{2\pi}}e^{-\frac{x^{2}}{2}},-\infty<x<+\infty分布函数\Phi(x)=\int_{-\infty={x}\varphi(t)dt=\int_{-\infty={x}\frac{l}{\sqrt{2\pi}}eY-\frac{tY2}}{2}}dt一般正态分布转化为标准正态分布:Z=\frac{X-\mu}{\sigma}\simN(0,1)统计量:样本均值\bar{X}=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论