




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、传播统计学基础复习,Contents,什么是统计学?,1.数据搜集:取得数据2.数据分析:分析数据3.数据表述:图表展示数据4.数据解释:结果的说明,收集、整理、显示和分析数据的科学,统计学是一门以社会现象总体数量方面为对象的方法论科学,是研究如何有效地收集、整理和分析受随机影响的数据,并对所考察的问题作出推断或预测,直至为采取决策和行动提供依据和建议的一门学科。,统计学的研究方法,大量观察法:指对研究的事物的全部或足够数量进行观察的方法。综合指标法:运用各种综合指标对现象的数量关系进行对比分析的方法。统计推断法:在一定置信程度下,根据样本资料的特征,对总体的特征作出估计和预测的方法称为统计推
2、断法。统计模型法:如多元分析、时间序列、方差分析统计分组法:将统计总体按照一定的标志区分为若干部分的一种统计方法。掌握三个要点:统计分组的对象是总体;统计分组的关键是选择分组标志和划分各组界限;统计分组的结果必须形成组间异质,组内同质。大数定律:瑞士科学家伯努力提出的,是随机现象的基本规律。本质是:结果大量观察把个别的、偶尔的差异性好像抵消,是集体的、必然的规律呈现处理。,描述统计(descriptivestatistics),研究数据收集、整理和描述的统计学分支内容搜集数据整理数据展示数据描述性分析目的描述数据特征找出数据的基本规律,推断统计(inferentialstatistics),研
3、究如何利用样本数据来推断总体特征的统计学分支内容参数估计假设检验目的对总体特征作出推断,1.5统计学的基本概念,1.5.1总体与总体单位(个体),什么是总体单位?个体总体单位(简称单位)是组成总体的各个个体。,什么是总体?它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。分为两种:有限总体、无限总体。,什么是样本容量?样本所包含的个体数。,什么是样本?由总体的部分个体组成的集合,1.5.3标志(特征)和标志表现(特征值),1.什么是标志?总体各单位普遍具有的属性或特征2.什么是标志表现?即标志特征在各单位的具体表现3.分类:标志表现有品质标志表现和数量标志表现之分。品质标志表现只能用
4、文字表述,因此不能转化为统计指标,但对其对应的单位进行总计时就形成统计指标。数量标志表现是一具体数值,也称标志值。,1.5.4参数和统计量,参数描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值所关心的参数主要有总体均值()、标准差()、总体比例()等总体参数通常用希腊字母表示统计量用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母表示,Contents,各种计量尺度的比较,定类尺度:最粗略、计量层次最低的计量尺度,按照客观现象的某种属性对其进行分类。主
5、要数学特征是“”或“”。如性别、种族定序尺度:对客观现象各类之的等级差或顺序差的一种测度。主要数学特征是“”或“”。如,成绩可分为优、良、中等五类。定距尺度:对现象类别或次序之间间距的测度。不但可以用数字表示现象各类别的不同和顺序大小的差异,而且可以用确切的数值反映现象之间在量方面的差异。定比尺度:在定距尺度的基础上,确定相应的比较基数然后将两种相关的数加以对比而形成的相对数(或平均数)。主要数学特征是“x”或“”。,变量,连续型变量,离散型变量,在统计中,说明现象的某一数量特征的概念被称为变量,根据变量值连续出现与否,变量的具体取值叫变量值,根据变量的取值确定与否,确定性变量,随机变量,变量
6、,抽样误差,由于抽样的随机性所带来的误差所有样本可能的结果与总体真值之间的平均性差异影响抽样误差大小的因素样本量的大小总体的变异性,数据预处理,数据的审核完整性审核准确性审核适应性审核数据的筛选数据的排序品质型数据的排序数值型数据的排序,统计分组的关键问题,1选择分组标志2选择分组体系按一个分组标志分组按多个分组标志分组,分组的种类,1区分事物的性质:类型分组2反映总体内部结构:结构分组3研究现象之间的依存关系:分析分组,组距式分组中的一些概念,组限,上限,下限,区间数值的最大值,区间数值的最小值,组距,每一组的区间长度,组距=上限-下限,组中值,每一组中点位置的数值,组中值=(上限+下限)2
7、,开口组,缺少上限数值或下限数值的组,注意,开口组以相邻组的组距作为该组的组距,确定其下限或上限,再计算组中值。,组距数列的编制,原始数据,计算组中值,排序,确定组限,计算变异全距,确定组数、组距,汇总各组单位数,制作组距数列统计表,编制步骤或内容,编制等距数列,(1)计算组数(组数不宜过多,也不宜太少),n=1+3.3logN(斯特杰斯经验公式)式中:n为组数,N为总体单位数,(2)计算组距,d=R/n=R/(1+3.3logN)式中:d为组距,R为全距,(3)确定组限,编制等距数列,2.4.1统计表和统计图,2.4.1.1统计表统计表的定义和结构统计表的分类统计表的设计2.4.1.2统计图
8、直方图折线图曲线图累计曲线图2.4.1.3频(次)数分布图的类型钟形分布U形分布J形分布,我国2002年国内生产总值,纵标题,数字资料,主词,宾词,横标题,总表题,指标数值,统计表的结构,折线图(frequencypolygon),折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的,分组数据的图示(折线图的绘制),折线图与
9、直方图下的面积相等!,某车间工人周加工零件折线图,2.4.2分布集中趋势的测度,众数中位数四分位数均值几何均值,众数(不惟一性),无众数原始数据:10591268,一个众数原始数据:659855,多于一个众数原始数据:252828364242,中位数(位置的确定),原始数据:,顺序数据:,数值型数据的中位数(9个数据的算例),例9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,中位数1080,四分位数(位置的确定),原始数据:,分组数据:,数值型数据的
10、四分位数(9个数据的算例),【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,简单均值,设一组数据为:x1,x2,xn,总体均值,样本均值,加权均值,设一组数据为:x1,x2,xn相应的频数为:f1,f2,fk,总体均值,样本均值,众数、中位数和均值的关系,分布离散程度的测度,极差内距方差和标准差离散系数,极差(range),一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布,R=max(xi)-min(xi),m
11、计算公式为,内距(Inter-QuartileRange,IQR),也称四分位差上四分位数与下四分位数之差内距=Q3Q1反映了中间50%数据的离散程度不受极端值的影响可用于衡量中位数的代表性,方差和标准差(VarianceandStandarddeviation),离散程度的测度值之一最常用的测度值反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,例:,样本方差和标准差,未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,Contents,初等概率论,随机事件及其概率随机变
12、量及其分布大数定律和中心极限定律,3.1随机事件及其概率,随机试验与随机事件随机事件的概率概率的运算法则,随机试验,严格意义上的随机试验满足三个条件:可重复性:试验可以在系统条件下重复进行;定向性:试验的所有可能结果是明确可知的;随机性:每次试验前不能肯定哪一个结果会出现。,随机事件(续),复合事件由某些基本事件组合而成的事件样本空间中的子集随机事件的两种特例必然事件在一定条件下,每次试验都必然发生的事件只有样本空间才是必然事件不可能事件在一定条件下,每次试验都必然不会发生的事件不可能事件是一个空集(),事件之间的关系p4,1.包含关系:“A发生必导致B发生”记为AB;AB;AB且BA.即事件
13、A和B的样本点相同。2.和事件3.积事件3.差事件4.互斥事件5.互逆事件,事件的运算,1、交换律:,3、分配律:,2、结合律:,例:甲、乙、丙三人各向目标射击一发子弹,以A、B、C分别表示甲、乙、丙命中目标,试用A、B、C的运算关系表示下列事件:,事件的运算,频率的性质(1)0fn(A)1;(2)fn(S)1;fn()=0(3)可加性:若AB,则,实践证明:当试验次数n增大时,fn(A)逐渐趋向一个稳定值。可将此稳定值记作P(A),作为事件A的概率。,频率,随机事件的概率,概率用来度量随机事件发生的可能性大小的数值必然事件的概率为1,表示为P()=1不可能事件发生的可能性是零,P()=0随机
14、事件A的概率介于0和1之间,0P(A)0(i=1、2、.、n)对任一事件B,它总是与完备事件组A1、A2、An之一同时发生,则有求P(B)的全概率公式:,例3-19有甲乙两个袋子,甲袋中有两个白球,1个红球,乙袋中有两个红球,一个白球这六个球手感上不可区别今从甲袋中任取一球放入乙袋,搅匀后再从乙袋中任取一球,问此球是红球的概率?,解:设A1从甲袋放入乙袋的是白球;A2从甲袋放入乙袋的是红球;B从乙袋中任取一球是红球;,贝叶斯公式,若A1、A2、An为完备事件组,则对于任意随机事件B,有:,计算事件Ai在给定B条件下的条件概率公式。公式中,P(Ai)称为事件Ai的先验概率P(Ai|B)称为事件A
15、i的后验概率,例3-20商店论箱出售玻璃杯,每箱20只,其中每箱含0,1,2只次品的概率分别为0.8,0.1,0.1,某顾客选中一箱,从中任选4只检查,结果都是好的,便买下了这一箱.问这一箱含有一个次品的概率是多少?,解:设A:从一箱中任取4只检查,结果都是好的.B0,B1,B2分别表示事件每箱含0,1,2只次品,已知:P(B0)=0.8,P(B1)=0.1,P(B2)=0.1,由Bayes公式:,3.2随机变量及其概率分布,随机变量的概念随机变量的概率分布随机变量的数字特征常见的离散型概率分布,随机变量的概念,随机变量表示随机试验结果的变量取值是随机的,事先不能确定取哪一个值一个取值对应随机
16、试验的一个可能结果用大写字母如X、Y、Z.来表示,具体取值则用相应的小写字母如x、y、z来表示根据取值特点的不同,可分为:离散型随机变量取值可以一一列举连续型随机变量取值不能一一列举,3.2.2随机变量的概率分布,离散型随机变量的概率分布分布函数连续型随机变量的概率密度,例3-23设随机变量X具分布律如右表,解:,试求出X的分布函数。,(1)F(x)=,(3)对任意ab有P(aXb)=P(Xb)-P(Xa)=F(b)-F(a);P(aXb)=P(Xb)-P(Xa)=F(b-0)-F(a-0);P(Xa)=F(a-0);P(Xa)=1-P(Xa)=1-F(a-0).,对于离散型随机变量X的分布函
17、数有,随机变量的数学期望,又称均值描述一个随机变量的概率分布的中心位置离散型随机变量X的数学期望:相当于所有可能取值以概率为权数的平均值,数学期望的主要数学性质,若k是一常数,则E(kX)kE(X)对于任意两个随机变量X、Y,有E(X+Y)E(X)E(Y)若两个随机变量X、Y相互独立,则E(XY)E(X)E(Y),随机变量的方差,方差是它的各个可能取值偏离其均值的离差平方的均值,记为D(x)或2公式:离散型随机变量的方差:,方差和标准差(续),标准差方差的平方根方差和标准差都反映随机变量取值的分散程度。它们的值越大,说明离散程度越大,其概率分布曲线越扁平。方差的主要数学性质:若k是一常数,则D
18、(k)0;D(kX)k2D(X)若两个随机变量X、Y相互独立,则D(X+Y)D(X)D(Y),例3-25,试求优质品件数的数学期望、方差和标准差。解:,0.6,例3-26某试验出现“成功”的概率为p(0p0,则称X服从参数为,2的正态分布,记为N(,2),可表为XN(,2).,若随机变量,正态分布,正态分布,XN(、2),其概率密度为:,正态分布的均值和标准差均值E(X)=方差D(X)=2,-x,正态曲线,正态曲线的主要特性关于x=对称的钟形曲线参数决定正态曲线的中心位置参数决定正态曲线的陡峭或扁平程度以X轴为渐近线,即当x时,f(x)0,标准正态分布,0、1的正态分布,记为N(0,1)(p5
19、8)其概率密度(x),分布函数(x)XN(、2),则:ZN(0,1),若ZN(0,1),则有:P(|Z|a)2(a)1(-a)=1(a),标准化,一般的概率统计教科书均附有标准正态分布表供读者查阅(x)的值。(P258附表2)如,若ZN(0,1),(0.5)=0.6915,P1.32Z2.43=(2.43)-(1.32)=0.9925-0.9066,注:(1)(x)1(x);(2)若XN(,2),则,【例3-14】,某厂生产的某种节能灯管的使用寿命服从正态分布,对某批产品测试的结果,平均使用寿命为1050小时,标准差为200小时。试求:(a)使用寿命在500小时以下的灯管占多大比例?(b)使用
20、寿命在8501450小时的灯管占多大比例?(c)以均值为中心,95的灯管的使用寿命在什么范围内?,解,X使用寿命,XN(1050,2002),(2)(-1)0.977250.158650.8186,95的灯管寿命在均值左右392(即6581442)小时,1(2.75)10.997020.00298,正态分布最常用、最重要,大千世界中许多常见的随机现象服从或近似服从正态分布例如,测量误差,同龄人的身高、体重,一批棉纱的抗拉强度,一种设备的使用寿命,农作物的产量特点是“中间多两头少”由于正态分布特有的数学性质,正态分布在很多统计理论中都占有十分重要的地位正态分布是许多概率分布的极限分布统计推断中许
21、多重要的分布(如2分布、t分布、F分布)都是在正态分布的基础上推导出来的。,为什么很多随机现象呈正态分布,自然界和社会经济现象中,这类现象很普遍,许许多多的随机变量都可以视为众多独立随机变量之总和。例如:一个城市的居民生活用电总量是大量相互独立居民户用电量的总和;炮弹射击的误差,也可以看作是很多因素引起的小误差之总和。由中心极限定理可知,即使各单个随机变量的分布并不明确,但只要它们存在有限均值和方差,这个众多独立的随机变量之总和的分布就趋近于正态分布。,正态分布也称为常态分布,常用概率分布及其均值、方差,正态分布曲线下的特殊位置的面积,标准正态分布N(0,1),对任意一个正态分布可以进行标准化
22、变换,U变换变换后的随机变量U服从标准正态分布,即:N(0,1),大数定律和中心极限定律,要解决的问题,为何能以某事件发生的频率作为该事件的概率的估计?,为何能以样本均值作为总体期望的估计?,为何正态分布在概率论中占有极其重要的地位?,大样本统计推断的理论基础是什么?,ANSWER,大数定律,中心极限定理,大数定律和中心极限定理是概率论的重要基本理论,它们揭示了随机现象的重要统计规律,在概率论与数理统计的理论研究和实际应用中都具有重要的意义。迄今为止,人们已发现很多大数定律(lawsoflargenumbers),本章仅介绍几个最基本的大数定律。所谓大数定律,简单地说,就是大量数目的随机变量所
23、呈现出的规律,这种规律一般用随机变量序列的某种收敛性来刻画。,独立同分布大数定律,大数定律是阐述大量同类随机现象的平均结果的稳定性的一系列定理的总称。独立同分布大数定律设X1,X2,是独立同分布的随机变量序列,且存在有限的数学期望E(Xi)和方差D(Xi)2(i=1,2,),则对任意小的正数,有:,本结果由俄国数学家切比雪夫于1866年证明,是关于大数定律的普遍结果,许多大数定律的古典结果都是它的特例。,大数定律(续),该大数定律表明:当n充分大时,相互独立且服从同一分布的一系列随机变量取值的算术平均数,与其数学期望的偏差任意小的概率接近于1。该定理给出了平均值具有稳定性的科学描述,从而为使用
24、样本均值去估计总体均值(数学期望)提供了理论依据.当n足够大时,算术平均值几乎就是一个常数,可以用算术平均值近似地代替数学期望。,人们已经知道,在自然界和生产实践中遇到的大量随机变量都服从或近似服从正态分布,正因如此,正态分布占有特别重要的地位。那么,如何判断一个随机变量服从正态分布显得尤为重要。如经过长期的观测,人们已经知道,很多工程测量中产生的误差X都是服从正态分布的随机变量。分析起来,造成误差的原因有仪器偏差X1、大气折射偏差X2,温度变化偏差X3、估读误差造成的偏差X4等等,这些偏差Xi对总误差的影响都很微小,没有一个起到特别突出的影响,虽然每个Xi的分布并不知道,但却服从正态分布。类
25、似的例子不胜枚举。,为什么很多随机现象呈正态分布,自然界和社会经济现象中,这类现象很普遍,许许多多的随机变量都可以视为众多独立随机变量之总和。例如:一个城市的居民生活用电总量是大量相互独立居民户用电量的总和;炮弹射击的误差,也可以看作是很多因素引起的小误差之总和。由中心极限定理可知,即使各单个随机变量的分布并不明确,但只要它们存在有限均值和方差,这个众多独立的随机变量之总和的分布就趋近于正态分布。,正态分布也称为常态分布,Contents,4.3参数估计,参数估计的一般问题一个总体参数的区间估计,估计量:用于估计总体参数的随机变量如样本均值,样本比率、样本方差等例如:样本均值就是总体均值的一个估计量估计值:估计参数时计算出来的统计量的具体值如果样本均值x=80,则80就是的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物业管理基础知识培训课件
- 环境艺术设计创业创新
- 财务管理外包合同样本
- 设备租赁合同样本简明版
- 电影金融知识分析
- 药物过量护理个案分析
- 智能城市共建合作框架协议
- 舞台行业基本情况介绍
- 市场拓展合同合作计划
- 春节后回复生产安全教育
- 统编版《道德与法治》六年级下册第5课《应对自然灾害》精美课件(第1课时)
- 工会现金管理制度
- HG∕T 3792-2014 交联型氟树脂涂料
- 机制砂绿色生产技术规程
- 《工程招投标与合同管理》全套教学课件
- DL∕T 5342-2018 110kV~750kV架空输电线路铁塔组立施工工艺导则
- 2024年郑州铁路职业技术学院单招职业适应性测试题库及答案1套
- 2024医疗机构重大事故隐患判定清单(试行)学习课件
- 通信光模块基础讲解
- DL-T 2563-2022 分布式能源自动发电控制与自动电压控制系统测试技术规范
- (高清版)TDT 1056-2019 县级国土资源调查生产成本定额
评论
0/150
提交评论