《应用统计分析》课件-第1,2章 导论与统计分析基础_第1页
《应用统计分析》课件-第1,2章 导论与统计分析基础_第2页
《应用统计分析》课件-第1,2章 导论与统计分析基础_第3页
《应用统计分析》课件-第1,2章 导论与统计分析基础_第4页
《应用统计分析》课件-第1,2章 导论与统计分析基础_第5页
已阅读5页,还剩149页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章导论1.1统计学与统计分析1.2统计数据的分类1第1节

统计学与统计分析1.1.1统计学1.1.2统计分析21.1.1统计学3参考书目1.《统计学(原书第5版)》作者:(美)门登霍尔,(美)辛塞奇

著,梁冯珍

等译出版社:机械工业出版社出版时间:2009年10月

2.《应用多元统计分析(第三版)》作者:朱建平出版社:科学出版社有限责任公司出版时间:2016年12月

1.1.1统计学4什么是统计学?收集数据:取得数据处理数据:整理与图表展示分析数据:利用统计方法分析数据数据解释:结果的说明得到结论:从数据分析中得出客观结论

收集、处理、分析、解释数据并从数据中得出结论的科学1.1.1统计学5统计学的发展历史1.1.2统计分析6统计研究的过程收集数据(取得数据)整理数据(处理数据)解释数据(结果说明)分析数据(研究数据)实际问题1.1.2统计分析7统计方法统计方法描述统计推断统计参数估计假设检验8描述统计

(descriptivestatistics)研究数据收集、整理和描述的统计学分支内容收集数据整理数据展示数据描述性分析目的描述数据特征找出数据的基本规律02550Q1Q2Q3Q4¥x=30s2=1051.1.2统计分析9推断统计

(inferentialstatistics)研究如何利用样本数据来推断总体特征的统计学分支内容参数估计假设检验目的对总体特征作出推断样本总体1.1.2统计分析10描述统计与推断统计的关系反映客观现象的数据总体内在的数量规律性推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)概率论(分布理论、大数定律和中心极限定理等)描述统计(数据的收集、整理、显示和分析等)总体数据样本数据1.1.2统计分析11统计的应用领域经济学管理学医学工程学社会学…

统计学1.1.2统计分析第2节

统计数据的分类1.2.1按计量方式分类1.2.2按收集方式分类1.2.3按时间状况分类1213统计数据的分类统计数据的分类按计量方式截面数据时间序列数据面板数据按时间状况定性数据定量数据按收集方法观测数据试验数据1.2.1按计量方式分类14定性数据(qualitativedata)用来描述事物的性质、类别的数据。定类数据(categoricaldata)只能归于某一类别的非数字型数据对事物进行分类的结果,数据表现为类别,用文字来表述例如,人口按性别分为男、女两类定序数据(rankdata)只能归于某一有序类别的非数字型数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等1.2.1按计量方式分类15数值数据(quantitativedata)由数值表示且可以测量的数据。定距数据(distancedata)按数字尺度测量的观察值结果表现为具体的数值,对事物的精确测度例如:身高为175cm、168cm、183cm定比数据(ratiodata)对事物顺序、距离与比例属性测量的结果表现为数值,可以进行加减乘除运算例如:奖金为0元、2000元、4000元1.2.2按收集方式分类16观测数据(observationaldata)通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据试验数据(experimentaldata)在试验中控制试验对象而收集到的数据比如,对一种新药疗效的试验,对一种新的农作物品种的试验等自然科学领域的数据大多数都为试验数据1.2.3按时间状况分类17截面数据(cross-sectionaldata)在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况比如,2005年我国各地区的国内生产总值数据时间序列数据(timeseriesdata)在不同时间上收集到的数据描述现象随时间变化的情况比如,2000年至2005年国内生产总值数据面板数据(paneldata)在时间序列上取多个截面,在截面上同时选取观测值面板数据有时间序列和截面两个维度比如,2000年至2005年我国各地区的国内生产总值数据18教学内容几种常用的统计软件(software)19

典型的统计软件SPSSMINITABSTATISTICAExcelSASMINITABSTATISTICAExcelSASSPSS第2章统计分析基础2.1统计分析中的基本概念2.2统计分析基础1——概率论2.3统计分析基础2——抽样与抽样分布2.4SPSS实现2.5拓展内容——抽样方法探索性实验20第1节统计分析中的基本概念2.1.1总体和样本2.1.2参数与统计量2.1.3变量2.1.4数据特征测度212.1.1总体和样本22总体(population)所研究的全部个体(数据)的集合,其中的每一个个体也称为元素分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的样本(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本

容量或样本量(samplesize)

2.1.2参数与统计量23

2.1.3变量(variable)24变量是一个用于说明现象的某种特征的概念例如衡量一批产品质量的好坏我们需要的变量为质量等级,而质量等级是一级、二级等就是变量值。再例如为研究一公司销售产品情况,则我们需要的变量就是商品销售额,而销售额具体的数值就是变量值。2.1.3变量25变量的分类2.1.4数据特征测度26统计中的几个基本概念平均数标准差比例参数

统计量

xsp

总体

样本2.1.4数据特征测度27集中趋势(位置)离中趋势

(分散程度)偏态和峰度(形状)2.1.4数据特征测度(集中趋势的测度)28集中趋势

(Centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定2.1.4数据特征测度(集中趋势的测度)291.定类数据:众数2.定序数据:中位数和分位数3.定距和定比数据:均值4.众数、中位数和均值的比较2.1.4数据特征测度(集中趋势的测度)30众数集中趋势的测度值之一出现次数最多的变量值不受极端值的影响可能没有众数或有几个众数主要用于定类数据,也可用于定序数据和数值型数据2.1.4数据特征测度(集中趋势的测度)31众数

(众数的不唯一性)无众数

原始数据:10591268一个众数

原始数据:659855多于一个众数

原始数据:2528283642422.1.4数据特征测度(集中趋势的测度)32某城市居民关注广告类型的频数分布

广告类型人数(人)比例频率(%)

商品广告服务广告金融广告房地产广告招生招聘广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100根据如下表中的数据,计算众数解:这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即

Mo=商品广告2.1.4数据特征测度(集中趋势的测度)33中位数集中趋势的测度值之一排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即2.1.4数据特征测度(集中趋势的测度)34数值型未分组数据的中位数

(6个数据的算例)原始数据:105 91268排序: 56891012位置:123

456位置

N+126+123.5中位数

8+928.5

2.1.4数据特征测度(集中趋势的测度)35四分位数1.集中趋势的测度值之一2. 排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据QLQMQU25%25%25%25%2.1.4数据特征测度(集中趋势的测度)36四分位数(位置的确定)未分组数据:组距分组数据:下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4下四分位数(QL)位置=N4上四分位数(QL)位置=3N42.1.4数据特征测度(集中趋势的测度)37解:下四分位数(QL)的位置为:

QL位置=(300)/4=75

上四分位数(QL)的位置为:

QU位置=(3×300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此

QL

=不满意

QU

=一般表

甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—2.1.4数据特征测度(集中趋势的测度)38均值1. 集中趋势的测度值之一2. 最常用的测度值3. 一组数据的均衡点所在4. 易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数据2.1.4数据特征测度(集中趋势的测度)39均值

(计算公式)设一组数据为:X1,X2,…,XN简单均值的计算公式为设分组后的数据为:X1,X2,…,XK相应的频数为:F1,F2,…,FK加权均值的计算公式为2.1.4数据特征测度(集中趋势的测度)40加权均值

(算例)某车间50名工人日加工零件均值计算表按零件数分组组中值(Xi)频数(Fi)XiFi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计—506160.0计算50名工人日加工零件数的均值2.1.4数据特征测度(集中趋势的测度)41加权均值

(权数对均值的影响)

甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(X): 020100

人数分布(F):118

乙组:考试成绩(X): 020100

人数分布(F):811X甲0×1+20×1+100×8n

10i=1

Xi82(分)X乙0×8+20×1+100×1n

10i=1

Xi12(分)2.1.4数据特征测度(集中趋势的测度)42均值

(数学性质)1. 各变量值与均值的离差之和等于零2.各变量值与均值的离差平方和最小2.1.4数据特征测度(集中趋势的测度)43几何平均数

(概念要点)1.集中趋势的测度值之一2.N个变量值乘积的N次方根3.适用于特殊的数据4.主要用于计算平均发展速度5.计算公式为2.1.4数据特征测度(集中趋势的测度)44一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率=103.84%-1=3.84%思考:给定平均收益率3.84%,四年总的收益是否一定?例(简单几何平均数)2.1.4数据特征测度(集中趋势的测度)45如何构造合适的平均增长率计算公式?案例思考:平均增长率计算公式平均增长率方程式法2.1.4数据特征测度(集中趋势的测度)46几何平均数特点:1)几何平均数受极端值的影响较算术平均数小。2)如果变量值有负值,计算出的几何平均数就会成

为负数或虚数。3)它仅适用于具有等比或近似等比关系的数据。4)几何平均数的对数是各变量值对数的算术平均数2.1.4数据特征测度(集中趋势的测度)47众数、中位数和均值的关系对称分布

均值=中位数=众数左偏分布均值

中位数

众数右偏分布众数

中位数

均值2.1.4数据特征测度(集中趋势的测度)48案例:“被加工资了”有一个小工厂,生产小玩具。管理人员由老板、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。老板(1)老板弟弟(1)老板亲戚(6)领工(5)工人(10)24000100002500200010002.1.4数据特征测度(集中趋势的测度)49工资平均数:3000元工资中位数:2000元工资众数:1000元集中趋势的测度取决于分布形状,当数据分布与单峰分布严重不符时,3个集中趋势测度也都将相背离。2.1.4数据特征测度(离散程度的测度)50二、离散程度的测度1.定类数据:异众比率2.定序数据:四分位差3.定距和定比数据:方差及标准差4.相对离散程度:离散系数2.1.4数据特征测度(离散程度的测度)51离中趋势数据分布的另一个重要特征离中趋势的各测度值是对数据离散程度所作的描述反映各变量值远离其中心值的程度,因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值2.1.4数据特征测度(离散程度的测度)52异众比率

(概念要点)1. 离散程度的测度值之一2. 非众数组的频数占总频数的比率3. 计算公式为4.用于衡量众数的代表性2.1.4数据特征测度(离散程度的测度)53异众比率

(算例)某城市居民关注广告类型的频数分布

广告类型人数(人)频率(%)

商品广告服务广告金融广告房地产广告招生招聘广告其他广告1125191610256.025.54.58.05.01.0合计200100解:在所调查的200人当中,关注非商品广告的人数占44%,异众比率还是比较大。因此,用“商品广告”来反映城市居民对广告关注的一般趋势,其代表性不是很好

Vr=200-112200

=1-112200

=0.44=44%2.1.4数据特征测度(离散程度的测度)54四分位差

(概念要点)1. 离散程度的测度值之一2. 也称为内距或四分间距3. 上四分位数与下四分位数之差

QD

=QU-QL4. 反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性2.1.4数据特征测度(离散程度的测度)55四分位差

(定序数据的算例)计算甲城市家庭对住房满意状况评价的四分位差解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5已知QL

=不满意=2,

QU=

一般=

3四分位差:QD=QU=

QL

=3–2

=1甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—2.1.4数据特征测度(离散程度的测度)56极差

(概念要点及计算公式)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7891078910未分组数据R=max(Xi)-min(Xi).=组距分组数据R

最高组上限-最低组下限5.计算公式为2.1.4数据特征测度(离散程度的测度)57平均差

(概念要点及计算公式)1.离散程度的测度值之一2.各变量值与其均值离差绝对值的平均数3.能全面反映一组数据的离散程度4.数学性质较差,实际中应用较少5.计算公式为未分组数据组距分组数据2.1.4数据特征测度(离散程度的测度)58平均差表某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)|Xi-X||Xi-X|Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.347.153.545.69.843.055.857.2合计—50—312根据如下表中的数据,计算工人日加工零件数的平均差2.1.4数据特征测度(离散程度的测度)59方差和标准差

(概念要点)1. 离散程度的测度值之一2. 最常用的测度值3. 反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4681012X=8.32.1.4数据特征测度(离散程度的测度)60总体方差和标准差

(计算公式)未分组数据:组距分组数据:方差的计算公式标准差的计算公式未分组数据:组距分组数据:2.1.4数据特征测度(离散程度的测度)61总体标准差表

某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)(Xi-X)2(Xi-X)2Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计—50—3100.5计算工人日加工零件数的标准差2.1.4数据特征测度(离散程度的测度)62样本方差和标准差

(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!2.1.4数据特征测度(离散程度的测度)63样本方差

(算例)原始数据:10 5913682.1.4数据特征测度(离散程度的测度)64标准化值

(概念要点和计算公式)1.也称标准分数2.给出某一个值在一组数据中的相对位置3.可用于判断一组数据是否有离群点4.用于对变量的标准化处理5.计算公式为2.1.4数据特征测度(离散程度的测度)65离散系数

(概念要点和计算公式)1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较5.计算公式为2.1.4数据特征测度(离散程度的测度)66离散系数

(实例和计算过程)某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)X1销售利润(万元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0某管理局抽查了所属的8家企业,其产品销售数据。

试比较产品销售额与销售利润的离散程度2.1.4数据特征测度(离散程度的测度)67离散系数

(计算结果)X1=536.25(万元)S1=309.19(万元)V1=536.25309.19=0.577S2=23.09(万元)V2=32.521523.09=0.710X2=32.5215(万元)结论:计算结果表明,V1<V2,说明产品销售额的离散程度小于销售利润的离散程度2.1.4数据特征测度(偏态与峰度的测度)68偏态与峰度的测度1.偏态及其测度2.峰度及其测度2.1.4数据特征测度(偏态与峰度的测度)69偏态与峰度分布的形状扁平分布尖峰分布偏态峰度左偏分布右偏分布与标准正态分布比较!2.1.4数据特征测度(偏态与峰度的测度)702.1.4数据特征测度(偏态与峰度的测度)71偏态

(概念要点)1.数据分布偏斜程度的测度2.偏态系数=0为对称分布3.偏态系数>0为右偏分布4.偏态系数<0为左偏分布5.计算公式为2.1.4数据特征测度(偏态与峰度的测度)72偏态

(实例)已知1997年我国农村居民家庭按纯收入分组的有关数据如表4.9。试计算偏态系数1997年农村居民家庭纯收入数据按纯收入分组(元)户数比重(%)500以下500~10001000~15001500~20002000~25002500~30003000~35003500~40004000~45004500~50005000以上2.2812.4520.3519.5214.9310.356.564.132.681.814.942.1.4数据特征测度(偏态与峰度的测度)73户数比重(%)252015105农村居民家庭村收入数据的直方图偏态与峰度

(从直方图上观察)按纯收入分组(元)1000500←15002000250030003500400045005000→结论:1.为右偏分布

2.峰度适中2.1.4数据特征测度(偏态与峰度的测度)74结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大2.1.4数据特征测度(偏态与峰度的测度)75峰度

(概念要点)1.数据分布扁平程度的测度2.峰度系数=3扁平程度适中3.峰度系数<3为扁平分布4.峰度系数>3为尖峰分布5.计算公式为2.1.4数据特征测度(偏态与峰度的测度)76结论:由于=3.4>3,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重2.1.4数据特征测度(偏态与峰度的测度)77由Excel输出的描述统计量第2节统计分析基础1——概率论2.2.1随机事件2.2.2常见分布2.1.3大数定律与中心极限定理782.2.1随机事件79一、随机现象自然界中存在的两类现象确定性现象

例如:自由落体距离与时间随机现象

例如:明天是否下雨?广告投入与产品的销售量等随机现象的一个特点是:不确定性2.2.1随机事件80二、随机现象的统计规律性

随机现象也存在其固有的量的规律性,人们把这一规律性称为随机现象的统计规律性。对随机现象的观察称为随机试验,并简称试验,用以研究随机现象的统计规律性2.2.1随机事件81随机试验的特点(1)可重复性

在相同试验条件下(2)可观察性

试验结果是可观察的,且所有可能结果是明确的(3)随机性

试验结果不确定2.2.1随机事件82

统计中的抽样过程其实就是一次随机试验。因而可以利用概率论的技巧来分析推断统计方法。而样本其实就是随机变量。2.2.1随机事件83三、随机变量随机变量也分为离散型随机变量和连续性随机变量,若是随机变量的取值可以被一一列举出来我们称其为离散型随机变量,比如扔一次骰子可能出现的点数。连续性随机变量则是取值不能被一一列举,把数轴作为其样本空间,取数轴上的任一点作为随机变量。2.2.1随机事件84三、随机变量

由定义可知,随机变量X应是一个函数,但与已知函数式的普通函数不同,X在试验前不能确定,只能由其分布函数来确定它的统计规律性。2.2.2常见分布85一、二项分布在n重贝努里试验中,每次试验事件A发生的概率为p。若以X表示n重贝努里试验事件A发生的次数,则称X服从参数为n,p的二项分布。记作X~B(k;n,p),其分布律为:2.2.2常见分布86二、几何分布在n重贝努里试验中,每次试验事件A发生的概率为p。若以X表示直到事件A发生为止所进行的试验的次数。显然X取值正整数。称X服从参数为p的几何分布。记作X~g(k,p),其分布律为:2.2.2常见分布87三、指数分布若X~则称X服从参数为

>0的指数分布。其分布函数为

数字特征:

EX=1/

;DX=1/

22.2.2常见分布88

指数分布一般用来描述对某一事件发生的等待时间。比如:乘客在公共汽车站等车的时间,灯泡的使用寿命(等待用坏的时间),电话交换台收到两次呼叫的时间间隔等。它时几何分布在连续型情形的推广。2.2.2常见分布89

正态分布是实践中应用最为广泛,在理论上研究最多的分布之一,故它在概率统计中占有特别重要的地位。四、

正态分布ABA,B间真实距离为,测量值为X。X的概率密度应该是什么形态?2.2.2常见分布90

其中为实数,

>0,则称X服从参数为

,2的正态分布,记为N(,2),可表为X~N(,2).若随机变量

数字特征:

EX=

;DX=

22.2.2常见分布91

正态分布的“钟型”特征与实际中很多随机变量的“中间大,两头小”的分布规律相吻合,比如考察一群人的身高,一个班的一次考试成绩,测量误差等。正态分布时概率论中最重要的分布,高斯(Gauss)在研究误差理论时曾用过它来刻划误差,所以,正态分布也被称为高斯分布。2.2.3大数定律与中心极限定理92大数定律的基本理解大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果平均值却几乎总是接近于某个确定的值,往往呈现几乎必然的趋势。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。2.2.3大数定律与中心极限定理93大数定律的重要性它解释了当试验次数足够多时,事件发生的频率就无限接近于其概率,也就为推断统计样本估计总体的思想提供了理论依据。例如在抛硬币试验中,一次试验硬币可能正面朝上也可能反面朝上,但若是反复进行试验,当试验次数足够大时,正面朝上的频率稳定于一个值附近,这个值就叫做概率,根据生活经验我们也知道这个值就是0.5,因此下一次试验前我们就可以估计出现正面朝上的概率为0.5,也就实现了样本推断出总体的均值。2.2.3大数定律与中心极限定理941、切比雪夫大数定律

设{Xk,k=1,2,...}为独立的随机变量序列,且有相同的数学期望,及方差2>0,则即若任给

>0,使得2.2.3大数定律与中心极限定理952.伯努里大数定律

设进行n次独立重复试验,每次试验中事件A发生的概率为p,记fn为n次试验中事件A发生的频率,则“时空转换”2.2.3大数定律与中心极限定理96中心极限定理正态分布的普适性2.2.3大数定律与中心极限定理97第3节统计分析基础2

——抽样与抽样分布2.3.1抽样的概念与特点2.3.2常用的抽样方法2.3.3抽样分布982.3.1抽样的概念与特点99统计推断的过程样本总体样本统计量如:样本均值、比例、方差总体均值、比例、方差等2.3.1抽样的概念与特点1001)抽样的概念从总体中抽取一个样本作为总体的代表,这一过程称为抽样。对样本进行调查,再根据抽样分布的原理利用样本资料对总体数量特征进行科学的估计与推断,这就是抽样估计。2)抽样的特点

(1)随机性;(2)部分推断总体;(3)抽样推断的误差可以事先计算并加以控制。2.3.2常用的抽样方法101非概率抽样概率抽样

简单随机抽样

分层抽样

簇群抽样

等距抽样方便抽样、判断抽样、资源抽样

滚雪球抽样、配额抽样2.3.2常用的抽样方法102一、简单随机抽样从总体中抽取n个单位作为样本时,要使得每一个总体单位都有相同的概率被抽中,这样的抽样方法称为简单随机抽样(simplerandomsampling),又称为纯随机抽样。又分为重复抽样和不重复抽样。应用最广泛;最基本的抽样方法;

其他抽样方法都是在它的基础上发展;

总体单位很大时,编制抽样框较难;可能得到一个“差”的简单随机样本。2.3.2常用的抽样方法103一、简单随机抽样简单随机抽样常用的两种方法:1)抽签法。当总体单位N较少时,可以用同质均匀的材料制作N个签,并充分混合,可分别采取两种方法抽取。一种是全样本抽选法,即从N个签中一次抽选n个,这n个签上的号码即为入样的单位号码;另一种是逐个抽选法,即一次抽取一个签,但不放回,接着抽下一个签,直到抽够n个签为止,这n个签上号码所对应的单位入样。可以证明,这两种方法抽到的

个单位的样本是等价的。2)随机数法。当总体较大时,抽签法实施起来比较困难,这时可以利用随机数表、随机数色子、摇奖机、计算机产生的伪随机数进行抽样。2.3.2常用的抽样方法104利用辅助信息,在抽样之前将总体的N个单元划分为互不交叉、互不重叠的L个层,每一层包含的单元数分别为

,从而

。然后在每一层中进行独立抽样,分别从各层中抽取的容量为

的样本,得到的样本容量为,这种抽样方式就是分层抽样(StratifiedSampling),也被称为分类抽样。二、分层抽样2.3.2常用的抽样方法105层(类)间的差距尽可能大,而层内个体之间的差异尽可能小。优点:1)分层抽样的研究对象更为具体2)分层抽样适合大规模,跨地区和跨行业的大规模调查3)提高估计的精度二、分层抽样2.3.2常用的抽样方法106三、簇群抽样

簇群抽样(ClusterSampling),也称整群抽样,就是先将总体依据存在的某种联系划分为几个簇群(Cluster),即初级抽样单元,然后以群为单位进行抽样,进而对抽中的各个群中包含的所有个体单位(即次级抽样单元)进行观察和研究。

例如,对某居民小区的户均网购情况进行调查,可以采取两种不同的抽样方法,一种方法是将住户看做抽样基本抽样单元,采用简单随机抽样对被选中的住户进行调查;另一种方法是将小区内每栋居民楼看成一个群,随机抽取一定数量的居民楼,然后对楼内的所有的住户进行调查,这就是簇群抽样。2.3.2常用的抽样方法107三、簇群抽样优点:抽样工作简单高效,而且当簇内各单位差异明显,而且基本能够反映和接近总体特征的时候,簇群抽样的精度较好;缺点:如果抽中的簇群与总体特征差距明显,则会导致估计精度较低,效果较差

与分层抽样相比,簇群抽样是选择一个或者几个簇作为总体的代表,而簇的划分有时并没有一个客观的标准。因此,从抽样估计的通体精度考虑,簇群抽样要低于分层抽样。但由于簇群抽样调查单位相对集中,平均单位调查费用较少,因此可以适当扩大群样本量以提高簇群抽样的精度,同时使调查费用仍比较少。2.3.2常用的抽样方法108四、等距抽样如果把总体按照某种顺序进行排列,然后采取某种既定规则进行间隔抽取个体的方式被称为等距抽样(SystematicSampling),或者系统抽样,又称为机械抽样。1、简单容易2、实际的抽样误差很可能要低于简单随机抽样2.3.2常用的抽样方法109直线等距抽样:

把总体单元排成一条直线,以

为抽样间距,把总体分为n段,每段k个单元。然后从1至k之间随机抽取一个整数

,即在第一段的k个单元中随机抽取一个单元为起点,假设为第r个单元,而后每隔k个单元抽出一个样本单元,直到抽满n个单元。这样总体中编号为

的单元全部入样。四、等距抽样2.3.2常用的抽样方法110五、Bootstrap抽样“子样本之于样本,可以类比样本之于总体”Bootstrap抽样法的具体做法是从原有样本数据中再次“抽样”产生伪样本,再利用伪样本数据计算估计量的标准误差。Bootstrap抽样法一般适用于未知分布非常不规则或样本数不足的情况。例如,若要估计某社区居民的平均年龄,而已知其中200人的信息,我们就可以利用已知200人的信息,“有放回”地抽取50次,得到的平均年龄就可以大致认为是社区居民平均年龄。2.3.3抽样分布1111)总体分布2)样本分布3)抽样分布三种不同性质的分布2.3.3抽样分布112总体分布总体分布:所有元素出现概率的分布。总体分布往往是未知的,很多场合不可能获取得对所有个体元素的观察值。当然有些时候可以通过理论计算进行假定。2.3.3抽样分布113样本分布

样本分布:假设总体变量为N,抽取样本规模为n,如果n趋近N的时候,样本分布实际上也在趋向总体分布。因此,样本分布又称为经验分布。2.3.3抽样分布114抽样分布抽样分布是对样本统计量概率分布的一种描述方式。关键点:1)样本统计量;2)由样本n个观察值计算的统计量的概率分布就是抽样分布。3)抽样分布经常用到的统计量:样本均值,中位数等。2.3.3抽样分布115总体计算样本统计量如:样本均值、比例、方差样本总体分布抽样分布的形成过程2.3.3抽样分布116【例】设一个总体(比如掷骰子),含有6个元素(个体),即总体单位数N=6。6个个体分别为x1=1,x2=2,x3=3,x4=4,x5=5,x6=6。总体的均值、方差及分布如下:均值和方差案例分析2.3.3抽样分布117

现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有62=36个样本。所有样本的结果为:

第二观察值第一观察值1234561(1,1)(1,2)(1,3)(1,4)(1,5)(1,6)2(2,1)(2,2)(2,3)(2,4)(2,5)(2,6)3(3,1)(3,2)(3,3)(3,4)(3,5)(3,6)4(4,1)(4,2)(4,3)(4,4)(4,5)(4,6)5(5,1)(5,2)(5,3)(5,4)(5,5)(5,6)6(6,1)(6,2)(6,3)(6,4)(6,5)(6,6)案例分析表3-1样本容量为2的36次重复抽样观察值2.3.3抽样分布118

计算出各样本的均值,如下表。并给出样本均值的抽样分布如下图

第二观察值第一观察值123456111.522.533.521.522.533.54322.533.544.542.533.544.55533.544.555.563.544.555.56案例分析样本平均值一览图投掷骰子时间样本的均值分布图2.3.3抽样分布119

=3.5σ2=2.9

=3.5σ2=1.45案例分析观察:两组数值特征存在怎么样的关系?2.3.3抽样分布120一、正态总体的抽样分布定理设总体X~N(μ,σ2),(X1,X2,…,Xn)是其容量为n的一个样本,X和S2分别为此样本的样本均值与样本方差,则有:2.3.3抽样分布1211、单正态总体的抽样分布

定理设总体X~N(μ,σ2),(X1,X2,…,Xn)是其容量为n的一个样本,X和S2分别为此样本的样本均值与样本方差,则有:2.3.3抽样分布1221、单正态总体的抽样分布

2.3.3抽样分布1231、单正态总体的抽样分布

2.3.3抽样分布1241、单正态总体的抽样分布

2.3.3抽样分布1251、单正态总体的抽样分布

2.3.3抽样分布1262、双正态总体的抽样分布

定理设总体X~N(μ1,σ12)与Y~N(μ2,σ22)是两个相互独立的正态总体。又设(X1,X2,…,Xn1)是其容量为n1的样本,X和S12分别为此样本的样本均值与样本方差,再设(Y1,Y2,…,Yn2)是其容量为n2的样本,Y和S22分别为此样本的样本均值与样本方差,另记S2为S12与S22有的加权平均:则有:2.3.3抽样分布1272、双正态总体的抽样分布

2.3.3抽样分布1282、双正态总体的抽样分布

2.3.3抽样分布1292、双正态总体的抽样分布

2.3.3抽样分布1302.3.3抽样分布131二、一般总体抽样分布的极限分布定理设(X1,X2,…,Xn)是总体X的样本,并设总体X的数学期望和方差均存在,分别记为EX=μ,DX=σ2再记第4节SPSS实现132133第一步:首先将数据导入SPSS中134第二步:依次点击〖分析〗→〖描述统计〗→〖描述〗,进入〖描述〗对话框,并将4个变量添加到〖变量〗列表中135第三步:点击〖选项〗进入选项对话框,勾选〖平均值〗、〖标准差〗、〖方差〗、〖最大值〗、〖最小值〗、〖峰度〗、〖偏度〗,如图2.13,点击〖继续〗返回主对话框,再点击〖确定〗即可得到相应计算结果136第四步:相应输出结果第5节拓展内容

——抽样方法探索性实验2.5.1实验目标2.5.2实验数据2.5.3实验内容1372.5.1实验目标1381、利用简单随机抽样(重复和无重复)、分层抽样、簇群抽样、等距抽样等五种抽样方法分别在身高数据总体中抽取10人的样本,每种抽样方案抽30次样本,计算数值特征(包括样本和总体),制作不同抽样方案下的直方图,并以此比较抽样方案的优劣;2、假设身高数据服从正态分布,构造实验验证抽样分布定理(单总体和双总体)。2.5.2实验数据1392.5.3实验内容2.5.3.1五种抽样方案的数据展示及对比2.5.3.2验证抽样分布定理定理2.2的验证定理2.3的验证定理2.4的验证定理2.6的验证定理2.7的验证1402.5.3.1五种抽样方案的数据展示及对比进行简单重复随机抽样时,每次随机抽取10人的样本,共实现3000次抽样,计算样本均值的期望和标准差,得到的直方图如下:1412.5.3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论