数值变量资料的统计分析统计推断演示文稿_第1页
数值变量资料的统计分析统计推断演示文稿_第2页
数值变量资料的统计分析统计推断演示文稿_第3页
数值变量资料的统计分析统计推断演示文稿_第4页
数值变量资料的统计分析统计推断演示文稿_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数值变量资料的统计分析统计推断演示文稿目前一页\总数四十二页\编于十四点(优选)第二节数值变量资料的统计分析统计推断目前二页\总数四十二页\编于十四点学习目标1.说出抽样误差的概念2.记住标准误计算公式并能说出公式的含义3.描述t分布的特征及应用4.说出参数估计的含义及方法5.描述均数检验t检验和u检验的方法目前三页\总数四十二页\编于十四点总体样本抽取部分观察单位

统计量

参数

统计推断如:总体均数μ

总体标准差σ

总体率π如:样本均数样本标准差S

样本率P

内容:参数估计(estimationofparameters)

包括:点估计与区间估计2.假设检验(testofhypothesis)统计推断statisticalinference目前四页\总数四十二页\编于十四点一均数的抽样误差

抽样误差(samplingerror):由于个体差异导致的样本统计量之间或与总体参数间的差别。

从某正态分布总体中,随机抽取样本含量n=100的样本,每次抽样获得其均数分别为,,,,他们之间及与总体均数μ总是不相等。这种差异就是抽样误差。

目前五页\总数四十二页\编于十四点1.抽样试验

从正态分布总体N(5.00,0.502)中,每次随机抽取样本含量n=5,并计算其均数与标准差;重复抽取1000次,获得1000份样本;计算1000份样本的均数与标准差,并对1000份样本的均数作直方图。按上述方法再做样本含量n=10、样本含量n=30的抽样实验;比较计算结果。目前六页\总数四十二页\编于十四点抽样试验(n=5)目前七页\总数四十二页\编于十四点抽样试验(n=10)目前八页\总数四十二页\编于十四点抽样试验(n=30)目前九页\总数四十二页\编于十四点1000份样本抽样计算结果总体的均数总体标准差s均数的均数均数标准差n=55.000.504.990.22120.2236n=105.000.505.000.15800.1581n=305.000.505.000.09200.0913目前十页\总数四十二页\编于十四点3个抽样实验结果图示目前十一页\总数四十二页\编于十四点抽样实验小结

均数的均数围绕总体均数上下波动。

均数的标准差即标准误与总体标准差相差一个常数的倍数,即

样本均数的标准误(StandardError)=样本标准差/

从正态总体N(μ,σ2)中抽取样本,获得均数的分布仍近似呈正态分布N(μ,σ2/n)

。目前十二页\总数四十二页\编于十四点2.中心极限定理(centrallimittheorem)①即使从非正态总体中抽取样本,所得均数分布仍近似呈正态。②随着样本量的增大,样本均数的变异范围也逐渐变窄。目前十三页\总数四十二页\编于十四点随机变量XN(m,s2)标准正态分布N(0,12)u变换均数标准正态分布N(0,12)Studentt分布自由度:n-1二t分布目前十四页\总数四十二页\编于十四点t分布曲线

t分布有如下特征:①是以0为中心随自由度而变化的一簇左右对称的曲线

②单峰分布,曲线在t=0处最高,并以t=0为中心左右对称③与正态分布相比,曲线最高处较矮,自由度越小,两尾部翘得越高(见绿线)④随自由度增大,曲线逐渐接近正态分布;分布的极限为标准正态分布。目前十五页\总数四十二页\编于十四点t分布曲线

t分布有如下特征:①自由度相同时,t越大,

p值越小②p值相同时,自由度越大,

t值越小③t值相同时,自由度越大

p值越小t1t2(t1>t2,p1<p2)(n1>n2,t1<t2)(n1>n2,p1<p2)t1t2t目前十六页\总数四十二页\编于十四点t分布曲线下面积单侧t0.05,9=1.833双侧t0.05/2,9=2.262

=单侧t0.025,9单侧t0.01,9=2.821双侧t0.01/2,9=3.250

=单侧t0.005,9双侧t0.05/2,∞=1.96

=单侧t0.025,∞单侧t0.05,∞=1.640.013.2502.8210.005目前十七页\总数四十二页\编于十四点三总体均数的估计

1.总体均数的估计

(1).总体均数的点估计(pointestimation)与区间估计

(2).总体均数的可信区间(confidenceinterval,CI)(3).大样本总体均数的可信区间2.可信区间的解释目前十八页\总数四十二页\编于十四点1.总体均数的估计

(1).总体均数的点估计与区间估计参数的估计点估计:由样本统计量直接估计总体参数区间估计:在一定可信度(1-α)下,同时考虑抽样误差目前十九页\总数四十二页\编于十四点

区间的可信度(如95%或99%)是重复抽样(如1000次)时,样本(如n=5)区间包含总体参数(μ)的百分数。常用(1-α)表示,α值一般取0.05或0.01。)或(;或写成),可信区间为(XXXXXStXStXStXStXStXnananananama,2/,2/,2/,2/,2/)1(+<<-±+--(2).总体均数的可信区间(CI)目前二十页\总数四十二页\编于十四点

(2).总体均数的可信区间目前二十一页\总数四十二页\编于十四点(3).大样本总体均数的可信区间

目前二十二页\总数四十二页\编于十四点2.可信区间的解释

95%可信区间:从总体中作随机抽样,作100次抽样,每个样本可算得一个可信区间,得100个可信区间,平均有95个可信区间包括μ(估计正确),只有5个可信区间不包括μ(估计错误)。95%可信区间

99%可信区间公式区间范围窄宽估计错误的概率大(0.05)小(0.01)XXStXStXnn,2/05.0,2/05.0,+-目前二十三页\总数四十二页\编于十四点

可信区间与参考值范围的比较目前二十四页\总数四十二页\编于十四点四均数的假设检验1.样本均数与总体均数的比较2.配对资料的比较3.两样本均数的比较4.大样本均数比较的u检验5.假设检验的步骤及有关概念目前二十五页\总数四十二页\编于十四点1.样本均数与总体均数的比较

推断样本所代表的未知总体均数µ与已知总体均数µ0有无差别。已知总体均数µ0一般为理论值、标准值或经大量观察所得的稳定值。统计量t的计算公式:目前二十六页\总数四十二页\编于十四点实例目前二十七页\总数四十二页\编于十四点目前二十八页\总数四十二页\编于十四点根据专业知识确定单、双侧检验目前二十九页\总数四十二页\编于十四点2.配对资料的比较

两种情况:1.随机配对设计(randomizedpaireddesign)是将受试对象按某些混杂因素(如性别、年龄、窝别等)配成对子,每对中的两个个体随机分配给两种处理(如处理组与对照组);2.或者同一受试对象作两次不同的处理(自身对照)。

优点:配对设计减少了个体差异。

特点:资料成对,每对数据不可拆分。目前三十页\总数四十二页\编于十四点2.配对资料的比较—方法目前三十一页\总数四十二页\编于十四点例:

两法测定12份尿铅含量的结果样品号尿铅含量(μmol.L-1)简便法常规法差值(d)

1

2.41

2.80-0.390.1521

2

2.90

3.04-0.140.0196

3

2.75

1.88

0.870.7569

4

3.23

3.43-0.200.0400

5

3.67

3.81-0.140.0196

6

4.49

4.00

0.490.2401

7

5.16

4.44

0.720.5184

8

5.45

5.41

0.040.0016

9

2.06

1.24

0.820.672410

1.64

1.83-0.190.036111

1.06

1.45-0.390.152112

0.77

0.92-0.150.0225合计----

1.342.6314目前三十二页\总数四十二页\编于十四点两法测定结果的比较目前三十三页\总数四十二页\编于十四点3.两样本均数的比较

完全随机设计(completelyrandomdesign):把受试对象完全随机分为两组,分别给予不同处理,然后比较独立的两组样本均数。各组对象数不必严格相同。

目的:比较两总体均数是否相同。

条件:假定资料来自正态总体,σ12=σ22目前三十四页\总数四十二页\编于十四点实例目前三十五页\总数四十二页\编于十四点4.大样本均数比较的u检验

两样本均数比较时当每组样本量大于30(或50)时,可采用u检验;但只是近似方法。优点:简单,u界值与自由度无关,

u0.05=1.96,u0.01=2.58目前三十六页\总数四十二页\编于十四点5.假设检验的步骤及有关概念总体间差异:1.个体差异,抽样误差所致;

2.总体间固有差异判断差别属于哪一种情况的统计学检验,就是假设检验(testofhypothesis)。

t检验是最常用的一种假设检验之一。小概率思想:P<0.05(或P<0.01)是小概率事件。在一次试验中基本上不会发生。P≤α(0.05)样本差别有统计学意义;P>α(0.05)样本差别无统计学意义目前三十七页\总数四十二页\编于十四点1、建立假设与确定检验水准(α)

H0:μ1=μ2无效假设(nullhypothesis)

H1:μ1≠μ2备择假设(alternativehypothesis)

检验水准(levelofatest):α=0.05(双侧)2、选定方法和计算统计量:根据统计推断目的、设计、资料组数、样本含量、等选择方法。如两组小样本比较用t检验、大样本比较u检验、方差齐性检验用F检验。3、确定P值,作出判断

P≤α(0.05)样本差别有统计学意义;

P>α(0.05)样本差别无统计学意义

假设检验的步骤

目前三十八页\总数四十二页\编于十四点

Ⅰ型错误和Ⅱ型错误由样本推断的结果真实结果拒绝H0不拒绝H0

H0成立Ⅰ型错误a推断正确(1-a

)

H0不成立推断正确(1-b)Ⅱ型错误b

(1-b)即把握度(powerofatest):两总体确有差别,被检出有差别的能力(1-a)即可信度(confidencelevel):重复抽样时,样本区间包含总体参数(m)的百分数目前三十九页\总数四十二页\编于十四点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论