统计学基础详解演示文稿_第1页
统计学基础详解演示文稿_第2页
统计学基础详解演示文稿_第3页
统计学基础详解演示文稿_第4页
统计学基础详解演示文稿_第5页
已阅读5页,还剩114页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学基础详解演示文稿目前一页\总数一百一十九页\编于十六点(优选)统计学基础目前二页\总数一百一十九页\编于十六点一、总体

根据研究目的确定的同质研究对象的全体(集合)。是由具有某些共同特质(characteristic)的元素(element)或个体所组成的群体,是研究人员所要研究观察对象的全体集合。EX1:评估大学生的身体素质

浙江工商大学的全体学生

浙江大学所有大学生EX2:考察菜地土壤重金属污染状况

杭州市郊菜园土浙江省的菜园土3目前三页\总数一百一十九页\编于十六点总体容量:即总体所包含的个体数目(N)

有限总体无限总体

总体特点:同质性(CommonCharacteristic)变异性(Variationbetweenelements)大量性(Inhugenumbers)研究方法:全面普查(耗资巨大、破坏性)

抽样调查(具有代表性)

4目前四页\总数一百一十九页\编于十六点样本:从总体中抽取的一部分个体组成的集合。抽样要求:样本对总体具有代表性样本容量:即样本所包含的个体数目(n)大样本:n≥30小样本:n<30二.样本?5目前五页\总数一百一十九页\编于十六点三、随机抽样

randomsampling为了保证样本的可靠性和代表性,需要采用随机的方法抽取样本。随机抽取的要求:在总体中每个个体具有相同的机会被抽到。6目前六页\总数一百一十九页\编于十六点随机抽样保证样本的代表性与可靠性总体与样本的关系抽样Sampling推论inferencePopulationsample试验设计任务7目前七页\总数一百一十九页\编于十六点总体与样本的属性数量属性测试、调查的对象具有可度量或计数的性质。水体中细菌的数量、饮料中固形物的含量质量属性有些观察调查对象的一些属性能观察而不能度量。酱油的颜色、感觉的喜好程度(不喜欢=-1、无所谓=0、喜欢=1)8目前八页\总数一百一十九页\编于十六点误差与错误错误在试验过程中由于工作出错造成的观测值与真值的差异误差随机误差系统误差9目前九页\总数一百一十九页\编于十六点精密度和准确度

误差表示测量的不精密度和不准确度,即不确定度.精密度和准确度是两个不同的概念.精密度表示一组测定数据相互接近的程度或分散的程度,它的大小完全决定于偶然误差.在分析化学中,常用重复性(repeatability)和再现性(reproducibility)来表示精密度.重复性是指在完全相同条件下,即同一操作者、同一仪器、同一实验室,在较短时间内分析同一样品所得结果的精密度;再现性是指在不同的条件下,即不同的操作者、非同一台仪器、不同的实验室、不同的时间,但是用相同的分析方法和分析相同样品所得结果的精密度.准确度表示测量值与真值的偏离程度,它由系统误差和偶然误差共同决定.

如由4个学生用浓度准确为0.1mol/L的盐酸滴定浓度准确为0.1mol/L的氢氧化钠,氢氧化钠的体积准确为10.00ml.每个学生重复测量5次,其结果示于表1.1.10目前十页\总数一百一十九页\编于十六点学生结果(ml)注释

A

B

C

D10.0810.1110.0910.1010.12

9.8810.1410.029.8010.21

10.199.799.6910.059.78

10.049.9810.029.9710.04

精密但不准确

准确但不精密

不准确也不精密

准确而且精密

由表1.1可见,学生A尽管测试结果重复性较好,即精密,但是准确性较差(A的均值为10.10),所有结果均偏高.这是由于系统误差所致.学生B的测试落到准确值(即真值)的两侧,其均值为10.01.此结果较准确,但精密度较差,主要受到了偶然误差的影响.学生C测量中既有偶然误差的影响,又有系统误差的影响,所以既不精密,也不准确.只有学生D测试结果比较精密(范围为9.97-10.04ml),又比较准确(均值为10.01).表1.1用盐酸进行氢氧化钠的滴定结果11目前十一页\总数一百一十九页\编于十六点第二节描述统计一、统计特征数二、次数分布12目前十二页\总数一百一十九页\编于十六点一、统计特征数

反映数据资料的集中性趋势或分散程度的一些特征数字,统称为统计特征数。参数:用于描述总体集中性趋势或分散程度的统计特征数。如总体平均数μ,总体标准差。统计数:用于描述样本集中性趋势或分散程度的统计特征数。如样本平均数,样本标准差s。13目前十三页\总数一百一十九页\编于十六点(一)平均数

描述数据资料的集中性趋势的统计特征数。反映资料的一般水平及中心位置,并可作为资料的代表跟其它资料比较。

14目前十四页\总数一百一十九页\编于十六点1、平均数类型及Excel插入函数计算名称定义插入函数算术平均数AVERAGE(x1,x2,xn)几何平均数GEOMEAN(x1,x2,xn)众数一组数据中出现次数最多的数值MODE(x1,x2,xn)调和平均数HARMEAN(x1,x2,xn)中数一组数据由大到小排列,位于中间位置的数据;当样本容量为偶数时居中的两个数据的平均值。MEDIAN(x1,x2,xn)15目前十五页\总数一百一十九页\编于十六点(1)算术平均数的性质离均差的总和为0

离均差的平方和最小16目前十六页\总数一百一十九页\编于十六点17算数平均数的作用指出一组数据资料的中心位置,标志着资料所代表形状的数量水平和质量水平可作为样本或资料的代表数与其他资料进行比较目前十七页\总数一百一十九页\编于十六点(2)几何平均数可以反映对数正态分布或近似对数分布资料以及等比级数资料的集中趋势感官评价中感觉强度的统计表征,例如:三点检验或是阈值测定中,平均值的求解18目前十八页\总数一百一十九页\编于十六点(3)调和平均数应用于当掌握资料不完全,但又需要计算平均数的情况。19f为不同权重目前十九页\总数一百一十九页\编于十六点20工厂废水处理率(%)废水量甲1830000乙2325000丙3018000甲、乙、丙三个工厂的实际废水量和废水处理率列于表1.3-1,试计算平均处理率。表1.3-1三个工厂的废水量和废水处理率目前二十页\总数一百一十九页\编于十六点(4)中位数在科学研究中收集的数据,有时会比较分散,个别离群偏远,这时往往要用中位数来表征平均特征。谓中位数是指观测值由大到小或由小到大依次排序,居于中间位置的数据,记作Me。一般来说,有21目前二十一页\总数一百一十九页\编于十六点(5)众数一组数据中出现次数最多的数值为众数,记作Mo,也就是频率最大的值,在一组数据中众数可能不止一个。一般用于统计调查表的分析中22目前二十二页\总数一百一十九页\编于十六点(二)变异数

用于描述数据资料的变异程度变异程度的统计特征数。

23目前二十三页\总数一百一十九页\编于十六点1、变异数类型及Excel插入函数计算名称定义插入函数样本标准差STDEV(x1,x2,xn)总体标准差STDEVP(x1,x2,xn)样本方差VAR(x1,x2,xn)总体方差VARP(x1,x2,xn)变异系数24目前二十四页\总数一百一十九页\编于十六点(1)极差极差是一组数据的最大值(ymax.)与最小值(ymin.)之差,反映数据资料的最大变异幅度,也称变幅记作R,即:用极差反映数据资料的变异程度,方便直观,但它只利用了数据资料的两个极端值,而其余数据的变异信息无从表达,因而极差是一种较粗放的表示变异程度的指标。特别是样本容量n较大时,这种缺陷就更为突出。主要用于数据归一化处理25目前二十五页\总数一百一十九页\编于十六点(2)方差方差是度量资料变异程度的最常用的指标之一。26目前二十六页\总数一百一十九页\编于十六点(3)标准差为弥补方差与原始数据的数值单位不同,无法进行比较的缺陷,设计将方差进行开方:27目前二十七页\总数一百一十九页\编于十六点(4)变异系数变异系数亦称离散系数,它是样本标准差S与样本平均数之比的百分数,记作CV:变异系数表示相对变异程度,它常用于:(1)比较平均数相差悬殊的几组资料的变异程度;(2)比较度量单位不同的几组资料的变异程度。28目前二十八页\总数一百一十九页\编于十六点某地丰产田小麦产量平均为400公斤/666.7平方米,标准差为30公斤/666.7平方米,一般大田平均产量250公斤/666.7平方米,标准差28公斤/666.7平方米,试比较丰产田与一般大田产量的变异系数?丰产田产量的变异系数为:CV(=30/400100=7.5%一般大田产量的变异系数为:CV(%)=28/250100=11.2%29目前二十九页\总数一百一十九页\编于十六点2、自由度DegreeofFreedom记作df指样本内独立而能自由变动的观察数个数。某一统计量的自由度df等于样本容量n减约束条件数k。例如:求样本方差(或标准差)的自由度受的约束,即k=1,所以:

df=n-130目前三十页\总数一百一十九页\编于十六点(三)Excel分析工具

——“描述统计”应用操作:Excel主菜单:工具→分析工具:描述统计输入选项:①输入区域②分组方式:单击“行”或“列”③标志位于第一行/列输出选项:①均值置信度:②第K个最大值③第K个最小值:④输出区域⑤新工作表⑥新工作簿⑦汇总统计:31目前三十一页\总数一百一十九页\编于十六点汇总统计输出内容:平均值标准误差(即样本平均值的标准误)中值,众数样本标准差,样本方差、峰值,偏斜度极差(全距)

最小值,最大值总和,总个数置信度:(置信半径=t标准误)32目前三十二页\总数一百一十九页\编于十六点例1.测得10个样本的甜菜块根蔗糖含量结果如下表,试采用Excel插入函数计算各样本的统计数:平均数、标准差、方差及变异系数。利用“描述统计”工具计算各样本的统计特征数。33目前三十三页\总数一百一十九页\编于十六点=AVERAGE(B2:K2)=STDEV(B2:K2)=VAR(B2:K2)=M2/L2*100第一行:后9行:选定第一行数字,使填充柄出现“实线十字”再下拉即可1、插入函数计算:34目前三十四页\总数一百一十九页\编于十六点2、统计描述工具计算:35目前三十五页\总数一百一十九页\编于十六点输出结果行1行2行3行4行5行6行7行8行9行10平均11.711.314.112.513.812.011.811.812.710.8标准误差0.81.10.80.70.30.91.00.80.70.7中位数12.411.914.312.813.712.112.813.112.811.4标准差2.53.62.42.31.12.73.12.62.12.1方差6.413.05.85.21.17.49.97.04.64.6峰度-1.440.12-0.48-1.26-1.551.17-1.05-0.71-0.930.30偏度0.01-0.54-0.46-0.38-0.12-0.75-0.75-0.75-0.52-0.95区域7.212.37.66.62.99.48.685.76.9最小值8.54.49.68.612.16.36.579.46.5最大值15.716.717.215.21515.715.11515.113.4求和116.9112.5140.8125137.5120.2117.9118.4127.2107.7观测数10101010101010101010经整理36目前三十六页\总数一百一十九页\编于十六点二、次数分布

(一)次数分布表将一群观测值的变异范围划分为互不相容的若干区间;记数属于各区间的观测值次数。由各组的组限(或组中值)及相应次数构成的表格称为次数分布表。37目前三十七页\总数一百一十九页\编于十六点38200株水稻主茎叶片SPAD值列号(j)行号(i)12345678910133.541.439.737.538.436.438.937.938.137.0238.237.838.936.037.640.537.637.536.736.4336.736.240.638.738.936.437.139.539.533.6439.334.140.235.638.440.038.337.338.535.7538.334.438.134.438.338.838.737.838.639.3637.937.536.440.137.537.239.037.136.739.6737.438.137.937.136.537.738.941.239.536.8839.938.336.937.136.935.837.937.236.336.2939.438.439.638.337.740.736.339.036.238.21039.038.436.838.739.338.737.538.339.034.71136.636.539.239.538.136.539.536.737.336.21239.638.639.538.941.539.735.339.140.337.81338.837.842.137.939.039.438.139.537.239.01438.137.443.136.837.438.338.637.637.438.71537.235.638.439.036.636.737.738.036.438.21634.738.437.637.938.636.636.139.838.935.81736.039.237.137.838.039.440.535.139.537.81837.539.337.240.535.737.940.141.838.836.71936.438.139.539.038.836.538.238.338.438.82036.537.235.036.138.038.037.435.539.037.2目前三十八页\总数一百一十九页\编于十六点次数分布表制作步骤:1.求变幅R:R=YMax.-Ymin.R=43.1-33.5=9.62.选择组数K:采用Sturge公式估计:K=1+3.3logN(N为总体或样本容量)K=1+3.3log200=8.6≈9(选9组)3.确定组距C:即每组上下限之差由C=R/K来估计C=9.6/9≈1.07(取1.0)4.决定组限和组中值:最小组的下限L11=Ymin-1/2C(小数位数比观测值多一位)L11=33.5-0.5=33(取33)最小组的上限L12=L11+CL12=33+1=34后一组的下限即前一组的上限,各组上限即本组下限加组距Li2=Li1+C(i=1,2,3,……,K)5.观测值归组记数39目前三十九页\总数一百一十九页\编于十六点200株水稻主茎叶片SPAD值次数分布表40组号组上限次数累积百分率(%)13421.0023553.5336108.54373526.05384749.56395677.57403092.5841997.0942499.01043199.5011441100.0目前四十页\总数一百一十九页\编于十六点(二)次数分布图为更形象直观表示次数分布特征可将次数分布表作成次数分布图,包括:1.直方图:以组限或组中值为横坐标,以次数为纵坐标,由许多直方柱构成的分布图。2.多边形图:以组中值为横坐标,以次数、累积次数或累积频率为纵坐标,由折线连接而成的分布图。41目前四十一页\总数一百一十九页\编于十六点42目前四十二页\总数一百一十九页\编于十六点(三)利用Excel“直方图”工具制作次数分布表与次数分布图

点击:工具→数据分析→直方图43目前四十三页\总数一百一十九页\编于十六点(1)点击:工具→数据分析→直方图;(2)输入区域:引用“100株甜菜块根蔗糖含量数据”;接收区域:不引用(3)选定输出选项;(4)点击“确定”。自动生成的次数分布表及分布图44目前四十四页\总数一百一十九页\编于十六点(1)点击:工具→数据分析→直方图;(2)输入区域:引用“100个蔗糖含量数据”;接收区域:“引用事先设定的组限”;(3)选定输出选项;(4)点击“确定”。45目前四十五页\总数一百一十九页\编于十六点按设定组限生成的次数分布表及分布图频率:次数累积:累积频率46目前四十六页\总数一百一十九页\编于十六点第三节概率分布与抽样分布一、随机事件二、概率分布三、抽样分布47目前四十七页\总数一百一十九页\编于十六点随机事件确定性的事件指一定条件下必然发生或不发生的现象;反之,则为在一定条件下必然不发生的现象。在一个大气压下水加热到100℃必定沸腾;同性电荷会排斥不确定性的即偶然性的事件在一定条件下可能发生也可能不发生的现象,也称随机现象或随机事件一粒水稻种子播种后可能发芽也不发芽某种农药对防治作物病害可能见效也可能不见效投掷硬币,国徽还是字朝上48目前四十八页\总数一百一十九页\编于十六点频率与概率设随机事件A在n次试验中出现了m次,则比值叫做n次试验中随机事件A的频率,记作W(A),即W(A)=由于m的取值区间为[0,n],因此,W(A)取值区间为[0,1],即任何事件的频率都介于0到1之间。49目前四十九页\总数一百一十九页\编于十六点50为考察一批小麦种子的发芽情况,分别从中抽取5粒,10粒,50粒,100粒,300粒,600粒,1000粒,在相同的条件下进行发芽试验。供试种子数(n)510501003006001000发芽数(m)584689272541900发芽率(m/n)1.0000.8000.9200.8900.9070.9020.9001.随着观察次数的增大,发芽率的波动幅度逐渐减小,并趋向于一个稳定值(0.900),频率的这种稳定值就是随机事件的概率2.概率是能够对随机事件发生可能性进行度量目前五十页\总数一百一十九页\编于十六点(一)概率分布概念随机变量:用于描述随机事件结果的变量描述种子发芽时,选择的种子的数量什么是概率分布表示随机变量取值的概率规律。即随机变量取哪些值以及取得这些值的相应概率。目前五十一页\总数一百一十九页\编于十六点2.概率分布的表示方法(1)分布律:表示离散型随机变量取值的概率规律①表格表示:

②公式表示:P(X=xi)=pi

P(X=xi)=0.89(xi=89,i=100)

52供试种子数(n)510501003006001000发芽数(m)584689272541900发芽率(m/n)1.0000.8000.9200.8900.9070.9020.900目前五十二页\总数一百一十九页\编于十六点(2)分布函数(累积概率函数):表示随机变量X取得小于或等于某一实数值的概率,记作:

F(xi)=P(X≤xi)

根据分布函数可以计算随机变量取某一区间值的概率

P(x1≤X≤x2)=F(x2)-F(x1)=P(X≤x2)-P(X≤x1)53目前五十三页\总数一百一十九页\编于十六点(3)概率密度函数:若随机变量X的分布函数分布函数F(x)可导,则其一阶导函数f(x)=F(x)′称为X的概率密度函数,简称密度函数。概率密度:指概率分布曲线的纵高

54目前五十四页\总数一百一十九页\编于十六点利用随机变量X的密度函数,可以计算随机变量取某一区间值的

55目前五十五页\总数一百一十九页\编于十六点(二)几个常用概率分布及概率计算名称概率密度函数参数Excel插入函数概率密度函数累积概率函数给定左侧概率的正态变量临界值二项分布pq=1-pBINOMDIST(r,n,p,0)BINOMDIST(r,n,p,1)泊松分布μ=npPOISSON(r,μ,0)POISSON(r,μ,1)正态分布μ,NORMDIST(X,μ,,0)NORMDIST(X,μ,,1)NORMINV(,μ,)-为左侧概率标准正态分布μ=0

=1NORMSDIST(z)NORMSINV(Probability)56目前五十六页\总数一百一十九页\编于十六点二项分布条件包含了n个相同的试验。每次试验相互独立。每次试验只有两个可能的结果。“成功”或“失败”。每次出现“成功”的概率P相同,“失败”的概率也相同,为1-P。试验“成功”或“失败”可以计数,即试验结果对应于一个离散型随机变量。57案例:种子发芽,硬币投掷目前五十七页\总数一百一十九页\编于十六点二项分布概率计算实例例1从发芽率为0.9的一批种子中随机抽取5粒,观察发芽总数,求各种可能结果的概率。Pn(r)

P(X≤r)

58目前五十八页\总数一百一十九页\编于十六点泊松分布描述大量试验中,稀有事件的发生概率59案例:显微镜下,微生物的数量;

一个售货员接待的顾客数量;目前五十九页\总数一百一十九页\编于十六点泊松分布概率计算实例例2某稀有事件的概率为0.02,问在300次试验中,该稀有事件出现2次的概率为多少?∴P(r=2)=0.04461753960目前六十页\总数一百一十九页\编于十六点正态分布正态分布是最重要的概率分布试验误差的分布一般服从正态分布,许多生物现象的计量资料均近似服从正态分布物产量各种经济性状指标61目前六十一页\总数一百一十九页\编于十六点正态分布图62目前六十二页\总数一百一十九页\编于十六点标准正态分布63目前六十三页\总数一百一十九页\编于十六点正态分布概率计算实例例3已知甜菜块根蔗糖含量X服从平均数=12.2%,标准差=2.26%的正态分布,求甜菜块根蔗糖含量X大于10.0%,小于14.0%的概率?64目前六十四页\总数一百一十九页\编于十六点二、抽样分布从特定总体中按一定容量随机抽取所有可能的样本,这些样本的某种统计数将组成新的总体,其概率分布称为抽样分布。例如样本平均数的分布、两样本平均数差数分布、t分布等等。65目前六十五页\总数一百一十九页\编于十六点一、样本平均数的分布随机抽样容量为n的

所有样本原始总体

X~(μ,σ2)样本平均数总体66目前六十六页\总数一百一十九页\编于十六点1.样本平均数分布的特征(1)参数:样本平均数总体的平均数等于原始总体平均数。样本平均数总体的方差等于原始总体方差除以样本容量。

(2)分布性质:若原始总体服从正态分布,则样本平均数也服从正态分布;若原始总体的分布不呈正态,样本平均数的分布随样本容量n的增大逐渐趋近正态。67目前六十七页\总数一百一十九页\编于十六点2.样本平均数分布的验证抽样验证(以有限总体为例)原始总体:(2,4,6)N=3μ=4σ2=8/3随机抽取容量为n的样本,则所有可能的样本数M=NnA.随机抽取n=2的样本(返置抽样)M=32=968目前六十八页\总数一百一十九页\编于十六点B.随机抽取n=4的样本M=34=81C.随机抽取n=8的样本M=38=656169目前六十九页\总数一百一十九页\编于十六点70目前七十页\总数一百一十九页\编于十六点样本平均数总体参数名词:标准误差:(样本)标准误:标准差:总体标准差σ

样本标准差s71目前七十一页\总数一百一十九页\编于十六点正态总体及从中抽取容量n=5和n=10的样本平均数分布曲线n愈大曲线愈高窄集中X~N(10,22)~N(10,0.892)~N(10,0.632)72目前七十二页\总数一百一十九页\编于十六点3.样本平均数的概率计算例:设从X~N(3,0.7072)的总体中随机抽取容量n=4的样本,求样本平均数落在区间(2.5,3.5)的概率。解:73目前七十三页\总数一百一十九页\编于十六点原始总体:X~N(3,0.7072)样本平均数:~N(3,0.35352)0.84280.92140.0786样本平均数总体74目前七十四页\总数一百一十九页\编于十六点二、样本平均数差数的分布原始总体X1x11x12x13

……..(μ1,σ12)原始总体X2

x21x22x23……(μ2,σ22)样本平均数

样本平均数

样本平均数差数总体

n1n275目前七十五页\总数一百一十九页\编于十六点(1)参数A、样本平均数差数总体的平均数等于两个原始总体平均数之差。B、样本平均数差数总体的方差等于两个原始总体方差除以各自样本容量之和。1.样本平均数差数总体分布特征76目前七十六页\总数一百一十九页\编于十六点1.样本平均数差数总体分布特征(2)分布性质A、若两个原始总体服从正态分布,则样本平均数差数总体也服从正态分布;B、若两个原始总体的分布不呈正态,则样本平均数差数总体的分布随样本容量n1,n2的增大逐渐趋近正态。77目前七十七页\总数一百一十九页\编于十六点2.样本平均数差数的概率计算例1.5-2已知甜菜块根蔗糖含量X服从平均数=12.2%,标准差=2.26%的正态分布,若从该总体随机抽取容量n1=4的样本,再从该总体抽取容量n2=6的样本,问这两个样本的甜菜块根蔗糖含量平均数之差大于-1且小于1的概率是多大?

已知:1=2==12.2;1=2==2.26,则样本平均数差数总体的参数分别为:=NORMDIST(1,0,1.46,1)-NORMDIST(-1,0,1.46,1)=0.75-0.25=0.50两个样本的甜菜块根蔗糖含量平均数之差大于-1且小于1的概率为50%。当n1=90,n2=120???78目前七十八页\总数一百一十九页\编于十六点1.t定义2.t分布概率密度函数3.t分布平均数t和方差t2三、t分布(Gosset1908)79目前七十九页\总数一百一十九页\编于十六点随机抽样容量为n的所有样本原始总体

X~(μ,σ2)t总体标准正态曲线与不同自由度的t分布曲线比较80目前八十页\总数一百一十九页\编于十六点t分布与Z分布曲线居中点高度(纵高)比较:

df=5t=0f(t)=0.3796;

df=30t=0f(t)=0.3965;

df=1000t=0f(t)=0.3989

=f(Z)n=30t分布接近标准正态分布n趋向无穷大t分布趋近标准正态分布81目前八十一页\总数一百一十九页\编于十六点4.t分布性质(1)分布曲线左右对称,并以t=0为中心向两侧递降;(2)分布受自由度df=n-1制约;每一个df都有一条t分布曲线;(3)t分布曲线形状与标准正态分布相似,但t分布曲线顶部比标准正态曲线低,两尾比标准正态曲线高。

当df>30,t分布与标准正态曲线接近;当df,t分布与标准正态曲线重合。

82目前八十二页\总数一百一十九页\编于十六点5.给定两尾概率的临界t值(1)一般教科书查临界t值表当自由度为df,两尾概率等于P时的临界t值,记作tα(df)t0.05(10)=2.23P(t<-2.23或t>2.23)=0.05t0.01(5)=4.032P(t<-4.032或t>4.032)=0.01t0.05(10)=2.23示意图tf(t)00.0250.025-2.232.2383目前八十三页\总数一百一十九页\编于十六点5.给定两尾概率的临界t值

(2)Excel插入函数求t分布临界值或两尾概率TINV(Probability,Deg_freedom):给出自由度为Deg_freedom的t分布中,划分双尾概率为指定值Probability的临界t值;TDIST(X,Deg_freedom,Tails):给出自由度为Deg_freedom的t分布中,t取值大于某指定正值X(tails=1)或t取值的绝对大于某指定正值X(tails=2)的概率。例如:TINV(0.05,10)=2.23表示在自由度为10的t分布中

P(t<-2.23和t>2.23)=P(t>2.23)=0.05TDIST(3,8,1)=0.0085,表示在自由度为8的t分布中

P(t<-3)=0.0085或P(t>3)=0.0085TDIST(3,8,2)=0.0171,表示在自由度为8的t分布中,

P(t<-3和t>3)=P(t

>3)=0.017184目前八十四页\总数一百一十九页\编于十六点85已知甜菜块根蔗糖含量X服从正态分布,平均数=12.2%,若从该总体随机抽取一个容量n=5的样本,若该样本的标准差S=2.4%,问该样本平均数取得区间[11,13]值的概率?解:由于未知,而已知S=2.4%,n=5,df=5-1=4,则所以可利用t统计数的分布计算样本平均数P(11<<13)=P(<t<)=P(-1.12<t<0.75)

=1-(TDIST(0.75,4,1)+TDIST(1.12,4,1))=1-(0.25+0.16)=0.59目前八十五页\总数一百一十九页\编于十六点1.定义:对于抽自正态总体X~N(μ,σ2)样本:x1,x2,x3,……,xn

令(1)n个独立正态离差的平方和定义为2:

(2)用代替μ,四、2分布则自由度df=n-1自由度df=n86目前八十六页\总数一百一十九页\编于十六点原始总体X~N(μ,2)或随机抽样容量为n的所有样本87目前八十七页\总数一百一十九页\编于十六点2.

2分布概率密度函数3.2分布性质(1)分布曲线形状决定于自由度df,df愈小愈左偏;(2)2的定义域为(0,∞)88目前八十八页\总数一百一十九页\编于十六点4.给定右尾概率的临界2值(1)一般教科书查临界2值(附表3P305)

自由度为df,给定右尾概率为α时的临界

2值,记作2α(df)20.05(3)=7.815P(2>7.815)=0.0520.01(3)=11.345P(2>11.345)=0.0120.05(20)=31.410P(2>31.410)=0.0520.01(20)=37.566P(2>37.566)=0.0189目前八十九页\总数一百一十九页\编于十六点4.给定右尾概率的临界2值(2)Excel插入函数求临界2值或右尾概率CHIINV(Probability,Deg_freedom):给出特定自由度Deg_freedom的2分布中,划分右尾概率为指定值Probability的临界2值;CHIDIST(X,Deg_freedom):给出特定自由度Deg_freedom的2分布中,2取值大于指定值X的概率。例如:CHIINV(0.05,12)=21.03,表示在自由度为12的2分布中,P(2>21.03)=0.05CHIDIST(20,12)=0.029,表示在自由度为12的2分布中,P(2>20)=0.029。90目前九十页\总数一百一十九页\编于十六点f(2)20.05(8)=CHIINV(0.05,8)=15.51示意图20.0515.1591目前九十一页\总数一百一十九页\编于十六点1.F定义:

原始:

两个抽自同一正态总体的样本2除以各自的自由度之比值

引申:

两个抽自同一正态总体的样本方差s2之比值。五、F分布X~N(,2)样本1n1,df1样本2n2,df292目前九十二页\总数一百一十九页\编于十六点2.F分布特征(1)概率密度函数(2)参数:df1=n1-1分子方差自由度

df2=n2-1分母方差自由度

(3)形状:左偏(决定于自由度,自由度越小越左偏)93目前九十三页\总数一百一十九页\编于十六点94目前九十四页\总数一百一十九页\编于十六点3.给定右尾概率的临界F值——F(df1,df2)(1)一般教科书查临界临界F值表(附表4,P306)

分子、分母方差的自由度为df1,df2

右尾概率分别为0.25,0.10,0.05,0.01时的临界F值记作:F(df1,df2)F0.05(3,3)=9.28P(F>9.28)=0.05F0.01(3,3)=29.46P(F>29.46)=0.01Excel粘贴函数

FINV(Probability,df1,df2)95目前九十五页\总数一百一十九页\编于十六点3.给定右尾概率的临界F值——F(df1,df2)(2)Excel插入函数求临界F值及右尾概率FINV(Probability,Deg_freedom1,Deg_freedom2):给出在特定自由度Deg_freedom1和Deg_freedom2的F分布中,划分右概率为指定值Probability的临界F值FDIST(X,Deg_freedom1,Deg_freedom2):给出在特定自由度Deg_freedom1和Deg_freedom2的F分布中,F取值大于某指定正值X的概率。例如,FINV(0.05,3,10)=3.71:表示在自由度df1=3和df2=10的F分布中,

P(F>3.713)=0.05FDIST(5,2,6)=0.053,表示在自由度df1=2和df2=3的F分布中,

P(F>5)=0.053。96目前九十六页\总数一百一十九页\编于十六点f(F)FDIST(2.6,

5,10)=0.093示意图F0.0932.697目前九十七页\总数一百一十九页\编于十六点名称定义临界值概率样本平均数NORMINV(,,

)NORMDIST(X,,,1)两样本平均数差数tTINV(,df)两尾概率TDIST(X,df,1)单侧概率TDIST(X,df,2)双侧概率2CHIINV(,df)右尾概率CHIDIST(X,df)右尾概率FFINV((,df1,df2)右尾概率FDIST(X,df1,df2)右尾概率抽样分布概率计算插入函数汇总98目前九十八页\总数一百一十九页\编于十六点第四节统计假设检验原理

一、试验结果直观分析及存在问题5种添加剂对蛋糕品质影响试验结果99目前九十九页\总数一百一十九页\编于十六点直观分析结论:添加剂4>添加剂3>添加剂2>添加剂1>添加剂5

直观分析存在问题:处理平均数间变异:

Max./Min=7/3=2.33(倍)相同处理重复间变异:

Max./Min=9/3=3(倍)相同处理重复间变异程度>处理平均数间变异程度直观分析结论可靠性不足!100目前一百页\总数一百一十九页\编于十六点1、试验数据波动原因1.处理效应—试验处理(条件)不同造成的试验数据波动

——表现为处理平均数间的变异2.试验误差—试验过程中的未控因素及偶然因素造成的试验数据波动

——表现为:处理内部观测值间的变异处理平均数间的变异处理内部观测值间的变异程度

——反映了试验误差大小处理平均数间的变异程度

——反映了处理效应与试验误差大小101目前一百零一页\总数一百一十九页\编于十六点2、统计假设检验的任务根据试验(样本)数据,采用各种统计分析方法,判别处理效应是否存在—显著性

统计假设检验——显著性检验102目前一百零二页\总数一百一十九页\编于十六点二统计假设检验的原理与方法一、统计假设检验的原理——小概率原理人们在长期的实践中总结出一个原理:一个事件如果发生的概率很小的话,那么可认为它在一次实验中是不会发生的。数学上称之小概率原理

把小概率事件在一次试验中看成是实际不可能发生的事件。

小概率事件的实际不可能性原理。103目前一百零三页\总数一百一十九页\编于十六点EX1据历年资料,已知某小麦品种的千粒重平均为36g,标准差为2g。若在小麦灌浆期喷施KH2PO4作根外追肥,收获后测得9个样品的平均千粒重为37g,问根外追肥对提高小麦千粒重是否有效?直观判断:

样本平均:37g总体平均:36gKH2PO4根外追肥增产:37-36=1g结论:小麦灌浆期KH2PO4根外追肥,使小麦千粒重增加1克104目前一百零四页\总数一百一十九页\编于十六点小麦总体(千粒重)=36g,=2g获得该样本的概率多大?假定:根外追肥无效

37-36=1属于抽样误差来自原总体的1个样本105目前一百零五页\总数一百一十九页\编于十六点抽样分布情形:

已知:小麦千粒重总体:X~N(μ=36,σ=2)

随机抽取n=9的所有样本,则:样本平均数总体:

Excell插入函数:

NORMINV(0.025,36,0.6667)=34.7NORMINV(0.975,36,0.6667)=37.3106目前一百零六页\总数一百一十九页\编于十六点95%372.5%2.5%平均数为37的样本是原总体大概率样本107目前一百零七页\总数一百一十九页\编于十六点

样本平均数37-总体平均数36=1克这1g之差属于抽样误差,而非跟外追肥的效应

推断:试条件下,小麦灌浆期进行KH2PO4根外追肥对提高小麦千粒重的效应并不显著。

108目前一百零八页\总数一百一十九页\编于十六点EX2据历年资料,已知某小麦品种的千粒重平均为36g,标准差为2g。若在小麦灌浆期喷施KH2PO4作根外追肥,收获后测得9个样品的平均千粒重为37.6g,问根外追肥对提高小麦千粒重是否有效?样本平均数37.6-总体平均数36=1.6克这1.6g之差属于抽样误差的概率小于0.05,根据小概率原理,推断:根外追肥的对提高小麦千粒重的效应显著109目前一百零九页\总数一百一十九页\编于十六点95%37.62.5%2.5%平均数为37.6的样本是原总体小概率样本110目前一百一十页\总数一百一十九页\编于十六点二、统计假设检验的一般步骤1.提出无效假设H0及备择假设HA无效假设H0:试验实得差异系随机误差备择假设HA:跟无效假设H0对立,在H0被否定时准备接受的假设

例:H0:μ=36,HA:μ≠36

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论