版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2011-5生物统计学1 概念:以概率论与数理统计的原理和方法研究生命 科学领域中随机现象的数量科学. 内容:科研研究设计、资料的收集、整理综合归纳、 表达与分析。 目的:获得可信结论 实质:应用性数学 应用:生物学、医学、农学 2009-5生物统计学2 作为一项正规的生命科学研究,一般应有6个过程 1.提出问题选题 2.科学研究设计统筹安排 3.获取试验与观察的资料 4.数据审核与录入(真实) 5.分析资料(重点,描述性统计和统计推断) 6.分析结果的合理解释 2009-5生物统计学3 一、总体、个体、样本一、总体、个体、样本 总体(population),基本单元为个体 (individu
2、dual);有限总体和无限总体 样本(sample),样本容量(n) 样本大小:小样本(n30),大样本(n30) 2009-5生物统计学4 二、变量与常数二、变量与常数 变量(variable):记为 如身高155-180cm 连续变量与离散变量(整数,人数) 定量变量与定性变量(分类变量,如血型) 常数(constant):总体均数 2009-5生物统计学5 三、参数与统计数三、参数与统计数 参数总体特征的度量(均数,标准差,希 腊字母表示) 统计数statistic,源于样本。英文字母表示s, 2009-5生物统计学6 四、误差与错误四、误差与错误 误差试验误差 随机误差(抽样误差,偶然
3、误差) 系统误差(不当操作) 2009-5生物统计学7 研究设计研究设计调查设计和试验设计调查设计和试验设计 调查设计没有干预措施的描述性研究; 试验设计有干预措施的分析性研究。 生物学试验的基本要求生物学试验的基本要求 目的明确 试验条件有代表性 试验结果的可靠性 试验结果的重演性 2009-5生物统计学8 基本要素基本要素 处理因素处理因素(treatment):单因素单水平,单因 素多水平,多因素单水平,多因素多水平, ; 受试对象受试对象(tested subject):同质性 处理效应处理效应( treatment effect):结果(将试验 效应分解处理效应和试验误差,统计学检验
4、 -确定处理效应是否显著) 2009-5生物统计学9 类型:类型:系统误差和随机误差 来源来源: 试验材料的固有差异; 试验条件的不一致; 操作技术不一致; 偶然性因素等; 控制途径:控制途径: 选择纯合一致的材料; 标准操作; 试验单位选择; 合理的试验设计 2009-5生物统计学10 目的目的控制和减少试验误差,提高准确度和精确度,减 少人力、物力和财力。 遵循的原则遵循的原则 1 1、重复(、重复(repetitionrepetition)同一处理设置的试验单位数。 每个处理有2个或以上的试验单位,称为有重复的试验。 例如:野外试验:每一样区为一个试验单位; 动物试验:一头动物可以为一个
5、试验单位,有时一 群为一个试验单位。 作用:估计试验误差和降低试验误差。 重复次数的选择根据试验的要求和条件而定。 2009-5生物统计学11 遵循的原则遵循的原则 2 2、随机(、随机(randomrandom)一个重复中的某一个处理或处理 组合被安排在哪一个试验单位是随机的。 方法:随机数字表法 作用:降低试验误差。 3 3、局部控制、局部控制在不能把所有的非处理因素均衡控制时, 将大环境分解成若干个相对一致的小环境,称为区组 (block)或重复,再将小环境其分成若干试验单位安排 不同的试验处理,在局部对非处理因素进行控制。小环境 间的差异用方差分析去除。 作用:降低试验误差。 2009
6、-5生物统计学12 对照(control,ck)确定误差的大小。 类型 空白对照(blank control)-不加处理; 实验对照(experiment control)-在有关条件下进行观 察的对照; 标准对照(standard control) 相互对照(inter control)-实验组间 配对对照(paired control ) 自身对照(self- control) 2009-5生物统计学13 1 1、对比设计(、对比设计(comparison designcomparison design) 最简单的试验设计方法。设置一个试验组和几个试验组 与许多标准区(对照区)依次比较,在
7、同一重复内各处理 顺序排列。 配对设计配对设计将受试对象按照某些特征或条件配对。 (1)同源配对同一受试对象用两种处理方法;同一 受试对象自身前后实验结果的对比;双生子 (2)非同源配对具有相同条件的配对。 2009-5生物统计学14 例1:10只家兔接种疫苗后的体温变化如表1,检 验接种前后体温是否有显著变化? 表1 10只家兔接种疫苗后的体温变化() 2009-5生物统计学15 兔号兔号1 12 23 34 45 56 67 78 89 91010 a10138352067103 b25121415122718111514 例2:选生长期、发育进度一致的番茄植株配成 一组,得到10组,每组
8、中一株接种a处理病毒,另一 株接种b处理病毒,研究不同处理方法钝化病毒的 效果,测定病毒在番茄上的产生的病痕数目如表2, 检验两种处理方法是否有差异? 表2 两种处理的病毒在番茄上的产生的病痕数 2009-5生物统计学16 组别组别1 12 23 34 45 56 67 78 89 91010 接种 前 38. 0 38.438.538.3 接种 后 38. 4 38.538.538.838.938.538.738.538.539.0 2 2、完全随机设计(完全随机设计(completely random design completely ra
9、ndom design ) 将观察单位完全随机地分配到试验组和对照组中或几个对 比组中。 目的:研究不同处理因素间是否存在差异。 可进行单因素方差分析。若各处理间有差异,可进一步做 两两比较-多重比较,如lsd法。 表3 不同剂量激素处理后植物根系的生长变化 2009-5生物统计学17 激素浓度激素浓度 ( (mmmm) ) 观观 察察 值值(cmcm) 00.20.1 1.00.50.3 例4:有5个不同品种猪
10、的育肥实验,后期30天增重结果如 表3,检验不同品种间增重是否有差异? 表4 5个不同品种猪的增重(kg) 2009-5生物统计学18 品种品种增增 重重 a121.519.520.022.018.020.0 a216.018.517.015.520.016.0 a319.017.520.018.017.0 a421.018.519.020.0 a515.518.017.016.0 3 3、随机区组设计(、随机区组设计(randomized blocks designrandomized blocks design) 将多方面条件相近的受试对象配成一组,构成一 个区组,使区组内非实验因素差异最
11、小而区组间 非实验因素差异最大,每个区组均包括全部的处 理。区组内各处理随机排列,各区组独立随机排 列。 可进行单因素、多因素统计分析 2009-5生物统计学19 试验资料的类型试验资料的类型 数量性状资料计数和测量获得 计数资料非连续变量 计量资料连续变量 质量性状资料按属性统计(a型、b型等) 统计次数法计算频率 评分法将质量性状量化(免疫0,高度抵抗1, 中度抵抗2,感染3) 2009-5生物统计学20 例5.为了探讨四种不同药物配方(a,b,c,d)对肿瘤细 胞增殖的抑制效应,选用每4只同质的大白鼠为一 个区组,共设5个区组,区组内的4只大白鼠随机分 配一种处理药物,观测肿瘤细胞种植后
12、相同时间内 瘤体的大小,见表5.(配伍组设计) 表5 不同药方对肿瘤体积变化的观测结果 2009-5生物统计学21 区组区组a ab bc cd d 10.500.380.260.26 20.740.620.180.18 30.810.340.200.20 40.520.400.340.34 50.660.260.170.17 调查方法:普查与抽样 抽样随机抽样,代表性好,样本容量根据特定 的要求而计算。 2009-5生物统计学22 南洋黄牛的体高均值为133cm,s=4.07cm,现希 望以95%的可靠性进行估计,要求估计误差不超过 0.5cm,问需要抽取的黄牛样本数为多少? 解:l为允许误
13、差,l=t0.05sx,sx =s/ n= (t20.05s2 ) / l2 t(0.05,)=1.96 n =4 sn =4 s2 2 / / l l2 2 =44.072/0.052 =265 2009-5生物统计学23 n =4 pq /n =4 pq / l l2 2 希望了解40岁以上男性冠心病患病率,根据以往调 查,患病率可能在10%左右,允许误差为2%,调查 多少人合适? 解:p= 10%;q=90%; l= 2% n =4 pq /n =4 pq / l l2 2 = 900 2009-5生物统计学24 试验方法试验方法 试验设计方法对比设计,完全随机设计,随机 区组设计,正交
14、试验设计等 2009-5生物统计学25 原始资料检查核对正确 原始资料的整理 样本容量在30以下直接分析; 样本容量在30以上分组分析 频数表与分布图 2009-5生物统计学26 100只来亨鸡每月的产蛋数11-17个。列出频数表 每月产蛋数每月产蛋数次数次数频率频率累积频率累积频率 1120.020.02 1270.070.09 13190.190.28 14350.350.63 15210.210.84 16110.110.95 1750.051.00 生物统计学272009-5 如果变量较多,变异范围较大,可以按照变量值 归组。如不同小麦品种300个麦穗粒数的分布表。 麦穗粒数麦穗粒数频
15、数频数频率频率累积频率累积频率 18-2230.010.01 23-27180.060.07 28-32380.130.20 33-37510.170.37 38-42680.230.59 43-47530.170.77 48-52410.140.91 53-57220.070.98 58-6260.021.00 生物统计学282009-5 组距归组 计算全距,组数,组距,上、下限 150尾鱼的体长150个数据 全距=max-min=85-37=48cm 组数与样本容量有关: 30-60:5-8组; 60-100:7-10组; 100-200:9-12组; 200-500:10-18组; 50
16、0以上:15-30组; 本题:取10组 2009-5生物统计学29 组距=全距/组数=48/10=4.85cm 上、下限确定: 最小组应包括最小值,最后组包括最大值 本题min=37,max=85 (第一组)35;40 ;45 ;50 ;55 ; 60 ;65 ;70 ;75 ;80 ;85 (最后一组) 组中值=(上限+下限)/2 2009-5生物统计学30 组限组限/cm/cm组中值组中值 /cm/cm 频数频数频率频率累积频率累积频率 3537.530.020.02 40 42.540.030.05 45 47.5170.110.16 50 52.5280.190.35 55 57.54
17、00.270.61 60 62.5250.110.78 65 67.5170.040.89 70 72.560.050.93 75 77.570.010.98 80 82.520.010.99 85 87.510.011.00 生物统计学312009-5 条形图条形图适合于计数资料和属性资料的频数分布。 每个格间隔一定距离; 饼图饼图适合于计数资料和属性资料的频数分布。 可以计算频率(构成比); 直方图直方图适合于计量资料频数分布。以组中值为 横坐标,连续无间隔; 多边图多边图折线图,适合于计量资料频数分布; 散点图散点图适合于计量资料和计数资料的频数分布 2009-5生物统计学32 2009
18、-5生物统计学33 表表1 1 100100只来亨鸡每月产蛋数的次数分布表只来亨鸡每月产蛋数的次数分布表 每月产蛋数次数频率累积频率 1120.020.02 1270.070.09 13190.190.28 14350.350.63 15210.210.84 16110.110.95 1750.051 2009-5生物统计学34 0 5 10 15 20 25 30 35 40 11121314151617 图1 来亨鸡每月产蛋数的次数分布图来亨鸡每月产蛋数的次数分布图 0.02 0.07 0.19 0.35 0.21 0.11 0.05 1112 1314 1516 17 图2 来亨鸡每月产
19、蛋数的次数分布图来亨鸡每月产蛋数的次数分布图 条形图与饼图条形图与饼图 每月产蛋数(个) 每月产蛋数频数 2009-5生物统计学35 0 5 10 15 20 25 30 35 40 05101520 0 5 10 15 20 25 30 35 40 11121314151617 多边图与散点图多边图与散点图 图3 来亨鸡每月产蛋数的次数分布图来亨鸡每月产蛋数的次数分布图 图4 来亨鸡每月产蛋数的次数分布图来亨鸡每月产蛋数的次数分布图 每月产蛋数(个) 每月产蛋数频数 每月产蛋数(个) 每月产蛋数频数 2009-5生物统计学36 组限组限/cm/cm 组中值组中值 /cm/cm 频数频数频率频
20、率累积频率累积频率 3537.530.020.02 40 42.540.030.05 45 47.5170.110.16 50 52.5280.190.35 55 55 57.557.540400.270.270.610.61 60 62.5250.110.78 65 67.5170.040.89 70 72.560.050.93 75 77.570.010.98 80 82.520.010.99 85 87.510.011.00 表2 150尾鲤鱼体长(cm)的次数分布表 2009-537 0 5 10 15 20 25 30 35 40 45 35-40-45-50-55-60-65-70
21、-75-80-85- 图1 鲤鱼体长(cm)的次数分布图 直方图直方图 0 5 10 15 20 25 30 35 40 45 35- 40- 45- 50- 55- 60- 65- 70- 75- 80- 85- 1% 8% 14% 19% 12% 8% 3% 33% 1%1% 42.5 47.5 52.5 57.5 62.5 67.5 72.5 77.5 82.5 87.5 0 5 10 15 20 25 30 35 40 45 020406080100 鲤鱼体长(cm) 鲤鱼体长频数 鲤鱼体长(cm) 鲤鱼体长频数 鲤鱼体长(cm) 鲤鱼体长频数 折线图折线图 散点图散点图 饼图饼图 统
22、计分析图示统计分析图示 均值和离散趋势均值和离散趋势 2009-5第七章 数量性状遗传 38 试验资料特征数的计算试验资料特征数的计算 集中趋势: 1.均数(算术均数)*直接计算和加权计算(频 数的加入),总体均数与样本均数的表示 2.中位数(md,p50 ) :借助累积频率计算 3.众数: 4.几何均数: 2009-5生物统计学39 组限组限/cm/cm 组中值组中值 /cm/cm 频数频数频率频率累积频率累积频率 3537.530.020.02 40 42.540.030.05 45 47.5170.110.16 50 52.5280.190.35 55 55 57.557.540400.
23、270.270.610.61 60 62.5250.110.78 65 67.5170.040.89 70 72.560.050.93 75 77.570.010.98 80 82.520.010.99 85 87.510.011.00 生物统计学402009-5 众数众数=57.5=57.5 也是也是p50p50所在组段所在组段 表2 150尾鲤鱼体长(cm)的次数分布表 2009-5生物统计学41 f fx x p50中位数=中位数所在组段的下限+组距 (0.5n-中位数所在组前一组的累积频数)/中 位数所在组段的频数 p50=55+5(0.5150-28)/40=60.875 nfxnx
24、x/ 离散趋势 1.极差:r 2.方差:s2 3.标准差:s:(标准误sx) 4.变异系数(单位不同,或样本均数差别较大时): cv%=s/x 100% 5.多样性指数 2009-5生物统计学42 ) 1/( 2 2 nxxsv 频率与概率:p1,0 事件:必然事件,随机事件,不可能事件 事件间的关系:独立事件,互斥事件,对立事件 概率计算法则:积定律(乘法定理),和定率(加 法定理) 概率分布:离散型与连续型 2009-5生物统计学43 1、二项分布 特征:每次试验两种结果,每次试验具有重复性和独 立性 做n次试验,a结果出现x次,x=0,1,n 次数的分布为二项分布: 2009-5生物统计
25、学44 )( )( xnxx nx qpcp 1、一个家庭有5个孩子,3男2女的概率? 2、某小麦品种在条件出现自然变异植株的概率为 0.0045,试计算(1)100株苗,获得2株或以上便衣植 株的概率?(2)期望有0.99的概率获得1株或以上的变 异植株,至少应调查多少株? (1):p(0)=? p(1)=? p(x2)=1- p(0)- p(1)=0.2879 (2)调查的株数n应该满足的条件: p(0)=1-0.99=0.01 p(0)=cn0p0qn=0.01 n=1021 2009-5生物统计学45 频数表示:x=np x2=npq 频率表示:p=p p2=pq 2009-5生物统计
26、学46 (normal distribution)(normal distribution) 正态分布又称高斯(正态分布又称高斯(gaussgauss分布),是统计学中最重分布),是统计学中最重 要的分布,生物学、农学、医学资料中有许多指标要的分布,生物学、农学、医学资料中有许多指标 如身高、体重如身高、体重、红细胞数频数分布都呈正态分布。红细胞数频数分布都呈正态分布。 正态分布密度函数正态分布密度函数 其中是其中是 均数,均数, 是标准差。记是标准差。记n(,n(,2 2) ) e x xf 2 2 2 )( 2 1 )( 1 1 是单峰曲线,是单峰曲线,x=x= 2 2 以均数以均数 为中
27、心左右对称为中心左右对称 3 3 有有2 2个参数,个参数, :位置参数,:位置参数, :变异度参数:变异度参数 越大,数据越分散,曲线越平坦。越大,数据越分散,曲线越平坦。 特别地特别地 n n(0 0,1 1)称为标准正态分布(称为标准正态分布(z z分布、分布、 u u分布分布) 正态曲线下,横轴上所夹的面积为正态曲线下,横轴上所夹的面积为1 1,标准正态分,标准正态分 布下布下-1.961.96-1.961.96部分的面积为部分的面积为0.95 0.95 (可以通过(可以通过 积分求得)。也就是说积分求得)。也就是说|u|1.96|u|1.96的面积为的面积为0.050.05, 对任意
28、的对任意的x x,-xx-xx区间面积为多少呢?统计学家区间面积为多少呢?统计学家 已将此编制成了已将此编制成了正态分布界值表(正态分布界值表(u u值表)值表),不过,不过 表中的面积是指表中的面积是指p(ux), p(ux), 也记作也记作 (x x)。)。 四正态曲线下面积的分布规律四正态曲线下面积的分布规律 以上讨论的是标准正态分布以上讨论的是标准正态分布 对一般的正态分布,某指标对一般的正态分布,某指标x n(,x n(,2 2), ), 则则 u=(x-)/ n(0,1) u=(x-)/ n(0,1) 即即-1.96u1.96-1.96u1.96的面积为的面积为0.950.95 -
29、1.96x+1.96 -1.96x+1.96的面积为的面积为0.950.95 正态分布记为:n(,2 ) 正态离差:离开均数有几个 u=(x- )/ u的重要数值:1.96 (95%) 2.58 (99%) 2009-5生物统计学57 1 1、估计常值范围、估计常值范围 sx u 例例 120120名健康成年男性农民舒张压的均数为名健康成年男性农民舒张压的均数为10.1kpa10.1kpa, 标准差为标准差为0.93kpa0.93kpa,求舒张压的,求舒张压的95%95%双侧正常值范双侧正常值范 围。围。 1.96s =10.11.96s =10.11.961.960.93 0.93 即即8.
30、2811.92 kpa8.2811.92 kpa 95%95%参考范围(参考范围(reference rangereference range)或正常范围)或正常范围 (normal rangenormal range)仅仅告知)仅仅告知95%95%健康者的测定值在健康者的测定值在 此范围之内,并非告知凡在此范围之内皆健康,也此范围之内,并非告知凡在此范围之内皆健康,也 非告知凡在此范围之外皆不健康,所以不可将之作非告知凡在此范围之外皆不健康,所以不可将之作 为诊断标准。为诊断标准。 2 2 正态分布是许多统计方法的理论基础,如正态分布是许多统计方法的理论基础,如 后面要讲的后面要讲的t t检
31、验、方差分析、相关回归等,检验、方差分析、相关回归等,t t分布、分布、 二项分布、二项分布、poissonpoisson分布的极限分布也是正态分布。分布的极限分布也是正态分布。 例例 出生体重低于出生体重低于25002500克为低体重儿。若由某项克为低体重儿。若由某项 研究得某地婴儿出生体重均数为研究得某地婴儿出生体重均数为32003200克,标克,标 准差为准差为350350克,估计该地当年低体重儿所占的克,估计该地当年低体重儿所占的 比例。比例。 记记x x为当年该地婴儿出生体重,则为当年该地婴儿出生体重,则x x服从正态分服从正态分 布布n n(32003200,3503502 2)
32、p(x2500)p(x30 n30 近似正态近似正态 (2 2) 的总体均数为的总体均数为 , 标准差标准差 =/=/ x x x x n 抽样误差的标准差称为标准误,反映了用抽样误差的标准差称为标准误,反映了用 样本均数代替总体均数的可靠性程度的大小,增加样本均数代替总体均数的可靠性程度的大小,增加 样本容量可以降低抽样误差。样本容量可以降低抽样误差。 未知时,用样本标准差未知时,用样本标准差s s估计估计 x n s s x 例例1 1 某地成年男子红细胞数的抽样调查,某地成年男子红细胞数的抽样调查, n=144n=144人,人, =5.38=5.38101012 12/l /l,s=0.
33、44s=0.44101012 12/l /l, 求其标准误。求其标准误。 x 037.0 144 44.0 n s s x (1012/l) 1 xn(, 2) 作变换作变换 u= n(0, 1) 同理同理u= 但但 通常未知通常未知 t= t(n-1) x x x x n s x -3-2-10123 = = 1 = 5 (1 1)tu (n)tu (n) (2 2)和)和n(0, 1)n(0, 1)一样都是单峰分布,以一样都是单峰分布,以0 0为中心对称为中心对称 (3 3) 越小,则越小,则 越大,越大,t t值越分散,和值越分散,和n(0, 1)n(0, 1) 相比,集中在这部分的比例
34、越多,尾部翘得越高。相比,集中在这部分的比例越多,尾部翘得越高。 s x 横标目为自由度横标目为自由度=n-1=n-1,纵标目为概率,纵标目为概率p p,表中数字,表中数字 表示自由度为表示自由度为 、p p为为 时时t t的界值,的界值,记记t t, , 如单侧如单侧=0.05=0.05,=20=20,可查得,可查得t t, ,=1.725 =1.725 表示表示p(t1.725)=0.05p(t1.725)=0.05 由由t t分布的分布的对称性对称性p(t-1.725)=0.05p(t-1.725)=0.05 t t, ,以外尾部面积的百分数是 以外尾部面积的百分数是 双侧双侧t t,
35、,= =单侧 单侧t t/2, /2, u分布: t分布: f分布: 2分布: 2009-5生物统计学72 ns x s x t x / 2 2 2 1 s s f t ta 2 2 u=(x- )/ 作者:不详 整理:修乐 qq:641413232 http:/ http:/ 符修乐提供 73 http:/ 符修乐提供 74 第一章 是变量在趋势上有着向某一中心聚集,或者说是变量在趋势上有着向某一中心聚集,或者说 以某一数值为中心而分布的性质。以某一数值为中心而分布的性质。 是变量有着离中分散变异的性质。是变量有着离中分散变异的性质。 变量的分布具有两种明显的基本特征:变量的分布具有两种明显
36、的基本特征:。 http:/ 符修乐提供 75 试验资料的整理 特征数的计算 与 第二章 http:/ 符修乐提供 76 1. 算术平均数算术平均数 (arithmetic mean) 定义:总体或样本资料中所有观测数的总和除以观测数定义:总体或样本资料中所有观测数的总和除以观测数 的个数所得的商,简称平均数、均数或均值。的个数所得的商,简称平均数、均数或均值。 总体:总体: x1+x2+x3+xn n n 1 n i ix 1 样本:样本: x1+x2+x3+xn n x x n 1 n i ix 1 http:/ 符修乐提供 77 (二)算术平均数的计算方法(二)算术平均数的计算方法 直接
37、计算法,减去 常数法,加权平均 法 http:/ 符修乐提供 78 例:随机抽取20株小麦测量它们的株高(cm)分别为: 82 79 85 84 86 84 83 82 83 83 84 81 80 81 82 81 82 82 82 80 求小麦的平均株高。 x n 20 (82+79+80) 82.3(cm) http:/ 符修乐提供 79 i x 例:设a为80(cm)则有: 82 79 85 84 86 84 83 82 83 83 2 1 5 4 6 4 3 2 3 3 84 81 80 81 82 81 82 82 82 80 4 1 0 1 2 1 2 2 2 0 x 20 (2
38、1+5+ +0) 82.3(cm)+ 80 http:/ 符修乐提供 80 x http:/ 符修乐提供 81 例:例: x 20 1 82.3(cm)(79 1 + 802 + +86 1) 株高x次数ffx 79179 802160 813243 826492 833249 843252 85185 86186 http:/ 符修乐提供 82 f fx f xf fff xfxfxf x k i i k i ii k kk 1 1 21 2211 i x i f k 若为若为,则用每组组中值乘以该组次数之和再除,则用每组组中值乘以该组次数之和再除 以总次数来计算:以总次数来计算: http
39、:/ 符修乐提供 83 组别组中值(x)次数(f)fx 1015345 20256150 303526910 4045301350 5055241320 60658520 70753225 合计1004520 )(2 .45 100 4520 kg f fx x http:/ 符修乐提供 84 (x-x) = 0 (x-x) 2 (x-a) 2 (三)算术平均数的重要性质(三)算术平均数的重要性质 http:/ 符修乐提供 85 (四)算术平均数的作用(四)算术平均数的作用 (1)指出一组数据资料内变量的中心位置,标志着资 料所代表性状的数量水平和质量水平。 (2)作为样本或资料的代表数与其他
40、资料进行比较。 (3)通过平均数提供计算样本变异数的基本数据。 (4)用样本的平均数估计总体平均数。 http:/ 符修乐提供 86 变异数的种类变异数的种类 极差.方差.标准差.变异系数 http:/ 符修乐提供 87 是数据分布的两端变异的最大范围,即样本变量 值最大值和最小值之差,用r表示。它是资料中各观测值 变异程度大小的最简便的统计量。 例:150尾鲢鱼体长 r=85-37=48(cm) r = maxx1,x2, xn - minx1,x2, xn =x1,x2, xnmax - x1,x2, xnmin http:/ 符修乐提供 88 (x-x ) 2 (x-x ) 2 n 平方
41、和 平方和的平均数 http:/ 符修乐提供 89 (x-x ) 2 n (x-x ) 2 n-1 自由度(degree of freedom) http:/ 符修乐提供 90 (x-x ) 2 n-1 均方(mean square,ms) 方差(variance) http:/ 符修乐提供 91 (二)方差(二)方差(variance) (x-x ) 2 n-1 s2 = 2= (x-) 2 n http:/ 符修乐提供 92 (三)标准差(三)标准差(standard deviation, sd) s = (x-x ) 2 n-1 = (x-) 2 n http:/ 符修乐提供 93 (三
42、)标准差(三)标准差(standard deviation, sd) (x-x ) 2 n-1 s = s = x 2 x )2 ( n n-1 http:/ 符修乐提供 94 x=411 x2=18841 x=6 x2=76 表2-8 9名男子前臂长(cm)标准差计算 前臂长 x2 x=x-45 x2 45 2025 0 0 42 1764 -3 9 44 1936 -1 1 41 1681 -4 16 47 2209 2 4 50 2500 5 25 47 2209 2 4 46 2116 1 1 49 2401 4 16 http:/ 符修乐提供 95 18841 - 411*411 9
43、 9-1 s = =3.0(cm) 76 - 6*6 9 9-1 s = =3.0(cm) http:/ 符修乐提供 96 (三)标准差(三)标准差(standard deviation, sd) 1标准差的大小,受多个观测数影响,如果观测数与观测数 间差异较大,则离均差也大,因而标准差也大,反之则小。 2各观测数加上或减去一个常数,其标准差不变; 各观测数乘以或除以一个常数a,其标准差扩大或缩小a倍。 特性 http:/ 符修乐提供 97 (三)标准差(三)标准差(standard deviation, sd) 1表示变量分布的离散程度。 3估计平均数的标准误。 4进行平均数的区间估计和变异
44、系数计算。 2可以概括估计出变量的次数分布及各类观测 数在总体中所占的比例。 作用 http:/ 符修乐提供 98 定义:样本的标准差除以样本平均数,所得到的比 值就是变异系数。 cv=s / x 100% 特点:是样本变量的,不带单位。 可以比较相对变异程度的大小。 http:/ 符修乐提供 99 (四)变异系数(四)变异系数(coefficient of variability, cv ) 大田,穗粒数44.6,标准差18.9 丰产田,穗粒数65.0,标准差18.3 大田,cv=42.38% 丰产田,cv=28.15% 丰产田中粳穗粒数的整齐度优于大田 http:/ 符修乐提供 10 0
45、(四)变异系数(四)变异系数(coefficient of variability, cv ) 1比较度量衡单位不同单位不同的多组资料的变异度。 例:某地20岁男子100人,其身高均数为166.06cm, 标准差为4.95cm;其体重均数为53.72kg,标准差为 4.96kg。比较身高与体重的变异情况。 身高:cv2.98% 体重:cv9.23% 该地该地20岁男子体重的岁男子体重的 变异大于身高的变异变异大于身高的变异。 用途 http:/ 符修乐提供 10 1 2比较均数相差悬殊均数相差悬殊的多组资料的变异度 表 某地不同年龄组男子身高(cm)的变异程度 年龄组 人数 均数 标准差 变异
46、系数 3-3.5岁 100 96.1 3.1 0.032 30-35岁 100 170.2 5.0 0.03 生物学研究中三种常用的概率分布,即正态分布正态分布、二项分二项分 布布和和泊松分布泊松分布,样本平均数的抽样分布样本平均数的抽样分布与与t t分布分布。 http:/ 符修乐提供 10 2 (一)定义(一)定义 设在同一条件组下进行了n次试验,事件 a发生了m次。当随着n的增大,如果事件a发生的的频率频率 mn稳定地接近某一数值p,则称p为随机事件a在条件 组下发生的概率,记为p(a)=p。当n 充分大时, p( a) = m n 。 (二)小概率事件与小概率原理(二)小概率事件与小概
47、率原理 当事件a的概率与0非常接近时, 称此事件为小概率小概率 事件事件。小概率事件虽然不是不可能事件,但通常认为在 一次试验中实际上是不可能发生的,称之为“小概率事小概率事 件实际不可能性原理件实际不可能性原理”。这是统计假设检验的基础。这是统计假设检验的基础。 http:/ 符修乐提供 10 3 若要全面了解试验,则必须知道试验的全部可能结 果及各种结果发生的概率,即试验结果的概率分布。 http:/ 符修乐提供 10 4 1将离散型随机变量x的一切可能取值 及其对应的概率 ,记作 上式即称为离散型随机变量x的概率分布或分布。 2也可用分布列表示离散型随机变量x的概率分 布, 3离散型随机
48、变量概率分布的基本性质: http:/ 符修乐提供 10 5 ,.)2 , 1( ixi i p ii pxxp)( ,.2, 1i 变量xx1x2xn 概率pp1p2pn 10 i i pp和 连续型随机变量的概率分布不能用分布列来表示, 因为其可能取的值是不可数的。因此只能用随机变 量x在某个区间内取值的概率p(ax0,q0,p+q=1),则称随机变量x服从参数为n 和p的二项分布,记为 http:/ 符修乐提供 11 6 nkqpckp knkk nn ,2, 1 ,0,)( nkqpckpkxp knkk nn , 2, 1 , 0,)()( ),(pnbx 二项分布具有概率分布的一切
49、性质,即: 1 (k=0,1,2,n) 2 二项分布的概率之和等于1,即: http:/ 符修乐提供 11 7 0)()(kpkxp n 1)( 0 n n k knkk n pqqpc 4 5 上面1.2是二项分布概率的基本性质; 3.4.5是我们在 运算中经常要根据题目要求运算时要应用到的,要注意理 解。 http:/ 符修乐提供 11 8 m k knkk nn qpcmkpmxp 0 )()( )()()( 212121 2 1 mmqpcmkmpmxmp m mk knkk nn n mk knkk nn qpcmkpmxp)()( (一)概率计算(一)概率计算 二项分布的概率计算,
50、可以直接利用二项概率公式进 行。把时间a发生的次数k代入公式即可求得对应的概率。 例例 有一批种蛋,其孵化率为0.85,今在该批种蛋中任 选6枚进行孵化,试给出孵化出小鸡的各种可能情况的概 率。 这个问题属于贝努里模型,其中 , 孵化6枚种蛋孵出的小鸡数x服从二项分 布 .其中x的可能取值为0,1,2,3,4,5,6。 http:/ 符修乐提供 11 9 85. 0, 6pn 15. 085. 01q )85. 0 , 6(b 思考:求1至少孵出3只小鸡的概率是多少?2孵出的 小鸡数在2-5只之间的概率是多大? http:/ 符修乐提供 12 0 00001139. 0)15. 0()15.
51、0()85. 0()0( 6600 66 cp 00038728. 0)15. 0()85. 0(6)15. 0()85. 0() 1 ( 511611 66 cp 00548648. 0)15. 0()85. 0(15)15. 0()85. 0()2( 422622 66 cp 04145344. 0)15. 0()85. 0(20)15. 0()85. 0() 3( 333633 66 cp 17617711. 0)15. 0()85. 0(15)15. 0()85. 0()4( 244644 66 cp 39933478. 0)15. 0()85. 0(6)15. 0()85. 0()5
52、( 155655 66 cp 37714952.0)85.0()15.0()85.0()6( 60666 66 cp 统计学证明,服从二项分布b(n,p)的随机变量之平均 数、标准差与参数n、p有如下关系: 1 1当试验结果以事件当试验结果以事件a a发生次数发生次数k k表示时表示时 2 2当试验结果以事件当试验结果以事件a a发生的频率发生的频率k kn n表示时表示时 http:/ 符修乐提供 12 1 npq np npq p p p /)( 泊松分布是描述小概率事件的,因而二项分布中当p很小n 很大时,可用泊松分布逼近。 http:/ 符修乐提供 12 2 (一)定义(一)定义 若随
53、机变量x(x=k)只取零和正整数值,且其概率分布为 其中k=0,1,;0;e=2.7182是自然对数的底 数,则称x服从参数为的泊松分布记为x xp()p()。 (二)特征(二)特征 泊松分布作为一种离散型随机变量的概率分布有一个重 要的特征。 http:/ 符修乐提供 12 3 e k kxp k ! )( 即=2 2=。利用这一特征, 可以初步判断一个随机 变量是否服从泊松分布。 http:/ 符修乐提供 12 4 研究总体与从中抽取的样本之间的关系总体与从中抽取的样本之间的关系是统计学的中 心内容。 对这种关系的研究可从两方面着手:一是从总体到样从总体到样 本本,这就是研究抽样分布的问题
54、; 二是从样本到总体从样本到总体, 这就是统计推断问题。 统计推断是以总体分布和样本抽样分布的理论关系为 基础的。 http:/ 符修乐提供 12 5 http:/ 符修乐提供 126 总体与总体与 样本间样本间 的关系的关系 从总体从总体 到样本到样本 从样本从样本 到总体到总体 统计推统计推 断断(目的目的) 抽样分 布(基础) http:/ 符修乐提供 12 7 统计量统计量 设设 为总体为总体x的一个样本,若的一个样本,若 n xxx, 21 样本函数样本函数 中不包含任何未知中不包含任何未知 参数,则称此函数是一个参数,则称此函数是一个统计量统计量。 ),( 21n xxxg 常见统
55、计量有:常见统计量有: http:/ 符修乐提供 12 8 n i i x n x 1 1 称为称为样本均值样本均值 n i i xx n s 1 2 )( 1 1 的正平方根称为的正平方根称为样本标准差样本标准差 2 s 称为称为样本方差样本方差 n i k ik kx n m 1 , 2 , 1, 1 称为称为样本样本 k 阶原点矩阶原点矩 http:/ 符修乐提供 12 9 n i k ik kxx n m 1 , 2 , 1,)( 1 称为称为样本样本 k 阶中心矩阶中心矩 一、一、 分布及其性质分布及其性质 2 设设 是来自正态总体是来自正态总体 的样的样 本,则称统计量本,则称统计
56、量 n xxx, 21 )1, 0(n 22 2 1 2 1 22 n n i i xxxx http:/ 符修乐提供 13 0 服从的分布为自由度为服从的分布为自由度为 n 的的 分布,记作:分布,记作: 2 )( 22 n 分布的概率密度函数为分布的概率密度函数为 )( 2 n g 0, 0 0, ) 2 (2 1 );( 2 1 2 2 2 x xex n nx xn n http:/ 符修乐提供 13 1 分布具有以下性质:分布具有以下性质: )( 2 n (1) 设设 ,且它们相,且它们相 互独立,则互独立,则 )(, )( 22 2 22 1 mn )( 22 2 2 1 mn (
57、2) 设设 则有则有 , )( 22 n ndne2)(,)( 22 http:/ 符修乐提供 13 2 二、二、 分布分布 t 所服从的分布是自由度为所服从的分布是自由度为n 的的t 分布,记作分布,记作: )(ntt )(, ) 1,0 ( 2 nynx ny x t 则称统计量则称统计量 设设且且x与与y相互独立,相互独立, http:/ 符修乐提供 13 3 6、 分布及其性质分布及其性质 f ny mx f 所服从的分布为自由度是(所服从的分布为自由度是(m , n) 的的f 分布,分布, ),(nmff 则称则称 )(, )( 22 nymx设设 且且x与与y相互独立相互独立 ,则
58、则 。),( 1 mnf x 如果如果),(nmfx http:/ 符修乐提供 13 4 7、正态总体样本均值与样本方差的分布、正态总体样本均值与样本方差的分布 (1) );,( 2 n nx (2) 与与 相互独立相互独立;x 2 s 。)1( )1( 22 2 ns n (3) 与与 方差,则方差,则 ),( 2 n ),( 21n xxx若若是来自正态总体是来自正态总体 的的 一个样本,一个样本,x 2 s分别为样本均值与样本分别为样本均值与样本 http:/ 符修乐提供 13 5 )1( ntn s x t (4) ) 2( 11 )()( 12 21 mnt mn s yx t 样本
59、,且它们相互独立,则样本,且它们相互独立,则 ),( 21n xxx),( 21m yyy设设和和 ),( 2 1 n),( 2 2 n来自正态总体来自正态总体和和 是分别是分别 的两个的两个 http:/ 符修乐提供 13 6 ) 1, 1( 2 1 2 2 2 2 2 1 mnf s s f 其中其中 n i i x n x 1 1 2 1 2 1 )( 1 1 xx n s n i i m i i y m y 1 12 1 2 2 )( 1 1 yy m s m i i 2 ) 1() 1( 2 2 2 1 2 12 mn smsn s http:/ 符修乐提供 13 7 二、常见例题精
60、解二、常见例题精解 例例1填空题填空题 1设统计量设统计量 ,则,则 ; )(ntt 2 t 2设设 , 为样本,为样本, 是样是样 ),( 2 nx),( 21n xxx x 本均值。则本均值。则 服从的分布为服从的分布为 2 )( x nu ; 3 设设 ),( 21 nnfx 1 . 0),( 21 nnfxp x y 1 则则 ),( 121 nnfyp = ; http:/ 符修乐提供 13 8 4 , 为样本。若要求为样本。若要求 )4 , 0( nx),( 321 xxx )2()( 22 32 2 1 xxbax则则 = ; ),( ba ),( 2 1 nx 5总体总体 与与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全秃的临床护理
- 产力异常的健康宣教
- JJF(陕) 069-2021 气体流量计(热气体法)校准规范
- JJF(陕) 020-2020 中心距卡尺校准规范
- 课外阅读推广与活动设计计划
- 美术教学评价体系构建计划
- 提升服务质量构建和谐生活部计划
- 资本运作投资合同三篇
- 优化工作流程的详细方案计划
- 2024-2025学年年七年级数学人教版下册专题整合复习卷28.1 锐角三角函数(一)同步测控优化训练(含答案)
- 电工的职业健康培训
- 医学教程 《小儿腹泻》课件
- 3.2 推动高质量发展 课件高中政治统编版必修二经济与社会
- 板框压滤机方案
- 期末 (试题) -2024-2025学年教科版(广州)英语四年级上册
- 三年级数学(上)计算题专项练习附答案
- 公司品牌管理制度
- 期末练习(试题)-2024-2025学年译林版(三起)(2024)英语三年级上册
- 加油站消防预案和应急预案
- 解读国有企业管理人员处分条例课件
- 2024消防维保投标文件模板
评论
0/150
提交评论