第一章 统计数据的收集与整理_第1页
第一章 统计数据的收集与整理_第2页
第一章 统计数据的收集与整理_第3页
第一章 统计数据的收集与整理_第4页
第一章 统计数据的收集与整理_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章统计数据的收集与整理第一节总体与样本1.什么是生物统计学?2.生物统计学的一些重要术语3.本课程的主线1.什么是生物统计学生物统计学(Biostatistics)是数理统计学的原理和方法在生物科学研究中的应用,是用统计学方法分析和解释生物界各种现象与数量资料的一门学科生物统计学本质上是一门应用数学。1,不要怕,本课程比较基础,不涉及太多的微积分和线性代数的内容2,练习的重要性生物统计学的主要研究内容: (1)如何根据生物学研究的目的合理地调查或进行试验设计 (2)如何科学地整理、分析所收集来的资料2.生物统计学的一些重要术语2.1总体与样本(PopulationandSample)这是统计学最基本的两个概念,十分重要总体:根据研究目的所确定的研究的全体对象。构成总体的每个成员称为个体。总体有限总体:无限总体:例如研究南京大学本科生的平均身高时,总体是所有南京大学本科生身高的观测值构成的全体例如在研究某种条件下生长的小麦的株高时,总体是所有这种条件下生长的小麦株高观测值构成的全体。因为无法统计这种条件下生长的小麦的数量,可以设想这一总体是无限的。总体的两个特征:(1)个体间有变异性(不齐性)

(2)总体的容量一般较大,对总体的每个成员进行调查(普查)耗时耗力,不切实际。总体的这两个特征给科学研究带来了难度。如何克服?解决办法:采用随机抽样的办法。通过从总体中随机抽样获得一定数量的样本,然后通过对样本的分析来推断原始总体的情况。样本:总体的一部分。样本内包含的个体的数目称为样本容量(SampleSize)。样本容量常记为n;总体容量常记为N。2.2随机抽样(RandomSampling)抽得的样本必须对总体有代表性,随机抽样是实现这一代表性的常用方法。随机抽样:总体中的每个个体都有同等的机会被抽取组成样本如何实现随机抽样:一般用随机数字表(课本附表1,第251页)例一.如何从2000名学生中获得n=20的随机样本?首先将2000名学生编号:1,2,3,…,2000。解:采用随机数字表获得20个处于1~2000之间的随机数:随机从表中选取一点,然后以每四位数字为一节连续读下去:0411 1828 8634 2331 7247 3230 00320768 1024 4934 … … … …选出位于1~2000的数:411,1828,32,768,1024,…,满20个数为止。这20个数对应的学生就是一个随机样本注意:在本课程中,样本除特殊说明外,均指随机样本3.本书的主线本书的主线是围绕样本、总体以及如何从样本推断总体来展开的第一章统计数据收集与整理如何来归纳样本所含信息第二章概率和概率分布第三章几种常见的概率分布率第四章抽样分布第五章统计推断第六章参数估计第七章~第十章方差及回归分析第十二章实验设计统计分析方法的理论基础:概率论从样本推断总体的基本方法:最基本的统计分析理论及方法样本数据结构较为复杂时(实际研究往往如此),如何统计分析:实际研究中常用统计分析方法根据不同的研究目的如何设计实验得到样本第二节数据类型及频数(率)分布数据类型用图和表对样本数据进行定性归纳:频数表和频数图1.数据类型:连续型数据和离散型数据数据连续型数据:(度量数据)离散型数据:(计数数据)指用量测手段得到的数量性状资料,即用度、量、衡等计量工具直接测定的数量性状资料。其数据是长度、容积、重量等来表示。例如:身高、产奶量、体重、绵羊剪毛量等。这类数据通常是非整数,数据的变异是连续的。由记录不同类别个体的数目所得到的数据。各个观测值只能以整数表示,在相邻的整数间不得有带小数的数值出现。例如:猪的产仔数、鸡的产蛋数、鱼的尾数等。2.用图和表对样本数据进行定性归纳:频数表和频数图2.1离散型数据频数表和频数图的绘制例一.以50枚受精种蛋孵化出雏鸡的天数(数据见表1)为例,绘制频数表和频数图表150枚受精种蛋孵化出雏鸡的天数21202021232222222122202322232219222324221922212121222224222121222223222221222223222322222223232221222120202123222222212220232223221922232422192221212122222422212122222322222122222322232222222323222122解:小鸡出壳的天数在19~24天范围内变动,有6个不同的观测值。以各个不同观测值分组,共分为6组,开始建立频数(率)表:组值(孵化天数)频数计算频数频率1920.042030.0621100.2022240.482390.182420.04总计501.00打正字或划线从表中我们可以迅速而直观地看出:孵化天数大多集中在21~23天,以22天的最多,孵化天数较短(19~20天)和较长(24天)的都较少频数(率)图是频数(率)的图形表示:注意:离散型数据频数图上方条间有间隙2.2连续型数据频数表和频数图的绘制例二.以120头母羊的体重资料(数据见表2)为例,绘制频数表和频数直方图表2120母羊的体重资料(单位:kg)53505157565148466251615662584648465054564053515754595247575954505254625050535154565052505243534850605852645047

3752464542535847505045556251504353425654455654

65

6147524949514552544857455354575454454452505252555054435756544955504846564545514649

解:通过以下步骤进行:(1)从原始数据中找出最大值和最小值,并求出极差max=65,min=37,极差R=max-min=65-37=28(2)决定划分组数。一般来说,50~100个数分为7~10组。因为本题中n=120,所以初步确定组数为10组。(3)根据极差与组数确定组距和组限。组距=极差/组数=28/10=2.8≈3 (组距一般取整数)组限就是依据原始数据用来分组的每组的上下限,它的确定根据最小值和组距进行。组限组界组中值频数频率374043。。。64组下限组限组界组中值频数频率37~3940~4243~45。。。64~66(4)在频数表中列出组界和中值。由于测量精度的原因,第一组(组限为37~39)实际代表从36.5kg到39.5kg的所有数据,因为连续型数据一般是小数,这里只是因为测量精度以及记录的方便以整数表示出来。例如,真实值为39.3公斤的数据会四舍五入成39公斤被记录,它会被包括在第一组内。36.5~39.5称为组界,表示组的实际界限。组限组界组中值频数频率37~3936.5~39.53840~4239.5~42.54143~4542.5~45.544。。。。。。。。。64~6663.5~66.565(5)统计每组频数,完成频数表。组限组界组中值频数频率37~3936.5~39.53810.00840~4239.5~42.54130.02543~4542.5~45.544120.10046~4845.5~48.547150.12549~5148.5~51.550270.22552~5451.5~54.553310.25855~5754.5~57.556170.14258~6057.5~60.55960.05061~6360.5~63.56260.05064~6663.5~66.56520.017连续型数据频数直方图的绘制:首先得到频数表,然后以组界为横坐标,以频数为纵坐标作直方图。注意:(1)连续型直方图方条间没有间隙,因为它以组界为方条的底部坐标(2)但方条的标识可以用组限标出,如上图,为了直观的需要。其它的统计图:请参考课本第三节样本的几个特征数这节里,我们定量地研究样本数据地特征。有四个特征我们感兴趣:(1)数据的集中性(以哪点为中心集中分布):(2)数据的变异性(数据间相互差异程度):(3)数据分布的对称性:(4)数据分布的陡峭性:以平均数衡量以标准差或变异系数衡量以峭度衡量以偏斜度衡量注意:(1)(2)是重点;(3)(4)作一般了解1.平均数平均数主要包括有算术平均数(以后简称为平均数)、中位数、众数等。1.1算术平均数(arithmeticmean)算术平均数是指资料中各观测值的总和除以观测值个数所得的商。算术平均数的计算根据样本的大小以及分组情况分为: 直接法和加权法。(一)直接法:主要用于未经分组资料平均数的计算。此时样本含量往往较小,如n≤30。求和号“∑”以后经常用到,这里提醒以下它的常用的三个运算法则(高中内容):例一,某种公牛站测得10头成年公牛的体重分别为500,520,535,560,585,600,480,510,505,490(kg),求其平均体重。(一)加权法:主要用于样本含量大且已经分组的资料(或称频数资料)平均数的计算。在获得频数分布表的基础上采用加权法计算平均数,计算公式为:例二,根据本章第二节例二得到的120头母羊体重资料的频数表,计算这个样本的平均数。组限组界组中值频数频率37~3936.5~39.53810.00840~4239.5~42.54130.02543~4542.5~45.544120.10046~4845.5~48.547150.12549~5148.5~51.550270.22552~5451.5~54.553310.25855~5754.5~57.556170.14258~6057.5~60.55960.05061~6360.5~63.56260.05064~6663.5~66.56520.0171.2中位数(median)将样本内所有观测值从小到大排列,位于中间的那个值,称为中位数。中位数的计算方法:首先将样本从小到大排列

(1)样本容量n为奇数时,中位数即为位于中间位置的数(2)样本容量n为偶数时,中位数是位于中间位置上的两个数的平均值例三,求下面两个样本的中位数(1)7只家兔从发病到死亡的日期分别为4,15,12,8,8,6,10(2)某犬场发生瘟热,观察得10只仔犬从发现症状到死亡的天数分别为7,8,8,8,11,12,12,13,14,141.3众数(mode)样本中出现次数最多的那个值或对于分组资料而言频数最多哪组的组中值,称为众数。例如,例三(1)中众数为8,(2)中众数为8。

1.4算术平均数、中位数和众数的比较算术平均数优于中位数和众数(课本85页上有理论说明),因而被广泛使用中位数和众数在描述分布极不对称的数据的平均数时有一定的优势。2.标准差标准差(standarddeviation)用于衡量一个样本数据的变异程度。

假设有一样本A:1,4,5,5,10,如何衡量数据间的变异程度?

相对于另一平均数同样为5的样本B:4,5,5,5,6,样本A的变异程度明显大,如何定量地说明?思考一个问题讨论:145510总和-4-10050161002542但如何基于离差构造一个衡量样本总变异性的量化的指标呢?但由于离均差平方和常随样本的大小而改变,为了消

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论