一篇文章带你正确认识总体和样本_第1页
一篇文章带你正确认识总体和样本_第2页
一篇文章带你正确认识总体和样本_第3页
一篇文章带你正确认识总体和样本_第4页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一篇文章带你正确认识总体和样本在常规数据分析中,我们关注的是总体,而不是个体。比如某学校的教学改革之后,需要关注该校全体学生的成绩是否有显著提升;再如某种药物上市之后,需要关注服用该药的所有患者是否有显著好转;新设备上线之后,生产出的所有产品的质量是否有显著提升,等等。在上述例子中,所有学生的成绩,所有患者的疗效,所有产品的质量,都构成了一个总体。为何在数据分析中只关注总体?在实际应用中,待研究的总体有着怎样的特征,比如均值,方差,甚至分布形态,往往都是未知的,那我们该如何认识总体呢?总体和样本又有着怎样的关系呢?本文将试图解答这些问题。我们把研究对象的全体称之为总体,组成总体的每一个研究对象称为个体,比如一个学校的全体学生可视为一个总体,每一个学生可视为总体中的一个个体。在具体的一次研究中,我们通常关心的并不是研究对象的所有性质或者特征,而是某个特征或者某几个特征,也常称之为指标,比如在具体的一次教学研究中,我们只关注学生的成绩(并不会关注学生的身高、体重、品德等其他特征),成绩就是一个指标。因受随机因素的影响(比如考试时的状态,平时对知识的掌握程度等等),每位学生的成绩往往是不同的,是随机变化的,因此一个学校的全体学生的成绩,实际上是一个随机变量;同理,每位肥胖患者服用同一种减肥药之后,下降的体重也不是一个固定值(因为每位肥胖患者的自身条件总是存在差异的),有的患者下降多一些,有的患者下降少一些,下降的体重也是一个随机变量;同一条生产线生产出的产品,其质量或者重量等特征也不是恒定不变的,因受外界随机因素(比如温度的变化、源材料来源的变化、人为操作的不一致等)的影响,产品的各类指标也都是随机变量。在统计领域中,总体往往指的就是随机变量的所有取值,一个学校的所有学生的成绩构成一个总体,所有肥胖患者的下降体重构成一个总体等等。所以,总体也可以表述为:表征全体研究对象的某一个特征的随机变量。随机变量中的任意一个取值即为个体。因此,指标、随机变量、总体,它们的本质含义是一致的,只不过是三种不同的表述。综上所述,总体和个体有两层含义:一层是研究对象的全体称为总体,全体中的每一个研究对象称为个体;另一层是总体即表征全体研究对象的某一个特征的随机变量,随机变量中的任意一个取值即为个体。大家阅读资料时可以根据上下文来判断总体和个体具体为哪一层含义。总体可分为有限和无限总体,有限总体即包含有限个研究对象,相应地,随机变量的取值的数量也是有限的,比如研究对象为某城市的所有企业,即为有限总体;无限总体中的研究对象是无限多个,或者无法全部获得,比如一条生产线生产的所有产品,理论上是无限多的,只要生产线正常运作,就可以源源不断地生产出产品;再如全世界的人口,虽然总数是有限的,但是不可能获得每个人的某项特征值,比如身高、年龄、体重等等。任何总体有两个重要的特性:同质和变异。同质:对于总体中所有研究对象的某项特征(指标)来说,其影响因素是众多的,比如上文提到的学生成绩,受到考试时的状态、平时学习习惯和方法、考题难易程度、教学方法等因素的影响。如果影响被研究指标的主要的、已知的、可控制的因素达到相同或基本相同,就可以认为总体中的全体研究对象是同质的。比如一个学校的全体学生都就读于同一学校,接受同样的教学方法,年龄相仿,成长阶段和心理特征基本接近,考题难易程度相近,也就是说该学校的全体学生是同质的。再比如如果研究儿童的生长发育,同性别、同年龄、同地区、同民族、健康的儿童即为同质的儿童,可以视为一个总体。我们所研究的总体,其中的每个研究对象之间是同质的,也就是每个研究对象自身条件或者所处的外部环境尽可能对被研究特征(指标)所产生的影响是相同或者相近的。如果不同质,那么这样的总体研究就没有意义。变异:上面提到,影响总体中的研究对象的某项特征的因素是众多的,除了已知的、可控制的之外,还有许多未知的、不可控制的因素,比如同一所学校的每位学生,考试时的心理状态有沉着有焦虑、平时的学习习惯和方法有好有坏,这些影响成绩的因素不可能完全相同,总是有差异,而且这些影响因素是不可控的,因人而异,此外,还有其他的未知的影响成绩的因素。除了影响因素的不同,影响机制还及其复杂且不可知,因此影响因素最终产生的作用是随机的,不可预测的,这样每个研究对象的特征值一定存在差异,是随机变化的,同一学校的学生的成绩有高有底;同质的儿童的身高有高有矮,体重有胖有瘦;用相同的降压药治疗病情、年龄相同的原发性高血压病人,其血压值降低的有多有少。这就是个体变异,是普遍存在的,是绝对的。变异代表世界的不确定性。总体的同质特性本质上是人为地最大程度保证影响每个研究对象的特征的因素是相同的。但是人们只能保证一些已知的,可控的因素是相同的,不可能保证所有的影响因素都是相同的,因为其中的部分影响因素是未知的,不可控的。所以说同质是相对的,变异是绝对的。总体是同质和变异的统一体。上面提到,总体实际上也是一个随机变量,这就体现出了总体中个体的变异性。个体变异虽然代表着不确定性,但是如果综合考察总体中的所有个体变异,它们往往具有一定的规律性。这是确定与不确定的统一。比如下图显示某机构男性成员体重分布图,在横轴上将体重划分为7个区间,每个蓝色柱子中央标示出体重落入该区间内的男性成员人数占总人数的比例,很明显,每位成员的体重虽然存在变异,但是他们的体重分布却呈现出一定的规律性,体重适中的成员占据多数,而过瘦过胖的成员占据少数,这就是个体存在变异,但总体内所有个体的变异却呈一定的规律性,如果男性成员人数足够多,他们体重逐渐趋于正态分布,具有固定的均值和方差等特征。因此我们虽然无法把握个体的变异,但是却可以把握总体,因为总体相对是确定的。我们数据分析的一个任务就是在同质的基础上,对个体变异进行分析研究,揭示由变异所掩盖的同质事物内在的本质和规律。所以数据分析也是人们尽其所能对抗不确定性的一种方式。个体变异的存在,代表着不确定性,因此无法只通过个体来做出一般性的因果结论,比如教学改革之后,一位学生的成绩提高了,并不能因此得出教学改革效果显著的结论。再比如用两种方法治疗病情相似的患者,结果一例治愈,一例死亡,由于个体变异的存在,无法简单地确定一种方法有效,一种方法无效。所以数据分析只关注总体,因为总体具有确定的特征和规律,如果全校所有学生的平均成绩(也即总体的均值)显著提高了,那么我们就有理由推断教学改革效果是明显的。在实际应用中,我们该如何确定一个总体呢,一是要满足同质性,即影响被研究对象特征的已知的、可控的因素尽量相同或者相近;二是根据实际的研究目的而定,比如研究对象为某地区所有的企业,与研究对象为某地区所有的民营企业,其各自的总体自然是不同的。下面我们再学习统计领域中另一个重要的概念----样本。样本也有两层含义:一是来自于总体的部分研究对象,二是部分研究对象的特征值。抽取的研究对象的个数称为样本容量,常记为n。随机抽取的样本对总体的代表性比较好,随机意味着抽到每个研究对象的机会是均等的。抽样的目的是通过样本信息来推断总体特征,也就是认识总体,实际上就是通过认识样本来达到认识总体的目的。总体和样本,如果分别作为研究对象,它们各自也有自己的特征。参数:是对总体的特征的数值描述。参数是固定的常数,通常是未知的。统计量:是对样本的特征的数值描述。样本统计量是一个随机变量。如果研究对象是人,那么人的特征有姓名,体重,身高,籍贯等。对于一组数据(总体或者样本)来说,同样也有众多的特征,从宏观来划分,大致有总量、集中、分布、离散等特征。参数与统计量,实际上就是对总体或者样本经过某种运算而得到的值,这样的值可以揭示总体或者样本某方面的特征。比如分别对样本执行求平均值、求中位数、求众数的运算,即可得到反应样本集中程度的平均数、中位数、众数等特征指标;最常见的反应离散特征的就是方差、标准差等指标,求方差、求标准差实际上也就是对总体或者样本执行的某种运算。反应分布特征的主要有峰度和偏度两个指标。参数通常用希腊字母表示,比如π代表比率,μ代表均值,σ代表标准差,ρ代表总体的相关系数;统计量通常用英文字母表示,比如p代表比率,x代表均值,S代表标准差,r代表样本的相关系数。很明显,参数与统计量是两个同等意义的概念,都是用于反应一组数据的特征,只是一个用于总体,一个用于样本。在实际应用中,往往无法得到总体中的所有数据,所以总体的参数是未知的,但无论总体是有限的,还是无限的,其包含的全体研究对象是确定的,因此总体的参数是一个固定的常数。由于每次从总体中随机抽取的样本的数目是有限的、已知的,因此样本的统计量自然也是已知的。但是样本统计量却不是恒定不变的,是一个随机变量,因为每一次随机抽取的样本,其中包含的研究对象往往是不同的,例如假设总体中有9个数据:1,2,3,…,9,从中随机抽取3个样本数据,第一次可能抽取到1,5,9,第二次可能抽取到3,4,7,第三次可能抽取到2,5,6等等。三次抽取的样本的平均数分别是:5,4.67,4.33,所以平均数这个样本统计量就是在总体参数(总体平均数为4.5)附近波动的随机变量,可以作为总体参数的估计值。有的样本统计量可以作为总体参数的估计值,比如样本的均值可以用于估计总体的均值,样本的方差可以用于估计总体的方差。样本统计量除了可以估计总体参数,还有一个极其重要的作用,那就是用于推断总体(在这里样本统计量的含义其实得到了进一步扩展,样本统计量不仅仅可以描述样本特征,同时也可以用于总体的推断)。在不同的应用场景下,基于特定的推断目的(比如推断总体的均值,或者推断总体的方差,或者推断总体的分布形态,等等),统计学家已经为我们提供了特定的样本统计量计算方式(也就是对样本进行特定运算的公式),以及该样本统计量所服从的分布形态(比如正态分布、t分布、卡方分布、F分布等等),这样一来,该样本统计量实际上就是一个已知的新总体(上面我们提到样本统计量是一个随机变量,自然也是一个总体,不同于样本所来自的那个总体)。根据这个已知的新总体,我们可以对样本所来自的总体做出一些相关的未知信息的推断,比如均值,方差,分布形态等等。下图是通过样本推断总体的基本过程(关于详细的推断原理和过程,可参见文章《假设检验在数据分析中的应用》)。样样本样本特征统计量(已知)总体同质变异总体特征参数(未知)随机抽样方法选择统计推断/估计下面我们举一个实际例子。假设欲比较2021年甲乙两地12岁正常男童的平均身高。方法如下:从两地(两个总体)中各抽取一个样本(不妨各随机抽取10名男童),分别算得平均身高(样本统计量),然后通过合适的数据分析方法来推断甲乙两地12岁正常男童平均身高(这里的平均身高是总体的均值,属于总体的参数)是否有差异,也就是揭示不同总体的异质性,本质上就是揭示在两个总体中,各自影响男童身高的因素对男童身高所产生的影响是否有显著的不同。下面我们介绍一下总体取值的类型,因为不同的取值类型,可能需要选用不同的数据分析方法。总体是随机变量,随机变量根据取值的不同可分为如下几类:随机变量随机变量计量变量连续型变量离散型变量分类变量无序分类变量有序分类变量计量变量:随机变量的取值为数值型数据,具有度量衡单位,也称定量变量,或者数值变量,该类型的随机变量实际反应的是研究对象的可度量的特征,也就是可定量的特征。计量变量又可分为连续型和离散型,连续型即为在任何一个数值区间内,取值都是无限的,比如理论上人的身高和体重的取值可以是连续的,只要测量仪可以精确到小数点无限位数。不连续的随机变量即为离散型,比如有的随机变量只能取整数,假如每隔一分钟统计一次某公交车站台上的等车人数,那么等车人数就是一个随机变量,而且只能取正整数;有的随机变量只能取有限的、固定的、可列举的数值,比如箱子中有多种颜色的小球,其中只有三个红色小球,如果每次随机抽取三个小球(放回抽样),那么抽中红色小球的个数只能是:0,1,2,3。分类变量:该类型的随机变量实际反应的是研究对象的可定性的特征,无法使用数值来描述,只能使用文字或者符号来描述。分类变量又可分为无序分类变量和有序分类变量,无序分类变量的取值相互独立,没有任何等级关系,比如血型可以取值:O型,A型,B型,AB型;实验结果可以是有效和无效;成绩可以是及格和不及格;检测结果可以是阳性和阴性等等。相反,有序分类变量的取值具有等级关系,也就是在严重程度或者有效程度或者其他方面表现出一种递进关系,比如问题的严重程度可以是:致命、非常严重、严重、一般、提示;药物的疗效可以是:痊愈、显效、有效、无效。对于计量变量,在数据分析中,我们常常关注它们的均值,方差特征;而对于分类变量,我们常常关注每个类别的总数目,或者占据总体的比例等等。有些数据分析方法适用于计量变量,比如两样本均值比较的t检验,多样本均值比较的方差分析等等;有些数据分析方法适用于分类变量,比如列联表分析方法。大家在选用数据分析方法时,要注意鉴别。下表为某医院住院患者信息表,大家可以判断一下每列数据属于哪种变量类型。序号年龄性别身高(m)血型心电图尿红蛋白职业血RBC135

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论