2.数理统计基本概念_第1页
2.数理统计基本概念_第2页
2.数理统计基本概念_第3页
2.数理统计基本概念_第4页
2.数理统计基本概念_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第部分:数理统计(Statistics) 数理统计基本概念、数据的整理和描述 统计量及其分布 估计理论 假设检验 回归分析1为什么要学习统计?在当今这个信息时代,我们将随时随地成为信息的接收者,我们也随时需要处理身边和工作中的信息和数据.如此众多繁乱的信息,我们该如何”借来一双慧眼”,看个清楚明白呢?桑普拉斯说:统计分析让一切假象原形毕露。但是,统计中也有不少陷阱,蹩脚的数据分析师总是披着统计的外衣有意或无意地制造假象,许多年前的一本著作How to lie with statistics就对此有过幽默而深刻的描述,最近出版了中译本名为统计陷阱,达莱尔.哈夫著,廖颖林译,有兴趣的朋友不妨一睹为

2、快。对于任何一个成功的应用项目来说,一个真正的统计学家和数据分析专家是必不可少的,他会指引你绕过礁石和旋涡,到达成功的彼岸。2几个统计故事1.1936年美国杂志预测在总统大选中哪位候选人会胜出?2.中国知识分子的寿命比正常人寿命少10年?3.学历越高,收入越多,上网时间越长?31936年美国正从经济大恐慌中复苏,全国仍有9百万人失业当年的美国总统大选,由民主党员罗斯福与共和党员兰登进行角逐文学文摘(Literary Digest)杂志对结果进行了调查预测他们根据当时的电话号码簿及该杂志订户俱乐部会员名单,邮寄1千万份问卷调查表,回收约240万份工作人员获得了大量的样本,对此进行了精确的计算,根

3、据数据的整理分析结果,他们断言:在总统选举中,兰登将以370161的优势,即以57%比43%,领先14个百分点击败罗斯福与之相反,一个名叫乔治盖洛普的人,对文学文摘调查结果的可信度提出质疑他也组织了抽样调查,进行民意测验他的预测与文学文摘截然相反,认为罗斯福必胜无疑结果,罗斯福赢得了2770万张民众选票,兰登得到1600万张选票;罗斯福赢得了除缅因州、佛蒙特州以外48个州的民众选票,获得选举团523张选票的98强,而兰登的选票低于2(8张)最终,罗斯福以62%比38%压倒性地大胜兰登这一结果使文学文摘销声匿迹,而盖洛普则名声大噪41.数理统计基本概念总体(population):具有相同性质的

4、个体组成的集合。无限总体(infinite population):总体中包含的个体数目有无穷多个,这种总体称为无限总体。5有限总体(finite population):总体中包含的个体数目有限,这种总体称为有限总体。观察值(observation):每一个体的某一个性状、特性的测定数值叫做观察值。参数(parameter):由总体的全部观察值而算得的总体特征数,如总体平均数,称为参数。6样本(sample):从总体中抽出的一部分个体的集合。估计值(estimate):由样本函数确定的总体相应参数的函数值。随机样本(random sample):从总体中随机抽取的样本,满足随机性和等可能性。

5、样本容量(sample size):样本中包含的个体数,用n表示。72.数据整理与描述2.1 数据资料的性质与分类2.2 数据频数或频率分布表2.3 数据频数或频率分布图82.1 数据资料的性质与分类一、数量性状资料数量性状(quantitative trait)的度量有计数与量测两种方式。1、不连续或间断性变量(discontinuous or discrete variable):指用计数方法获得的数据。2、连续性变量(continuous variable):指称量、度量或测量方法得到的数据。9二、质量性状资料质量性状(qualitative trait):指能观察而不能量测的性状。1、

6、统计次数法2、给予每类性状以相对数量的方法。102.2 数据频数或频率分布表一、间断性变量资料的整理1、100个麦穗每穗小穗数的次数(频数)分布表1516171819206153225175112、200个稻穗每穗粒数的次数(频数)分布表次数(f)每穗粒数(y)合计313526303640414546505155566061656670717576808185311021324138251683220012二、连续性变量资料的整理对于此类情况,一般的处理步骤是:1、数据排序(sort)2、求极差(range) R=Max(1n)Min (1n)3、确定组数和组距(class interval)

7、组距R/组数 因而必须先确定组数。组数的确定,可参照以下的因素: (1)观察值个数的多少;(2)极差的大小;(3)便于计算;(4)能反应出资料的真实面貌。134、选定组限(class limit)和组中点值(组值,class value)首先选定第一组的中点值,这一点选定后,则该组组限确定,其余各组的中点值和组限也随之确定。第一组的中点值以最接近最小观察值为好,这样可以避免第一组内次数过多,能正确地反映资料的规律性。 每组有两个组限,数值小的为下限(lower limit),数值大的为上限(upper limit)。5、观察值按分组数列的各组组限归组。14以140行水稻试验的产量为例,(数据略

8、。)其中极差:R25475179g 观察值的个数为140,可分816组,假定分为12组,则组距179/1214.9,为方便起见,组距定为15g。 数据分组频数统计表如下:15140行水稻产量的频数分布频数(f)中点值(y)组限759010512013515016018019521022524025567.582.582.597.597.5112.5112.5127.5127.5142.5142.5157.5157.5172.5172.5187.5187.5202.5202.5217.5217.5232.5232.5247.5247.5262.52771317202521139321合计(n)1

9、4016三、属性变量资料的整理把资料按各种质量性状进行分类,分类数等于组数,然后根据各个体在质量属性上的具体表现,分别归入相应的组中,即可得到属性分布的规律性认识。下表是某水稻杂种二代植株米粒的分离情况:频数(f)属性分组(y)红米非糯红米糯稻白米非糯白米糯稻96373115合计(n)179172.3 数据频数或频率分布图一、方柱形图(直方图)方柱形图(histogram)适用于表示连续性变量的次数分布。横轴为分组数列,纵轴为分布频数。横坐标与纵坐标的长度要有合适的比例(一般为5:4或6:5为好),绘成的图形才能明显表明频数分布情况。18140行水稻产量频数分布方柱形图fy(产量,g/行)19

10、二、多边形图多边形图(polygon),以每组中点值为横坐标,以频数为纵坐标。20三、条形图条形图(bar diagram)适用于间断性变量和属性变量资料。一般横坐标表示间断的中点值或分类性状,纵坐标表示频数。21四、饼图饼图(pie diagram)适用于间断性和属性资料,用以表示这些变量中各种属性或各种间断性数据观察值在总观察值个数中的百分比。22利用Excel作图 利用Excel可以方便的作出各种数据资料的分布图形。233. 常用样本特征3.1 平均数3.2 变异数243.1 平均数3.1.1 平均数的意义和种类3.1.2 算术平均数的计算方法3.1.3 算术平均数的重要特性3.1.4

11、总体平均数253.1.1 平均数的意义和种类一、平均数的意义平均数(average)是数据的代表性,表示资料中观察值的中心位置,并且可以资料的代表而于另一组资料相比较,借以明确两者之间相差的情况。二、平均数的种类1、算术平均数(arithmetic mean):一个数量资料中各个观察值的总和除以观察值的个数所得的商,记作262、中位数(median):将资料内所有观察值从大到小排列,居中间位置的观察值称为中位数,记作Md例如: 1、2、3、4、5的中位数是3 1、2、3、4、5、6的中位数是: (3+4)/2=3.5273、众数(mode):资料中最常见的一数,或次数最多一组的中点值,称为众数

12、,记为Mo。例如:在资料23、24、23、22、23、25、20、23、中 Mo234、几何平均数(geometric mean):n个观察值,其乘积开n次方,即为几何平均数,用G代表。283.1.2 算术平均数的计算方法1、直接以观察值进行计算2、若样本较大,且已分组,可采用加权法计算算术平均数,即以组中值代表该组出现的观察值以计算平均数。293.1.3 算术平均数的重要特性1、样本各观察值与其平均数的差数(简称离均差,deviation from mean)的总和为0。即:2、样本各观察值与其平均数的差数平方总和,较各个观察值与任意其它数值的差数平方的总和为小,亦即离均差平方的总和最小。3

13、0算术平均数的局限性:算术平均数易于理解,计算简单,使用广泛。但其局限性也是显而易见的,所有数据必须确切知道,易受两个极端值得影响。基于此,在某些场合,人们常常通过计算切尾均值来代替算术平均数。313.1.4 总体平均数总体平均数用来表示,其计算公式为:从公式中可以看出,除非是有限总体,否则总体平均数是无法通过计算得到的。323.2. 变异数3.2.1 极差3.2.2 方差3.2.3 标准差3.2.4 变异系数33 数据的代表值只是反映了数值资料的一个方面集中程度的特征,资料的另一方面和的特征是变异程度。请看下面的例子:A组资料:3、4、5、6、7 平均数为:5B组资料:1、3、5、7、9 平

14、均数仍为:5这里的平均数5对于A组资料的代表性好?还是对于B组资料的代表性好?34答案是十分清楚的。可见,只表明了数据的集中程度是远远不够的,还需要进一步说明数据的变异程度。只有通过变异程度的描述,才知道代表值的代表性。表示数据变异特征的数值叫变异数。常用的变异数有:极差、方差、标准差、变异系数等。353.2.1 极差极差(range),又称全距,记为R,是资料中最大值与最小值之差。例如:A组资料的极差RA734B组资料的极差RB918极差的计算简单,但是它只是两个极端数据决定的,没有地方充分利用资料的全部信息,而且易于受到资料中不正常的极端值的影响。所以用它来代表整个样本的变异度是有缺陷的。

15、363.2.2 方差由于算术平均数的可信度比较高,我们设想用观察值与算术平均数之间的差异来度量一组观察值的变异性,但是这又遇到 的困难。为了解决这一矛盾,将离差平方后再相加就不再为0。从这个式子知道 愈大,则资料的变异程度也就愈大。 称为离差的平方和(简称平方和),记为SS(Sum Of Square)。37样本的平方和为总体的平方和为由于各个样本所包含的观察值数目不同,为便于比较,用观察值数目除平方和,得到平均平方和,简称均方(mean square)或方差(variance)。样本均方用s2表示,定义为:它是总体方差(2)无偏估计值。383.2.3 标准差一、标准差的定义标准差是方差的正平方根值,用以表示资料的变异度,其单位与观察值的度量单位相同。样本标准差的计算公式为:总体标准差用表示:39二、自由度的意义自由度(degree of freedom)最早是一个物理学上的名词,它表示一个质点在空间运动的自由程度。统计学借此来反映一批变量的约束条件。 例如一个有5个观察值的样本,因为受到统计数的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论