数理统计在化学中的应用_第1页
数理统计在化学中的应用_第2页
数理统计在化学中的应用_第3页
数理统计在化学中的应用_第4页
数理统计在化学中的应用_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数理统计在化学中的应用 数理统计方法在化学中的应用数理统计方法在化学中的应用 李振华 复旦大学化学系表面化学实验室 李振华制造 讲义 nhttp:/ m 李振华制造 绪论绪论 n统计方法是一种用于收集、表示、分析和解释通过 观察和实验而得到的基本数据的方法,是人类认识 自然和社会的重要手段。 上海股票市场收益率分布模型统计研究 在运用正态分布假设的GARCH模型来描述金融收益序列的条件分布时,正态分布假 设常常被拒绝,人们用一些具有尖峰、厚尾特性的分布,如t分布、GED分 布 来替代正态分布假设,从而得到一系列GARCH模型的扩展形式,如GARCH-t 模型、GARCH-GED模型等。本文依据

2、严密的统计分析方法选择了 GARCH- t(1,1)模型描述上证综指对数收益率序列的分布。最后,根据各项模型检验结果 说明,用GARCH-t(1,1)模型描述上证综指收益率序 列是有充分理由的。 统计定价模型与股票投资决策2007年 第15期 ,作者: 高祥宝, 闫惠敏 数理统计在化学中的应用3 李振华制造 韩寒代笔之争 /448946/3.html 首先从逻辑角度讲,方舟子应该证明 P( A | F) 大于一个很大的值如95% 。这里 A是方的假 设, 比如 “三重门是韩父写的”F是所有可观测的客观事实的集合。这里方可以用两种 方法去证明P(A|F) 9

3、5%. 第一种是找到一些列的独立证据F1,F2, F3每一个证据 P(A|Fi) 都很大,比如他能找到证人证明什么时间,什么地点由什么证人看到了听说了韩父代 写,或者手稿上的字迹能证明是韩父的。这些都是硬的证据,方没有。这没有关系,方可以采 用另外一种方法证明,那就是对于某一个事实Fk, 如果 P( Fk|a ) 很小,这里a是A的补集。(也 就是a =”三重门是韩寒自己写的“)那么通过贝耶斯公式反推P( A | F),如果P( Fk|a )足够小 ,那么P( A | F)是可以大于95%的。这种也是方一直在采用的方法,但使用这种方法的问题 在于,根据公式,P ( A | F) = P(AF)

4、/P(F) = ( P(F1|A)*P(F2|A)*P(Fn|A)*P(A) ) / (P(F1|A)*P(F2|A)*P(Fn|A)*P(A) + (P(F1|a)*P(F2|a)*P(Fn|a)*P(a) )也就是说,如果F由很多n 个独立的事实组成,那么,你如果只找到了个很小的P( Fk|a )是不能推断P( A | F)很大的。也 就是说,如果这里有100万个事实,你找到了100个 令人质疑的事实 根本没用,除非你的那些 令人质疑的事实的概率极其小 。 这也就是我们金融领域常说的金融领域常说的data mining. 也就是,在同一个sample里不停的用各种方法去 找股票的规律,最后

5、你总能找到“一些”的规律,比如,“每个月的第一天股价总是上升的” 之类的。你用统计方法做假设检验, t-value都好高,但是没用,因为你是先看到了Sample再做 的检验。同理,方舟子把韩寒的资料不停的翻,不停的找,总能找出点什么异常的,但是这根 本无法证明什么。除非方舟子可以做 out of sample test. 比如,方舟子用他的假设来推断一些事 实存在于他还没看过的/不知道的韩寒的书,资料,或者事件,那才能算得上证据。不然的话 ,今天证明这个,明天证明那个,不过就是一个不过就是一个data mining 的游戏而已的游戏而已。 李振华制造 韩寒代笔之争 http:/ 【例四】假设有

6、一个要证明韩寒作品有代笔的实验。 零假设:韩寒作品没有代笔 备择假设:韩寒作品 有代笔 选择显著性水平=?(且预设检验力1-= ?) 选择样本、收集数据,计算p值。 若p,则无法拒绝 零假设。 李振华制造 红楼梦前80回与后40回作者之争 n早在 1980 年,在美国威斯康星大学召开的“首届 国际红楼梦研讨会”上,该校华裔学者陈炳藻 教授首次报告了他在这方面的研究工作(见 4 , 5 ),此后还出版了专著(见 6 )。陈教授将 红楼梦 120 回分为三组,每组 40 回,并将儿 女英雄传作为对照组进行比较研究。他从每组中 任取 8 万字,挑出名词、动词、形容词、副词、虚 词这 5 种词,然后运

7、用统计学方法算出各组之间用 词的相关程度,结果发现:红楼梦前 80 回 与后 40 回所用词汇的相关程度远远超过红楼梦 与儿女英雄传所用词汇的相关程度,并由此 推断:前 80 回与后 40 回均为曹雪芹一人所作。 李振华制造 红楼梦前80回与后40回作者之争 n但是,我国华东师范大学陈大康教授得出了迥异的结论 (1987 , 7) 。他也把红楼梦 120 回分成三组,每组 40 回,并统计了其中所含词、字、句等 88 个项目。他发现, 这些词在前两组出现的规律相同,而与后 40 回却不一致; 关于用字特点和句式规律,前两组也是惊人的吻合,而后 40 回则迥异。由此推断:后 40 回非曹雪芹所作

8、(但含有少 量残稿) n本文以数据分析为基础,以统计学中“两个独立二项总体 的等价性检验”为基本方法,很清楚明确地证明:红楼 梦前 80 回与后 40 回在饮食与花卉的描写上确实存在非 常显著的差异;在树木的描写上也存在明显差异。不过, 这种差异还不能说明红楼梦前 80 回与后 40 回出自不 同的作者。 李振华制造 数理统计在化学中的应用 n统计学是“对令人困惑费解的问题做出 数字设想的艺术。” -美国David Freedman n统计学是一门处理数据中变异性的科学 和艺术。 -John M.LastA Dictionary of Epidemiology 科学与艺术的不同在于不同的人处理

9、相同的问题可能得到不同的结果 李振华制造 数理统计在化学中的应用 实验化学的基础是测量 n实验化学学科作为一门实验科学,一直被认为是有 着很大欠缺的,那就是欠缺严格性、逻辑性以及精 确性的理论。 n测量具有随机可变性、不确定性、模糊性。统计学 可解决前两种问题. 李振华制造 数理统计在化学中的应用 测量的重要性 n在美国芝加哥大学社会科学研究馆的正面,刻有这 样一段铭文:“假若你不能测量,你的知识就是贫 乏和不能令人满意的。” n实际上,这句话还应该这样来补充:“假如你只懂 得测量,那么你对世界的认识将是可怜的。” 李振华制造 数理统计在化学中的应用 不能片面强调测量的精确性 n长期以来,我们

10、已习惯于把科学知识看成是许多确 实无误的陈述的集合,化学中同样也是这样,充斥 着决定论。 n片面地追求所谓精确性,其结果只能是将认识过程 中的某一部分加以近似化、简单化,最终常会走向 形而上学,乃至神秘主义。 李振华制造 数理统计在化学中的应用 二二.统计学的历史及作用统计学的历史及作用 n 统计学的历史一般认为开始于十七世纪中叶,最 初的统计学出现在德国和英国,被称为古典统计学 。统计学的发展史上曾形成过记述学派、政治算术 学派、数理学派这三个主要学派。十九世纪中叶, 数理学派的代表人物比利时科学家凯特勒(L.A.J. Quetelet)将概率论正式引进到统计学中之后,也 就开始了数理统计学

11、的发展时期。 李振华制造 数理统计在化学中的应用 数理统计在科学研究中得到了极其广泛的应用数理统计在科学研究中得到了极其广泛的应用 n主要地是由于以下几个原因: 1. 窥一斑而知全豹:窥一斑而知全豹:科学实验的研究对象具体地只能是 极小一部分样品,研究的最后结果也只能是从这一小 部分样品的研究结果出发来作出统计推断,也就是运 用数理统计方法推断出研究对象的全体来。 2. 归纳规律:归纳规律:科学实验中不可避免地会存在着大量随机 误差的问题,要从这些随机现象中去得出准确可靠的 研究结果,这只能依赖于数理统计的方法和原理。 3. 优化和试验设计:优化和试验设计:科学实验经常要进行各种条件试验 ,诸

12、如合成路线、配方设计、工艺条件、寿命试验等 等,这就需要运用统计的原理和方法来进行优化和实 验设计。 李振华制造 数理统计在化学中的应用 数理统计在科学研究中得到了极其广泛的应用数理统计在科学研究中得到了极其广泛的应用 4. 函数关系:函数关系:科学实验中总要研究各个变量之 间的关系,并进而进行科学的预测和推断, 而这些是离不开数理统计方法的应用的。 5. 数据处理:数据处理:随着现代科学研究的发展,各种 测量仪器的计算机化给我们带来了“数据爆 炸”,如何来处理这些大量的数据,并要能 从这些数据中获取更多的甚至意想不到的信 息,只有数学和统计学技术才能给我们以可 靠的保证。 李振华制造 数理统

13、计在化学中的应用 三三.统计方法在化学中应用的意义统计方法在化学中应用的意义 n应该说化学这一学科基本上还是一门实验学科,因 此化学工作者掌握数理统计的原理及其应用的必要 性和实际意义也就显得尤为重要。只有正确地运用 数理统计方法,才能够帮助我们在化学实验中,从 表面杂乱无章的现象里去寻找出有意义的统计结论 来;才能使我们能更有成效地进行各门化学领域中 的科学研究,确保科学研究取得可靠、准确的结果 并进而得以发现客观规律;才能使我们从大量的实 验数据、实验资料中去揭示和获取更多的化学信息 。 李振华制造 数理统计在化学中的应用 第一章第一章 随机变量和分布函数随机变量和分布函数 第一节 几个基

14、本的统计学概念 1-1 总体和样本 1-2 随机现象 1-3 随机变量 离散型随机变量 连续型随机变量 李振华制造 数理统计在化学中的应用 第一章第一章 第一节第一节 $1.1 总体和样本 n总体:满足指定条件的众多数据 的集合 n有限总体 n无限总体 n样本:从总体中抽取一部分实测 的个体或单位的集合 n容量:样本中含有个体的数目 n样品:组成样本的每一单位或 个体 样本样本 总体总体 样品样品 李振华制造 数理统计在化学中的应用 第一章第一章 第一节第一节 $1.1.1 必然事件与随机事件 必然事件:满足一定条件后一定发生或一定不 发生的事件 随机事件:满足一定条件后不一定发生的事件 李振

15、华制造 数理统计在化学中的应用 $1.1.2频率和概率(几率)频率和概率(几率) 频率:频率: ( ) ( ) ( ) A A nf A f A Nf A 概率:概率: lim A N n P N 0 P 1 必然事件: P = 1 不可能事件:P = 0 李振华制造 数理统计在化学中的应用 Table 硬币投掷实验 李振华制造 数理统计在化学中的应用 第一章第一章 第一节第一节 $1.1.3 随机变量 实验中所可能出现的结果的量(X)。 n离散型随机变量 随机变量的取值仅仅是有限个,或是可列的 无穷多个。 n连续型随机变量 随机变量的取值是充满某一区间的,并且落 在任一区间的

16、概率也是确定的。 n随机变量所取的数值:x 李振华制造 $1.2 分布函数 第二节 分布函数 $1.2.1 分布函数的定义、类型和性质 $1.2.2 概率密度函数 数理统计在化学中的应用 李振华制造 $1.2 $1.2 分布函数分布函数 $1.2.1 分布函数的定义、类型和性质分布函数的定义、类型和性质 n累积分布函数累积分布函数(Cumulative Distribution Function, CDF): 设设x是一任意实数或事件,是一任意实数或事件,X取得小等于取得小等于x的数值,的数值, 的概率为的概率为P(X x), F(x) (= P(X x) )就称为随机变量就称为随机变量X 的

17、的累积分布函数累积分布函数,记为:,记为: F(x) = P(X x) 数理统计在化学中的应用 李振华制造 $1.2 $1.2 分布函数分布函数 $1.2.1 分布函数的定义、类型和性质分布函数的定义、类型和性质 对于任意实数对于任意实数x1, x2, 且且x1 x1时,时,F(x2) F(x1) F(x)为右连续为右连续 李振华制造 $1.2 $1.2 分布函数分布函数 $1.2.2 概率密度分布函数(Probability Density Function, PDF) 对于一维连续实随机变量x,任何一个满足下列条件 的函数f(x)都可以被定义为其概率密度函数: 数理统计在化学中的应用 (

18、)0, ( )1 f xx f x dx ( )()( ) x F xP Xxf x dx 显然显然 ( ) ( ) dF x f x dx 李振华制造 $1.2.3 $1.2.3 概率质量函数概率质量函数 n概率质量函数(Probability Mass Function, PMF): 是离散随机变量在各特定取值上的概率 概率质量函数和概率密度函数不同之处在于:概率密 度函数是对连续随机变量定义的,本身不是概率,只 有对连续随机变量的取值进行积分后才是概率。 离散随机变量概率质量函数的不连续性决定了其累积 分布函数也不连续。 数理统计在化学中的应用 李振华制造 $1.2.4 $1.2.4 平

19、均值,期望值,偏差,方差平均值,期望值,偏差,方差 n 均值,期望值均值,期望值 平均值 数理统计在化学中的应用 / i Xx n X的期望值的期望值(expectation value),有时用,有时用 来表示来表示 () ii E XPx 如果如果x是连续型随机变量:是连续型随机变量: ()( )E Xf x xdx 李振华制造 $1.2.3 $1.2.3 量度数据离散程度量度数据离散程度(dispersion)(dispersion)的统计量的统计量 n 极差极差 一组数据中最大值和最小值之差 数理统计在化学中的应用 maxmin RXX n 平均绝对偏差平均绝对偏差 1 1 n i i

20、 dXX n n 方差方差(Variance) 样本方差样本方差2 2 1 1 1 n i i SXX n 李振华制造 $1.2.3 量度数据离散程度的统计量 n方差(Variance) 总体方差 数理统计在化学中的应用 2 22 1 1 () n i i E SX n n标准差(Standard Deviation) =标准差方差 2 = SS 2, 样本标准差 ,总体标准差 n相对标准差(Relative Standard Deviation) Rel = /SS X 样本方差 S2 是对总 体方差2的无偏估计 李振华制造 $1.2.3 $1.2.3 量度数据离散程度的统计量量度数据离散程

21、度的统计量 n连续性随机变量的标准差连续性随机变量的标准差 数理统计在化学中的应用 2 ( )xf x dx 李振华制造 数理统计在化学中的应用 $1.3 化学中常用的分布函数化学中常用的分布函数 $1.3.1 二项式分布二项式分布 $1.3.2 泊松分布泊松分布 $1.3.3 麦克斯威尔分布麦克斯威尔分布 李振华制造 $1.3.1 二项式分布 每次试验只有两种可能结果而不受以前试验结果影响 的分布。其中一种事件的概率p,另一种的概率q(1- q)。 如果在n次独立试验下,求A出现次数x的概率分布, 这一分布的概率质量函数即为: P(x) = Cnx px qn-x (x = 0,1,2 n,

22、0p1 ) 这个概率函数给出的分布就叫做二项式分布,即二项 式(p+q)n的展开式。二项分布常用于军事射击和工业 检查中,在化学中可用于计算质谱中同位素峰的强度 比以及根据塔板理论推导气液色谱的流出曲线。 数理统计在化学中的应用 李振华制造 二项式分布 数理统计在化学中的应用 李振华制造 例1-2色谱的塔板理论 1在柱内一小段高度内组分分配瞬间达平 衡(H理论塔板高度) 2载气非连续而是间歇式(脉动式)进入 色谱柱,每次进气一个塔板体积 3样品和载气均加在第0号塔板上,且忽 略样品沿柱方向的纵向扩散 4分配系数在各塔板上是常数 根据塔板理论,待分离组分流出色谱柱 时的浓度沿时间呈现二项式分布,

23、当色 谱柱的塔板数很高的时候,二项式分布 趋于正态分布。 杨世钺, 色谱法溶质以 二项式展开分布的简明 推导, 化学通报, 1989, 02, 47-49. 李振华制造 例例1-3 有一化学药品的混合过程在正常情况下会有有一化学药品的混合过程在正常情况下会有10%的可能混合不的可能混合不 合格,今在一批药品中抽验合格,今在一批药品中抽验8个样品,发现有个样品,发现有2个不合要求,检个不合要求,检 验员欲拒收整批药品,试问这一决定是否正确?验员欲拒收整批药品,试问这一决定是否正确? 数理统计在化学中的应用 解:解: P(x=2) = Cnx px qn-x = C82 0.12 0.910-2

24、= 0.149 计算表明,在总体合不格率为计算表明,在总体合不格率为10%的情况下抽检出两个不合格的情况下抽检出两个不合格 的概率为的概率为14.9%,因此不应拒收这批药品。,因此不应拒收这批药品。 李振华制造 数理统计在化学中的应用 $1.3.2 泊松分布泊松分布 当某事件出现的概率很低当某事件出现的概率很低(P1)时,二项分布就成为泊松分布。由法国数学家时,二项分布就成为泊松分布。由法国数学家 Poisson于于1838年发表。年发表。 泊松分布适合于描述单位时间内随机事件发生的次数泊松分布适合于描述单位时间内随机事件发生的次数 。如某一服务设施在一定时间内到达的人数,电话交。如某一服务设

25、施在一定时间内到达的人数,电话交 换机接到呼叫的次数,汽车站台的候客人数,机器出换机接到呼叫的次数,汽车站台的候客人数,机器出 现的故障数,自然灾害发生的次数等等。现的故障数,自然灾害发生的次数等等。 李振华制造 泊松分布泊松分布 n泊松分布的概率质量函数为:泊松分布的概率质量函数为: (x = 0,1,2, 为参数)为参数) : 单位时间单位时间(或单位面积或单位面积)内随机事件的平均发生数内随机事件的平均发生数 n性质:性质: x的期望值等于方差即:的期望值等于方差即: = = 2: 数理统计在化学中的应用 () ! x P Xxe x 李振华制造 数理统计在化学中的应用 0 0.1 0.

26、2 0.3 0.4 051015x P =1 =2 =3 = 6 PMFCDF 李振华制造 数理统计在化学中的应用 例例1-4 400ml微生物溶液中含微生物的浓度是微生物溶液中含微生物的浓度是 0.5只只/毫升,抽出毫升,抽出1毫升,其中所含微生物的毫升,其中所含微生物的 只数只数x服从什么分布?含服从什么分布?含3只及只及3只以上微生物只以上微生物 的可能性有多少?的可能性有多少? 解:溶液中总共有微生物解:溶液中总共有微生物n = 0.5400 = 200只,只, 每一只微生物落入抽检的每一只微生物落入抽检的1毫升溶液中的概率毫升溶液中的概率 p = 1/400,不落入的概率,不落入的概

27、率q = 399/400。如看。如看 有几只微生物落入抽检的有几只微生物落入抽检的1毫升溶液中就相当毫升溶液中就相当 于一个于一个n = 200时的独立试验模型,所以时的独立试验模型,所以x服服 从二项分布。从二项分布。 李振华制造 数理统计在化学中的应用 由于由于 = np = 0.5比较小,可以用泊松分布来近似计算比较小,可以用泊松分布来近似计算 。 P(n3) = 1 - P(n3) = 1 - P(n=0) - P(n=1) - P(n=2) = 1 e-0.5 0.5e-0.5 0.52e-0.5 /2 = 1 - 0.6065 - 0.3033 - 0.0758 = 0.0144

28、因为概率很小,在因为概率很小,在0.5只只/毫升条件下,抽检毫升条件下,抽检1毫升是不毫升是不 大可能发现大可能发现3只或只或3只以上的。如真抽到,就说明并不只以上的。如真抽到,就说明并不 是这个浓度,而是大大超过了是这个浓度,而是大大超过了. () ! x P Xxe x 李振华制造 数理统计在化学中的应用 $1.3.3 麦克斯威尔分布麦克斯威尔分布 n直角坐标下速度的概率密度分布直角坐标下速度的概率密度分布 222 B 3/2() 2 B ( ) 2 xyz m vvv k T xyz m f v dv dv dve k T n球坐标下速度的概率密度分布球坐标下速度的概率密度分布 2 B

29、3/2 22 B ( )sin 2 mv k T m f v dvd dev k T n速率的概率密度分布速率的概率密度分布 2 B 3/2 22 B ( )4 2 mv k T m f v dvev k T 李振华制造 数理统计在化学中的应用 n第二章第二章 正态分布正态分布 n$2.1 频率和概率频率和概率 李振华制造 数理统计在化学中的应用 李振华制造 数理统计在化学中的应用 李振华制造 数理统计在化学中的应用 图图2-1 测量数据的频率密度直方图。测量数据的频率密度直方图。 李振华制造 数理统计在化学中的应用 图图2-1 频率密度分布逐渐接近正态分布示意频率密度分布逐渐接近正态分布示意

30、 李振华制造 数理统计在化学中的应用 $2.2 正态分布(正态分布( 高斯分布)与正态曲线高斯分布)与正态曲线 假设在一定条件下,对某一个量假设在一定条件下,对某一个量x进行无限多次进行无限多次 重复的等精度测量,得到一系列数据重复的等精度测量,得到一系列数据x1,x2, xn, 则各测量值的频数密度分布将会从锯齿形图(见直方则各测量值的频数密度分布将会从锯齿形图(见直方 形图)转变成为一条平滑的曲线,该曲线的分布就称形图)转变成为一条平滑的曲线,该曲线的分布就称 为正态分布。因为正态分布。因为随机误差是服从正态分布的,所以为随机误差是服从正态分布的,所以 正态分布又常称为(随机)误差分布。正

31、态分布又常称为(随机)误差分布。 李振华制造 数理统计在化学中的应用 正态分布的历史正态分布的历史 正态分布最早是棣莫佛在正态分布最早是棣莫佛在1734年发表的一篇关于二项分布年发表的一篇关于二项分布 文章中提出的。拉普拉斯在文章中提出的。拉普拉斯在1812年发表的年发表的分析概率论分析概率论中中 对棣莫佛的结论作了扩展。现在这一结论通常被称为棣莫佛对棣莫佛的结论作了扩展。现在这一结论通常被称为棣莫佛 拉普拉斯定理。拉普拉斯定理。 拉普拉斯在误差分析试验中使用了正态分布。勒让德于拉普拉斯在误差分析试验中使用了正态分布。勒让德于 1805年引入最小二乘法这一重要方法;而高斯则宣称他早在年引入最小

32、二乘法这一重要方法;而高斯则宣称他早在 1794年就使用了该方法,并通过假设误差服从正态分布给出年就使用了该方法,并通过假设误差服从正态分布给出 了严格的证明。了严格的证明。 正态分布这个名字还被正态分布这个名字还被Charles S. Peirce, Francis Galton, Wilhelm Lexis在在1875分别独立的使用。这个术语是不幸的,分别独立的使用。这个术语是不幸的, 因为它反应和鼓励了一种谬误,即很多概率分布都是正态的因为它反应和鼓励了一种谬误,即很多概率分布都是正态的 。 这个分布被称为这个分布被称为“正态正态”或者或者“高斯高斯”正好是正好是Stigler名字名字

33、由来法则的一个例子,这个法则说由来法则的一个例子,这个法则说“没有科学发现是以它最没有科学发现是以它最 初的发现者命名的初的发现者命名的”。 李振华制造 数理统计在化学中的应用 中心极限定理中心极限定理 数学家们对正态分布曲线做了将近有数学家们对正态分布曲线做了将近有300年的研究,年的研究, 证明了当每次测量都受到很多微小随机因素的影响时证明了当每次测量都受到很多微小随机因素的影响时 ,测量的总误差就具有正态分布,当然对于这种断定,测量的总误差就具有正态分布,当然对于这种断定 不应在没有证据的情况下就予以接受。不应在没有证据的情况下就予以接受。 统计学告诉我们,只要测量的次数统计学告诉我们,

34、只要测量的次数n足够多,样本平足够多,样本平 均值的分布总可均值的分布总可服从正态分布,而不论它原来是什么服从正态分布,而不论它原来是什么 分布。这就是分布。这就是中心极限定理中心极限定理。 中心极限定理的重要意义在于,根据这一定理的结论中心极限定理的重要意义在于,根据这一定理的结论 ,其他概率分布可以用正态分布作为近似。,其他概率分布可以用正态分布作为近似。 二项式二项式泊松泊松 李振华制造 数理统计在化学中的应用 智商分布曲线 IQ test: http:/www.iqtest.dk/main.swf 李振华制造 IQ nRichard Herrnstein and Charles Mur

35、ray The Bell Curve (1994) 智商70%左右来源于遗传,和环境关系不大 nLeon J. Kamin (1927-) Now: Indiana University Chairman (1968): Department of Psychology at Princeton University The Science and Politics of IQ (1974) 李振华制造 IQ and Race nIn his 2006 book Race Differences in Intelligence Lynn adopted the ten-category cla

36、ssification scheme of human genetic variation introduced in The History and Geography of Human Genes by Luigi Cavalli-Sforza and colleagues. Lynn argues that mean IQ varies by genetic clusters, or race. According to his calculations, the East Asian cluster (Chinese, Japanese and Koreans) has the hig

37、hest mean IQ at 105, followed by Europeans (100), Inuit-Eskimos (91), South East Asians (87), Native American Indians (87), Pacific Islanders (85), South Asians (2) ( -2 , +2 ); (3) ( -3 , +3 ); 李振华制造 数理统计在化学中的应用 例例2-3根据资料,根据资料,30-40岁男子血清胆固醇值岁男子血清胆固醇值(mmol/l) 极近正态分布极近正态分布N(4.72,0.77), 试求:该年龄健康男子血清胆固

38、醇值试求:该年龄健康男子血清胆固醇值(1)大于大于6.20的概的概 率;率;(2)大于大于4.00且小于且小于5.50的概率。的概率。 李振华制造 数理统计在化学中的应用 李振华制造 数理统计在化学中的应用 n第四节第四节 和正态分布有关的一些样本分布和正态分布有关的一些样本分布 李振华制造 自由度 统计学上的自由度(degree of freedom, df),是指 当以样本的统计量来估计总体的参数时, 样本中独立独立 或能自由变化或能自由变化的资料的个数,称为该统计量的自由度 。这里我们用k或v来表示。 例如,在估计总体的平均数时,样本中的k个数全 部加起来, 其中任何一个数都和其他资料相

39、独立,从 其中抽出任何一个数都不影响其他资料(这也是随机 抽样所要求的)。 因此一组资料中每一个资料都是独 立的,所以自由度就是估计总体参数时独立资料的数 目,而平均数是根据k个独立资料来估计的,因此自由 度为k。 李振华制造 数理统计在化学中的应用 学生t-分布(Students t-distribution) 实际工作中,难以做到测量无限多的样本。在小实际工作中,难以做到测量无限多的样本。在小 样本的情况下,样本的情况下, 未知,如果用测定样本所得到的标未知,如果用测定样本所得到的标 准偏差准偏差S来代替,此时测量值及其偏差就不再符合正来代替,此时测量值及其偏差就不再符合正 态分布了。态分

40、布了。 1908年,英国统计学家年,英国统计学家W.S. Gosset证明了:在未证明了:在未 知知 而以样本的标准差而以样本的标准差S去代替时,此时遵守的将是去代替时,此时遵守的将是t- 分布。分布。 若若x1,x2, xn是由服从正态分布的总体中随机抽是由服从正态分布的总体中随机抽 取的样本值,取的样本值, 李振华制造 数理统计在化学中的应用 那么统计量那么统计量 n如果知道总体平均值,即期望值,和标准差,则 可定义: / n X T Sn / n X Z n 李振华制造 t-分布的几率密度分布函数 nv是自由度 n注意:对于一个容量是n的样本,其v=n-1。 2(1)/2 (1)/2)

41、( )(1/ ) ( /2) v v f ttv vv 1 0 ( ) at ate dt 李振华制造 数理统计在化学中的应用 t-分布的概率密度函数(PDF) 李振华制造 数理统计在化学中的应用 t-分布的累积分布函数(CDF) 李振华制造 数理统计在化学中的应用 t-分布的应用分布的应用t检验检验(Students t-test) n学生学生t t分布应用在当对呈正态分布的母群体分布应用在当对呈正态分布的母群体( (总体总体) )的均值进的均值进 行估计。它是对两个样本均值差异进行显著性测试的学生行估计。它是对两个样本均值差异进行显著性测试的学生t t 检验的基础。检验的基础。t t检验改

42、进了检验改进了Z Z检验检验( (Z Z-test)-test),不论样本数量大,不论样本数量大 或小皆可应用。在样本数量大(超过或小皆可应用。在样本数量大(超过120120等)时,可以应用等)时,可以应用 Z Z检验,但检验,但Z Z检验用在小的样本会产生很大的误差,因此样检验用在小的样本会产生很大的误差,因此样 本很小的情况下得改用学生本很小的情况下得改用学生t t检验。检验。 n当当总体的标准差是未知的但却又需要估计时,我们可以运总体的标准差是未知的但却又需要估计时,我们可以运 用学生用学生t t分布。分布。t t- -分布有着广泛的应用。从上式可以得到分布有着广泛的应用。从上式可以得到

43、 / n X T Sn n S Xt n 李振华制造 t检验临界值表 n单侧Ptt(v) = 或 Pt0) n双侧P|t|t(v)= 50.050.0250.0250.010.010.0050.0050.00050.0005 v 0.10.050.050.020.020.010.010.0010.001 1 13.078 3.078 6.314 6.314 12.706 12.706 31.821 31.821 63.657 63.657 636.619 636.619 2 21.886 1.886 2.920 2.920 4.303 4.303 6.965

44、 6.965 9.925 9.925 31.599 31.599 3 31.638 1.638 2.353 2.353 3.182 3.182 4.541 4.541 5.841 5.841 12.924 12.924 4 41.533 1.533 2.132 2.132 2.776 2.776 3.747 3.747 4.604 4.604 8.610 8.610 5 51.476 1.476 2.015 2.015 2.571 2.571 3.365 3.365 4.032 4.032 6.869 6.869 6 61.440 1.440 1.943 1.943 2.447 2.447 3.143 3.143 3.707 3.707 5.959 5.959 李振华制造 数理统计在化学中的应用 卡方分布(卡方分布(2 -分布)分布) 卡方分布是统计学中的一种机率分布,它广泛的运 用于检测数学模型是否适合所得的数据,以及数据间 的相关性。数据并不需要呈正态分布。 如果从一个正态总体中,抽取出随机变量Xi, 则各 随机变量Xi与总体均值之差对总体标准差的比值, 即Zi = (xi )/ ,也服从正态分布,它们的平方和称 为2 2 2 2 1 () k i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论