版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、学会统计,连妈妈都感动了学会统计,连妈妈都感动了n麦兜故事麦兜故事场景:场景:n到小朋友开始懂得数数到小朋友开始懂得数数n妈妈一手提着便盆,一手抱妈妈一手提着便盆,一手抱着小朋友,夸他又棒又健着小朋友,夸他又棒又健康康 妈妈,今天我一共拉妈妈,今天我一共拉了五条屎!了五条屎!数理统计学发展简史n萌芽篇n原始社会结绳记事,掷石数羊,等简单的计数.n易易系辞下系辞下: :“上古结绳而治,后世圣人易之以书契。上古结绳而治,后世圣人易之以书契。”n易九家言易九家言:“事大,大结其绳;事大,大结其绳; 事小,小结其绳,事小,小结其绳, 结之多少,随物众寡结之多少,随物众寡”n奴隶社会在征兵、徭役、征税,
2、等社会活动中,开始了对人口、土地和财产的统计活动,出现了调查、登记、简单计数及加总这些统计的内容.n例如:据晋皇甫谧(公元215282年)帝王世纪丛书记载,我国早在四千多年前的夏朝,为了治国治水的需要,就进行了初步的国情统计:全国分为9个州,人口为1355万人,土地为2438万顷。n封建社会这个时期,是所有的科学发展的最黑暗的时期,统计学亦几乎没有任何的发展.统计学应运而生,统计学作为一门系统的科学,距今只有300多年的历史. 我们不妨通过看看在这不到四百年中,关于统计学出现过的四次重大争论,来了解一下统计学的历史.(一)“政治算术”与“国势学”的争论,明确了统计学的学科性质17 世纪中叶,在
3、英国首次出现了有意识地用大量的数字资料说话,注重从数量角度探讨社会经济现象规律的活动.以配第(W Petty) 和格朗特(J Grant) 为代表创立的“政治算术”,标志着统计学的诞生.W Petty :政治算术,揭示了一些经济学的科学原理,研究了许多经济学范畴和经济关系,所以它是一本重要的经济学著作,但同时它又是一部很有价值的统计学著作. Petty在这本书以及其他相关的著作中,采用了不同于前人的研究方法,明确地用大量的数据资料分析问题,试图把研究结论建立在可靠的事实根据上.正因为如此, Petty不仅仅是政治经济学之父,在某种意义上他也是统计学的创始人.J Grant:关于死亡表的自然观察
4、和政治观察,通过对人口变动数据的分析,揭示了一系列的人口变化规律,并且还采用了不少新颖独特的数字资料整理、表示和估算方法,给统计学后来的发展留下了有益的启示. 与“政治算术”产生的时期差不多, 在德国也出现了一门“统计学”“国势学”. “国势学”主要研究“国家的有关显著事项”,其主要特征是对问题的研究和阐述,基本上采用文字记述和逻辑比较. 它之所以也被认为是统计学,在很大程度上是因为“国势学”发展到顶峰时期的代表性人物阿肯瓦尔( G.Achenwall) 给它起了一个新名称“STATISTIK”. 这个词转译成英文后,逐渐被越来越多的人所接受。随着知识交流的扩大,“政治算术”引进了“国势学”的
5、一些长处,“国势学”也吸收了“政治算术”的某些做法,从而引起了人们对“政治算术”和“国势学”到底哪一个才是统计学真正起源的关注,最终爆发了长达一百多年的争论.到1850年,德国人克尼斯( G A Knies) 根据当时统计学发展的实践,概括大多数人的意见,认为“国势学”尽管有统计学之名但没有统计学之实,应该仍叫“国势学”,而“政治算术”虽然没有统计学之名但有统计学之实,所以“政治算术”才称得上是统计学的真正起源. 统计史上,一般把克尼斯“独立科学之统计学”一文的发表,作为“政治算术”和“国势学”争论的结束,历经近100年的时间. (二)“描述统计学”与“推断统计学”的争论,构筑了统计学的完整体
6、系 一般而言,统计问题可分成两类:描述统计:兴趣只限于手头现有的数据,而不准备把结果用来推断的统计;推断统计:任何对数据(即样本)的处理导致预测或推断总体(群体、母体)的统计.第一时期(1899-1915 ):描述性统计 n代表人物 :英国生物统计学家高尔顿( Galton )、卡尔皮尔逊(Karl Pearson ).n高尔顿、皮尔逊为在开展生物遗传学研究的同时,提出了许多处理变异数据的统计方法,统计史上一般把他们的工作称作描述统计学。皮尔逊1894年开设第一门统计学理论高级课程。 Francis GaltonFrancis GaltonBorn16 February 1822Birming
7、ham, EnglandDied17 January 1911Haslemere, Surrey, England高尔顿高尔顿(F GaltonF Galton,1822191118221911)n英国人,达尔文的表弟,生物统计学创立人。n为了研究人的智力遗传和进化规律,高尔顿在伦敦开设了“人体测量研究所”,广泛招募志愿人员,采集到大量的有关人的自然属性的资料。n先后出版了两本著作,一本是关于人的能力及其发展问题,另一本是遗传的自然规律。n在这两本书及相关的论文中,高尔顿提出了诸如“相关”、“回归”、“中位数”、“四分位数”、“四分位数差”、“百分位数”等概念和计算方法。皮尔逊皮尔逊( (Ka
8、rl PearsonKarl Pearson,18571936 18571936 ) )n高尔顿的学生,他全面继承和发展了高 尔顿的统计相关与回归思想,并建立了 相应的数学基础。是现代统计学之父。w1893年提出了标准差 w1900年提出了2 检验n根据他的儿子 E 皮尔逊(E Pearson E Pearson )的总结,主要为: (1)提出和研究了复相关、偏相关的问题,(2)提出了似然函数、矩估计方法,(3)导出了重要的卡方分布,(4)研究了许多概率分布曲线等。第二时期(1915-1928):推断统计n代表人物:n英国酿酒师,医生,化学家戈塞特(William Gosset)n英国中学教师
9、,生物学家费雪(Ronald Aylmer Fisher)戈塞特戈塞特( (William Sealey William Sealey GossetGosset,187618761937 1937 ) )n英国统计学家,他发现小样本, 平均数对其标准误差(t)的分布 不遵循正态曲线。nGosset基于在酿酒公司多年的实验 观察,洞察到大样本统计方法并不适用于所有场合,有的时候人们还只能根据少量观察就必须做出结论.n戈塞特终于在1908年导出了重要的t分布,首次以Student(事实上, Gosset是K.Pearson的学生)为笔名,在生物计量学杂志上发表了“平均数的概率误差”文章。这是小样本
10、统计推断的基石。以此为标志,统计学逐渐由描述统计学向推断统计学过度。费雪(费雪(R A FisherR A Fisher, 18901962 18901962 ) )n有人把我们如今所采用的统计理论的 半数归功为Fisher的成就. 作为推断 统计学的建立者,他在统计学上有着 崇高的地位,对统计学的许多领域进 行了深入独到的研究,开辟了方差分 析、试验设计等统计学研究的理论分 支, 小样本的统计方法,论证了Gosset相关系数的抽样分布,提出了t分布检验、F分布检验、相关系数检验,并编制了相应的检验概率表,简明陈述假设检验的逻辑原则等. 由于Fisher的突出贡献,统计史上一些人把Fisher
11、所处的时期,称为“统计学的Fisher时代”. Fisher还有很多其它的贡献:参数估计量的判定准则,包括了一致性,效率性和充足性等概念;参数的极大似然估计量;已知总体分布,求样本平均数的分布;概率论上最著名的定理,也是在所有数学中最著名的定理之一的中心极限定理等等. K.Pearson和Fisher都是统计学发展过程中的标志性人物,都对统计学的发展产生过重大的影响. 当看到Fisher一味攻击描述统计学的时候, Pearson和他的一帮信徒便开始进行反击. 在整个20世纪前半期,总是不断有人提出描述统计学和推断统计学的关系问题,并且出现了相持不下的局面。为此,当代伟大的统计学家内曼(J.S.
12、Neyman)认为,统计学实际上是一个完整的整体. Fisher之前的统计学称为描述统计学, Fisher之后的统计学是推断统计学,它们之间没有截然不同的界限,只是根据时间的先后顺序大致所做的划分. 现在对这个问题已经没有多少人提出置疑了. 大多数人都认为描述统计学是推断统计学的基础,推断统计学是描述统计学的进一步发展,它们之间不存在谁替代谁的问题,共同构成现代统计学的整体体系.第二次世界大战以来,统计学在描述方法和推断方法两方面取得进展,通过Fisher和Pearson之间的争论,使人们更加明白了统计方法的体系和实质,奠定了当代统计学主流的基调. 统计学从方法论的角度看,其实质就是归纳推断问
13、题.三、“经典统计学”与“贝叶斯统计学”的争论,统计哲学观的新变化 n第三个时期(1928-1939)n代表人物:内曼(Jerzy Neyman),伊根皮尔逊(Egon Pearson)n主要工作:介绍和强调诸如检验问题中的第二类错误,检验的势(power)和置信区间等的概念. Egon Sharpe PearsonEgon Sharpe Pearson(1895-1980)(1895-1980) nE.S. Pearson,英国生物学家和统计学家, 是Karl Pearson之独子。n1919年毕业于 Cambridge University。 1926年开始和Neyman在学术上共同研究。
14、 对假设检验理论方面认为应该考虑与待检 验的零假设相对应的备选假设。 n在检验中设立两种误差,并验证了大多数常见的显著性检验的应用;引入基本引理,似然比检验,及势的概念;引入置信限;但是他们的体系从未被 Fisher 所承认。 n他和Neymann合作的主要论文有:关于统计推断的某些检验准则的运用和解释、关于两组样本问题、关于统计假设的最有效检验问题等。 内曼内曼 ( ( Jerzy NeymanJerzy Neyman,1894-1981 1894-1981 ) ) nJerzy Neyman及 Egon Sharpe Pearson在一系列的 杰出的文章中澄清了推断理论,特别是有关显著性检
15、验的基本原理一其合理性以往是常被批评。早期的显著性检验为关于二项变量之间或均值之间的,它们被 K.Pearson推广至2检验,被R.A.Fisher推广到F-检验,推广了Student t-检验。nNeyman和 E.S.Fearson看出,为了更有效,应该考虑与待检验的零假设相对应的备选假设。他们在这样的检验中设立两种误差并因素导致了他们的基本引理,似然比检验,及势的概念;他们顺便验证了大多数常见的显著性检验的应用;他们还引进了置信限;但是他们的体系从未被Fisher所承认。 第四个时期(1939至今):贝叶斯统计学 n代表人物:罗马尼亚,美国著名统计学家沃尔德(A .Wald),犹太人.
16、nWald最大的贡献之一是他介绍一种对统计问题的新看法(1945),那就是以博弈(对策)论的观点去处理统计方面的问题,这就是今日所称的统计决策理论 (statistical dicision theory). 依据Wald的观点,统计被视为以自然为对手的博弈(对策)论的艺术,这是一个相当广义的理论.虽然它牵涉到相当复杂的数学,但是平心而论,我们可以说大部分目前的统计研究人员发现采用这种新观点非常理想. Wald对统计理论发展的方向有重大的影响,他的“门徒” 们多成为今日统计界的领袖人物. 四、信念统计学与经典统计学、贝叶斯统计学的争论,需要继续研究统计推断的科学化问题n经典统计学、贝叶斯统计学
17、、信念统计学之间的争论,仍然处于一种胶着状态,每一种理论都有自身的长处和不足,很难断言哪一种统计思想就一定能取代另一种统计思想.n1933,Kolmogorov的公理化,Lebesgue的测度论,将统计学彻底带入了现代数学范畴现代统计学现代统计学 n统计方法是建立在现代科学方法之上,由统计学理论指导的数据收集、表达和分析的方法。n计算机和统计软件的出现,使统计学得到了突飞猛进的发展。n统计软件如SAS、SPSS、Excel 、S-plus 、 Stata 、 Minitab 、Statistica 、Eviews 、PEMS、Matlab、马克威软件现代统计学现代统计学n统计变得越来越数学化了
18、。 n电子计算机已经带来了巨大的变化。 n模型在统计和科学工作中的作用现已被广泛承认 。n许多新的分支或专门化和应用已经被发展了:决策论,时间序列,多元分析,经济计量学,博奕论,临床试验,非参数推断,序贯分析,数学生物分类学,及可靠性。数量统计及其应用正在继续发展和扩大。 统计是倚天剑?统计是倚天剑?统计的判定,统计的判定,是否一出手,是否一出手,就令人臣服?就令人臣服?统计学究竟在做什么?统计学究竟在做什么?n统计的结论要有价值,其中每一程序,从统计的结论要有价值,其中每一程序,从设计,取样到分析,都要尽量客观。设计,取样到分析,都要尽量客观。n统计学家会犯错,因所有保证都是机率式统计学家会
19、犯错,因所有保证都是机率式的,并附带一定的犯错机率。决策若不愿的,并附带一定的犯错机率。决策若不愿犯错,后果不见得就好。犯错,后果不见得就好。机率理论告诉我们,如果统计分析是遵机率理论告诉我们,如果统计分析是遵循该有的程序,则长期下来,犯错次数循该有的程序,则长期下来,犯错次数的比例,差不多就是所设定的犯错机率,的比例,差不多就是所设定的犯错机率,乃可容忍。乃可容忍。分析过程中,若有偏差,则即使工程再分析过程中,若有偏差,则即使工程再浩大,得到的结论,不但无法取信真正浩大,得到的结论,不但无法取信真正的专家,被当成谎言不说,有时还给自的专家,被当成谎言不说,有时还给自己制造出极不利的后果。己制
20、造出极不利的后果。n统计学所得到之结论并非绝对准确,可以有少数例外,例如:多运动,身体才会健康的结论就不一定百分之百正确,因为对大多数人而言,以上之结论虽然正确,但是有少数人虽然很少运动,身体也很健康;甚至于还有少数人虽然时常运动,身体也不健康。n纯粹的数学公式或定律以及其所推导的结论则一定正确。例如几何学的勾股定理:如果a、b、c分别是直角三角形的两边与斜边长度,则a2+b2=c2的性质,无论在何种情况,一定完全正确。n统计,正如我们的思维,客观至上,否则统计,正如我们的思维,客观至上,否则便是自欺欺人。便是自欺欺人。n反之我们的思维若是统计式的,便是极客反之我们的思维若是统计式的,便是极客
21、观的。观的。统计学里所能达到的是:统计学里所能达到的是:允许误差下的机率保证,允许误差下的机率保证,允许误差下的无罪推定。允许误差下的无罪推定。n数学里探讨数学里探讨必然性必然性。n统计里处理统计里处理随机性随机性。n允许误差,没有误差反令人怀疑。允许误差,没有误差反令人怀疑。n统计里的保证,都是机率式的。统计里的保证,都是机率式的。n通常所能保证的机率,不但不是百分之百,通常所能保证的机率,不但不是百分之百,还附有误差。还附有误差。统计数据常附有正负误差范围,所以在统计数据常附有正负误差范围,所以在观看这些数据时,必须加以考虑进来观看这些数据时,必须加以考虑进来n范例:范例:A A频道收视率
22、为频道收视率为20%20%,B B频道收视率为频道收视率为18%18%,C C频道收视率只有频道收视率只有6%6%。如果上述统计的误。如果上述统计的误差皆为正负差皆为正负5%5%,那么是否实际收看,那么是否实际收看A A频道的人频道的人会比看会比看B B频道或看频道或看C C频道的人多?频道的人多?n实际上,如果考虑正负误差范围,实际上,如果考虑正负误差范围,A A频道的实频道的实际收视率在际收视率在15%25%15%25%之间,之间,B B频道的实际收视频道的实际收视率为率为13%23%13%23%之间,之间,C C频道的实际收视率为频道的实际收视率为1%11%1%11%之间,所以实际收看之
23、间,所以实际收看A A频道的人不一定频道的人不一定会比会比B B频道的人多,但高于频道的人多,但高于C C频道的人。频道的人。统计学所得到结论不一定为因果相关(或统计学所得到结论不一定为因果相关(或逻辑相关),有时只是表示统计相关逻辑相关),有时只是表示统计相关 n肥胖的人较易得心脏病是属于因果相关,表示肥胖是导致心脏病的原因之一。n冰淇淋销路好的时候,游泳溺毙的人也较多则是属于统计相关,但非因果相关,因为冰淇淋销路好并非导致游泳溺毙的原因,只是二者都常在天气热的时候发生,所以统计上会出现冰淇淋销路好与游泳溺毙具有相关性。一般的算命理论大多来自古代人的统计结论,但是缺乏一般的算命理论大多来自古
24、代人的统计结论,但是缺乏实际数据,而且大多是统计相关而非因果相关的结论实际数据,而且大多是统计相关而非因果相关的结论 n星座理论:处女座的人做事较龟毛(做事拖拖拉拉,犹豫不决)。此命题说明可能有很多个处女座人士很龟毛,但是究竟有多少百分比的处女座人士很龟毛?从古至今的星座算命书籍并未有确切的统计数据留下来,而且处女座并非导致龟毛的原因,所以二者并非因果相关,而是统计相关。受教育程度和食物过敏有关系吗? n(discoverynews)加拿大的一项最新研究显示,一个人受教育程度越高,发生食物过敏的风险也越大。而且,来自农村或欠发达国家和地区的移民反而不容易发生食物过敏。n你恐怕不会认为教育本身是
25、食物过敏的一个动因,它充其量只是其他因素的一个标记而已。所以二者并非因果相关,而是统计相关。 n很少经由统计去证明那件事必是对的。很少经由统计去证明那件事必是对的。n探索真相?探索真相?n真相留给上帝!真相留给上帝!n在随机世界,真相常难以大白。在随机世界,真相常难以大白。n一切都是假设,只看你接受那一个。一切都是假设,只看你接受那一个。n接受或拒绝,采类似刑事诉讼法第接受或拒绝,采类似刑事诉讼法第1212条条 无罪推定的精神无罪推定的精神。n一统计方法,常对应人们的某种思维。一统计方法,常对应人们的某种思维。n机率及误差,构成统计思维之两大支柱。机率及误差,构成统计思维之两大支柱。因而发展出
26、统计学里所着重的几项要点:因而发展出统计学里所着重的几项要点:n善用信息善用信息n了解变异了解变异n相信机率相信机率n合理估计合理估计n无罪推定无罪推定n纸上谈兵纸上谈兵Chap 4 数理统计的基础知识香港大学民意研究计划成立于1991年6月, 现时隶属香港大学社会科学学院,由钟庭耀博士负责,旨在为学术界、新闻界、决策人员及社会人士提供有用的民意数据,服务社会.民研计划自1992年12月开始,便定期调查香港市民对两岸三地政府的信任程度、及对前途的信心程度的意见,作为国家民族意见调查系列的一部分,18年来没有改变. 现在我们以该中心在2010年12月14日发布的调查结果,来了解一下统计的5个组成
27、部分.n特区政府统计处资料显示,截至2011年年中,香港特区人口数目710.81万. (.hk/hong_kong_statistics/statistics_by_subject/index.jsp?subjectID=1&charsetID=1&displayMode=T )n 如何从这超过700万个选民中选取1000个样本,使这样本可以在某种程度上反映总体的信息?n调查方案设计,问卷设计n怎样从这1000个左右的数据来估计超过700万香港特区居民对特首的支持度?(点估计)n用1000个左右的数据来估计超过700万的总体信息,必然会产生误差. 如
28、何给出误差的范围,以及此误差范围的可信程度?(区间估计)n在10年11月底所做的调查中,曾荫权的支持度为40%,在这次调查中数据已下跌至37%,是否可以认为两个星期内曾荫权的支持度有明显下跌,或者说已经跌破4成?n以往的选举经验告诉我们,有很多的因素会影响选民的投票意向. 譬如:选民的政治取向,投票意欲,性别,年龄,教育程度,职业,家庭所属阶级,等等. 那么,在这个案例中,如何判别其中某个因素是否真的影响了香港市民对曾荫权的支持程度?n假如经过分析,我们发现选民的年龄与支持程度存在相关关系. 那么,我们怎样去描述这种关系? 数理统计学是一门应用性很强的学科数理统计学是一门应用性很强的学科. 它
29、是研究它是研究怎样以怎样以有效的方式有效的方式收集、收集、 整理和分析整理和分析带有随机性的带有随机性的数据数据,以便对所考察的问题作出推断和预测,以便对所考察的问题作出推断和预测. 由于大量随机现象必然呈现它规由于大量随机现象必然呈现它规律性,只要对随机现象进行足够多次律性,只要对随机现象进行足够多次观察,被研究的规律性一定能清楚地观察,被研究的规律性一定能清楚地呈现出来呈现出来. 客观上,客观上, 只允许我们对随机现象只允许我们对随机现象进行次数不多的观察试验进行次数不多的观察试验 ,我们只,我们只能获得局部观察资料能获得局部观察资料.4.1总体和样本 数理统计的任务就是研究有效地收集、整
30、理、数理统计的任务就是研究有效地收集、整理、分析所获得的分析所获得的有限有限的资料,对所研究的问题的资料,对所研究的问题, 尽尽可能地作出精确而可靠的结论可能地作出精确而可靠的结论. 在数理统计中,不是对所研究的对象全体在数理统计中,不是对所研究的对象全体 ( 称称为为总体总体)进行观察,而是抽取其中的部分进行观察,而是抽取其中的部分(称为称为样本样本)进行观察获得数据(进行观察获得数据(抽样抽样),并通过这些数据对总),并通过这些数据对总体进行推断体进行推断.数理统计方法具有数理统计方法具有“部分推断整体部分推断整体”的的特征特征 . 在数理统计研究中,人们往往研究有关对象的在数理统计研究中
31、,人们往往研究有关对象的某一项某一项(或几项或几项)数量指标。为此,对这一指标进行数量指标。为此,对这一指标进行随机试验,观察试验结果全部观察值,从而考察该随机试验,观察试验结果全部观察值,从而考察该数量指标的分布情况数量指标的分布情况.这时,每个具有的数量指标的这时,每个具有的数量指标的全体就是总体全体就是总体.每个数量指标就是个体每个数量指标就是个体.某批某批灯泡的寿命灯泡的寿命该批灯泡寿命的全该批灯泡寿命的全体就是总体体就是总体国产轿车每公里国产轿车每公里的耗油量的耗油量国产轿车每公里耗油量国产轿车每公里耗油量的全体就是总体的全体就是总体 一一个统计问题总有它明确的研究对象个统计问题总有
32、它明确的研究对象.1.1.总体总体研究某批灯泡的质量研究某批灯泡的质量 研究对象的全体称为研究对象的全体称为总体总体,总体总体一、总体和样本一、总体和样本总体中所包含的个体的个数称为总体的总体中所包含的个体的个数称为总体的容量容量.总体中每个成员称为总体中每个成员称为个体个体,总体总体有限总体有限总体无限总体无限总体 因此在理论上可以把总体与概率分布等同起来因此在理论上可以把总体与概率分布等同起来. 我们关心的是总体中的个体的某项指标我们关心的是总体中的个体的某项指标( (如人的如人的身高、灯泡的寿命身高、灯泡的寿命, ,汽车的耗油量汽车的耗油量) ) . 由于每个个体的出现是随机的,所以相应
33、的数量指由于每个个体的出现是随机的,所以相应的数量指标的出现也带有随机性标的出现也带有随机性 . 从而可以把这种数量指标看从而可以把这种数量指标看作一个随机变量作一个随机变量 X ,因此随机变量,因此随机变量 X 的分布就是该的分布就是该数量指标在总体中的分布数量指标在总体中的分布. 总体就可以用一个随机变量及其分布来描述总体就可以用一个随机变量及其分布来描述. 例如例如:研究某批灯泡的寿命时,关心的数量指标研究某批灯泡的寿命时,关心的数量指标就是寿命,那么,此总体就可以用随机变量就是寿命,那么,此总体就可以用随机变量X表示,表示,或用其分布函数或用其分布函数F(x)表示表示.某批某批灯泡的寿
34、命灯泡的寿命总体总体 寿命寿命 X 可用一概率可用一概率(指数)分布来刻划(指数)分布来刻划鉴于此,常用随机变量的记号鉴于此,常用随机变量的记号或用其分布函数表示总体或用其分布函数表示总体. 如如说总体说总体X或总体或总体F(x) .体体寿命总体是指数分布总寿命总体是指数分布总 类似地,在研究某地区中学生的营养状况时类似地,在研究某地区中学生的营养状况时 ,若关心的数量指标是身高和体重,我们用若关心的数量指标是身高和体重,我们用 X 和和 Y 分分别表示身高和体重,那么此总体就可用二维随机变别表示身高和体重,那么此总体就可用二维随机变量量 ( X , Y ) 或其联合分布函数或其联合分布函数
35、F ( x , y ) 来表示来表示. 统计中,总体这个概念统计中,总体这个概念 的要旨是:的要旨是:总体就是一个概总体就是一个概率分布率分布.n总体:研究对象的全体.n个体:总体中的每个成员.n实际上,我们常把个体都量化后进行研究. 所以在统计学上,我们定义:n总体:随机变量(向量)X .n总体分布:总体 X 所服从的分布.Remarkn 可能为随机向量. 如 “信任度”,或(信任度,年龄).n必须将个体按特性进行量化. 如,民望可分为:表現理想,表現成功,表現一般,表現不彰,表現失敗,表現拙劣,则可量化为之类.n总体分布一般未知. 或者知道类型而不知参数,或者连类型都不知.XXX6,5,4
36、,3,2,1为推断总体分布及各种特征,按一定规则从为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体中抽取若干个体进行观察试验,以获得有关总体的信息总体的信息 ,这一抽取过程称为,这一抽取过程称为 “抽样抽样”,所抽,所抽取的部分个体称为取的部分个体称为样本样本. 样本中所包含的个体数样本中所包含的个体数目称为样本容量目称为样本容量.2. 样本样本从国产轿车中抽从国产轿车中抽5辆辆进行耗油量试验进行耗油量试验样本容量为样本容量为5抽到哪抽到哪5辆是随机的辆是随机的 一旦取定一组样本一旦取定一组样本 X1, , Xn ,得到得到 n 个具体的数个具体的数(x1,
37、x2,xn),称为样本的一次观察值,简称,称为样本的一次观察值,简称样本值样本值 .n称为这个样本的容量称为这个样本的容量.21nXXXnX,观观察察,其其结结果果依依次次记记为为次次重重复复、独独立立在在相相同同的的条条件件下下,进进行行对对总总体体.,21分分布布同同的的与与总总体体随随机机变变量量具具有有相相的的一一个个简简单单随随机机样样本本,是是来来自自总总体体这这样样得得到到的的随随机机变变量量XXXXn最常用的一种抽样叫作最常用的一种抽样叫作“简单随机抽样简单随机抽样”,其特点:,其特点:2. 代表性代表性: X1 , X2 , , Xn 中每一个与所考察的总体中每一个与所考察的
38、总体有相同的分布有相同的分布.1. 独立性独立性: X1 , X2 , , Xn 是相互独立的随机变量是相互独立的随机变量.定义:定义:.,)(,)(212121个独立的观察值的称为样本值,又称为本,它们的观察值简单随机样本,简称样的得到的容量为为从总体变量,则称的、相互独立的随机是具有同一分布函数的随机变量,若是具有分布函数设nXxxxnXXXXxFXXXxFXnnn 由简单随机抽样得到的样本称为由简单随机抽样得到的样本称为简单随机样本简单随机样本,它可以用与总体独立同分布的它可以用与总体独立同分布的 n 个相互独立的随机个相互独立的随机变量变量 X1 , X2 , , Xn 表示表示. 简
39、单随机样本是应用中最常见的情形,今后,简单随机样本是应用中最常见的情形,今后,当说到当说到“X1 , X2 , , Xn 是取自某总体的样本是取自某总体的样本”时,时,若不特别说明,就指简单随机样本若不特别说明,就指简单随机样本. 事实上我们抽样后得到的资料都是具体的、确事实上我们抽样后得到的资料都是具体的、确定的值定的值. 如我们从某班大学生中抽取如我们从某班大学生中抽取10人测量身高人测量身高,得到得到10个数,它们是样本取到的值而不是样本个数,它们是样本取到的值而不是样本. 我我们只能观察到随机变量取的值而见不到随机变量们只能观察到随机变量取的值而见不到随机变量.3. 总体、样本、样本值
40、的关系总体、样本、样本值的关系ExampleExample总体均值的推断总体均值的推断 .xx总体(理论分布)总体(理论分布) ? 样本样本 样本值样本值 统计是从手中已有的资料统计是从手中已有的资料-样本值,去推断总样本值,去推断总体的情况体的情况-总体分布总体分布F(x)的性质的性质. 总体分布决定了样本取值的概率规律,也就是总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断样本取到样本值的规律,因而可以由样本值去推断总体总体. 样本是联系二者的桥梁样本是联系二者的桥梁n统计里,常在做预测、做估计。统计里,常在做预测、做估计。n做做以偏概全以偏概全的事。的
41、事。n若样本实在太偏差,便是以管窥天,见不若样本实在太偏差,便是以管窥天,见不到全貌。到全貌。简单抽取样本仅是我们心中理想. 事实上,总体总是有限,所作抽样亦多为无放回抽样,便无了独立性;而样本中的每个分量(如 中的“支持度”与“年龄”)既不同分布,亦不相互独立. 只有当总体很大时,无放回抽样与有放回抽样区别很小时,才可近似地将所得样本视为简单随机样本.X抽样应遵循的原则:抽样应遵循的原则:代表性代表性随机性随机性可靠性可靠性可比性可比性 代表性:代表性:代表性:样本中每个个体符合总体的代表性:样本中每个个体符合总体的规定即同质的要求。规定即同质的要求。随机性:随机性:随机性:总体中个体有相同
42、的机会被随机性:总体中个体有相同的机会被抽取到样本中;抽取到样本中;随机不等于随意、随便;随机不等于随意、随便;随机抽样的实现:抽签法、机械抽样随机抽样的实现:抽签法、机械抽样法、分层抽样法、随机数字表;法、分层抽样法、随机数字表; 随机抽样的方法:随机抽样的方法:抽签法:编号、抽签抽签法:编号、抽签机械抽样法:又称等间隔抽样,按比机械抽样法:又称等间隔抽样,按比例分配例分配分层抽样法:先分层,每层内按比例分层抽样法:先分层,每层内按比例抽样抽样随机数字:随机数字表、软件产生随随机数字:随机数字表、软件产生随机数字机数字可靠性:可靠性:可靠性:结果可重复性可靠性:结果可重复性“足够足够”的样本
43、量的样本量可比性:可比性:可比性:比较的组别之间,除处理因素可比性:比较的组别之间,除处理因素不同外,其他可能影响结果的因素要求不同外,其他可能影响结果的因素要求基本齐同,也称作齐同对比原则基本齐同,也称作齐同对比原则 。n统计学一般常用在预测事情最可能之结统计学一般常用在预测事情最可能之结果,例如选举时的民意调查、收视率调果,例如选举时的民意调查、收视率调查等。查等。nExample in PracticeExample in Practice 2011 2011年年4 4月月2525日,日,民进党以全民调方式进行台湾地区领导民进党以全民调方式进行台湾地区领导人党内初选,在人党内初选,在15
44、00015000选民中,蔡英文选民中,蔡英文以以1.35%1.35%的微弱优势击败苏贞昌,获党的微弱优势击败苏贞昌,获党内提名角逐台湾内提名角逐台湾2012“2012“大选大选”。n若样本实在太偏差,便是以管窥天,见若样本实在太偏差,便是以管窥天,见不到全貌。不到全貌。n关于美国选举的两个例子关于美国选举的两个例子谁会在谁会在19361936选举中获胜选举中获胜? ?Alf LondonAlf London(兰登)还是(兰登)还是 F.D.R.(F.D.R.(罗斯福罗斯福)?)?nLiterary DigestLiterary Digest( (文摘文摘) )送出一千万份问送出一千万份问卷卷(
45、 (返回二百四十万份返回二百四十万份) )后后, ,预测预测LondonLondon将将以以57%57%对对43%43%的比例获胜,并大力进行宣的比例获胜,并大力进行宣传。传。n结果,罗斯福以结果,罗斯福以62%62%对对38%38%的巨大优势获的巨大优势获胜,连任总统胜,连任总统n文学摘要文学摘要杂志社威信扫地,不久只杂志社威信扫地,不久只得关门停刊得关门停刊 n在调查史上,样本容量这么大是少见的,在调查史上,样本容量这么大是少见的,几乎已经没有犯错的可能,何以结果却几乎已经没有犯错的可能,何以结果却偏差如此之大?偏差如此之大?谁会在谁会在19481948选举中获胜选举中获胜? ? Thom
46、as DeweyThomas Dewey(杜威)还是(杜威)还是Harry Truman(Harry Truman(杜鲁门杜鲁门) )? ?nCrossley, Gallop(Crossley, Gallop(盖洛普盖洛普) ), , RoperRoper所有都预所有都预测测DeweyDewey会赢会赢( (每个机构用了每个机构用了50005000个问卷个问卷).).n最后一次盖洛普民意测验显示,杜鲁门仍然落最后一次盖洛普民意测验显示,杜鲁门仍然落后杜威后杜威5 5个百分点。共和党人弹冠相庆认为大个百分点。共和党人弹冠相庆认为大局已定,杜威已经开始准备总统就职演说。在局已定,杜威已经开始准备总
47、统就职演说。在大选日当晚,大选日当晚,芝加哥论坛报芝加哥论坛报抢先印刷了印抢先印刷了印有有“杜威击败杜鲁门杜威击败杜鲁门”大标题的号外,向全国大标题的号外,向全国发行。发行。 n最后,他们都输了最后,他们都输了, , 杜鲁门以杜鲁门以49.5%49.5%比比45.1%45.1%胜胜出出. .杜鲁门高兴地对新闻界举起报纸,哈哈大笑,并杜鲁门高兴地对新闻界举起报纸,哈哈大笑,并被拍摄成照片。这张照片至今悬挂在被拍摄成照片。这张照片至今悬挂在芝加哥论芝加哥论坛报坛报的主编办公室里,每一任的主编办公室里,每一任芝加哥论坛报芝加哥论坛报主编都要看着这张耻辱的记录而工作。主编都要看着这张耻辱的记录而工作。
48、n19361936年,年,文学摘要文学摘要杂志社以电话簿上的地杂志社以电话簿上的地址和俱乐部成员名单上的地址发出调查信,而址和俱乐部成员名单上的地址发出调查信,而当时美国有私人电话和参加俱乐部的家庭,都当时美国有私人电话和参加俱乐部的家庭,都是比较富裕的家庭。结果只能看出有钱人的投是比较富裕的家庭。结果只能看出有钱人的投票倾向较支持共和党候选人。票倾向较支持共和党候选人。n19481948年使用电话访问来做民意调查,同样是在年使用电话访问来做民意调查,同样是在富人中抽取的样本,严重偏离了总体(全体美富人中抽取的样本,严重偏离了总体(全体美国公民),导致样本不具有代表性国公民),导致样本不具有代
49、表性 预测结果为何出错?预测结果为何出错?n调查若与人有关,不容易做:调查若与人有关,不容易做:人会改变想法,人会改变想法,不见得会与调查者合作,不见得会与调查者合作,不同群体的人想法差异很大。不同群体的人想法差异很大。记名投票记名投票 VSVS 无记名投票无记名投票n内向的人,习惯用沉默以保护自己的意志;n倘若观点不符合普世价值观,缄口可以令自己不至于陷入困境;n发现表达是无效的时候,人们会显得冷淡;n记名投票,更多的代表了外向的,有强烈表达欲望选民的意愿;n无记名投票有利于选举人或表决人消除顾虑,完全按照自己的意志行使选举权或表决权,是目前世界上普遍通用的投票方式。n设X1,X2,Xn是从
50、总体X中抽出的简单随机样本,由定义可知,X1,X2,Xn有下面两个特性:(1) 代表性:X1,X2,Xn均与X同分布,即若X F(x),则对每一个Xi都有Xi F(x),i = 1,2,n(2) 独立性:X1,X2,Xn相互独立.若X的分布函数为F(x), 则X1, X2, , Xn的联合分布函数为F(x1,x2,xn) = F(x1)F(x2)F(xn)(2) 独立性:X1,X2,Xn相互独立.若离散型总体X的概率分布为 p(x)=PX=x, 则X1, X2, , Xn的联合概率分布为p(x1,x2,xn) = p(x1)p(x2)p(xn) ;若连续型总体X的概率密度为 f(x), 则X1
51、, X2, , Xn的联合密度为f(x1,x2,xn) = f(x1)f(x2)f(xn) .一些基本概念对样本 具体观察抽样结果后,所得地具体观察值称为的一个样本值.样本值的全体.若总体 则样本的分布函数),(21nXXX),(21nxxx),(21nXXX, )(xFX),(21nXXX. )()()()(),(12121niinnxFxFxFxFxxxFn若 为连续型,则样本密度n若 为离散型, 则 样本概率分布为X XX, )(xfX. )(),(121niinxfxxxfX, )(xpxXP,),(221121nnnxXxXxXPxxxp. )(1niixpX服从参数为服从参数为),
52、(21nXXX是来自于总体的样本,求此样本是来自于总体的样本,求此样本的联合分布律的联合分布律.解解总体总体X的分布律为的分布律为, 1 , 0,!)( kekkXPk 所以所以),(21nXXX的联合分布律为的联合分布律为因为因为nXXX,21独立同分布,独立同分布,设总体设总体ExampleExample 的的Poisson分布分布, niiinnkXPkXkXP111)(),(nikekkkekinnkkniikni, 2 , 1, 2 , 1 , 0!2111 此即样本的联此即样本的联合分布律合分布律正态总体),(2NX样本密度niinxxxxf121)(),(2222122121nx
53、xxneBernoulli 总体ppPX110样本的概率分布nnsnsnnppiXiXiXP)1 (,2211.21nniiis其中Poisson 总体)(PX样本的概率分布,2211nniXiXiXP.21nniiis其中einkkik1!nnseiiin!21 由样本值去推断总体情况,需要对样本值进由样本值去推断总体情况,需要对样本值进行行“加工加工”,这就要构造一些样本的函数,它把,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来样本中所含的(某一方面)的信息集中起来.统计量统计量 这种这种不含任何未知参数的样本的函数称为统不含任何未知参数的样本的函数称为统计量计量.
54、 它是完全由样本决定的量它是完全由样本决定的量.4.2统计量设为总体 的一个样本,函数不含未知参数,则称为该样本的统计量.),(21nXXXX),(21nxxxg),(21nXXXg的观察值,是样本设),(),(2121nnXXXxxx.),(),(2121的观察值是则称nnXXXgxxxgRemarkRemark121(,)ng XXX统计量是随机向量函数; 2统计量用于统计推断,故不应含任何关统计量用于统计推断,故不应含任何关 3 统计量是样本的函数,它是一个随机变统计量是样本的函数,它是一个随机变于总体于总体 X 的未知参数的未知参数;量,统计量的分布称为量,统计量的分布称为抽样分布抽样
55、分布.X服从参数为服从参数为 的的Poisson分布分布nXXX,21为来自总体的样本,判断下列那为来自总体的样本,判断下列那些些是统计量?是统计量?),min(11nXXT 其他其他, 0, 1112niiXT nXXT/13 设总体设总体ExampleExample 几个常用统计量的定义几个常用统计量的定义,21是是来来自自总总体体的的一一个个样样本本设设nXXX1) 样本均值样本均值;11 niiXnX.11 niixnx其观察值其观察值(1) 样本矩样本矩可用于推断:可用于推断:E(X).,21是是这这一一样样本本的的观观察察值值nxxx它反映了它反映了总体均值总体均值的信息的信息Ex
56、ample in PracticeExample in Practicen样本均值缺点在于容易受极端值影响nhttp:/ Example in PracticeExample in Practicen20122012年年5 5月月, ,中国家庭金融调查与研究中心发中国家庭金融调查与研究中心发布布中国家庭金融调查报告中国家庭金融调查报告。数据显示,。数据显示,城市资产的均值和城市资产的均值和中位数相差很大,中位数相差很大,财富集中情况呈现财富集中情况呈现出典型的出典型的“二八效二八效 应应”。2) 未修正样本方差未修正样本方差.1122 niiXnXn其观察值其观察值它反映了总体方差它反映了总体
57、方差的信息的信息可用于推断:可用于推断:D(X). niiXXnS12201 niixxns12201其观察值其观察值未修正样本方差与修正样本方差的未修正样本方差与修正样本方差的关系:关系:RemarkRemark3) 修正样本方差(简称样本方差)修正样本方差(简称样本方差) niiXXnS122)(11. )(11122 niiXnXn niixxns122)(11.11122 niixnxn niiXXnS1220121Snn 1当n较大时,20S与2S差别微小;2当n较小时,20S比2S有更好的统计性质.4) 样本标准差样本标准差 ;11122 niiXXnSS其观察值其观察值.)(11
58、12 niixxns5) 样本样本 k 阶阶(原点原点)矩矩;, 2, 1,11 kXnAnikik其观察值其观察值.,2111kxnanikik6)样本样本 k 阶中心矩阶中心矩;, 3, 2,)(11 kXXnBnikik其观察值其观察值., 3, 2,)(11 kxxnbnikik特例:特例:XA 1特例:特例:202SB 二维总体的统计量n设(X1, Y1), (X2, Y2), , (Xn, Yn)为二维总体 (X, Y) 的样本,其观测值为(x1, y1), (x2, y2), , (xn, yn), 则n样本协方差: n样本相关系数:其中,SXY 和 RXY 常用作 Cov(X,
59、Y) 与 XY 的估计量 niiiXYYYXXnS1)(11YXXYXYSSSR ,)(11122 niiXXXnS niiYYYnS122)(11Property of sample moments,2 DXEXX方方差差的的期期望望设设总总体体的的样样本本,则则有有为为来来自自总总体体 XXXXn),(21 )()1(XE;1)()2(2 nXD ;1)()3(220 nnSE .)()4(22 SE性质性质 1ProofProof )()1(XE)1()(1 niiXnEXE)(11 niiXEn nin1121)()2( nXD )1()(1 niiXnDXD.11)(1212212
60、nnXDnninii )()(11)()3(21212220XEXEnXXnESEniinii )()()()(1221XEXDXEXDninii 222221111()().ninnnn ;1)()3(220 nnSE .)(11)()4(220202 SEnnSnnESEExampleExample nppDXnXD)1(1 X), 1(pB服从两点分布服从两点分布),(21nXXX是来自于总体分布的样本,是来自于总体分布的样本,是样本均值与修正样本方差,试计算:是样本均值与修正样本方差,试计算:2SX和和.,2ESXDXE和和解解利用样本矩的性质得利用样本矩的性质得pEXXE 设对总体设
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 豪华小轿车购买合同
- 建筑施工合同书参考
- 门面转让合同的履行要点
- 房产代理租赁合同范例
- 合同范本之热处理外协加工合同2024年
- 《历史伟大的开端》课件
- 联合站安全培训
- 《产科并发疾病》课件
- 2024年秋一年级上册2江南 公开课一等奖创新教学设计
- 《基础体温测定排卵》课件
- access基础知识(课堂PPT)
- 电磁流量计【流量仪表】质量检验模板
- 35KV输电线路工程技术规范及要求
- 建筑工程分部分项工程划分表(电力部分)
- 如何有效开展续保工作
- 课题研究活动情况记录表
- 农业企业会计账务处理
- HGP电梯故障检测说明(日立电梯)
- IEC60092-353:2011船舶电气设备:第353部分额定电压1kV和3kV单芯多芯挤出绝缘非分相屏蔽电力电缆(中文)
- 第一性原理PPT精品文档
- 谈初中语文教学中培养学生核心素养的策略
评论
0/150
提交评论