版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章数理统计案例4-1:人类天生的统计本能在基因上,我们仍和未开化的土著人很接近。我们信念的形成,充满着迷信——即使今天也不例外,甚至尤以今天为甚。某一天,原始部落的某个人摸鼻子后不久,天开始下雨,于是他煞费苦心地发展出一套抓鼻子祈雨的方法。同样地,我们会把经济的繁荣归功于中央银行降低利率。或者一家公司的经营成功和新总裁走马上任有关。类似风马牛不相及的事件屡屡被我们扯上联系,并导致我们在人生的重要抉择关头步步踏错,先机尽失。我们所受的教育和文化,骗我们去相信科学和逻辑进入现代生活时,迷信就会自然消除。但是随着我们的智力与日俱增,随机现象却源源不绝而来,我们变得越来越迷信。哈佛大学心理学家Skinner做过一个关老鼠和鸽子的笼子,笼子有个开关,鸽子可以用喙去操作。此外,有个电动装置会把食物送进笼子里。1948年,他以随机的方式送食物给非常饥饿的鸽子。随后他观察到鸽子表现出相当惊人的行为。它们根据内在根深蒂固的统计机制,发展出极其复杂、有如祈雨般的舞蹈行为;有只鸽子会对着笼中特定的一角有规律地摇头,另一只鸽子会以逆时钟方向转头。几乎每一只鸽子都发展出一种与获取食物联结起来的特别仪式,慢慢地固定到它们心里。有那么一段时间,我迷上了炒股,每天早上搭黄色出租车去证券公司,有一天,不幸却搭上一辆红色出租车,司机还不知道他要去的地方,我试着要他从央行门口往南走,但他顽固地再往南多走了一个街区,我被逼得只好利用后门口进入证券公司,那一天,我操作的投资组合赚了很多钱,那是我年轻时最美好的一天。隔天,一切如常,我在校门口等那辆出租车,前一天的红色出租车和那个顽固的家伙却不见踪影。真是不巧,因为我有个无法解释的念头,想要谢谢那天他对我做的好事,还想多给他一点钱。我好不容易等到一辆红色的出租车,上车后我告诉新司机载我绕到证券公司的后门,也就是前一天下车的那个地方。。。。进了公司,迎面有个镜子,看着自己,发现仍然装着昨天那件沾了污渍的衬衣。我体内有另一个我,显然相信从这个入口上楼、装这件脏衣服、坐与前一天一样的车、走同样的入口与股票的市场走势之间有强烈的因果关系存在。我为自己的行为举止像个骗子,犹如扮演别人角色的演员一样而哑然失笑。有些赌徒相信赌博的结果和某些身体动作之间有一些不自然的关联,据而发展出一些扭曲的行为。我出现了所谓的“赌徒的迷信”。虽然细微且难以察觉,却正在迅速累积。我们的心似乎一直想找出某种统计上的关联,在理性上我们知道这种统计关联是骗人的,因为样本很小。但是这种天生的统计本能,并没有因为我在假说检验上的专长而有所抑制。——纳西姆·塔勒布,《随机致富的傻瓜》,中信出版社概率论是已知总体,即已知DGP或者分布函数,求随机变量取特定值或者落在特定区域内的可能性。而数理统计是未知DGP或分布函数,面对一个黑箱,根据从黑箱中取出的样本来推测黑箱中的DGP(或分布函数类型以及未知参数值)。f(x)f(x)案例4-2:统计小史1085年,《末日审判》(Domesday)统计了田地名称、拥有者、面积、可耕地面积、牛群数量、土地价值…….,但国王威廉没有将这些数据用于任何地方,900年来,他一直是研究的对象。英国的格朗特(Graunt,1620-1674)对这样一个问题很感兴趣“谁活着?谁死了,为什么死了?”,他研究了死亡公告,分析了1604-1661年的数据(<NaturalandpoliticalobservationmentionedinafollowingindexandmadeupontheBillsofmortality>),书中写道:“大多数人只是找找奇怪的事,看看离奇的死亡,仅此而已”。谋杀很受关注,但是格发现,在229250例死亡中,只有86人死于谋杀,谋杀不是死亡的主要原因。人们还认为,“瘟疫伴随着一个新王朝的开始”,格证明这种看法是错误的。由于他的开创性贡献,国王查理三世亲自举荐他加入皇家学会。哈雷预言哈雷慧星将于1758年返回,他对天文着迷,个人拥有的仪器就足以成立一个天文台。他没毕业就到南大西洋的一个小岛上,准确地测量了300多颗恒星,还描绘了第一张世界海洋地图,标明了风向,其中包含的信息对每一位船长都有重要价值。他提问“40岁的男人再活7年的概率是多大”?并编出了第一张生命表,还资助牛顿出版了科学史上最有影响的著作《自然哲学的数学原理》。费希尔(Fisher,1890-1962)是现代统计学的奠基人,1925年出版《研究工作者用的统计方法》,提出了随机化的实验设计。休哈特(Shewhart,1891-1967)提出质量控制,戴明(Deming)将其发扬光大。斯诺(Snow,1813-1858)将统计应用于流行病学,发现了霍乱与水源的关系。一、问题的提出天安门城楼到底有多高,其“真实”的高度究竟是多少?恐怕没有人能够给出完全精确的答案,即使给出来也未必令人信服。尽管实践是检验真理的唯一标准,可是如果我们去测量,每次测量的结果都不同,又应该相信哪一次的结果呢?测量很多很多次是否有助于我们算得更精确的高度值?又如何来处理这很多次的测量结果,以便最好地逼近真实高度呢?上述问题可以转化为如下数学模型:假设1(S1):其中为天安门城楼的高度,当然是一个客观存在,是有唯一精确值的未知数。y为测量结果,u称为误差,y和u都是随机变量,尽管一次测量完成后,我们知道y的值,但测量之前却不可能知道。u是我们的理论构造,在真实世界中是不存在的。显然,只有y是能够观察到的,而真实高度与误差却无法观察到的,核心问题是:如何用观察到的y来求得未知的?总体是任何一种定义良好的一种对象的全体,如全部人民大学的学生不是一个定义良好的总体,而全部人民大学学生的高考成绩是一个定义良好的总体。天门安城楼高度的所有测量结果也是一个定义良好的总体(无限总体)。总体也是一种数据生成机制(DGP,datageneratingprocess),如天门安城楼高度的测量结果由这一机制生成,由于未知,所以这个DGP仍然是一个黑箱,计量分析的任务就是打开这个黑箱。二、样本最容易理解的抽样是从有限总体中抽取一个样本,比如从100个混有红球和黑球的暗箱中摸出8个球来。有限样本的抽样又分为放回和不放回两种,如果放回,则同一个球可能被抽中多次。从无限总体中抽取一个样本可被视为某个数据生成过程(DGP)的一次实现。比如天门安城楼高度的测量结果y是一个无限总体,某一次的测量结果可视为按照公式所确定的数据产生机制生成的一个数据yi。相应地n次测量的结果可被视为一个n维随机向量(样本)。给定样本容量n(即每次抽取n个观察值),不同的样本中Y的取值不同,下表是m组样本的情形。表格4SEQ表格\*ARABIC\s11:随机抽样:抽得任何一个样本的概率相同yy1y2…yn第一组样本y1y11y12…y1n第二组样本y1y21y22…y2n………第m组样本ymym1ym2…ymn样本联合概率密度:已知随机变量Y,从该总体中随机的取一个容量为n的样本,其联合概率密度为fJ(Y1,Y2,Y3,…,Yn)。同分布:指总体服从同一种分布。想象一下,箱子中既有不同重量的红球(假设重量服从正态分布f1(Y)),也有不同重量的绿球(假设其重量服从指数分布f2(Y)),于是从这个箱子里随机抽取的球不是同分布的。如果箱子中只有红球,则是同分布的。简单随机抽样:是指每个样本被抽取的可能性等同,也就是事前不知道会抽中哪个样本,每个样本都有同样的可能被抽中,否则,就不能算做随机抽样。想像上面的例子,不论是很重的球还是很轻的球,也不论是红球还是绿球,更不论服从什么分布,反正每个球被抽中的概率都一样。比如箱中共有100个球,则每个球被取出的可能都为0.01。再如街头拦访,老出门在外的或老在家的人被抽中的概率就不一样,是一个明显的非随机样本。独立:独立,指的是各个试验或观察得到的样本间是相互独立的。独立和随机是两回事,随机样本并不一定相互独立,而相互独立的两个样本并不一定随机。独立性要求每一次取球的结果不影响另一次取球的结果,如果取出一个红球,下一次总是又取出一个红球,则不独立。同样,如果取出一个很重的球,下一次总取出一个很轻的球,再下一次又取出一个很重的球,这种样本也不独立。独立同分布:从服从同一分布的总体中随机独立地抽取样本。独立同分布样本的联合概率密度满足公式:每一个被抽中的样本都满足我们的模型,n个样本令则三、最小二乘估计OLS(一)最小二乘估计量取得样本后,我们有了多个数据,如何处理这些数据呢?同样的问题曾困惑着18世纪和19世纪初的许多天文学家和数学家。那个时代的人热衷于测量天体(比如慧星)的轨道长度,他们在很多地方建立天文台,反复测量,得到大量的数据。“每次测量都有误差,次数越多,误差累积越多,但把次数减少并不是解决问题的办法,用什么办法来恰当地使用大量的数据呢”?勒让德(Legendre,1752-1833)解决了如何从数据中得出准确结论的问题,他提出了“最小二乘法”。而著名的数学家高斯(1777-1855)也声称他发明了最小二乘法。最小二乘法的核心思想是:使样本点与总体参数的距离最小。这种距离通常以平方和来表示,因此称为最小二乘估计。根据这个式子,我们就可以计算出b称为β的最小二乘估计量(OLS)。根据最小二乘法估计原理,我们得到如下的估计量:上式显然是一个函数,是样本随机变量的函数g(Y1,Y2,…,Yn)。实际上,估计量是一个处理随机样本的法则,这个法则是抽样之前就已制定好的,不管实际上得到的是什么数据,这个法则都不变。当这个法则改变了,我们就得到另一个估计量,比如残差e也是一个估计量.残差的平方和是另一个估计量既然估计量是随机变量的函数,它是一个随机变量,它的随机性由样本决定,随着样本而变,代入不同的样本,同一个估计量会得到不同的估计值。估计量与估计值sysuseauto,clearsample10sumprice反复执行上面的三行命令,每一次我们都得到不同的均值。同样,反复执行下述三行命令,每一次我们也得到不同的估计值drawnormu,n(8)cleargy=10+uregy(二)线性无偏估计量对同一个样本,可以定义无穷多的估计量,这些估计量仅依赖于总体的性质和定义估计量的函数,我们不能控制总体的特征,它是由客观分布规律所决定的,而客观分布规律又是由自然规律或社会力量来决定,不是我们所能控制的。但是我们可以选择定义估计量的函数(加工处理样本数据的方法)。问题是我们该选择什么样的函数来处理观察到的样本呢?潜在的函数既可以是线性的也可以是非线性的,但线性的往往比较容易处理。线性估计量是样本的线性函数(组合)。比如对样本Y,给定任意非随机矩阵A,AY便是一个线性估计量(线性意味着对样本进行加权求和)。其次,既然估计量是随机变量,它也就具有期望和方差等数字特征,而估计量的期望既取决于样本特征,也取决于我们所选择的函数形式(数据处理法则)。无偏估计量是一类特殊的估计量,无偏估计量的期望等于总体参数真值。注意估计量的无偏性评价的是估计法则的特性,而不是特定样本。再次重申,一个估计量的无偏性和可能偏误的大小依赖于Y的分布和函数g(),通常Y的分布是我们不能选择的,但法则g()的选择操纵在我们手中,如果我们想要得到一个无偏估计量,我们就要对g()做相应的选择。无偏性反映的是有限样本的性质,它可以理解为穷尽所有可能的抽样,然后利用每个样本按照g()计算出估计值,各估计值依概率(样本出现的概率)加权求和,得到的期望应等于总体参数真值。线性无偏估计量是同时满足线性和无偏性的估计量。在测量的例子中,估计量b是线性的吗?是无偏估计量吗?是线性无偏估计量吗?如果不是,需要满足什么条件才是一个线性无偏估计量呢?b是一个线性估计量,因为如果要使b成为一个无偏估计量,还必须满足假设2(S2):即当时,b为线性无偏估计量。如果假设不成立,则b是有偏的,在什么情况下,误差为零的假设不成立呢?比如测量时用的工具并不准确,总是偏大。再比某测量员总是倾向于高估测量结果等。(三)有效估计量除了上述线性无偏估计量外,考虑另一个线性无偏估计量,因为显然是线性无偏估计量,我们又如何在这两个法则中间选择最好的一个呢?期望一样,我们就进一步比较估计量的方差,并选择方差最小的那一个。如果两个无偏估计量W1和W2,总有Var(W1)<Var(W2),则称W1比W2相对有效。如果不限于考虑无偏估计量,那么比较方差大小就毫无意义。比如,无论取到什么样本,我们都设定一个等于0的估计量,其方差最小,但毫无意义。同时满足线性、无偏、最小方差的估计量称为最小方差线性无偏估计量(BLUE)。假设3(S3):,则证明:在假设1和假设2下,OLS估计量b为BLUE估计量尽管得到了但是,由于未知,仍然无法求出具体的值,为了得到的无偏估计,考虑残差平方和。因故,无偏估计为由于,估计量b的方差的无偏估计为其平方根称为标准误se注意比较下面的五个概念:总体方差:Var(Y)=均方差(meansquarederror,MSE)定义为:MSE(b)=E[(b-β)2=Var(b)+[Bias(b)]2=Var(b)+[E(b)-β]2样本方差:S是样本的随机变量估计量方差:既然估计量b是随机变量,它也有方差,其方差为/n估计量方差的估计:是对估计量b的方差的一个估计,为随机变量。(四)抽样分布既然估计量是一个随机变量,它就有相应的分布函数,称之为抽样分布。b服从什么分布呢?假设4(S4):由于均值相当于随机向量的一个函数(线性组合)。组合之后,均值仍然为随机的,而且成为一个随机变量。由于正态随机变量的线性组合仍然服从正态分布。因此b也服从正态分布,正态分布由均值和方差确定,故估计量的抽样分布下面的例题,首先生成一个均值为0,标准差为1的随机误差项,然后生成Y,再抽取8个样本,计算其均值。重复上述程序1000次,得到1000个估计值,做这些估计值的直方图,可以发现,它服从正态分布。captprogdropsdprogsddrawnormu,n(8)clear//8个期望为10的正态随机样本gy=10+uregyend***将上述抽样试验进行1000次,得到1000个均值和标准差simulate_b,reps(1000):sdsum//比较两者的均值和标准差。tw(kdensity_b)(functiony=normalden(x,10,1/sqrt(8)),range(515))(五)误差方差的估计量及其分布是一个估计量,自然是一个随机变量,那么这个随机变量服从什么分布呢?clearcaptprogdropsdprogsddrawnormu,n(8)clear//8个期望为10的正态随机样本gy=10+uregyscalars=7*(e(rmse))^2end***将上述抽样试验进行1000次,得到1000个均值和标准差simulates,reps(1000):sdtw(kdensity_s)(functiony=100*((chi2(7,x)-chi2(7,(x-0.01)))),rang(030))(七)T估计量在上面的分布中,β和σ是未知的常参数,因而仍然无法确定估计量b的具体分布。怎么办呢?能否在σ未知的情况下得到某个具体的分布?办法是构造t值,t值是一个含有未知常参数β的估计量(因为b和S都是样本的函数),而且t值的分布函数仅有样本容量n唯一确定。注意到t值实际上也是样本的一个函数,然而当总体服从正态分布时,t值成为一个仅与样本容量有关的统计量。注意到上式中仅有一个未知常参数β,我们把这种统计量称为枢柚量。四、区间估计区间估计的含义是:总体参数β(真值)被由样本和置信水平构造的区间覆盖住的概率。根据一个样本的观察值给出总体参数的估计范围,并给出总体参数落在这一区间的概率t分布仅有一个参数,即样本容量n,当n的大小被确定,分布即被决定。随机变量t落在(-∞,-t0.025)和(+t0.025,+∞)内的概率为0.05,t落在(-t0.025,+t0.025)的概率为0.95。而t由n,b,se及β四个变量所决定。给定样本,随样本变化,b和se会随之变化,而β为未知参数,但β落在区间的概率为0.95。大致意思是如果随机抽取样本容量相同(均为n)的样本很多很多次,每次都计算出相应的se,b,代入上式计算出许许多多的区间,则所有区间中约有95%将包含总体参数β,有5个不包含β。真值约有95次穿过区间,但约有5次在区间两个端点之外。对某一次抽样来说,可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言,因此所谓95%的可信度是针对可信区间的构建方法而言的。区间估计与点估计不同,它寻求一个区间,该区间以一定的概率保证真正的总体参数值包含在其中,当然,对于一个特定的样本,它可能包含参数真值,也可能不包含。captprogdropbbprogbbdrawnormu,n(100)sds(10)dclear/*生成一个标准差o=10的正态随机变量样本,样本容量为100*/gY=10+uquietlyregyend***将上述抽样试验进行100次,得到100个样本均值mean和标准误simulate_b_se,reps(100)nodots:bbgn=_n*在总体方差未知的前提下,用样本标准差sd替代,需要借助t统计量gtlow=_b-invttail(99,0.025)*_se/sqrt(100)gthigh=_b+invttail(99,0.025)*_se/sqrt(100)*考察总体均值是否在子样本的95%置信区间内,如不在则标记为1,否则为零gtsign=(tlow<5&thigh>5)*统计没有包括总体均值的子样本95%置信区间个数tabletsign*图示twrcapsymthightlown,yline(5)||rcapsymthightlownifthigh<5|tlow>5在通常的研究中,我们只进行一次抽样,只构造出一个区间,并推测这一个区间有95%的可能属于包含总体参数的区间簇,有5%的可能属于不包含总体参数的区间簇。五、假设检验真正的总体参数β是一个常数,但具体等于多少,却是未知的。我们假设总体参数等于一个值β0=10,这个值是我们假设出来的,它也是一个常数。由于不知道β的取值,我们用猜测出来的β0替代β,于是有原假设(H0:β=β0),假设值β0可能正好等于原总体的参数值β,也可能不等。想一想,你能一次性地准确猜测出真正的总体值吗?另外,注意到在原假设与对立假设中,并不涉及到估计量。利用估计量b(随机变量)和假设值β0构造一个T估计量(随机变量),这个T估计量小于临界值的概率为注意:上式中真正服务t分布的不是而是。如果原假设恰好成立,也即当原假设为真(β=β0)时,有λ=0,于是是随机变量落在左边的概率,由于临界值意味着其左边的面积为,故当取值较小时(通常为0.1、0.05或0.01),意味着随机变量出现在右边的概率就很小。当我们抽取一个特定的样本,计算后得到一个估计值b*(注意区别β,β0,b,b*),这个估计值b*是估计量b(为随机变量)的一个实现,是可以计算出具体取值的,如果出现在右边,意味着在一次取样中,不太可能出现的小概率事件出现了,于是我们倾向于认为原假设不对,拒绝(H0:β=β0),也就是认为。即使我们的假设是正确的,即β确实等于β0,但因为我们只抽得了一个样本,并利用这个样本计算出T值,这个T值有的可能出现在的右边。但我们却认这是一个小概率事件而拒绝原假设,认为β≠β0,这一拒绝是错误的选择,错误缘于抽样的偏误,使我们可能恰好在一次抽样中得到一个过大的T值,从而否定正确的原假设,这种错误叫做弃真错误,但是在原假设为真的前提下,发生这种错误的可能性只有5%。在STATA统计软件中,默认的β0=0,根据特定样本计算出来的T值为其中的“*”号表示根据某一个被抽取的样本计算得到的估计值。以这个T*值为临界点,服从t(n-1)分布的随机变量T落入两端的概率称为P值,即第二类错误由于原假设只是我们的一个假设,我们并不真正知道总体参数的真实值,因此可能从一开始,我们的假设就错误了(即)。由于这个错误的假设,我们会犯取伪的错误。就是作出正确判断(即H0为真时接受H0,取真)的概率,此时有,其中为弃真的概率。(真真)而当假设为错误,即真值不等于假设值时,即时为犯第II类错误(纳伪,即原假设为误却接受原假设)的概率。则为作出正确判断的概率(弃伪,即原假设为假,拒绝原假设的概率),又称为检验的功效。真实情形不拒绝,认为拒绝原假设,认为弃真错误纳伪错误检验的功效情形1:总体均值已知,为u=10。但我们假装不知道,却做出了对总体均值正确的原假设,认为它等于u0=10,则抽样进行假设检验如下drawnormy,n(100)m(10)sds(10)dclear*生成一个均值u=10,标准差o=10的正态随机变量,作为研究总体quietlysumydi"从样本计算t统计值为:"(r(mean)-10)/(sqrt(100)*r(sd))di"根据t统计量临界值为:"aserrorinvttail(99,0.025)diasresult"对这次实验,拒绝还是接受?"由于我们通常只取一次样,所以有可能碰巧得到的样本正好是导致我们拒绝真的原假设的样本。这时我们就会犯错误。然而,弃真错误的可能性比较小。在100次这样的抽样研究中,大概有5次左右。将上述试验进行100次,统计一下有多少次拒绝,多少次接受?captprogdrophproghdrawnormy,n(100)m(10)sds(10)dclearquietlysumyscalarref=(abs(sqrt(100)*(r(mean)-10)/r(sd))>invttail(99,0.025))*如果样本统计量(t)值大于临界值,则拒绝原假设一次jud=1,否则为0endsimulateref,reps(100):htab_sim//其中的1表示在100次中拒绝原假设的次数。情形2:总体均值已知,为u=10。但我们假装不知道,并做出了对总体均值错误的原假设,如认为它等于u0=5,则抽样进行假设检验如下captprogdrophproghdrawnormy,n(100)m(10)sds(10)dclearquietlysumyscalarref=(abs(sqrt(100)*(r(mean)-5)/r(sd))>invttail(99,0.025))endsimulatejud,reps(100):htab_sim这时,我们100次地拒绝了原假设,认为原总体的均值不可能为5。显著性:你和朋友来进行横跨西伯利亚的越野车比赛,一个月后,你以一秒之差击败他,显然你不能吹嘘自己比他快。你可能受助于某些东西,或者只是随机因素使然,别无其他。那一秒不够显著,没有办法据此得出什么结论。“自行车骑手A比B优秀,因为他平常吃菠菜,而B吃豆腐,所在A在3000里的比赛中比B快了1秒”。clearmatau=uniform(8,1)J=J(8,1,1)y=J*10+un=rows(y)//①样本容量Numberofobsndf=n-1//自由度,dfC=invsym(J'J)*J'b=C*yb//②回归系数Coef.P=J*invsym(J'J)*J'M=I(n)-Pe=y-J*be'e//残差平方和,Residualrmse=sqrt(e'e/df)//③误差标准差RootMSErmsese=rmse/sqrt(n)//④标准误Std.Err.set=b/se//t值,ttp=ttail(n-1,t)//p值,P>|t|pb-se*invttail(n-1,0.025)//95%置信区间,[95%Conf.Interval]b+se*invttail(n-1,0.025)st_matrix("y",y)endsvmatyregy六、矩估计与极大似然估计(一)矩估计矩法的核心思想:总体矩=样本矩总体矩,如正态分布的总体一阶原点矩为u,二阶中心矩为σ2,二点分布的期望为p,泊松分布的期望为λ。总体矩由随机变量的取值及其对应的概率PDF加权求和得到。样本矩,对于IID,均值对应于一阶原点矩。由于是IID,而且是简单随机抽样,因此,概率高的取值被抽中的可能性高,概率低的被抽中的可能性低,而且其频率近似等于其概率,因此对样本取值依频率加权求和得到的结果,就近似等于期望。^u=-x。另一方面,样本值的经验分布EDF是CDF的一致估计,因此,总体矩=样本矩。EDF是随机变量X的CDF的一致估计。当xi独立同分布时,由于随机变量Y=I(Xi<x)的期望为F(x),因此,正好为Y的均值,服从大数定理,所以是F(x)的一致估计量。矩法估计当然不限于期望=样本均值,相应地还有总体方差=样本方差;总体K阶原点矩=样本K阶原点矩;总体K阶中心矩=样本K阶中心矩利用矩法估计总体参数时不需要知道总体的PDF或CDF,只需要知道用未知参数表达的总体矩即可,因此具有更广泛的运用性。矩法的一般步骤:从总体矩入手将待估参数表示成总体矩的函数θ=g(EX,Var(X))。用样本矩m和s分别替换g中的总体矩EX=m,D(X)=s,则估计值θ*=g(EX,D(X))=g(m,s)=g(x1,x2,…,xn)假设1:(二)极大似然估计已知分布类型,不知分布参数。例:遇到三个人,他们每个月的消费分别是500元,400元,450元,问这三个人是著名歌星还是普通的大学生?使联合概率密度最大化,当独立抽样时,有对如上图的正态分布,由于独立随机地从同一个分布中抽样,因此,取出的样本中靠近均值u的球最多,取得极端重于u和轻于u的球的可能性都很小。于是把这些球对应的概率乘起来,积也最大。然后,当用左边的总体密度函数来计算联合概率时,由于被抽中的球都相对于u1而言过重,都分布在最右端,因此联合概率很小。同样,若为右边的总体函数,抽出的球都集中在图的左边,联合概率也很小。因此,我们猜想,最可能的总体是联合概率最大的中间的哪个总体。对数似然值极大似然的估计原理可以由下面的程序得到说明。我们首先生成10个服从正态分布的总体,每个总体的均值都不同,依次为0,1,2,3,4,5,6,7,8,9。方差相同,均为1。然后我们随机地取出一个总体,从中抽出8个样本,因为事先不知道是从哪一个总体中抽出来的,所以我们分别用已知的10个总体参数值代入似然函数,计算出10个似然函数值,取其中最大的似然值,认为该样本是从相应的总体中取出的(从而联合概率密度也最大化)。然后我们让计算机告诉我们它是从第几个总体中取样的,并与我们的判断进行对比。captprogdropmleprogmle/*生成10个均值不同、方差均为1的正态总体,每个总体取8个样本*/drawnormdoublex0-x9,n(8)m(0,1,2,3,4,5,6,7,8,9)clearglobali=int(10*uniform())//设定一个随机数,用于随机取出一个总体forvj=0/9{glnf`j
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 辽阳职业技术学院《化工CAD制图》2023-2024学年第一学期期末试卷
- 五年级数学下册应用题-分数应用题
- 廊坊燕京职业技术学院《信息系统审计》2023-2024学年第一学期期末试卷
- 江西师范高等专科学校《新媒体网络营销划写作》2023-2024学年第一学期期末试卷
- 嘉应学院《奥尔夫音乐教学法》2023-2024学年第一学期期末试卷
- 湖州学院《传感器技术与应用》2023-2024学年第一学期期末试卷
- 湖南国防工业职业技术学院《电子学二》2023-2024学年第一学期期末试卷
- 红河卫生职业学院《传播学原理与技能》2023-2024学年第一学期期末试卷
- 淄博师范高等专科学校《现代数值仿真技术》2023-2024学年第一学期期末试卷
- 周口理工职业学院《热工材料基础》2023-2024学年第一学期期末试卷
- 2025年中国华能集团有限公司招聘笔试参考题库含答案解析
- 光伏安装施工合同范本
- 2025中考数学考点题型归纳(几何证明大题)
- 2024-2025学年度第一学期二年级数学寒假作业有答案(共20天)
- 2024年质量管理考核办法及实施细则(3篇)
- 广东省佛山市2023-2024学年高一上学期期末考试物理试题(含答案)
- 人教版九年级上册数学期末考试试卷及答案解析
- 公司转让协议书的模板8篇
- 2024年城市建设和环境提升重点工程项目计划表
- 医共体的数字化转型:某县域医共体整体规划建设方案
- 中国诗词线索题
评论
0/150
提交评论