似然方法与半参数模型_第1页
似然方法与半参数模型_第2页
似然方法与半参数模型_第3页
似然方法与半参数模型_第4页
似然方法与半参数模型_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

似然方法与半参数模型

4、是否应该设置非参数和半参数参数。表示法强加进似然方法的框架中?但尼尔·贝努利曾预言似然方法拥有渐进有效、对于大多数参数问题行之有效的可计算性等优点。如果参数的数目与观测值的数目成比例地增长,这些优点就会逊色不少。结果的不一致性和识别问题(属于变量误差模型的问题)从20世纪50年代起就已经众所周知了。这表明在非参数和半参数情况下,基于似然的框架是不合适的。然而,在生存分析中,各种不同版本的偏似然方法对某些半参数模型提供了从近似理论上讲可行、可用的结果。似然方法在优化某些其它的客观函数方面大有用武之地,较少依赖概率假设。Gauss在其著作《大质量天体以二次曲线形截面围绕太阳运转的理论》中使用了正态假定来产生最小二乘法理论。在其后来的著作中他选择Legendre的方法,仅靠将平方和最小化而不再对误差的分布作正态性假设,参见。因此,不管对无限维空间还是对有限维空间,那些斜率能产生估计方程的势函数总归是有用的,例见,这些估计方程可能以损失一些有效性为代价,而得到一致性的估计。从20世纪80年代以来,关于一般半参数模型的研究越来越多,似然理论、经验似然以及估计方程也向前发展了,参见[90,43,95,114,107,59,18,141]。半参数方法是否应该被归入这个框架取决于分析的目的。如果过程的稳健性(有别于对模型假设的偏离)是主要目的,那么你就必须超越似然的规范。我们中的一些人曾在非参数密度估计领域里做过研究。其思想是从对密度做初始猜测开始(这种猜测可能正好建立在某一参数模型以及对其参数进行极大似然估计的基础上),继而对初始猜测采用一个非参数的调整过程。这已超出了似然估计的范围。结论是某些计算必须纳入似然的框架中。五、把统计推断和决策分析割裂开来是否有意义?笔者的回答是绝对肯定的。统计推断面向的是基于一组数据x进行的描述、解释和预测其自然行为这些科学目标的。这是一个很大的科学范畴。统计推断可以采取多种形式。统计模型的规范Р={Р0;θ∈Θ}是其中一部分。在决策分析中讨论集中在一个目标上,即从数据x做出决策或采取行动。这涉及到许多不同的讨论和规范,例如,针对各种可能的行动,做出可预见其损失或效用函数的讨论和规范。Wald的统计决策函数理论使我们相信,来自决策分析和博弈论的概念对于统计推断的许多情况提供了一种分析方法。这种损失函数方法对推断方法之间的比较提供了一个基础。然而,在统计推断中,损失函数主要来自主观认识。这就是为什么我们仍离不开无偏性、精确性、类似性等有关概念。最佳无偏估计量理论具有规范性,因为它为大量的损失函数族提供了“有效”推断的方法。在分布推断中可以建立类似的理论。经过这些初步思考再回头看这些问题,可将其分成三个小问题:1.如果对未来的行动或实用没有具体的目标,建立一个统计推断理论是否有意义?2.建立一个以未来一般行动为中心的决策函数理论,不考虑统计推断问题,是否有意义?3.分别建立这些理论是否有意义?对第一个问题的回答是肯定的。因为关于未来行动的讨论需要明确具体的效用函数,这些函数本身也都是值得研究的课题。这种研究将得益于初始的统计推断、概率计算、区间估计和分布推断的存在,并独立于所应用领域的具体目标和实用考虑。对第二个问题的回答也是肯定的。因为获得初始统计推断的问题有别于一般决策分析的问题。因此,为了与孟德斯鸠的《三权分立》保持一致,对于第三个问题的回答也是肯定的。最后,我们说区别对待以上两个不同的科学研究领域对于描述实际决策分析目标(例如怎样治疗一个具体的病人或优化一个具体的核聚变装置的运转)和统计推断(怎样对某一种治疗方法的治疗效果做精确的、可靠的估计)的不同着眼点之间的冲突也十分有用,参见[70,第15章,第二节]的导言,它也是受了的启发。六、怎样定量处理非产生于统计变差的不确定性,其可能性又有多大?回答这个问题之前,首先应该明确“统计变差”的含义。从随机波动引起的变异的角度,可以理解这种说法,并有待概率建模和统计分析去解决。通常统计分析不直接按照概率模型来进行,因为这样做缺乏惟一性和实际的合理性。所涉及的不确定性从贝叶斯的先验概率的选择来说,与其他非统计变异的不确定形式都属同一类型。概率术语可以用来表达这种(认识论上的)不确定性。实际上许多关于概率的数值估计都是通过事实与想象的结合来获得的。那么概率术语是否是最合适的就值得考虑。如果想象占的比例大,那么这种概率就肯定不能按照Kolmogorov的理论所研究的那种概率来对待。事实上,可以使用不确定性的其它表述方式。在模糊逻辑、人工智能、数理社会学以及日常生活中,都有人尝试将不确定性以及与之有关的概念诸如模糊、噪音进行量化。这些方法中有些是基于思辨和信念的测量,而不是概率的量度。笔者已经在难以理解和有待澄清的问题3的回答中对概率术语进行了表述,下面将转到在难以理解和有待澄清的问题14的回答中将提到的信念测量上来。对于此问题的一个简单回答是总有可能使用0到1之间的数字表示不确定性。到底有多大成效有赖于具体情况,有赖于其目标是否具有科学性。在某些情况下,不同的研究人员使用相同的信息,得到的关于概率的估计根本不一样。从科学的观点来说,在这些场合,把不确定性进行量化,就没有实效,最好说“谁也不清楚”。从非科学观点看,情形可能就不一样。从亚里士多德的《尼各马科伦理学》中,你不难推知,亚里士多德会倾向于说,明智的(phronimos)人会针对自己的目的改变他关于概率的陈述:如赢得了一场政治辩论,治好了或者至少缓和了病人的疾病。在另一种情况下,一个前来与笔者之一(W.Schaafsma)讨论统计问题的病理学家,当面临“用概率表示不确定性”时,会声明他根本不喜欢这样:“我不需要这种不确定性的表达。我从不用概率,因为我要人们了解我的看法”。因此,从科学的观点看,可能性总是存在,但当不同的受过良好教育的统计专家对同一组数据进行分析时,其实效取决于这些专家的推断的一致性。将会经常发生这样的事情:共识存在于极端场合(假定或患者),而中间场合倒存在疑虑,这不仅从概率远不止0和1这个角度上看是这样,从不同专家得到不同的概率估计这个角度看也是这样。这导致了有些自相矛盾的表述,如“如果概率接近0和1,那么概率非常有实效,但如果它们在有意设置的区间,就几乎无用”。这样说并不意味着统计分析毫无用处。在你决定概率是否接近0或1或在两者之间的某个区间之前,你要做各种不同的分析并进行许多有关的计算。七、是否所有理性的概率最终都建立在频率的基础上?首先,笔者声明,笔者喜欢始终如一地用一个不同于“概率(probability)”的词来表述每一种不是基于频数的不确定性,这与基本一致,并略有扩展。例如,用“相信的程度(degreeofconviction)”表示“主观概率(personalisticprobability)”(DeFinetti,Savage),用“似真性(verisimilitude)”来表示主观一致性和客观个体(Jeffreys)概率,用“信任(credence)”甚或“认知概率(epistemicprobability)”来表示主体间的(非频率派的)概率,它是一个对问题的各个方面经过仔细的科学调查、讨论和评估后形成的“理由充分的信任程度(reasoneddegreeofbelief)”。后一例子可以在中找到。Shafer建议用“机会(chance)”代表客观(偶然的)概率,用“概率(probability)”表示所有类型的非客观(认识的)概率。重要的是不同的概念应该赋予不同的名称。这种语言上的约定在许多不同的表达方式中明显地与[130,84,145]相一致。当然,如果从上下文看很清楚,那么,便可以在所有这些场合使用概率一词。然而,如果这种条件没有得到满足,这种使用便会导致难以理解和有待澄清以及误解。其次,我们指出:因为对于单词“sensible(明智的)”、“probability(概率)”、“ultimately(最后,终于)”、“frequency-based(基于频率或次数的)”缺乏准确的定义,这个话题本身就具有模糊性。明显地,对这些问题的回答有赖于对这些概念的澄清。这里不打算对这些概念逐一进行长篇分析,只提醒大家,概率这个词被用来描述许多不同的概念。有些在数学上有严密的定义:产生于投机游戏的概率,其具体数值靠接受概率论中的某些等概率公理作为来源;还有带有偶然性的概率,也来自概率论,这些概率都有严密定义,但都是未知的实数,并且其含义都取自大数法则理论。再次,对任何形式的认识论的概率都赋予一个0到1之间的具体数值。最后,注意在通常量子力学的处理方法中,概率的概念是作为电子的内在属性使用的,而在统计力学中,概率是用全体来表示的,这个全体是理想化的、虚拟的总体。认识论专家、许多应用统计学家以及来自许多其他领域——诸如医药及实验科学的研究人员,与把自己的注意力局限在理想情形的数学概率学家及理论统计学家相反,通常在接受“认知概率”上没有什么困难,尽管他们可能使用其它词语来标记这种0到1之间的具体数字,作为一命题或一事件的不确定性的(未知)真值的估计。这种认识论的概率(几乎)总是事实与想象的混合物。必须使用实际数据、许多理论化产物及正则条件。在许多情况下,数据可以看作是基于频率的,但想象却是心灵的产物。此类型的概率的难处在于,若举例可考虑这句话:动物实验表明,住所的电场(见)太弱,不会引起人类的癌症。此刻先放下流行病学类型的证据,“这个结论不正确的概率是多大”这样一个问题就转向了从动物到人类实验的外推的合理性问题。完全可以辩解说概率不能在这样的场合被有效的量化使用。一个贝叶斯主观概率的支持者(在任何时刻)都赞成这样一种按照通常方式从理论推导得到的概率。但这样一种概率怎能被认为具有主观上的“合理性”?按此推算,从动物实验外推到人类,大致看来起码部分应该证明是正确的,当然这是在很近似的意义上说的,且与相关类似事件发生的频率有关。如果“最终基于频率的”指观测到的频率是合乎情理的概率的一部分,那么这个问题的答案很明显是肯定的。但如果“最终基于频率的”只指涉及观测到的频率以及频率理论的思考(纯粹的概率论),那么问题的答案就绝对是否定的。在能提供所需“合理的”概率推断方法的规范化过程中,引入了某种类型的合理化或直觉(无须多说,这种合理的概率不必一定是合理的。参见对第一个难以理解和有待澄清的问题的讨论)。八、R.A.Fisher对统计中公理化公式的嘲弄是否有道理?假设Fisher确实曾如此做过,尽管我们感觉过分强调公理化会导致过多的简化并丧失思想的灵活性,我们的回答仍是他不完全正确。公理化在以下情况下有用:①作为一种智力游戏②作为一种概括几个不同结果的有效的教学方式③同时对某种具有识别力的方法强加一种数学结构,使其成为“最合适的一个”。然而更愿意相信他一般不会嘲弄这些公式。尽管Fisher有明确的观点,他还是于1934年在皇家统计协会全体会员面前宣读了他关于演绎推理(在概率论中)和归纳推理(在统计学中)的全面的比较,见。他有时认为数学中的公理化理论是灵感的源泉。他的立场被恰当地表述如下(见,第五节):“在某些期望实际应用的分支学科中,数学的公理化理论还没有也不应该被太过认真地对待。因为在应用数学领域,新概念不可避免地应该时时被作为同类科学发展引进来,任何具有公理性质的新定义都不可避免地对其要加入的公理系统的内在一致性产生威胁。”我们对这一论述深有同感,它给我们的思考带来很多的养分,也带来很多的争论。虽然有报道说Fisher与Jeffreys有良好的私人关系,并且在Fisher继Pearson出任伦敦的大学学院(UniversityCollege)的Galton教授后,“任何时候只要Pearson走进休息室喝茶,他也愿意充满敬意地与之交谈”,Fisher还真的在有些场合以一种“只有圣人才能完全原谅”的嘲弄方式,对Jeffreys(见中D.A.Lane)建立的逆概率方法以及KarlPearson(卡尔·皮尔逊)进行过攻击。Fisher确实不欣赏Neyman和EgonPearson的观点,认为他们的研究结果显示了一种“僵化的观念”,他也不赞赏Wald的观点。Neyman在[98,99]中做了回应。我们现在可以欣赏Fisher争论的风格,但要有所保留。怀着对公理化——用精确的数学确定一系列论点的前提——及某种程度上对其对手的敬意,Fisher应该更加容易地洞察一个事实:他自己巧妙地使认识的概率看起来就象是Kolmogorov学派的概率,而且,很可能他应该显得不是那么权威,而更多的象我们许多人现在表现的那样,采取折衷的态度。但是,我们当然也会因此而错过一些有趣的陈述和一些富有启发性的辩论。九、实验设计和抽样调查的随机化理论怎样才能最佳地与广泛的统计理论相适应?我们对于这些题目的熟悉程度还不足以使我们能提供一个令人满意的回答。关于这一问题的技术细节,请参考[81,26,119,38],而在临床实验框架下,请参考。为了给“年轻一代”留下一个更加贴切的回答,参见,在这里我们只对一种思想表示关注:医药研究应当总是依照随机化的设计来进行。统计学应该被看作是科学的仆人,而不是它的主人;更象Galton(统计学家——译者)的管家Gifi,而不是Galton本人。随机化设计以外的其他方面可能更加重要。例如,在医学情况下,该让病人知道他接受的是什么治疗方法吗?现在对获取病人同意的原则评价较高,获取病人的确认性的回答更被认为是道义上的义务。然而,有时尽管采用了精心准备的随机化设计,病人的这种知情权仍是很重要的。有一次,我们中的一个——W.Schaafsma被要求对某种脑肿瘤的术后理疗效果(显然有疗效)对该脑肿瘤患者的(边际)生存概率的影响发表意见。在统计咨询中,产生了一种令人不快的疑虑,部分观察到的疗效可能产生于没有接受理疗的病人安乐死的要求:接受理疗排除了或者至少干扰了这种请求的可能性。十、DeFinetti和Savage的主观概率的表述是一种错误?它把赌博行为放在第一位而认为信任要由它决定在第一个问题中,赌博行为似乎是一个导出个人概率、并使其它人(可能还包括赌博者本人)充分了解的合理的可操作方式。然而,DeFinetti和Savage的理论把赌博行为放在了信心之前,同时也把公理化理论放在了赌博行为之前。DeFinetti要求认知概率要满足一些公理,就象具体概率要满足一些公理一样,认为一致的行为需要建立一个先验分布。(事实上他要求除了通常的Kolmogorov公理外,还要求满足可互换性。)潜在的危险是没有充分的理由使认识的概率表现得象概率论中研究的具体概率(通常不能确定他们的实际值)那样。笔者认为,把这些认识的概率当作是具体的概率犯了错置具体性的谬误。因此,对于本问题的回答是:Lindley极力鼓吹的DeFinetti和Savage的个性化方法本身是错误的,它将主观的个人见解升级到了具体的证据。当Fisher在缺乏先验信息的情况下,就说所做的观察具有如此的效果,即对于θ从一个完全未知并不可能作任何概率论断的认识论上的状态,变成具有一个随机变量结果的状态时,也犯了类似的错误。他没有注意到这种后验信念分布的确定涉及到某些事实(观察)与想象的混合。对DeFinetti、Savage和Lindley的贝叶斯方法提出批评很容易,但是对这种乌托邦如果不提供任何替代品,这种批评就是不公平的。必须指出的一点是,对统计决策、统计推断特别是基于分布的统计推断等的推导必须建立在对单个题目的仔细审查上。概率的一致性很好,可以把它作为目标,但不应该不加选择地追求。中的不一致性比DeFinetti、Savage、Lindley和其他一些人的所说的一致性更有希望达到更高程度的似真性。这可以类比于一个局部线性近似系统可能比一个单一的总体线性近似系统更接近真实。导出主观相信程度的理论在效用或损失函数的适当性概念中有一个重要的副产品。从这一方面讲,Savage的推导论文尽管不容易读懂,也会有启发和收获。十一、主观概率作为公开讨论的基础有多大作用?在前一个问题中我们对DeFinetti和Savage的主观(概率)理论持批评的态度。然而,这里将回答这样的问题:主观(概率)理论是否可以作为公开讨论的基础?公众通常要求“专家们”下判断。这超越了限于一个人的主观理论。作为科学家,统计学家应该尝试让数据说话。从这一点看,DeFinetti—Savage方法不是完全没用的。通过研究许多不同的先验分布和相应的后验分布可以获得很大程度的主体间的认同。如果样本容量足够大,并且先验分布不是很怪,那么后验分布会很相似,而公众或许会对其所展示的统计专家之间的高度的一致性印象深刻。然而,如果不注意可能发生的场合的变化,比如(参数)模型的变化,就有可能被误导。不管怎样,从广义的角度来说,主观理论在某种程度上可以被用作公众讨论的基础,特别当许多“个人”被允许用一种概率或可能的方式表达他们的“观点”时。当然,它的应用是有限的,特别当一致性和内部一致性被看得比其与现实世界的同一性更重要时,更是如此。十二、在贝叶斯公式中,在看过数据后所进行的回顾性构造的先验概率,应该被区别对待吗?因为“贝叶斯学派的”与“有区别地”这两个词的意思要从上下文去推断,这就成了一个难以理解和有待澄清的问题。我们将就“推断是按照‘概率’分布进行的”这种情况回答这一问题。在格罗宁根大学,这个研究领域指“分布推断”。它包括贝叶斯推断、条件推断、数据分析、信念推断、似然推断、预测推断、结构推断等部分,且这些推断都以概率的形式进行。由这种基于分布(有时称为推断性分布)的推断所得到的“概率”都是事实与想象在认识论上的混合。要用带有适当的损失函数并对这类过程有限制的Neyman-Pearson-Wald方法对这个有些混乱的领域进行整理。贝叶斯方法具有提供方便框架的优点。它常常产生可以接受的统计过程,至少当损失函数适当的时候是如此,如无偏贝叶斯估计。其缺点是难以选择一个先验分布。回顾性构造的先验概率就严格的以及某种程度上狭义的决策论来说,是不可接受的。另一方面,笔者意识到有许多途径去建立分布推断并得到概率。一个过程在理论上的不可接纳性或许可以通过无偏性、不变性、等方差性、相似性、简洁性等优点得到补偿。应该注意:使用与数据相冲突的先验概率显然不是一个好方法。有检验这种冲突存在与否的假设检验方法。如果零假设被拒绝,你需要在应用贝叶斯理论前先修正先验概率。这种“经验性的”贝叶斯方法不应被高看,也不应被蔑视。因为数据要用两遍,第一遍用来得到先验概率,第二遍用来修正先验概率,所以应当保持适当的警惕。很明显,如果数据没有被随机地分成两个组,由此建立的(信源的)独立性假设就没有保障。这在很大程度上依赖于使用数据修正先验概率的方法。通常选择其它方法来构造推断方法。这些其它方法也避免不了同样的问题,即它们也建立在某些假设基础之上,这些假设在实际中也得不到保障。从这一方面考虑,有两个假设值得特别注意:⑴模型已有指定的先验概率的假设(在实践中往往在对数据进行了预先的观察后才将模型选出来);⑵事先没有关于参数真值的任何信息的假设。在某些情况下,一个比较分析会产生一些大家都会接受的,因而是“合理的”及“有意义的”过程。这样的比较分析也有可能表明该问题不适宜使用一个足够引人注目的推断方法。在这种情况下,尽管一般都缺乏统一的认识,可能仍存在这样的实际数据,使基于不同方法的推断充分相似,都可以获得可靠的统计结论。其它可能的情况是分析停止,问题退还给问题的提出者,不产生任何具体的推断,参见“推理的极限”。统计学家不是受雇进行猜测的,而是根据数据做出科学、可靠的统计推断,尽管存在不可避免的不确定性。十三、现行贝叶斯应用中大量采用无信息(常数)的先验概率,其唯一可靠的理由是为了产生(近似的)置信限吗?其它各种参照形式的先验概率也具有其可行的理由吗?这个问题本身的模糊形式就使其具有相当的启发性。因为使用了丰富的修饰词语,比如“惟一”、“大量”、“相当”、“无信息(常数)的”、“(近似的)”、“各种的”和“可行的”等等,从语义上分析就不容易。对第一个问题的简单回答是“不是”,因为分布推断本身(可以看作依据概率分布所做的人为的归纳判断,贝叶斯学派的或非贝叶斯学派的)就是合理的目的。类似地,这种普遍性的、非个人化的先验概率在讨论制定决策时是非常有用的。更进一步说,贝叶斯分析对阐明Stein现象也有作用,参见,并在许多应用场合发挥作用,灾难性的响应面的模型选择就是其中之一。这显然也回答了第二个问题。然而,更深刻的回答,还在下面。贝叶斯的无信息(常数)先验概率似乎与似然推断难辩真假。其不同可以通过考虑重新参数化的结果来澄清,因为其似然函数不能转化成概率密度。如果lθ(θ;x)=logLθ(θ;x)是一个参数θ的对数似然函数,那么关于任意单调变换u(θ)的似然函数lu都直接由复合函数lu(u(θ);x)=lθ(θ;x)给出。在这个意义上讲,在单调变换的情况下,似然函数作相同变换,极大似然的参数位置(即似然众数),还有与任意似然比相应的相对参数位置也都是如此,由此推知“极大值的一定比例的全宽”区间也是如此。显然,基于似然比统计量的渐进近似计算的置信区间与这个统计量基于精确的小样本分布的与此有些类似的区间(后者可能复杂但在某种程度上通过随机模拟可以得到)的关系对于θ和u(θ)来说,在数量上不一致,但这仅是根据变换u(θ)产生的结果归纳得到的结论。设πθ(θ|x)表示参数θ的后验概率密度在数据x已知情况下在θ点的值。由于在转换后有限的概率密度要保留,任意(后验)概率密度满足πu(u(θ)|x)=πθ(θ|x)|u’(θ)-1|。这就是说,与似然函数的情形相反,概率分布的中位数与其它分位数都是作相同变换的,但对于相应于一个概率密度的固定比率的众数和相对参数位置却不是这样。(对于接近其概率分布区间中心的线性近似转换,期望值仅是近似于相同变换的。)这意味着小样本似然推断从根本上有别于贝叶斯推断,即使使用了散布或(几乎)无信息(常数)先验概率时也是如此。两种方法都会产生渐进等价的过程,即它们的相对差异随着样本容量的增加而消失。这与如下的事实紧密相连:近似地讲与先验分布的影响一起,似然函数的非对称性消失,因而算术平均数、中位数、众数间的差异也将消失,在许多场合——由于中心极限定理和大样本似然函数的高斯(正态)形状——基于分位数的(贝叶斯的)与基于似然比的(非贝叶斯派的)区间估计之间的不协调也会消失。更进一步,让我们暂时遵循贝叶斯范例[24,44,53,100,139],很明显先验概率的概率变换的特性应该是与生俱来的,因为它不是似然函数提供的。这可以通过对任何“理性”的人在选择他的(主观的)先验概率的倾向性上施加影响来实现,也可以通过把一组能够自动满足概率不变性的先验概率定为通用法则来实现。后一种方法为Jeffreys所采纳,他提出把未知参数θ的函数,即Fisher信息函数的数学期望I(θ)=-Eθ(ue0142/ue014θ2)lθ(θ;x)的平方根作为(回顾性的)先验概率。在一维的情况下,这通常导致即使不是十分完美,也会很合理的结果,比如一个位置参数的无信息(常数)先验概率或正态分布尺度参数σ的对数的无信息(常数)先验概率。(后者意指所谓的规模不变先验概率,对于σ的任意次幂p,πJ(σp)~(σp)-1。)另一方面,对于一个泊松分布P(λ)我们有πJ(λ)~λ-1/2,它指对于尺度参数σ=λ-1/2有常数先验概率πJ(σ)~1,而对于柯西(“劳伦兹”)分布,其尺度参数σ与概率密度半极大值时的全宽成正比例,我们有πJ(σ)~σ-1/2。让我们在估计n次贝努利实验——X1,X2,…,Xn~B(1,θ)——的“成功”概率θ的话题上多停一会儿,这一实验序列被用来推断m次实验中成功的次数,这是一个至少“和贝叶斯一样古老”的问题,而且,在更一般些的情况下,“和Walley一样新”。Jeffreys规则在这种情况下包括先验概率πJ(σ)~(θ(1-θ))-1/2,意指关于u(θ)=arcsin(θ1/2)的无信息(常数)先验概率。尽管从报道上看,Jeffreys本人并“不喜欢”这个先验概率,从几何上讲,它处于Laplace的关于一个“无知的等分布”,πL(θ)~1的先验概率与Haldane的先验概率πH(θ)~(θ(1-θ))-1中间,Haldane的先验概率包含了关于对数比值比v(θ)=log(θ/(1-θ))的无信息(常数)先验概率。所有这些不同的先验概率当然都是Beta分布——Be(α,β)的特例,当α与β为正时,其密度与θα-1(1-θ)β-1成正比,并与二项分布共轭。(当α与β为整数时,Be(α,β)描述来自容量为α+β的样本的第α个次序统计量,与贝叶斯设想的具体情况相对应。)已知α与β,“通常的”贝叶斯法则(将期望的后验概率二次误差最小化)是通过后验期望值E(θ|x)=(x+α)/(n+α+β)估计θ。多少带有一些Fisher气质的格罗宁根的统计学家们并没有满足于这样的点估计。他们也没有完全满足于Be(x+α,n-x+β)这样的后验分布,而是发展了一种分布推断理论,其注意力集中在“弱无偏”过程上,并且,其总风险(有一个适当的损失函数)被最小化了。有趣的是,这个方法导致了关于θ真值的信任分布1/2[Be(x,n-x+1)+Be(x+1,n-x)]的产生,θ真值接近基于Jeffreys的先验概率的后验分布Be(x+1/2,n-x+1/2)。这个弱无偏限制使分布性的决策法则对于在里描述过的适当的损失函数来说难以被接受,并且也不能通过应用贝叶斯定理从先验分布获得,见,第二章。关于这个问题的各种不同的分布性推断法则的比较分析,在中称为“实用统计的基本问题”,可以在中找到。下面,我们再一次把注意力集中在点估计的复杂程度小一些的领域。在贝叶斯的总框架中,后验的中位数估计量med(θ|x)(将期望的后验绝对误差最小化)比E(θ|x)有优势,因为在所有单调变换下它都具不变性,(因此)在强非对称情况下比E(θ|x)更稳健。不幸的是,Beta分布的中位数的封闭式表达式并不存在。然而,在这篇论文的写作过程中推导出了一个实际的合理的近似表达式,即med(θ|x)=(x+α-0.3)/(n+α+β-0.6)。当两个参数x+α和n-x+β分别处于区间(1,9),(0.75,1000),(0.56,1000),(0.505,1000)内时,在对数尺度下中位数真值与其近似值间的极大绝对差小于0.01,0.03,0.10,0.15。表达式是通过将离差平方和对作为c和d的函数的(x+α+c)/(n+α+β+d)族进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论