版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
贝叶斯决策理论的起源与发展
贝叶斯决策理论是关于决策者在信息不确定的情况下做出判断和选择的理论。最重要的问题是,什么选择对决策者来说是最好的,也就是说,只有执行哪些行为才能获得最优的结果。所以,贝叶斯决策理论的主要目的是要建立一种理性选择的普遍原则,以指导决策者在不确定性的情况下作出合理的决策,并采取相应的行动。决策理论的基础是概率逻辑理论,因此,它是概率逻辑的应用。贝叶斯决策理论起源于18世纪人们对概率论的研究,但其作为一门系统化、理论化的科学理论提出来,却是20世纪的事情了。它的正式提出有赖于当时概率论、统计学、经济学等的发展和完善。贝叶斯决策理论最完善的理论形态是由萨维奇在《统计学基础》(TheFoundationsofStatistics)(1954年)一书中提出来的,我们称之为经典贝叶斯决策理论(ClassicalBayesianDecisionTheory)。贝叶斯决策理论的发展经历了从最初的经典贝叶斯决策理论到稍后的证据决策理论(EvidentialDecisionTheory),再到后来的因果决策理论(CausalDecisionTheory)的发展历程。考察贝叶斯决策理论的演进过程和研究动态,通过梳理其发展脉络而预测其发展趋势,对于我们研究和发展归纳逻辑理论及其应用具有重要的意义。一贝叶斯定理贝叶斯决策理论有许多不同的理论形态,所采用的决策原则也有所不同,但它们的重要理论基础是贝叶斯定理(Bayestheorem)和期望效用最大化原则(theprincipleofexpectedutilitymaximization)。贝叶斯定理是英国数学家贝叶斯(ThomasBayes)在《论机遇学说中一个问题的解》中提出的一个重要定理。它可以用来计算条件概率,以及描述两个条件概率之间的关系。比如,A在B上的条件概率可以用下式来表示:Ρ(A|B)=Ρ(A)×Ρ(B|A)Ρ(B)P(A|B)=P(A)×P(B|A)P(B)贝叶斯定理为主体利用搜集到的信息对原有判断进行修正提供了有效手段,也就是说,贝叶斯定理能够告知我们如何利用新证据修改已有的看法。利用贝叶斯定理,我们可以很好地刻画我们的决策准则。例如,当我们面临一个选择时,如果我们已经有了一个用数字来表示的价值概念,那么,贝叶斯定理就可以给我们提供一个算法来帮助我们决定哪种选择更好。令u是一个效用函数,它给一个行动可能导致的每一个结果都指派一个数值,以反映该结果的好坏程度。如此一来,如果行动A1比A2好,那么就可以用下面这个式子来表示:∑ipiui>∑jpjuj其中,pi是行动A1可能导致的结果的概率,ui是那些结果的效用;同样地,pj是行动A2可能导致的结果的概率,uj是相应的结果的效用。∑ipiui的值叫做行动A1的期望效用(ExpectedUtility,简记为EU)。实际上,我们总是选择那些具有最大期望效用的行动,因此,这种决策规则叫做期望效用最大化原则,简记为EU-最大化。二状态存在的概率以贝叶斯定理为基础,使用主观概率并遵守期望效用最大化原则的决策理论称为经典贝叶斯决策理论,简称为经典决策理论。对经典决策理论的建立作出了重要贡献的学者主要有兰姆赛(E.P.Ramsey)、德·菲耐蒂(deFinetti)、冯·诺依曼(J.vonNeumann)、摩根斯坦(O.Morgenstern)和萨维奇(L.J.Savage)。兰姆赛的主要贡献在于他首次把主观概率引入了期望效用理论,而且还给出了测度主观概率的方法。德·菲耐蒂的主要贡献在于他提出并发展了主观概率理论。冯·诺依曼与摩根斯坦的主要贡献在于他们在《博弈论和经济行为》(1944年)一书中建立了现代效用理论。萨维奇的主要贡献在于他系统地提出并发展了经典决策理论。“由于萨维奇的工作,贝叶斯决策理论的基本框架形成了。”下面,我们就以萨维奇的决策理论为例来讨论经典贝叶斯决策理论及其优缺点。萨维奇给出的决策模型包括三个要素:行动(acts)、状态(states)和结果(outcomes),我们分别用A,S和O来表示。其中,A指的是可供决策者选择的备选行动;S指的是决策者进行选择时需要考虑的世界状态(或外在条件);O指的是决策者选择行动A后所导致的结果。当备选行动和世界状态都是有穷的时候,一个决策问题可以用如下矩阵来表示:其中,O[A,S]表示行动A在状态S下可能导致的结果。例如,在轮盘赌中,我们需要决定是赌红色(记为AR)还是赌黑色(记为AB)。有两种可能的状态:转轮停在红色图案上(记为SR),或者转轮停在黑色图案上(记为SB)。可能的结果就有4种。决策者面临的决策矩阵如下所示:由此可知,所有行动的结果都依赖于最终的实际状态:如果你赌红色,那么转轮停在红色图案上你就赢,停在黑色图案上你就输。反之亦然。假如我们以10美元去下赌注,那么上述决策矩阵就变为:因此,我们可以把行动看做是状态和结果之间的一个函数,即O[A,S]=A(S)。作为一个决策者,我们非常关注最后的结果以及它所带来的效用(utility)。但是,由于我们并不知道哪个状态最终会出现,所以,我们需要为状态指派概率,即确定状态出现的可能性。在萨维奇的框架中,我们该如何计算期望效用呢?假如已经给定了行动A,那么,我们就可以把各种状态的概率与行动A所导致的结果的效用乘起来,即p(Si)u(A(Si))。其中,A(Si)是行动A在状态Si中所导致的结果。因此,萨维奇框架下的期望效用是:EU(A)=∑ip(Si)u(Ο(A‚Si))=∑ip(Si)u(A(Si))=∑ip(Si)u(A∧Si)有了这个期望效用公式之后,决策者就可以根据以下的原则来进行决策了:行动A1比A2好,当且仅当,EU(A1)>EU(A2)值得注意的是,萨维奇认为,上式中的概率p是唯一的,效用u也是唯一的。也就是说,“萨维奇通过上式表明,一个决策者的偏好只要满足他的公理条件,他就可以通过一个唯一确定的概率和一个几乎是唯一确定的效用来最大化他的期望效用,并以此对其行动前景进行评价和预测。”79当然,如果两个行动的期望效用相同,那么就无所谓好坏之分了。例如,在轮盘赌那个例子中,假定效用就是金钱,而且,我们面临的两个选择是:以10美元为赌注赌转轮停在黑色图案上(记为AB),或者以10美元为赌注赌转轮停在红色图案上(记为AR)。此外,由于转轮最终是停在黑色图案上还是红色图案上,是完全随机的,所以,这两种状态出现的概率都是1/2。根据萨维奇的期望效用公式,AR的期望效用为:EU(AR)=p(AR)u(AR(SR))+p(AB)u(AR(SB))=(1/2)×10+(1/2)×(-10)=0该结果与我们所期待的结果相同。同样地,以10美元为赌注赌转轮停在黑色图案上即AB的期望效用也是如此。因此,在这两种行动方案中,没有哪种更具优越性,这也是非常符合我们的直观的。当然,如果非要作出一个选择的话,那么,我们随机选择一个行动即可。事实上,萨维奇是想利用“偏好”这一概念来定义行动的效用并刻画人们的决策过程。为此,它引入了一个二元偏好关系算子≥,该算子的意思是,决策者认为前一个行动好于后一个行动(至少不比后一个行动差)。因此,“萨维奇试图用理性偏好来为期望效用最大化原则进行辩护。他通过在偏好等级上加上一些限制条件,并给出了一个表征定理来表明,任何一个偏好满足那些限制条件的决策者都能够通过增加期望效用来自动为他们的行动进行排序。”78萨维奇系统中最重要的一条公理就是“确定性原则”(sure-thingprinciple),即令A1和A2是两个备选行动,如果决策者在状态S中对这两个行动并没有明显的偏好,那么,不管A1和A2的结果是什么,都不会改变决策者的上述偏好。21换句话说,S中的结果是一个“确定性的事件”,它并不依赖于人们是选择行动A1还是选择行动A2。萨维奇框架非常简单、优美,而且在多数情况下都是非常恰当的。但是,正如杰弗里所指出的那样,该框架存在一些看上去并不那么合理的决策问题,由此作出的决策,往往不太令人满意。8-9正如下面的这个“停车”案例115-116所指出的那样。假如你刚把车停在一个破旧的街区,一个男子走过来向你要10美元的“保护费”以保护你的汽车不受损。你意识到这纯粹是敲诈勒索,而且你也知道,那些曾经拒绝交“保护费”的人的车,挡风玻璃都坏了,而那些交了“保护费”的人的车却没有遭此“劫难”。而你此时又不能选择把车停在别处,因为你要参加一个非常重要的会议,而会议马上就要召开了。并且,换一块挡风玻璃得花400美元。你是否应该交“保护费”呢?现在,假定你作如下推理。首先,这里无非有两种可能的状态:一种是该男子砸坏了你的挡风玻璃,一种是该男子没有砸坏你的挡风玻璃。其次,如果你给了他10美元,那么,可能的结果就有两种,一种是你支付了10美元给那个男子且你的挡风玻璃没有被砸坏,另一种是你支付了10美元给那个男子且你的挡风玻璃被砸坏;如果你不给他10美元,那么,可能的结果也有两种,一种是你没有支付10美元给那个男子且你的挡风玻璃被砸坏,另一种是你没有支付10美元给那个男子且你的挡风玻璃没有被砸坏。其决策矩阵如下:在萨维奇看来,不管那两种状态的概率是多少,“不交给那男子10美元”的期望效用都比“交给那男子10美元”的期望效用要高一些,因为在所有的可能状态中,由前一个行动导致的结果都比后一个行动导致的结果要好,表现在决策矩阵中即为,在S1和S2这两种状态下,下一行的效用都比上一行的效用要高(决策者都可以多拥有10美元)。但这是错误的。很明显,你最终将面临的情况是:如果你不给那男子10美元的保护费,那么你的挡风玻璃就会被砸坏;相反,如果你给了那男子10美元的保护费,那么你的挡风玻璃就不太可能被砸坏。以10美元的极小代价就可以避免挡风玻璃被砸坏的糟糕结果,所以你应该付那10美元。三“条件概率psa”取代“不交10亿美元”经典贝叶斯决策理论之所以会出现上述违背人们直观的决策问题,主要原因在于它忽略了下述事实,即我们的行动与世界的状态是密切相关的。“萨维奇的期望效用最大化是根据他的(期望效用)公式来定义的,而该公式是建立在一个假定上面的,即理性主体关于世界状态的可能性的信念与他的行动无关。”115这种假定显然是有问题的。我们以一个简单的例子来说明这个问题。假如一个学生正在考虑是否有必要对即将举行的考试进行复习。他的推理如下:如果他将顺利通过考试,那么复习就是浪费时间。同样,如果他没有通过考试,那么复习也是浪费时间。所以,不管最后是否通过了考试,复习都是在做无用功。因此,最佳的选择是“不复习”。显然,这种推理是有问题的,因为复习可以提高他的考试通过率,也就是说,他成功通过考试的概率很有可能受到其所采取的行动(复习或者不复习)的影响。因此,在进行决策的时候,我们必须考虑行动对结果的概率的影响。为了解决这个问题,杰弗里建议我们允许状态的概率随着我们拟采取的行动的不同而改变,即对同一状态在不同的情况下赋予不同的概率权重。比如,在上述的“停车”案例中,在“交10美元”的情况下,“挡风玻璃被砸坏”的可能性就非常小(比如0.01),而在“不交10美元”的情况下,“挡风玻璃被砸坏”的可能性就非常大(比如0.99)。同样,在刚刚提到的“考试”案例中,在采取“复习”这一行动的情况下,“通过考试”这一状态的概率可能是0.8,而在“不复习”的情况下可能是0.3。实际上,杰弗里的这一建议就是让我们用条件概率p(S|A)取代萨维奇公式中的非条件概率p(S)来计算期望效用。当然,杰弗里之所以可以给出这样的建议,得益于他一个巧妙的技术处理,即杰弗里把行动、状态和结果均看做命题,而不是像萨维奇那样在行动、状态和结果之间作出明确的区分。如此一来,我们就可以谈论我们拟采取的某个行动命题的概率、某个状态命题的概率,以及由此导致的某个结果命题的概率了。对于效用来说也是如此。而且,我们还可以用概率来刻画行动和状态之间的关系,以及行动-状态对(action-statepairs)与结果之间的关系。因此,在杰弗里的系统中,行动的证据期望效用可以用下式来计算:EEU(A)=∑ip(wi|A)u(Ο[A‚wi])=∑ip(wi|A)u(A∧wi)其中,wi是事情发生的所有可能方式,即决策空间Ω的所有单元素集wi(为了保持形式系统的简单性和一致性,我们假设Ω存在且是有穷可数的)。把这种新的方法应用到前面提到过的“停车”案例中,我们会发现,一个恰当的概率指派可以导致“交10美元”这一行动获得一个较高的证据期望效用。比如,在“交10美元”的情况下,我们给状态“挡风玻璃被砸坏”指派0.01的概率,而给状态“挡风玻璃不被砸坏”指派0.99的概率;相反,在“不交10美元”的情况下,我们给状态“挡风玻璃被砸坏”指派0.99的概率,而给状态“挡风玻璃不被砸坏”指派0.01的概率。此时,我们面临的决策矩阵变为:此时,行动A1和A2的证据期望效用分别为:EEU(A1)=(-410)×0.01+(-10)×0.99=-14EEU(A2)=(-400)×0.99+0×0.01=-396显然,行动A1的期望效用高于行动A2,因此,我们应该“交10美元给那男子”。这也说明了杰弗里系统与萨维奇系统的最大区别,即p(wi|A)随行动A的不同而变化。而作出上述概率指派也是合理的,因为“交10美元”这个行动的确会极大地增加“我的挡风玻璃不会被砸坏”这一个优势结果的概率。当然,萨维奇也意识到了在“停车”案例这类情况中,结果的概率依赖于我们拟采取的行动。他认为,在这类情况中,我们应该对那些可能的状态进行个别化处理,即对可能的状态进行一个划分(partition),以使得它们独立于行动。例如,我们可以对上述“停车”案例中的状态作如下划分115-116:S1:不管你怎么做,挡风玻璃都会坏。S2:如果你交了保护费,那么你的挡风玻璃就不会坏;但是,如果你不交保护费,那么你的挡风玻璃就会坏。S3:如果你交了保护费,那么你的挡风玻璃就会坏;但是,如果你不交保护费,那么你的挡风玻璃就不会坏。S4:不管你怎么做,挡风玻璃都不会坏。如此一来,期望效用就可以继续用萨维奇的公式来计算了。因此,只要我们对可能状态作一个恰当的划分,我们就可以找到一个公式,它可以给出该问题的正确答案。但是,萨维奇的这种处理方式面临着一个难题,即我们需要找到一个划分,使得状态和行动在其中是概率独立的。这相对于杰弗里的理论,有许多的“不足”之处:首先,在萨维奇的框架上,行动和结果并不具有概率,也就是说,p(A)和p(A∧S)是未经定义的,所以,我们无法在萨维奇的框架上来表述“状态概率独立于行动”这一思想,即p(A∧S)=p(A)p(S)。其次,证据决策理论不仅让我们表达出行动和结果之间的概率关系,而且不管我们怎么处理此问题,它都会让我们得到相同的答案。一个命题的期望效用与其在任意划分下的期望效用是相等的。这种划分不变性(partition-invariance)非常重要,它“使得人们在小世界(SmallWorld)中作决策时也可以采用期望效用最大化原则。”121四吸烟是否会导致肺癌随之而来的问题是:证据决策理论是否真的没有任何缺陷呢?回答是否定的。事实上,后来人们发现,证据决策理论也存在一些问题。正如乔伊斯所说,“在一些决策问题中,我们对好消息的追求可以得到最优的结果。但这只是在主体的选择和期望结果的出现之间具有统计学的或证据性的联系且没有任何因果联系时才成立。当行动的证据性结果和因果性结果不一致时,证据理论就会告诉决策者应当优先追求好消息而不是好结果。包括我在内的许多哲学家都认为这是错误的。”146下面我们以一个简单的例子来说明。假如你正在考虑是否吸烟,而且你也知道,吸烟是一件非常愉快的事情。此外,最近的科学研究还表明,吸烟对身体无害,更不会导致肺癌,人们患肺癌是由于他们具有一种“吸烟基因”,该基因可以导致以下两种情况发生:(1)使得这些人觉得吸烟是一件非常愉快的事情;并且(2)使得这些人容易患上肺癌(但肺癌并不是由于吸烟所致)。在这种情况下,即吸烟不仅能让你觉得非常愉快而且对身体无害,你有理由拒绝吸烟吗?证据决策理论给出的建议是:拒绝吸烟。因为吸烟是某人具有吸烟基因的一个有力证据,所以,吸烟会大大提高该人患上肺癌的风险。而患上癌症远比享受吸烟的乐趣要糟糕得多。因此,证据决策理论建议你戒烟。但是,这种建议似乎并不合理。因为科学研究已经表明,吸烟并不会导致肺癌,吸烟仅仅是某人具有吸烟基因并因此很有可能患上肺癌的一个证据而已。如果你具有吸烟基因,那么,不管你是否吸烟,你都依然具有该基因。因此,戒烟并不能阻止你患上肺癌。也就是说,不管你是否具有吸烟基因,这都是你无法改变的事实。因此,你可以放心地选择吸烟并享受吸烟带来的乐趣。大多数人认为后面那个论证更有说服力,理由如下:如果你拒绝吸烟,这也许是一个好消息,因为它减少了你患肺癌的风险;但是,拒绝吸烟并不能阻止你患肺癌,因此,拒绝吸烟即使有证据价值也没有任何实际价值。如果你赞同这种观点,那么,你就已经脱离了证据决策论者的阵营,转而加入了另一个新的决策论者的阵营:因果决策论者的阵营。1因果决策理论和证据决策理论之间最主要的区别在于,如何去计算行动的效用。因果决策理论基于行动的效力(efficacy),即它们带来好结果的能力来评价它们,而不是基于作为好消息的行动的价值(value),即证据决策理论所考虑的对象来评价它们。在上述的吸烟案例中,证据决策理论建议你拒绝吸烟,主要是它把你吸烟看成是你具有吸烟基因的一个证据,因而也是你很有可能会患上肺癌的一个证据,所以,你应该拒绝吸烟。因果决策理论建议你吸烟,主要是它并不把这种由某种“公共原因”所导致的行动和坏结果之间的证据联系看成是你应该拒绝吸烟的一个理由,因为吸烟和患上肺癌之间的联系仅仅是证据性的,而不是实质性的,即它并不是导致人们患上肺癌的真正原因。“在考虑是否执行某个行动时,我们需要考虑的是执行该行动后会导致的后果(consequences)。而这种后果应该是因果性的,而不是证据性的。这就表明,一个正确的决策理论公式应该使用‘因果概率’,而不是条件概率P(O/A)。”具有上述特征的决策理论就是因果决策理论。因果决策理论的一种非常经典的表述方式来自斯科姆斯(B.Skyrms)。斯科姆斯的想法是,寻找一种特殊的划分,它把Ω划分为大卫·刘易斯(DavidLewis)所说的那种“依赖性假设”(“dependencyhypotheses”),这种理论将表明你所关注的那些结果是如何因果地依赖于你的行动的。这种划分中的每一个元素都将清楚地表明你潜在的行动是如何影响可能出现的结果的。我们把这样的划分叫做K-划分。于是,一个行动的因果期望效用就可以用下式来计算了。CEU(A)=∑ip(Κi)∑jp(wj|A∧Κi)u(wj)事实上,当世界的因果结构已经给定的时候,证据期望效用与因果期望效用是一致的。也就是说,一个行动导致一个结果的趋势(tendency)恰好与给定行动下的结果的条件概率相吻合。但是,由于你的行动和可能的结果之间的因果关系是未知的,所以,我们必须先计算出所有可能的相关假设的证据期望效用,然后用它们各自的概率作为它们的权重进行加权求和。当然,实现上述思想的方法还有许多。比如吉伯德(A.Gibbard)和哈伯(W.Harper)就建议我们用虚拟条件句来刻画行动的因果影响。我们知道,虚拟条件句具有如下形式:“如果A成立,那么B也成立”(简记为A□→B)。一般说来,如果B不发生则A也不会发生,那么,A就是B的一个原因。所以,吉伯德和哈伯建议我们用下列公式来计算行动A的期望效用:∑ip(A□→wi)u(wi)如此一来,我们就可以利用A的特性来得到好的结果,并将其作为我们行动的指南。不过,刘易斯认为,吉伯德-哈伯的方法以及其他类似的方法其实是同一方法的不同表述而已,它们和前面讲到过的通过K-划分来定义的因果期望效用是等价的。然而,乔伊斯认为,应用K-划分虽然可以获得直观上正确的结论,但我们为此付出的代价却是:我们必须找到一个正确的划分。这似乎又回到了萨维奇的方法上去了。所以,乔伊斯提出了另外一种方法,即“想象法”(imaging)来实现上述设想。172-176他建议我们用下式来计算因果期望效用:CEU(A)=∑ipA(wi)u(wi)其中,pA是p在A上的象(image)。当然,我们也可以把pA看做一个概率函数。它是乔伊斯发明的一种计算行动功效值的方法,他通过把P(·\A)与PA(·)等价来得到U(A)的正确值。想象法的作用是把集合A外面的世界的概率迁移到A中那些与其最相似的世界上去。在乔伊斯看来,这还是一种很不错的信念修正法。具体的做法是:当一个决策者在评估A的功效值的时候,他通过假定A为真来暂时修改他的观点,并且通过关于A-世界集中的世界之间的整体比较相似性的判断来给A-世界集中的┓A重新指派主观概率。所以,这也是一种判断“如果A为真,那么B将会怎么样”的认识论方法。174-175以此为基础而构建的乔伊斯因果决策理论可以很好地区分因果期望效用和证据期望效用,而且,它还允许我们把证据决策理论和因果决策理论看做是具有一个共同基础(即条件期望效用)的两种理论形式。然而,因果决策理论本身也存在着一些问题。最近,伊根(Egan)就发现了它的一个问题。比如,有一个“消灭所有疯子”的按钮,只要按下它,就可以杀死所有的疯子。保罗相信他自己不是疯子,并且非常希望能消灭地球上所有的疯子(因为他认为生活在一个没有疯子的世界上比生活在一个有疯子的世界上要舒服得多)。然而,保罗却认为只有疯子才会去按下
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论