概率图模型第八章_第1页
概率图模型第八章_第2页
概率图模型第八章_第3页
概率图模型第八章_第4页
概率图模型第八章_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、的键入文字键入文字概率图模型作者:Daphne Koller2014/10/15Nir FrieMan如果某个想要反映现实,那么这个公理一定不是确定的公式;而如果这个公理是确定的公式,那么它一定没有完全反映现实情况。,1956当我们想从某些事物中发现规律时,会有无数看不见又争脱不掉的绳索将我们,宇宙万物2皆是如此。,1869如今的逻辑科学认为某个只能是确定的,不可能的或者完全不确定的,这使得推理失去了价值。真正的逻辑科学应该是对概率的有理性的人。,而这些将逻辑与概率在一起的是真正具,1850概率实际上就是常识抽象为了微;现实中人们也许都对某些有些直觉的,却无法精确的计算,概率使得我们可以对这些

2、的精确性做出评价。拉,1819对概率的误解可能是提高科学素养过程中最大的。··的键入文字键入文字8指数分布族2简介1.1在之前的章节我们了多种复杂概率分布的表示方式,全局结构的表示(比如斯和)和局部结构表示方式(条件概率分布的表示势函数)。本章我们复习一下这些表示方式,并从不同的角度来这些表示方式。这种角度使得我们可以分析。在之后的章节中我们会看到,这些解决方一些基本的,并从广义的角度来解决这些法在不同表示方式的推断和学习算法中起着重要作用。,本章内容有些抽象且数学味儿很浓。虽然本章的内容对于理解学习和推断的理论基础很重要,但是要理解学习和推断算法本身即使没有本章内容也是可

3、以的。因此,如果读者只是关注算法本身而不是关注算法背后的理论的话,那么本章可以跳过。指数分布族1.2我们目前的讨论主要集中在如何表示一个概率分布(比如说用和网络)。现在我们要分析概率分布族的概念。直观上来说,概率分布族就是具有相同参数形式, 而参数取值不同的概率分布集合(比如条件概率分布表中的项)。通常来说,一旦我们给定了的全局结构和局部结构,我们实际上就是定义了一个概率分布族,其中概率分布的参数取决于条件概率分布中具体的参数值。案例 8.1假设有一个空的图结构𝒢𝜙(译者注:指的是只有节点没有边),其变量空间为𝒳 = 𝑋1, .

4、. , 𝑋𝑛。我们可以定义一个概率分布族𝑃𝜙,其中分布族内的所有概率分布与𝒢𝜙都是一致的。如果𝒳内的所有变量都是二值的,那么我们可以用 n 个参数𝜽 = 𝑃(𝑥1): 𝑖 = 1, , 𝑛来表示分布族内的𝑖某个具体分布。(译者注:因为这 n 个随量是边缘的)我们对能够写成某种具体形式的概率分布族比较感。定义 8.1指数分布族设𝒳为变量集合,𝒳上的指数分布族由

5、四部分组成:l充分统计量函数𝜏,它是从𝒳取值到𝑅𝐾的函数,其中的𝐾指的是𝜏函数值的维数,这里的充分统计量是 x 的函数,它必须不依赖于参数𝜃(译者注:译者认为,按照一般的定义来说,充分统计量是数据集的函数,而通观所有的指数分布族定义中并没有提到数据集的概念,所以我们可以将数据集理解为就是𝐱,那么如何确定这个函数是不是一个统计量呢?根据指数分布族的形式和因子分解定理。所以下文中提到的统计量一定是一个数据集只有𝐱的统计量,或者 脆理解为这里是说统计量,而不

6、是充分统计量。)参数空间内的合法参数是一个凸集𝛩 𝑅𝑀ll参数的自然参数函数𝑡,它是从𝑅𝑀到𝑅𝐾的函数(译者注:统计量的维数与参数个数不一定是相等,如果不等的话叫做 curved 指数分布族,我们遇到的一般概率分布都不是 curved) 关于𝒳的辅助测度𝐴𝜽 𝛩都确定了概率分布族中一个具体的概率分布𝑃𝜃:l每个参数1𝑃𝜃(𝜉)

7、 = 𝑍(𝜃) 𝐴(𝜉) 𝑒𝑥𝑝𝑡(𝜽), 𝜏(𝜉)(8.1)其中𝑡(𝜽), 𝜏(𝜉)是𝑡(𝜽)和𝜏(𝜉)的内积,此外𝑍(𝜃) = 𝐴(𝜉) 𝑒𝑥𝑝𝑡(𝜽

8、;), 𝜏(𝜉)𝜉是𝒫的配分函数,它的值必须是有限的。参数空间确定的指数分布族𝒫定义为:𝒫 = 𝑃𝜃:𝜽 𝛩我们可以看出,指数分布族实际上是一类具有相似函数形式的概率分布的精简表示方式。3概率分布族中某个具体的分布由合法参数集合中的某个参数𝛉确定。充分统计量函数综合了赋予观测𝐱概率的各方面信息(译者注:译者认为这句话是说,对于某个的概率,公式可以写成是充分统计量的函数)。而自然参数函数t将参数从参数空间到

9、充分统计量空间中去。辅助测度A给出了观测𝐱额外的概率倾向,而这种倾向不依赖与参数。,大多数情况下,我们认为A是一个,当A不是的时候我们会显式提出来分析。尽管指数分布族的定义非常抽象,但是我们遇到的许多概率分布都属于指数分布族(译者注:从这句话看来,指数分布族实际上还可以分,根据其自然函数、充分统计量的不同可以对应于不同的概率分布,比如分布、伯努力分布等,而再根据参数的不同可以对应不同的具体某个概率分布,实际上作者书中说的是 exponential familys,只是译者不知如何翻译这个 s)。案例 8.2以简单的伯努力分布为例,这时概率分布是关于二值的结果(比如投银币的结果)

10、,它只有一个参数𝜃,用来表示令统计量𝑥1发生的概率。为了说明伯努力分布属于指数分布族,我们可以𝜏(𝑋) = 𝟏𝑋 = 𝑥1, 𝟏𝑋 = 𝑥0(8.2)为一个数值型的,该的值代表了变量𝑋的取值,此外,令自然参数𝑡(𝜃) = 𝑙𝑛𝜃, 𝑙𝑛 (1 𝜃)显然,当𝑋 = 𝑥

11、;1时,𝜏(𝑋) = 1,0,因此𝑒𝑥𝑝𝑡(𝜽), 𝜏(𝜉) = 𝑒1𝑙𝑛𝜃+0𝑙𝑛 (1𝜃) = 𝜃同样,对于𝑋 = 𝑥0的情况,我们可得𝑒𝑥𝑝𝑡(𝜽), 𝜏(𝜉) = 1

12、0579;。因此我们可得,令𝑍(𝜃) = 1, 那么这个指数分布族函数形式的概率分布就是伯努力分布。(8.3)案例 8.3现在来看看单变量的分布,其概率密度函数为:(𝑥 𝑢)21𝑃(𝑋) =𝑒𝑥𝑝 2𝜋𝜎2𝜎2令𝜏(𝑋) = 𝑥, 𝑥2(8.4)(8.5)𝑡(𝑢, 𝜎2) = 𝑢

13、 , 1𝜎22𝜎2𝑢2𝑍(𝑢, 𝜎2) = 2𝜋𝜎 𝑒𝑥𝑝 (8.6)2𝜎2我们可以1𝑃(𝑋) =𝑒𝑥𝑝𝑡(𝜽), 𝜏(𝜉)𝑍(𝑢, 𝜎2)事实上,我们在概率上遇到的大部分参数化的概率分布都可以用指数分布族的形式表示

14、。泊松分布、指数分布、多项式分布、分布和其它的分布(见练习 8.1)。一般来说我们可以构建多个指数分布族来表示同一类概率分布。,我们希望一类概率分布只能对应一个指数分布族。首先,我们希望参数空间是RM空间中的一个凸的开子集。其次,我们希望参数是非冗余的每个参数都对应于一个唯一的概率分布。更精确的说,我们希望𝛉 𝛉意味着P P。我们可以,只要自然参数函数t在参数空间内是可逆函数,那么这个指数分布族就不是冗余的。这样的指数分布族叫做可逆指数分布族。会看到,这种约束可以使得某些运算能够高效的进行,具体来说就是,在某个指数分布族中找到概率分布P的一个好的近似分布Q。1.

15、2.1线性指数分布族有一类特殊的指数分布族,它的自然参数函数t是恒等函数(也即是t() = )。这就意味4着参数的个数等于数据表示统计量的维数K。这时,参数也叫做给定充分统计量函数的自然参数。这个名字的意思是说,在指数分布族的函数形式的指数部分,与充分统计量做内积的参数不需要变化。当使用自然参数时,公式 8.1 可以简化为1P() = Z() exp , ()显然,对于给定的任意充分统计量函数,我们可以用自然参数的形式来重新参数化指数分布族(译者注:这句话说的太抽象,根据百科,这句话的意思应该是说,一个概率分布可以有多种不同的参数化形式,如分布,它可以用u, 参数化,它也可以用 ⻖

16、6; , 1 来参数化,对于任意的指数分𝜎22𝜎2布族,只要它满足参数的维数和统计量维数都是𝐾这样的约束,也即是它们在同一个空间内,我们就可以重新参数化这个概率分布为 = 𝜃 = 𝑡(𝜃),下面如果提到自然参数就是指经过这样转换的自然参数)。,如上所述,我们希望参数空间满足某些约束,而自然参数所在的空间RK却不一定满足这样的约束。实际上,对于线性指数分布族,我们希望RK中的任意参数都定义了指数分布族中的一个概率分布。,这种愿望并不总是可以实现的。回顾合法参数空间的定义,它要求每个参数 对应一个合法的

17、(归一化的)概率分布P。这实际上说明归一化的要求给了合法参数空间一个约束。案例 8.4还以分布为例。假设我们根据自然参数函数𝑡定义了一个新的参数空间。也即是令𝜼 =𝑡(𝑢, 𝜎2) = 2𝑢 , 为原始参数𝜃 = 𝑢, 𝜎2转换后的自然参数。显然我们可得1分布对应2𝜎22𝜎2的指数分布族为𝑃𝜼(𝑥) 𝑒𝑥𝑝 𝜼

18、, 𝜏(𝑥)上的任意取值都能导出一个合法的概率分布(注意这里要将𝜼当作)。为了保证这个概率分布满足归一化约束,我们要能够求出𝒁(𝜼) = 𝑒𝑥𝑝 𝜼, 𝜏(𝑥)𝑑𝑥,并不是𝜼在二是一个普通的二维来= 𝑒𝑥𝑝 𝜂1𝑥 + 𝜂2𝑥2𝑑𝑥

19、是无穷大,因为函数𝑒𝑥𝑝 𝜂1𝑥 + 𝜂2𝑥2当𝑥趋近于和 时仍然的值。如果𝜂2 0,这个是增长的。如果𝜂2 < 0,这个是一个有限的值。如果像公式 8.5 一样,令𝜼 = 𝒕(𝑢, 𝜎2),我们会发现二维的第二维始终的负的(因为𝜎2 > 0)。实际上我们可以发现,原始参数空间𝑢, 𝜎2 𝑅 

20、15; 𝑅+经过自然参数函数𝑡(𝑢, 𝜎2)转换之后变为了空间𝑅 × 𝑅。我们可以𝑅 × 𝑅中的任意取值𝜼,归一化常量𝒁(𝜼)的取值都是可求的。空间更一般来说,当我们分析给定充分统计量函数的自然参数时,我们实际上定义了一个默认的自然参数集合,也叫做自然参数空间,其中自然参数空间的参数都是可归一化的: = 𝛉 RK: exp 𝛉, ()d < 对于有限离散空间上的概

21、率分布,RK空间中的任意值都使得为无限大,所以其自然参数空间为 = RK。而在其他情况下,比如分布,自然参数空间要有的约束。如果一个指数分布族可以写成自然参数的形式,并且自然参数空间是凸的开集,那么我们称这样的指数分布族为线性指数分布族。线性指数分布族的概念大大简化了分布族的定义。我们只需要定义不同的统计量函数就可以确定不同的指数分布族;而分布族定义的其他部分隐式的基于这个函数。这就为精简描述概率分布提供了一个工具。同时我们还会看到,线性指数分布族还有一些其它的优点。那么我们去哪儿找线性指数分布族呢?我们之前的分布和伯努力分布都不是用线性指数分布族形式给出的。,如案例 8.4,我们可以将一个非

22、线性指数分布族的参数进行转换,使其变为线性指数分布族的形式。这个例子似乎让我们感觉任何非线性指数分布族都可以重新参数化为线性指数分布族。,我们还有一些特殊的情况没有考虑。案例 8.5现在来分析伯努力分布。与案例 8.4 一样,我们用𝑡(𝜃)重新参数化𝜃,案例 8.2 中的5自然函数参数𝑡是曲线𝑙𝑛𝜃, 𝑙𝑛 (1 𝜃)。这个曲线不是凸集,显然它只是自然参数空间的一个子集。我们可以考虑用𝑅2 作为自然参数空间,其对应的充分

23、统计量函数为等式 8.2 𝜏(𝑋) =𝟏𝑋 = 𝑥1, 𝟏𝑋 = 𝑥0 。这就使得伯努力分布的指数分布族参数形式为:𝑃𝜃(𝑥) 𝑒𝑥𝑝𝜽, 𝜏(𝑥) = 𝑒𝑥𝑝 𝜃1𝟏𝑋 = 𝑥1 + 𝜃2x

24、783;𝑋 = 𝑥0因为伯努力概率分布的空间是有限的,所以任意𝜃1, 𝜃2都能导出一个合法的概率分布。,我们可以这个概率分布组是冗余的:对于任意常量𝑐,参数𝜃1 + 𝑐, 𝜃2 + 𝑐和𝜃1, 𝜃2定义的是相同的概率分布。因此,对于伯努力分布来说,二维的自然参数空间过参数化;相反,根据自然参数函数定义的一维子空间不是凸的(译者注:这里说的一维,两维是参数的个数)。这个的解决是采用另一种一表示方式。因为在二中冗余现象,所以

25、我们令𝜃2固定为0。这就可以导出伯努力分布的如下表示方式:𝜏(𝑥) = 𝟏𝑥 = 𝑥1𝜃𝑡(𝜃) = 𝑙𝑛1 𝜃我们可得𝜃𝑒𝑥𝑝 𝑡(𝜃), 𝜏(𝑥1) =1 𝜃𝑒𝑥𝑝 𝑡(𝜃), &

26、#120591;(𝑥0) = 1因此,𝜃1𝑍(𝜃) = 1 +=1 𝜃1 𝜃据此,我们可以1𝑃 (𝑥1) = (1 𝜃)= 𝜃𝜃1 𝜃因此,我么可得这种指数分布族表示形式可以表示伯努力分布。需要注意的是,在这个新的表示,𝑡的值域是实数线𝑅上的所有点,它是一个凸集,所以我们可以用这个充分统计量函数定义一个线性指数分布族。案例 8.6现在,我们分析多项式分布,其中变量w

27、883;有𝑘个不同的取值𝑥1, . . , 𝑥𝑘。这个情况与伯努力分布类似,如果用最简单的指数分布族表示方式我们会发现,合法的自然参数空间是𝑅𝐾上的一个流行。因此,充分统计量函数定义为从𝑥到𝑅𝑘1空间中的函数𝜏(𝑥) = 1𝑥 = 𝑥2, . ,1𝑥 = 𝑥𝑘:用伯努力分布中相似的,我们可以看出,如果我们定义自然参数函数为𝜃2

28、𝜃𝑘𝑡(𝜃) = 𝑙𝑛, , 𝑙𝑛𝜃1𝜃1那么我们就可以将原多项式分布写为指数分布族形式。同时我们也可以函数𝑡的值域就是𝑅𝑘1。因此,通过对多项式分布重新参数化,我们可得多项式分布为线性指数分布族。所有这些例子都定义了一个线性指数分布族。我们可能要问,是否非线性指数分布族的概率分布呢。的知识。会看到,这种情况是的,而要表示这样的例子我们还需要其它可因子化的指数分布族1.3我们的两个例子都是

29、单变量的概率分布。显然,我们可以将指数分布族的概念推广到多元概率分布的情况。事实上,我们已经遇到过这样的例子。回顾定义 4.15,我们定义 log-linear模型定义了如下形式的概率分布:6kP(X1, . . , Xn) exp i fi(Di)i=1其中每个特征fi都是一个定义域为Di的函数。这样的概率分布显然是一个线性指数分布族, 其中充分统计量为特征() = f1(d1), , fk(dk)我们知道,通过选择合适的特征,我们可以用 log-linear 模型表示任意给定的离散网络结构。这就说明,离散结构属于线性指数分布族。1.3.1累乘形式的概率分布累乘形式的概率分布函数具有什么性质

30、呢?直来这个似乎非常的容易。多项的乘积对应个指数分布族的。定义 8.2指数因子分布族非归一化的指数因子分布族𝜙由𝜏, 𝑡, 𝐴和𝛩(如指数分布族的定义一样)共同定义。该分布族中的一个具体因子为𝜙𝜃(𝜉) = 𝐴(𝜉)𝑒𝑥𝑝 𝑡(𝜃), 𝜏(𝜃)定义 8.3 分布族设𝜙1, . , 𝜙Ү

31、96;是多个指数因子分布族,其中𝜙𝑖由𝜏𝑖, 𝑡𝑖, 𝐴𝑖和𝛩𝑖共同确定。指数因子𝜙1, . , 𝜙𝑘的合成是一个指数分布族𝜙1 × 𝜙2 .× 𝜙𝑘 ,它由𝜽 = 𝜽𝟏°𝜽𝟐° °𝜽

32、;𝒌 𝛩1 × 𝛩2 × .× 𝛩𝑘 参数化,该指数分布的函数形式为𝑃𝜽 𝜙𝜃𝑖 (𝜉) = ( 𝐴𝑖(𝜉) 𝑒𝑥𝑝 𝑡𝑖(𝜃𝑖), 𝜏𝑖(𝜉)𝑖𝑖

33、19894;其中𝜙𝜃𝑖 是指数因子分布族集合中的第𝑖个指数因子分布族。根据这个定义,指数因子的是一个指数分布族,其中充分统计量函数为() =1()°2()° . °k(),自然参数函数为t(𝛉) = t1(𝛉𝟏)°t2(𝛉𝟐)° . °tk(𝛉𝐤)。这个结论说明,如果在中,因子的势函数可以用指数分布族函数的形式表示,那么这些势函数的乘积也是一个指数分布族。而且,

34、如果所有的指数因子都是线性指数因子分布族,那么这个乘积是一个线性指数分布族。1.3.2用相同的推理可得,如果一个条件概率分布 CPD 集合中的条件概率分布都属于指数分布族,那么这些条件概率分布 CPD 的乘积同样属于指数分布族。因此,我们可知,如果贝叶斯的条件概率分布都属于指数分布族,那么该定义了一个指数分布族。我们在之前章节遇到的许多类型的条件概率分布都可以表示为一个指数因子。案例 8.7首先我们来分析一下用条件概率分布表表示的条件概率分布𝑃(𝑋|𝑈)。与伯努力分布相似,我们可以令𝑃(𝑋|𝑈)中的

35、每个对应于充分统计量的一项。因此,我们设充分统计量函数为𝜏𝑃(𝑋|𝑈)(𝒳) = 1𝑋 = 𝑥,𝑈 = 𝒖: 𝑥 𝑉𝑎𝑙(𝑋), 𝒖 𝑉𝑎𝑙(𝑈)我们令自然参数为这些在条件概率分布表中对应的条件概率值:𝑡𝑃(𝑋|𝑈)(⼙

36、9;) = 𝑙𝑛𝑃(𝑥|𝒖): 𝑥 𝑉𝑎𝑙(𝑋), 𝒖 𝑉𝑎𝑙(𝑈)很容易𝑃(𝑥|𝒖) = 𝑒𝑥𝑝 𝑡𝑃(𝑋|𝑈)(𝜃), 𝜏𝑃(𝑋|&

37、#119880;)(𝑥, 𝒖)因为𝜏𝑃(𝑋|𝑈)(𝑥, 𝒖)这个中只有一1,其它的是 0。需要注意的是这种表示方式不7是线性指数因子。显然,我们可以用同样的表示方式将任意离散变量的条件概率分布表示为指数因子的形式。不过,在有些情况下,指数因子的形式还可以更简单。比如,对于条件概率分布树,我们可以那么对于连续的条件概率分布怎么办呢?连续的情况下,不是每个条件概率分布都可以用指数因子来表示。,有些情况下是可以的。案例 8.8假设连续条件概率分布𝑃(

38、9883;|𝑈)是一个线性模型,其中𝑋 = 𝛽0 + 𝛽1𝑢1 + + 𝛽𝑘𝑢𝑘 + 𝜖分布的随量,其均值为 0,方差为𝜎2,它表示了系统中的噪声。用其中𝜖是一个满足另式来说,𝑋的条件密度函数为11𝑒𝑥𝑝 (𝑥 (𝛽 + 𝛽 𝑢 + + 𝛽 𝑢 )

39、2𝑃(𝑥|𝑢) =01 1𝑘 𝑘2𝜎22𝜋𝜎如果将指数部分的平方项展开,我们就会发现充分统计量为所有变量的一阶矩和(𝒳) = 1, 𝑥, 𝑢1, . , 𝑢𝑘, 𝑥2, 𝑥𝑢1, . . , 𝑥𝑢𝑘, 𝑢2, 𝑢1𝑢2, . . , ⻖

40、6;𝑘𝜏𝑃(𝑋|𝑈)1而自然参数是每一项对应的系数。由于指数因子的乘积还是指数分布族,所以我们可得,如果中每个节点的条件概率分布都能写为指数因子的形式,那么该就定义了一个指数分布族。定义 8.3 中的指数因子相乘并没有,会出现一般因子相乘不的考虑单个因子的配分函数,它是靠整个概率分布的配分函数来保证全局的归一化约束的。,在构建上面两个条件分布的指数因子时,我们实际上构建了一个归一化的条件概率分布。这就使得我们可以利用链式法则将这些因子组装成一个概率分布,而不用考虑配分函数的影响。这个要求对于是必要的:我们不能用非归

41、一化的指数因子来构建一个合法的。案例 8.9假设有一个结构为𝐴 𝐵,其中𝐴, 𝐵都是二值变量。现在假设我们要用比案例 8.7更精简的方式来表示条件概率分布𝑃(𝐵|𝐴)。如案例 8.5,我们计量函数为𝜏(𝐴, 𝐵) = 1𝐴 = 𝑎1, 1𝐵 = 𝑏1, 𝐴 = 𝑎1, 1𝐵 = 𝑏1, 𝐴 =

42、𝑎0这也即是说,对于每个条件概率分布,统计量中只包含两个根据案例 8.5,我们应该定义自然参数函数为𝜃𝑎1𝜃𝑏1|𝑎1𝜃𝑏1|𝑎0𝑡(𝜃) = 𝑙𝑛, 𝑙𝑛, 𝑙𝑛中一个的指示函数。𝜃𝑎0𝜃𝑏0|𝑎1𝜃𝑏0|

43、9886;0那么这种构建方式是否是我们期望的概率分布呢?根据这种构建方式我们有𝜃𝑎1 𝜃𝑏1|𝑎11𝑃 (𝑎1, 𝑏1) =𝜃𝑍(𝜃) 𝜃𝑎0 𝜃𝑏0|𝑎1因此,如果这种指数形式与原概率分布中的参数是一致的话,那么我们可得𝑍(𝜃) = 1。另一方面我们可得𝜃𝑎0𝜃

44、𝑏0|𝑎11𝑃 (𝑎0, 𝑏0) =𝜃𝑍(𝜃)1这时𝑍(𝜃) =与原概率分布保持一致。因为这两个通常情况下是不相等的,𝜃𝑎0𝜃𝑏0|𝑎0所以我们可知这种表示方式与原是不一致的。(译者注:读者一定要注意,P(B|A)是多个条件概率分布,而作者的意思是如果条件概率分布对应的指数因子不是归一化的话就不能保证最终得到的指是一致的,不过这个例子中求P(a1, b1)和

45、P(a0, b0)的时候应该再乘上一个A的数分布族形式与原边缘概率才合适,结果都是一样的)这个例子说明了全局归一化的约束不能取代每个条件概率分布中的局部归一化约束。这就意味这如果要将表示为指数形式,那么要确保每个条件概率分布对应的指8数因子都是归一化的。要保证每个 CPD 都可以表示为指数形式非常容易,我们只需要在𝜏中多增加一维,并令该维是一个,比如说 1。之后我们在𝑡(𝜃)的相应元素中设置为该条件概率分布对应的 log 配分函数。这与案例 8.8 的做法是类似的。我们还想知道是否能表示为一个线性指数分布族。案例 8.10假设表示该的图结构为&#

46、119860; 𝐶 𝐵,其中每个变量都是二值变量。如果我们的表示方式要一般的条件概率分布(译者注:注意条件概率分布是多个,原著上用的 CPDs,译者实在想不出怎么翻译好,见谅),那么充分统计量中的特征一定要能区分如下四个:具体来说,对于一般的条件概率分布𝑃(𝐶|𝐴, 𝐵),改变这四个中一个的概率影响其它三个的概率。这就意味着𝜏(𝜉1), , 𝜏(𝜉4)这四个是线性的:否则的话,改变一个的概率就会改变其它的概率。因为我们的模型是充分统计量

47、的一个线性函数,所以我们可以选择任意正交基作为充分统计量;具体来说,我们可以不失一般性的令充分统计量的前 4 维为𝜏𝑖(𝜉𝑖) = 1𝜉 = 𝜉𝑖,并且统计量的其他维与这不线性。此外,由于这个模型的是有限的,所以自然参数不论是什么样的,其任何取值都可以被归一化。因此,自然参数空间是𝑅𝐾,其中𝐾是充分统计量么这个线性指数分布族相当于团为𝐴, 𝐵, 𝐶的的维数。如果这个线性指数分布族是正确的,

48、那。因此,这种线性指数分布族的参数中一定有某些参数取值使得𝐴与𝐵是不的,这就与的假设。因此,这个简单的不能表示为一个线性指数分布族。一般来说,尽管如果挑选合适的条件概率分布可以定义为一个指数分布族,但是这个指数分布族通常不是线性指数分布族。具体来说,含奇异结构的不能导出一个线性指数分布族。熵和相对熵1.4现在我们来分析一下模型因子相乘表示形式和指数分布族表示方式的一些结论。这些结论会导出一些公式,而这些公式在接下来的的章节中中非常有用。1.4.1熵我们以熵的概念开始。概率分布的熵是该分布“随机性”或“噪声”的测度。如果概率分布的熵值较低,那么只有少数几个的概率值

49、非常高,或者概率密度函数会出现很尖的峰值;相反,如果熵值较大,那么概率密度函数与均匀分布的概率密度更像。在附录 A.1 中,熵用表示概率空间中需要的比特数来解释。1.4.1.1指数分布族的熵现在我们来分析一下如何计算由充分统计量和自然参数t确定的指数分布族中概率分布的熵。定理 8.1设𝑃𝜃是由充分统计量函数𝜏自然参数𝑡确定的指数分布族中的概率分布。那么该分布的熵为:𝐻𝑃𝜃(𝒳) = 𝑙𝑛𝑍(𝜃)

50、9864;𝑃𝜃𝜏(𝒳), 𝑡(𝜃)(8.7)9尽管这个公式非常抽象,但是它确实为我们提供了一些信息。指数分布族的熵可以被分解为不同的两项。第一配分函数𝑍(𝜃)。第二项依赖于充分统计量𝜏(𝒳)的期望值。因此,在求概率分布熵的时候我么不需要考虑𝒳的每个取值,我们只需要知道𝑃𝜃充分统计量的期望即可。会看到这是我们讨论指数概率分布族时一个循环的特征。案例 8.11这个结论应用于分布𝑋

51、; 𝑁(𝑢, 𝜎2),该分布可以像案例 8.3 一样写为指数分布族的形式。将公式 8.4、8.5、8.6 定义的𝜏,𝑡和𝑍带入公式 8.7 可得:其中我们利用了公式𝐸𝑃(𝑋 = 𝑢和𝐸𝑃𝑋2 = 𝑢2 + 𝜎2我们还可以根据定理 8.1 的公式写出的熵。引理 8.1如果𝑃(𝒳) = 1 𝜙 (𝐷

52、 )是一个,那么𝑘 𝑘𝑘𝑍𝐻𝑃(𝒳) = 𝑙𝑛𝑍 + 𝐸𝑃𝑙𝑛𝜙𝑘(𝐷𝑘)𝑘案例 8.12假设有一个简单的𝛽2(𝐵, 𝐶),其中, 其对应的尼斯分布中只有两个势函数𝛽1(𝐴, 𝐵) 和通过简单的算术运

53、算可知𝑍 = 30,并且边缘概率分布为根据引理 8.1,我们可得该的熵为在这个例子中,计算熵需要的项与熵的一般公式需要的相同的,也即是说我们要对概10率空间内所有的可能取值求和。,如果比较复杂的话,变量集合取值的个数与变量个数呈指数,而使用势函数的话计算量要相对小一些,其中每个势函数只涉及到少数变量的取值。需要注意的是,要使用引理 8.1 公式的话,我们要进行一个全局运算来求得配分函数的值𝑍和域为𝐷𝑘的边缘概率分布。在之后的章节我们会看到,在某些效的运行。结构中,这些计算可以高如EPlnk(Dk)这样的项与Dk内随量的熵相似。,由

54、于Dk内随量的边缘概率分布一般与势函数k是不同的,所以这样的项实际上并不是Dk真正的熵。从某种意义上来看,我们可以认为Z是对EPlnk(Dk)与Dk熵之间差别的一种纠正。比如,如果k内的每一乘以c,那么熵中对应的项EPlnk(Dk)的值会减少lnc。,与此同时lnZ会增加同样一个,因为它要在归一化的过程中消掉这种变化,这就使得总的熵并没有变化。1.4.1.2的熵现在我们来分析一下络对应概率分布的熵,但是如果利用些。简单一点来说,我们可以将除了熵公式中的全局项。的熵。尽管我们可以利用定义 8.1 的公式来求解网的结构独特的性质,最终熵的公式会更简单一写出指数分布的形式,其中配分函数为 1,这就消

55、定理 8.2如果𝑃(𝒳) = 𝑃(𝑋 |𝑃𝒢)是𝒢对应的概率分布,那么𝑖𝑖𝑖𝐻 (𝒳) = 𝐻 (𝑋 |𝑃𝑎𝒢)𝑃𝑃𝑖𝑖𝑖证明𝐻𝑃(𝒳) = EPlnP(𝒳) ln 𝑃

56、(𝑋 |𝑃𝑎𝒢) = E ln𝑃(𝑋 |𝑃𝑎𝒢)= 𝐻 E𝑃 P𝑖P𝑖𝑖𝑖ii= 𝐻 (𝑋 |𝑃𝑎𝒢)𝑃𝑖𝑖𝑖其中第一项和最后一项分别是熵和条件熵的定义。我们可以看出的熵是单个条件概率分布的条件熵之和。这种表示方式似

57、乎是说,要求熵的话,我们只需要分析单个的条件概率分布就可以了。这种想法是错误的。条件熵𝐻 (𝑋 |𝑃𝒢)可以写出多个条件概率分布的熵的平均𝑃𝑖𝑖𝐻 (𝑋 |𝑃𝒢) = 𝑃(𝑝𝑎𝒢)H (𝑋 |pa𝒢)𝑃𝑖P𝑖𝑖𝑖𝑖𝑃

58、𝒢𝑖尽管我们只需要根据条件概率分布P(𝑋 |pa𝒢)就可以求得其对应的熵H (𝑋 |pa𝒢),该𝑖P𝑖𝑖𝑖项对应的权重𝑃(𝑝𝑎𝒢)确实父节点𝑝𝑎𝒢的边缘概率分布,而这个边缘概率分布要依赖于𝑋 父节点𝑖𝑖的条件概率分布。因此,在计算𝑖熵的时候我们还是要进行整个的概率

59、。不过,通过分析单个条件概率分布的熵,我们可以得知每个条件概率分布熵的增加量,从而可以给出整个概率分布总熵的一个界。引理 8.2如果𝑃(𝒳) = 𝑃(𝑋 |𝑃𝒢)是𝒢对应的概率分布,那么𝑖𝑖𝑖11因此,如果中所有的条件概率分布都几乎是确定性的话(在给定父节点取值条件下条件熵很低),那么整个的熵也一定非常小。相反,如果所有的条件概率分布随机性都非常大的话(高的条件熵),那么总的熵也会非常高。1.4.2相对熵关于熵还有一个概念就是两个模型(

60、概率分布)之间的相对熵。相对熵是两个概率分布之间距离的一种测度,它在之后的章节中发挥着重要的作用。如果我们要分析任意概率分布Q和指数分布族中𝑃𝜃这两个概率分布的相对熵的话,那么我们可以利用𝑃𝜃的指数形式来简化相对熵公式。定理 8.3假设有任意概率分布𝑄和指数分布族中𝑃𝜃,其中指数分布族有统计量𝜏和𝑡确定。那么相对熵𝐷(𝑄 𝑃𝜃) = 𝐻𝑄(𝒳

61、) 𝐸𝑄𝜏(𝒳), 𝑡(𝜃) + 𝑙𝑛𝑍(𝜃)(译者注:相对熵公式中两个概率分布的随量集合是相同的)该定理的证明留作练习 8.2。我们可以看到相对熵中的项同样是充分统计量的期望和配分函数。与熵的公式不同的是, 在相对熵中我们计算充分统计量期望是根据概率分布𝑄的。如果这两个概率分布属于同一个指数分布族,那么我们可以将相对熵的公式再进行化简。定理 8.4假设𝑃𝜃1 和𝑃

62、0579;2 属于同一个指数分布族,那么𝑍(𝜃1)𝜏(𝒳), 𝑡(𝜃 ) 𝑡(𝜃 ) 𝑙𝑛𝐷(𝑃 𝑃 ) = 𝐸𝜃1𝜃2𝑃𝜃112𝑍(𝜃2)证明 结合定理 8.3 和定理 8.1当分析的相对熵时,我们可以利用其配分函数为 1 来简化相对熵的公式。定理 8.5如果𝑃

63、是𝒢对应的概率分布,那么𝐷(𝑄 𝑃) = 𝐻 (𝒳) 𝑄(𝑝𝑎𝒢)𝐸𝒢𝒢 𝑙𝑛𝑃(𝑋 |𝑝𝑎 )𝑄𝑖𝑖𝑖𝑄(𝑋𝑖|𝑝𝑎𝑖 )ү

64、01;𝑎𝒢𝑖𝑖如果𝑄也与𝒢一致,那么𝐷(𝑄 𝑃) = 𝑄(𝑝𝑎𝒢)𝐷(𝑄(𝑋 |𝑝𝑎𝒢) 𝑃(𝑋 |𝑝𝑎𝒢)𝑖𝑖𝑖𝑖𝑖𝑝

65、𝑎𝒢𝑖𝑖第二个结论说明,与熵的公式相似,我们可以将与𝒢一致的两个概率分布的相对熵写为其条件概率分布相对熵的平均。这些条件相对熵可以直接根据两个分布的条件概率分布求得。而条件相对熵的权重依赖于概率分布𝑄1.5投影如附录 A1.1.3 所述,我们可将相对熵视为两个概率分布之间的距离。因此我们可以将相对熵作为投影操作的基础,这个概念会在之后的章节中用到。与几何中将一个点投影到一个超平面的操作类似,我们的目标是在给定指数概率分布族中找到一个概率分布,使得该分布与已知概率分布的的相对熵最小。比如,当我们要用一

66、个简单的结构来近似一个复杂概率分布时,我们就需要做投影这样的运算。会看到,投影运算是近似推断过程中的一个重要的,其中在原始熵进行精确推断的计算复杂度太大而不能进行。在这个近似过程中,12我们希望在一个计算复杂度不是太高的指数分布族中找到最好的(也即是最近的)近似概率分布。此外,图模型的学习个投影运算。也可以转换为从观测数据的经验概率分布到我们期望分布族的一假设我们得到了一个概率分布P,我们希望用另一个概率分布Q来近似P,其中𝑄属于某一类概率分布𝒬(比如指数分布族)。比如,我们希望用一个可写为单个变量边缘概率相乘的联合概率分布来近似P。因为相对熵的概念不是对称的,

67、所以我们有两种方式来定义这个最佳近似。定义 8.4I-投影 M-投影设𝑃是任意概率分布,𝒬是原始为概率分布的凸集(译者注:译者理解𝒬为一类概率分布的所有可能的参数集合,也即是𝐾为空间中的一个子集,而空间中的每个点代表一个概率分布)。l将𝑃通过 I-投影(信息投影)到空间𝒬中的结果为𝑄𝐼 = 𝑎𝑟𝑔 𝑚𝑖𝑛 𝐷(𝑄 𝑃)

68、9876;𝒬将𝑃通过 M-投影(矩投影)到空间𝒬的结果为:𝑄𝑀 = 𝑎𝑟𝑔 𝑚𝑖𝑛 𝐷(𝑃 𝑄)𝑄𝒬l1.5.1两种投影方式的对比我们可以认为𝑄𝐼和𝑄𝑀都是𝑃到𝒬的投影,它们从某种意义上来说都是𝒬中与P最近的概率分布。而且,如果P

69、𝒬,那么这两种投影的结果都是P。,因为相对熵是不对称的,所以这两种投影方式通常结果是不同的。为了说明这两种投影方式的差别,我们来分析一些例子。案例 8.13假设我们有一个非和I-投影将𝑃投影到的概率分布𝑃,其随量的取值范围为实数。我们可以通过 M-投影分布的分布族中。我们以案例8.1 中的概率分布𝑃为例。我们可以看到,这两种投影方式会得到不同的告诉分布(M-投影的结果可以通过公式来求得,一会儿我们会讲到;而 I-投影可以通过在空间(𝑢, 𝜎2)中执行梯度下降算法求得)。尽管这两种投影方式得到的分布的

70、均值非常相近,但是M-投影得到的分布的方差要比I-投影的要大很多。如果我们分析这两种投影方式的目标函数会更能理解它们之间的区别。其中 M-投影最小化的目标函数为D(P|Q) = HP(X) + EPlnQ(X)我们可以看出,HP(X)是一个,所以在最优化过程中不需要考虑。通常我们希望QM概率密度值高的区域在P中也会很高,因为如果QM在这些区域密度值高的话lnQ(X)的值会比较小,这就使得第二小。同时,如果在某些区域P的概率密度函数值不太高却也不容忽视,但是在QM中这些区域的概率密度值却非常低的话,相对熵的值会增大。13这就使得最优化的结果尽管试图使得P中概率大的地方要在Q中也给予大的概率,但是

71、P的高方差可以保证P的所有可能区域都会得到合理大的密度函数值。I-投影的最小化目标函数为D(Q P) = HQ(X) + EQlnP(X)在这个目标函数中,第一项用来惩罚Q的熵,也即是Q的随机性不能太小,在Q为分布的情况下即是希望该分布的方差不要太小。第二是希望当P(X)大的时候,Q(X)也要大;P(X)小的时候,Q(X)也要小。如果没有第一项的话,那么我们可以将Q(X)所有的密度都给予P(X)最可能区域。这两个项的互相制约的折中使得最终得到的近似分布如图 8.1.这种现象也会出现在离散概率分布中。案例 8.14假设我们要将一个离散概率分布𝑃(𝐴, Ү

72、61;)投影到一个可因子化的概率分布族𝑄(𝐴, 𝐵) =𝑄(𝐴)𝑄(𝐵)中。假设概率分布𝑃(𝐴, 𝐵)为我们可以看出概率分布𝑃将大部分密度否赋予给了𝐴 = 𝐵。这个概率分布很难用因子化的概率分布来近似,因为在概率分布𝑃中𝐴和𝐵这两个变量是高度相关的,而这种相关完全因子化的概率分布𝑄表示。不能用同样,我们可以比较一下 M-投影和

73、 I-投影的区别(见图 8.2)。根据案例 A.7(附录 A5.3),𝑃的 M-投影近似分布为均匀分布:相反,I-投影只关注𝑃内的一个概率较大的:𝐴和𝐵都为真,或。又因为𝑃关于𝐴,𝐵是对称的,所以 I-投影会有两个结果(也即是目标函数最优解有两个)。其中一个是14另一个是关于𝑎0, 𝑏0的对称分布。从案例 8.13 和 8.14 可以看出两种投影方式目标函数背后的意义。M-投影试图给予所有取值一个合理高的概率,而 I-投影更关注的是𝐏中

74、概率高的取值,同时要保证近似分布有一个合理的熵。这就使得,在案例 8.14 中M-投影的结果是一个均匀分布,而 I-投影则将大部分概率给了P中最可能的两个中一个,从而保证了熵的合理性。1.5.2M-投影关于这两种投影方式我们还有没有其他的结论呢?首先以将概率分布投影到更简单的概率分布族开始。引理 8.3设𝑃是关于𝑋1, . . , 𝑋𝑛的概率分布,设𝒬是与𝒢一致的概率分布族(𝒢是一个空图,也即是只有节点没有边,所以节点都边缘),那么𝑄𝑀 = w

75、886;𝑟𝑔 𝑚𝑖𝑛 𝐷(𝑃 𝑄)𝑄|=𝒢是概率分布:𝑄𝑀(𝑋1, . , 𝑋𝑛) = 𝑃(𝑋1)𝑃(𝑋2) 𝑃(𝑋𝑛) (注意这里是 P)证明 假设有一个概率分布Q| = 𝒢。因为Q可以被因子化,所以我们可以将𝐷(

76、𝑃 𝑄)重新写为:其中最后一步利用了相对熵非负的特性。由于D(P Q) D(P QM),只有对于所有i,都有 Q(Xi) = P(Xi)成立时,D(P Q) D(P QM)的等号才成立。所以我们可得只有当Q =QM时才是最优解。因此,要将概率分布P投影到因子形式的概率分布族中,我们只需要令P的所有节点的边缘概率分布相乘即可。这个定理是一个更一般结论的特例。为了说明这个一般结论,我们要重新梳理一下上述投影过程,首先𝒬这个完全因子概率分布族可以由一个统分统计量来表示,其中充分统计量是对每个变量Xi的每个取值出现次数进行计数。而Xi的边缘概率分布就是这

77、个统计量关于概 率分布P的期望。因此,通过选择Q使得其与统计量的每维的期望相匹配就得到了P的 M-投影。我们现在要说明的是,这并不是偶然的。如果要将概率分布P通过 M-投影到概率分布族𝒬中,那么与这个投影过程相关的计算就是𝒬的充分统计量函数关于概率分布P的期望,不管𝒬是不是完全因子化的概率分布族。定理 8.6设𝑃是关于随量集合𝒳的概率分布,𝒬是一个由充分统计量函数𝜏(𝜉)和自然参数𝑡(𝜃)确定的指数分布族。如果有一个参数𝜃

78、;使得𝐸𝑄𝜃𝜏(𝒳) = 𝐸𝑃𝜏(𝒳),那么从𝑃到𝒬的 M-投影就是𝑄𝜃。证明 假设EQ(𝒳) = EP(𝒳), 是任意参数。那么15因此我们可知P的 M-投影就是Q。这个定理说明,我们可以分析充分统计量(𝒳)关于概率分布P和𝒬内概率分布的期望。因此,我们可以不用参数来表示概率分布族内的某个具体的概率分布,而是用期望充分统计量

79、来表示。为了形式描述这种说法,我们需要引入一些额外的符号。首先我们定义一个从合法参数集合到充分统计量期望的一个ess() = EQ(𝒳)定理 8.6 说明,如果EP(𝒳)属于ess函数的象(值域),那么概率分布P的 M-投影就是与P充分统计量期望匹配的概率分布Q。换句话说EQM(𝒳) = EP(𝒳)这个结论说明了为什么 M-投影的过程有被叫做矩匹配。许多指数分布族的充分统计量都是概率分布的矩(期望、方差等)。这种情况下,概率分布P在该分布族中的 M-投影就是与P矩匹配的概率分布。图 8.3 说明了这些概念之间的。我可以看出,函数ess()直接与充分统计量的期望相关。通过比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论