PRML读书会第十章 Approximate Inference（近似推断，变分推断，KL散度，平均场， Mean Field ）-程序员宅基地

主讲人戴玮

（新浪微博: @戴玮_CASIA）

Wilbur_中博(1954123) 20:02:04

我们在前面看到，概率推断的核心任务就是计算某分布下的某个函数的期望、或者计算边缘概率分布、条件概率分布等等。比如前面在第九章尼采兄讲EM时，我们就计算了对数似然函数在隐变量后验分布下的期望。这些任务往往需要积分或求和操作。但在很多情况下，计算这些东西往往不那么容易。因为首先，我们积分中涉及的分布可能有很复杂的形式，这样就无法直接得到解析解，而我们当然希望分布是类似指数族分布这样具有共轭分布、容易得到解析解的分布形式；其次，我们要积分的变量空间可能有很高的维度，这样就把我们做数值积分的路都给堵死了。因为这两个原因，我们进行精确计算往往是不可行的。
为了解决这一问题，我们需要引入一些近似计算方法。

近似计算有随机和确定两条路子。随机方法也就是MCMC之类的采样法，我们会在讲第十一章的时候专门讲到，而确定近似法就是我们这一章讲的变分。变分法的优点主要是：有解析解、计算开销较小、易于在大规模问题中应用。但它的缺点是推导出想要的形式比较困难。也就是说，人琢磨的部分比较复杂，而机器算的部分比较简单。这和第十一章的采样法的优缺点恰好有互补性。所以我们可以在不同的场合应用变分法或采样法。这里我的一个问题是：是否可以结合二者的优点，使得人也不用考虑太多、机器算起来也比较简单？
变分法相当于把微积分从变量推广到函数上。我们都知道，微积分是用来分析变量变化、也就是函数性质的，这里函数定义为f: x -> f(x)，而导数则是df/dx；与之相对，变分用到了泛函的概念：F: f -> F(f)，也就是把函数映射为某个值，而相应地，也有导数dF/df，衡量函数是如何变化的。比如我们熟悉的信息论中的熵，就是把概率分布这个函数映射到熵这个值上。和微积分一样，我们也可以通过导数为0的条件求解无约束极值问题，以及引入拉格朗日乘子来求解有约束极值问题。比如说，我们可以通过概率分布积分为1的约束，求解最大熵的变分问题。PRML的附录D和E有比较详细的解释，我们后面也还会看到，这里就不多说了。
变分法这名字听起来比较可怕，但它的核心思想，就是从某个函数空间中找到满足某些条件或约束的函数。我们在统计推断当中用到的变分法，实际上就是用形式简单的分布，去近似形式复杂、不易计算的分布，这样再做积分运算就会容易很多。比如，我们可以在所有高斯分布当中，选一个和目标分布最相似的分布，这样后面做进一步计算时就容易获得解析解。此外，我们还可以假设多元分布的各变量之间独立，这样积分的时候就可以把它们变成多个一元积分，从而解决高维问题。这也是最简单的两种近似。

概率推断中的变分近似方法，最根本的思想，就是想用形式简单的分布去近似形式复杂、不易计算的分布。比如，我们可以在指数族函数空间当中，选一个和目标分布最相像的分布，这样计算起来就方便多了。
显然，我们这里需要一个衡量分布之间相似性或差异性的度量，然后我们才能针对这个度量进行最优化，求相似性最大或差异性最小的分布。一般情况下，我们会选用KL散度：

或者，当然离散分布就不是积分而是在离散状态上求和。这个值是非负的，而且只在两分布完全相同的情况下取0，所以可以看成两分布之间的距离。但这种度量是不对称的，也就是，而我们在优化的时候，这两种度量实际上都可以使用。这样一来，我们后面也会看到，会造成一些有趣且奇怪的现象。有了这个度量，我们就可以对某个给定的概率分布，求一个在某些条件下和它最相似或距离最小的分布。这里我们看几个例子，直观地认识一下KL散度的不对称性、以及产生这种不对称性的原因。这是两个方差不同的一元高斯分布，其中方差较小的是q（红色曲线），方差较大的是p（蓝色曲线）：

根据KL散度的公式，我们能否估计一下，是KL(q||p)较大，还是KL(p||q)较大？我们可以看到，在曲线的中间部分，q(x) > p(x)，因此，如果光考虑这部分，显然KL(q||p)会比较大。但是，考虑两边 q(x) < p(x) 的部分，我们可以看到，q(x) 很快趋近于0，此时 p(x)/q(x) 会变得很大，比中间部分要大得多（打个比方，0.8/0.4 和 0.01/0.001）。尽管还要考虑 log 前面的 q(x)，但当 q(x) 不等于0时，分母趋近于0造成的影响还是压倒性的。所以综合考虑，KL(q||p)要小于KL(p||q)。它们的精确值分别为0.32和0.81。另一个例子是，如果两个高斯分布方差相等，则KL散度也会相等：

这一点很容易理解。再来看一个复杂一点的例子。在这个例子中，q是单峰高斯分布，p是双峰高斯分布：

这三种情况中，p的两个峰没有分开，有一定粘连，而q则分别拟合了p的左峰、右峰（见PRML 4.4节的拉普拉斯近似，上次读书会也简单介绍过，可参看上次读书会的总结），以及拟合p的均值和方差（即单峰高斯分布的两个参数）。三种拟合情况对应左、中、右三图。对于这三种情况，KL(q||p)分别为1.17、0.09、0.07，KL(p||q)分别为23.2、0.12、0.07。可以看到，无论是哪一种KL散度，在p的双峰没有完全分开的情况下，用单峰高斯q去近似双峰高斯p得到的最优解，都相当于拟合p的均值和方差。如果p的两个峰分开的话，情况会如何呢？

和前一个例子一样，我们分别拟合p的左峰、右峰，以及均值和方差。显然，这里由于p中间有一段概率密度为0的区域，所以可以想见，KL(q||p)可能会比较大。实际情况也是如此：KL(q||p)分别为0.69、0.69、3.45，KL(p||q)分别为43.9、15.4、0.97。可以看到，如果用KL(p||q)做最优化，结果和双峰粘连时一样，仍然是拟合p的均值和方差，也就是所谓的moment-matching；而用KL(q||p)做最优化，结果则会有所变化：会拟合双峰的其中一峰，也就是所谓的mode-seeking。
我们从前面这几个例子中，可以总结一个规律：用KL(q||p)做最优化，是希望p(x)为0的地方q(x)也要为0，否则q(x)/p(x)就会很大，刚才例子的右图在中间部分（5附近）就违背了这一点；反之，如果用KL(p||q)做最优化，就要尽量避免p(x)不为0而q(x)用0去拟合的情况，或者说p(x)不为0的地方q(x)也不要为0，刚才例子的左、中两图也违反了这一点。
所以，KL(q||p)得到的近似分布q(x)会比较窄，因为它希望q(x)为0的地方可能比较多；而KL(p||q)得到的近似分布q(x)会比较宽，因为它希望q(x)不为0的地方比较多。
最后看一个多元高斯分布的例子，书上的图10.3：

即有了前面的讲解，我们可以猜一下，哪些图是KL(q||p)得到的最优解，哪些图是KL(p||q)得到的最优解。
由于KL(q||p)至少可以拟合到其中的一个峰上，而KL(p||q)拟合的结果，其概率密度最大的地方可能没什么意义，所以很多情况下，KL(q||p)得到的结果更符合我们的需要。到这里有什么问题吗。。理解理解。。KL散度这东西。

============================讨论=================================

飞羽(346723494) 20:24:23
KL(q||p) 就是相当于用q去拟合p？
Yuli(764794071) 20:25:31
KL就是KL Divergence（相对熵）吧用信息论来解释的话是用来衡量两个正函数是否相似
飞羽(346723494) 20:25:57
对，就是相对熵
Wilbur_中博(1954123) 20:27:06
嗯，我们现在有一个分布p，很多时候是后验分布，但它形式复杂，所以想用形式比较简单的q去近似p。其实也可以直接用后验分布的统计量，比如mode或mean去代替整个分布，进行进一步计算，比如最大后验什么的。但现在如果用近似分布去做预测的话，性能会好得多。
linbo-phd-bayesian(99878724) 20:27:15
请问为何KL(q||p)》=0，为何没有《0啊，有知道的吗？
飞羽(346723494) 20:28:06

Wilbur_中博(1954123) 20:29:21
那个不太难证，利用ln凹函数性质可以证出来。。不过细节我忘记了，呵呵。查一查吧。。应该很多地方都有的。

逸风(421723497) 20:30:44
PRML P56
Wilbur_中博(1954123) 20:31:50
总之就是利用KL作为目标函数，去做最优化。。找到和已知复杂分布最相近的一个近似分布。这一章的基本思路就是这样。具体动机最开始的时候已经提到过了。

逸风(421723497) 20:35:31
为什么要用KL散度这样一个不具备对称性的"距离"，而不采用对称性的测度呢？有什么好处?

本文链接：https://blog.csdn.net/Nietzsche2015/article/details/43450853

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

稀疏编码的数学基础与理论分析-程序员宅基地

文章浏览阅读290次，点赞8次，收藏10次。1.背景介绍稀疏编码是一种用于处理稀疏数据的编码技术，其主要应用于信息传输、存储和处理等领域。稀疏数据是指数据中大部分元素为零或近似于零的数据，例如文本、图像、音频、视频等。稀疏编码的核心思想是将稀疏数据表示为非零元素和它们对应的位置信息，从而减少存储空间和计算复杂度。稀疏编码的研究起源于1990年代，随着大数据时代的到来，稀疏编码技术的应用范围和影响力不断扩大。目前，稀疏编码已经成为计算...

EasyGBS国标流媒体服务器GB28181国标方案安装使用文档-程序员宅基地

文章浏览阅读217次。EasyGBS - GB28181 国标方案安装使用文档下载安装包下载，正式使用需商业授权, 功能一致在线演示在线API架构图EasySIPCMSSIP 中心信令服务, 单节点, 自带一个 Redis Server, 随 EasySIPCMS 自启动, 不需要手动运行EasySIPSMSSIP 流媒体服务, 根..._easygbs-windows-2.6.0-23042316使用文档

【Web】记录巅峰极客2023 BabyURL题目复现——Jackson原生链_原生jackson 反序列化链子-程序员宅基地

文章浏览阅读1.2k次，点赞27次，收藏7次。2023巅峰极客 BabyURL之前AliyunCTF Bypassit I这题考查了这样一条链子：其实就是Jackson的原生反序列化利用今天复现的这题也是大同小异，一起来整一下。_原生jackson 反序列化链子

一文搞懂SpringCloud，详解干货，做好笔记_spring cloud-程序员宅基地

文章浏览阅读734次，点赞9次，收藏7次。微服务架构简单的说就是将单体应用进一步拆分，拆分成更小的服务，每个服务都是一个可以独立运行的项目。这么多小服务，如何管理他们？(服务治理注册中心[服务注册发现剔除])这么多小服务，他们之间如何通讯？这么多小服务，客户端怎么访问他们？(网关)这么多小服务，一旦出现问题了，应该如何自处理？(容错)这么多小服务，一旦出现问题了，应该如何排错?(链路追踪)对于上面的问题，是任何一个微服务设计者都不能绕过去的，因此大部分的微服务产品都针对每一个问题提供了相应的组件来解决它们。_spring cloud

Js实现图片点击切换与轮播-程序员宅基地

文章浏览阅读5.9k次，点赞6次，收藏20次。Js实现图片点击切换与轮播图片点击切换<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title></title> <script type="text/ja..._点击图片进行轮播图切换

tensorflow-gpu版本安装教程（过程详细）_tensorflow gpu版本安装-程序员宅基地

文章浏览阅读10w+次，点赞245次，收藏1.5k次。在开始安装前，如果你的电脑装过tensorflow，请先把他们卸载干净，包括依赖的包（tensorflow-estimator、tensorboard、tensorflow、keras-applications、keras-preprocessing），不然后续安装了tensorflow-gpu可能会出现找不到cuda的问题。cuda、cudnn。..._tensorflow gpu版本安装

随便推点

物联网时代权限滥用漏洞的攻击及防御-程序员宅基地

文章浏览阅读243次。0x00 简介权限滥用漏洞一般归类于逻辑问题，是指服务端功能开放过多或权限限制不严格，导致攻击者可以通过直接或间接调用的方式达到攻击效果。随着物联网时代的到来，这种漏洞已经屡见不鲜，各种漏洞组合利用也是千奇百怪、五花八门，这里总结漏洞是为了更好地应对和预防，如有不妥之处还请业内人士多多指教。0x01 背景2014年4月，在比特币飞涨的时代某网站曾经..._使用物联网漏洞的使用者

Visual Odometry and Depth Calculation--Epipolar Geometry--Direct Method--PnP_normalized plane coordinates-程序员宅基地

文章浏览阅读786次。A. Epipolar geometry and triangulationThe epipolar geometry mainly adopts the feature point method, such as SIFT, SURF and ORB, etc. to obtain the feature points corresponding to two frames of images. As shown in Figure 1, let the first image be and th_normalized plane coordinates

开放信息抽取(OIE)系统（三）-- 第二代开放信息抽取系统(人工规则, rule-based, 先抽取关系)_语义角色增强的关系抽取-程序员宅基地

文章浏览阅读708次，点赞2次，收藏3次。开放信息抽取(OIE)系统（三）-- 第二代开放信息抽取系统(人工规则, rule-based, 先关系再实体)一.第二代开放信息抽取系统背景第一代开放信息抽取系统(Open Information Extraction， OIE， learning-based, 自学习, 先抽取实体)通常抽取大量冗余信息，为了消除这些冗余信息，诞生了第二代开放信息抽取系统。二.第二代开放信息抽取系统历史第二代开放信息抽取系统着眼于解决第一代系统的三大问题: 大量非信息性提取（即省略关键信息的提取）、_语义角色增强的关系抽取