事由

原本是听了内部分享关于”Auto Keras”的介绍，其中使用了自动化调参——贝叶斯优化（Bayesian Optimization）方法，好(bu)高(jue)大(ming)上(li)，于是开始恶补知识，引发了连环车祸惨案…（非参模型、高斯过程、核技巧、先验函数、提取函数）

网上相关参考与资料确实很专业，但是对入门学习者太不友好，而且完全get不到原思想的intuition！还好我没有放弃抵抗…所以本篇会先介绍贝叶斯优化的基本思想与预备知识点，以便能更好的理解后续文章。

算法思想

假设我们要做一个蛋糕，而决定蛋糕好不好吃的因素有糖/面粉/牛奶的份量与各自配比，烘焙时间等。反映到数学问题上就是：在一定的范围内，求函数的最值问题

$\max_{x\in S} f(x)$

常规的做法会把$f(·)$ 参数化，然后通过各种优化方法求解参数，得到解析表达式。但是！很多时候会有如下情况（就比如做蛋糕）：

形式是未知的，即没有解析表达
$f(x)$的值需要人工干预（好不好吃）

这时候贝叶斯优化就上线了。

我们先猜想$f(x)$有个先验分布，并可以粗略用它描述$f(x)$的分布特点。而大自然界中最常见的就是高斯分布（正太分布），那我们不妨假设其先验分布就是高斯分布。OK，目前我们手上仅有少量观测数据$D$（因为我们无法提供更多，制作蛋糕的成本太大！浪费时间和食材可耻！）与先验分布。此时，我们先随机选取两组（或多组）观测数据修正先验分布（即函数要经过观测点）。

接着我们要继续选取合适的观测点不断优化模型（而不是乱选）！选取的标准是：能提供更多信息，使得后验概率更快、更准确的逼近目标函数的真实分布，具体的选取方法是使用提取函数，来指导我们如何选取下一个点。

在选取出新观测点$x_i$之后，我们需要通过实验或者其他什么办法获取$f(x_i)$。通过这样一步步选取新的采样点$(x, f(x))$，并不断加入到观测数据$D$中，使得我们的后验概率越来越精准，直到接近真实的分布。所以贝叶斯优化就是不断的采样（提取函数），进行计算更新模型（高斯分布）的过程。

从上面的三段内容来看，贝叶斯优化的关键点在于：

高斯过程（Gaussian Process）：用于描述函数$f(x)$的形式与分布特点
提取函数（Acquisition Function）：指导我们如何从候选集中选择一个新的观测点

大致思想知道了后，接下来要温习下相关数学基础。

预备知识

高斯分布

简单的来说，多元高斯分布可以由均值向量$\mu$与协方差矩阵$\Sigma$定义，它有2个很有用的代数性质：

【性质一】：两个相互独立的多维高斯分布$X$与$Y$之和也是一个多维高斯分布$Z$

$Z = \begin{bmatrix}X\\Y\end{bmatrix} \sim \mathcal{N} (\mu, \Sigma) = \mathcal{N}\begin{pmatrix} {\begin{bmatrix}{\vec{0}} \\ {\vec{0}}\end{bmatrix},} &{\begin{bmatrix} \Sigma_{XX}& \Sigma_{XY} \\ \Sigma_{YX} & \Sigma_{YY} \end{bmatrix}} \end{pmatrix}$

其中$X$与$Y$分别满足：

$X \sim \mathcal{N}(\vec{0}, \Sigma_{XX})$ $Y \sim \mathcal{N}(\vec{0}, \Sigma_{YY})$

【性质二】：若已知$X$，则变量$Y$在变量$X$条件下的概率分布依旧是高斯分布，公式为（即条件概率公式）：

$Y|X\sim \mathcal{N}(\Sigma_{YX}\Sigma_{XX}^{-1}X, \Sigma_{YY}-\Sigma_{YX}\Sigma_{XX}^{-1}\Sigma_{XY})$

高斯过程（回归）

基本概念

首先复习下什么是随机过程，随机过程其实就是一族随机变量的集合，而如果这族随机变量均满足高斯分布，那么这就是高斯过程。再简单点：如果把高斯过程看成一个函数，每输入一个$x$，就输出一个高斯分布（即一个均值与一个方差）。对于下图中的每个点，都可以确定一个高斯分布。

高斯过程（GP）是一种强大的模型，它可以被用来表示函数的分布情况。即不仅仅知道预测值的点估计，还知道这个估计有多少信心在里面（即输出的方差）。

好了，相对于找隐函数，我们对采样点的具体预测值更感兴趣。高斯过程背后的关键点在于所有函数值都源于多元高斯分布。划重点！

【假设一】：给定一些X的值，对Y建模，此时假设对应的这些Y值服从一个联合高斯分布！

对应成数学公式是（均值向量简化为0）：

$\begin{bmatrix}f_1\\f_2\\f_3\end{bmatrix} \sim \mathcal{N}\begin{pmatrix} {\begin{bmatrix}{0}\\{0}\\{0}\end{bmatrix},} &{\begin{bmatrix} K_{11}&K_{12}&K_{13} \\ K_{21}&K_{22}&K_{23} \\ K_{31}&K_{32}&K_{33} \end{bmatrix}} \end{pmatrix}$

那么，自然而然的我们想知道，协方差矩阵是怎么计算得来的？这里高斯过程又做出了另一个重要假设：

【假设二】：如果两个X比较近，那么对应的Y也一定是比较接近。

协方差表示了$Y$之间有多近，而有了【假设二】之后，这个是由$X$有多近来决定。那$X$之间怎么度量？这个相似性怎么算？答案就是Kernel，它用来描述函数之间的相似度，最常使用的是高斯核又称平方指数核（squared exponential kernel）。

具体而言，协方差矩阵的求法就是：

关于预测值的计算

回到最初的问题：有了一个新采样点 $x^{*}$ ，对应的 $f^{*}$ 如何求？思想就是：

计算训练集与新$x^*$的联合高斯分布（假设一）
通过条件概率公式，计算新$f^*$的条件概率分布（性质二）

根据【假设一】，$f^*$与$f_1$,$f_2$,$f_3$同属于一个4维联合高斯分布，对应成数学语言就是：

$\Sigma_{11}$是之前已经算出来的，$\Sigma_{12}$、$\Sigma_{21}$、$\Sigma_{22}$是通过新采样点$x^*$分别和每个训练集中的$x$求出来的，所以整个4维联合高斯分布我们也能计算出来。

再根据性质二，用公式直接计算出 $f^{*}$ 的条件分布

$f^{*}|x^{*},\vec{x},\vec{f} \sim \mathcal{N}(\Sigma_{21}\Sigma_{11}^{-1}\vec{f}, \Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})$

我们回顾之前的这张图

假设训练集有3个观测点（图中黑色实点且已知），现在我们有了一个新采样点$x_1$，那么通过上面的计算就可以得到预测值$f(x_1)$的一个高斯分布。并且发现越靠近观测点的预测值方差也较小，可以想象，如果观测点足够多，最终GP会收敛到真实$f(x)$的样子（图中黑色曲线），这就是高斯过程。

零零散散讲了这么多，希望能有个直观的概念，后面还有好多坑要填（贝叶斯优化具体是怎么实现的），想想就累…

参考资料

浅谈高斯过程回归——火星十一郎
 看得见的高斯过程：这是一份直观的入门解读——机器之心
 贝叶斯优化 Bayesian Optimization
ML百物语：贝叶斯优化(Bayesian Optimization) 其一