最大熵模型的思想是：数据集没有约束（或满足了已知约束之后）的情况下，认为数据的概率分布是均匀的，没有偏向说哪些数据是概率更大的，这种情况也代表整个数据集是熵最大的。这是在缺乏信息的情况下能够做到的最合理的“认为”，此时通过求熵最大，来求得模型参数。这样求得的模型在进行预测时，尽管精度不保证更高，但它能覆盖到更多的情况，因为它在训练时候没有“偏见”。

举个例子，一个六面色子，在没有任何信息的情况下，假定所有数字被掷到的概率相等，为 $\frac{1}{6}$ ，这个假设是最合理的，也是使得熵最大的。

最大熵模型

设有样本集 $\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(N)},y^{(N)})\}$ ，其中类别是 $\(y^{(1)},y^{(2)}),...,y^{(N)})$ （不一定是N个类别，里面可以有相等值），需要求解合理分类器。

选择使用最大熵模型，也就是选择了软分类器。软分类器的意思是通过求解不同类别的概率 $P(Y=y^{(j)}|X=x^{(i)}),\ \ \ j=1,2,...,m$ 并从中挑选出概率最大的那个，来决定最终分类的类别。所以这里我们的目标是写出 $P(y|x)$ 函数的表达式。而最大熵的思想是：通过最大化训练集的条件熵，可以获得最优的 $P(y|x)$ 表达式——

$\underset{P \epsilon C }{max}\ H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)$

也就是找到合适的P也就是 $P(y|x)$ ，使得上面的条件熵最大。其中 $\tilde{P}(X)$ 为来自数据样本的经验分布，计算方法是： $\tilde{P}(X=x)=\frac{v(X=x)}{N}$ 即在样本集中，x出现的频次在样本总数N里的占比。因为我们没法得到 $P(x)$ ，所以用经验分布代替。

注：这里的 $\sum_{x,y}^{ }$ 表示遍历样本集的去重后的数据，而非遍历变量取值范围。比如变量取值范围是 $X=1,2,3,4,5\ \ Y=1,2,3,4$ 而样本集为 $\{(1,2),(1,2),(3,4),(5,4)\}$ ，则 $\sum_{x,y}^{ }$ 表示 $\{(1,2),(3,4),(5,4)\}$ 的遍历

到目前为止，只有 $\underset{P \epsilon C }{max}\ H(P)$ 还不足以计算出P，我们还应该从数据中探索约束条件。

特征函数及约束条件

首先第一点，样本集里的数据一定是符合某种数据规则的，也就是 $x^{(i)}$ 和 $y^{(i)}$ 之间是有某种关系的，不然任何组合都可以成为样本数据，那么求模型就没有任何意义了。我们把 $x^{(i)}$ 和 $y^{(i)}$ 之间的关系定义为特征函数：

$f(x,y)=\left\{\begin{matrix} 1,\ \ if\ x\ has\ relationship\ with\ y\\ 0,\ \ otherwise\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \end{matrix}\right.$

我们可能需要很多个不同特征的组合，因为x和y的关系可能不止一种。举个例子，基于下面的数据集判断“resume”的在句子里的意思是“简历”（设为0）还是“继续”（设为1）：

$\begin{align*} &(x^{(1)},y^{(1)})=(''They\ will\ resume\ negotiations\ today'',0)\\ &(x^{(2)},y^{(2)})=(''He\ resumes\ study'',0)\\ &(x^{(3)},y^{(3)})=(''The\ resume\ looks\ good'',1) \end{align*}$

定义2个它的函数：

1）当resume后面是名词，则resume为“继续”：

$f(x,y)=\left\{\begin{matrix} 1,\ \ if\ noun\ next\ to\ it\\ 0,\ \ otherwise\ \ \ \ \ \ \ \ \ \ \ \end{matrix}\right.$

2）当resume后面是动词，则resume为“简历”:

$f(x,y)=\left\{\begin{matrix} 1,\ \ if\ verb\ next\ to\ it\\ 0,\ \ otherwise\ \ \ \ \ \ \ \ \ \ \end{matrix}\right.$

则特征函数可以表示数据的特性：
$\begin{align*} &f_1(x^{(1)},y^{(1)})=f_1(x^{(2)},y^{(2)})=1\ \ \ \ f_1(x^{(3)},y^{(3)})=0\\ &f_2(x^{(1)},y^{(1)})=f_2(x^{(2)},y^{(2)})=0\ \ \ \ f_2(x^{(3)},y^{(3)})=1 \end{align*}$

特征函数 $f(x,y)$ 在数据集上关于经验分布 $\tilde{P}(x,y)$ 的期望为：

$E{_{\widetilde{p}}}(f)=\sum_{x,y}\widetilde{P}(x,y)f(x,y)$

特征函数 $f(x,y)$ 在数据集上关于分布 $\tilde{P}(x,y)$ 的期望为：

$E_{P}(f)=\sum_{x,y}^{ }P(x,y)f(x,y)$

由于我们得不到 $P(x,y)$ ，所以只好通过 $\tilde{P}(x)$ 替换： $P(x,y)=P(x)P(y|x)\approx \tilde{P}(x)P(y|x)$ ，所以有：

$E_{P}(f)=\sum_{x,y}^{ }\tilde{P}(x)P(y|x)f(x,y)$

如果我们通过训练数据能训练出模型，那么两个特征函数期望相等：

$\sum_{x,y}^{ }\tilde{P}(x,y)f(x,y)=\sum_{x,y}^{ }\tilde{P}(x)P(y|x)f(x,y)$

于是我们得到了第一个约束条件。

此外容易得到另一个约束条件，对所有可能，概率和为1：

$\sum_{y}^{ }P(y|x)=1$

于是我们得到了第二个约束条件。

求解法（一）：拉格朗日对偶化

综上，我们的问题表述为：

$\begin{align*} &\underset{P\epsilon C}{max}\ H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)\\ &s.t.\ E_p(f_i)=E_{\tilde{P}}(f_i),\ i=1,2,...,n\\ &\ \ \ \ \ \sum_{y}P(y|x)=1 \end{align*}$

将最大问题改写为最小问题：

$\begin{align*} &\underset{P\epsilon C}{min}\ -H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)\\ &s.t.\ E_p(f_i)=E_{\tilde{P}}(f_i),\ i=1,2,...,n\\ &\ \ \ \ \ \sum_{y}P(y|x)=1 \end{align*}$

使用拉格朗日法，引进乘子 $w_0,w_1,w_2,...w_n$ ，得到拉格朗日函数：

$\begin{align*} L(P,w)=&-H(P)+w_0\left ( 1-\sum_{y}P(y|x) \right )+\sum_{i=1}^{n}w_i(E_{\tilde{P}}(f_i)-E_P(f_i))\\ =&\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)+w_0\left ( 1-\sum_{y}P(y|x) \right )+\sum_{i=1}^{n}w_i\left ( \sum_{x,y}\tilde{P}(x,y)f_i(x,y)-\sum_{x,y}\tilde{P}(x)P(y|x)f_i(x|y) \right ) \end{align*}$

问题被转换为：

$\underset{P\epsilon C}{min}\ \underset{w}{max}\ L(P,w)$

因为上面为P的凸函数，则可以进一步转化为对偶问题：

$\underset{w}{max}\ \underset{\tilde{P\epsilon C}}{min}\ L(P,w)$ ①

先求内部的min,通过对P的偏导数为0求得：

$P_w(y|x)=\frac{1}{Z_w(x)}exp\left ( \sum_{i=1}^{n}w_if_i(x,y) \right )$

其中 $Z(x)=\sum_{y}exp\left ( \sum_{i=1}^{n}w_if_i(x,y)\right )$

上面的式子中， $w_i$ 还是未知数，接下来继续对外部的max求解，可以得到最优的 $w_i$ 解，再代入上式，就可以得到 $P(y|x)$ 的表达式了。

求解法（二）：极大对数似然估计

除了上面的方法，还有一种更简单的方法可以转换最大熵问题，即转换为对数极大似然估计。
条件概率的极大似然函数，就是希望样本中各个概率乘积最大：

$\prod_{i=1}^{N}P(y^{(i)}|x^{(i)})$

N个样本中可能有重复的，合并重复样本，一共有n个不重复的值，则上式可以写作：

$\prod_{i=1}^{n}P(y^{(i)}|x^{(i)})^{C(x=x^{(i)},y=y^{(i)})}$

其中C为每个值在数据集里出现的次数。

我们只要最大化上式，就可以求得 $P(y|x)$ 的表达式。

不过此处还可以再转换一次：最大化上式跟最大化它的开N次根，是等效的，所以我们将它开N次根：

$\prod_{i=1}^{n}P(y^{(i)}|x^{(i)})^{ \frac{C(x=x^{(i)},y=y^{(i)})}{N}} =\prod_{i=1}^{n}P(y^{(i)}|x^{(i)})^{\tilde{P}(x,y)}$

为了便于计算，再对它取log，就得到对数似然函数:

$\begin{align*} L_{\tilde{P}}(P_w)=&\sum_{x,y}\tilde{P}(x,y)logP(y|x)\\ =&\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}w_if_i(x,y)-\sum_{x,y}\tilde{P}(x,y)logZ_w(x)\\ =&\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n}w_if_i(x,y)-\sum_{x}\tilde{P}(x)logZ_w(x) \end{align*}$

最大化上式，即 $\underset{w}{max}\ L_{\tilde{P}}(P_w)$ 就是最大熵模型的最优解。为什么？证明如下：

已知上面拉格朗日对偶化问题①为 $\underset{w}{max}\ \underset{\tilde{P\epsilon C}}{min}\ L(P,w)$ ，我们只要证明 $\underset{\tilde{P\epsilon C}}{min}\ L(P,w)$ 等于这里的对数似然函数 $L_{\tilde{P}}(P_w)$ 就好了。

通过代数计算（过程略）可以求得:

$\underset{\tilde{P\epsilon C}}{min}\ L(P,w)=$

故 $\underset{\tilde{P\epsilon C}}{min}\ L(P,w)=L_{\tilde{P}}(P_w)$

至此，证明了最大熵模型求解可以转换为极大对数似然估计。

最大熵模型和逻辑回归

最大熵模型可以推导成为逻辑回归，逻辑回归只是最大熵模型的一种特殊情况。

最大熵模型为：

$P_w(y|x)=\frac{1}{Z_w(x)}exp\left ( \sum_{i=1}^{n}w_if_i(x,y) \right )$

其中 $Z(x)=\sum_{y}exp\left ( \sum_{i=1}^{n}w_if_i(x,y)\right )$

如果分类类别只有两种 $y\epsilon \{y_1,y_2\}$

只定义一个特征函数：

$f(x,y)=\left\{\begin{matrix} g(x),\ \ y=y_1\\ 0,\ \ \ \ \ \ y=y_0 \end{matrix}\right.$

将特征函数代入到最大熵模型，求 $y=y_1$ 时的结果：

$\begin{align*} P(y_1|x)=&\frac{exp\left(wf(x,y_1)\right)}{\sum_{y}exp\left(wf(x,y)\right)}\\ =&\frac{exp\left(wf(x,y_1)\right)}{exp\left(wf(x,y_0)\right)+exp\left(wf(x,y_1)\right)}\\ =&\frac{exp\left(wf(x,y_1)\right)}{exp\left(0\right)+exp\left(wf(x,y_1)\right)}\\ =&\frac{exp\left(wg(x)\right)}{1+exp\left(wg(x)\right)}\\ =&\frac{1}{1+exp\left(-wg(x)\right)}\\ \end{align*}$

求 $y=y_0$ 时的结果：

$\begin{align*} P(y_0|x)=&\frac{exp\left(wf(x,y_0)\right)}{\sum_{y}exp\left(wf(x,y)\right)}\\ =&\frac{exp\left(wf(x,y_0)\right)}{exp\left(wf(x,y_0)\right)+exp\left(wf(x,y_1)\right)}\\ =&\frac{exp\left(0\right)}{exp\left(0\right)+exp\left(wf(x,y_1)\right)}\\ =&\frac{1}{1+exp\left(wg(x)\right)}\\ =&\frac{exp\left(-wg(x)\right)}{exp\left(-wg(x)\right)+1}\\ =&\frac{exp\left(-wg(x)\right)+1-1}{exp\left(-wg(x)\right)+1}\\ =&1-\frac{1}{exp\left(-wg(x)\right)+1}\\ =&1-P(y_1|x) \end{align*}$

于是得到了逻辑回归模型

以上。