- logistic分布:X服从logistic分布是只X具有下面的分布函数与密度函数:
$$
F(x) = P(X \leqslant x) = \frac{1}{1+e^{-(x-\mu)/\gamma}}
$$
$$
f(x) = F'(x) = \frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})}
$$
- 二项logistic回归模型条件概率分布
$$
P(Y=1|x) = \frac{exp(w \cdot x + b)}{1 + exp(w \cdot x + b)}
$$
- 考虑对输入的x进行分类的线性函数$w \cdot x$,其值域为实数域。对于概率
$$
P(Y=1 | x) = \frac{exp(w \cdot x)}{1+exp(w \cdot x)}
$$
线性函数的值越接近正无穷,概率值就越接近与1。这样的模型就是logistic模型。
- 模型参数可以使用最大似然估计。
设:$ P(Y=1|x)=\pi(x), P(Y=0 |x)=1-\pi(x) $
似然函数为:
$$
\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}
$$
对数似然函数为:
$$
\begin{align}
L(w) &= \sum_{i=1}^N[y_i\log\pi(x_i) + (1-y_i)\log(1-\pi(x_i))] \newline
&= \sum_{i=1}^N[y_i\log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i))] \newline
&= \sum_{i=1}^N[y_i(w\cdot x_i) - \log (1+exp(w \cdot x_i)]
\end{align}
$$
对 $ L(w) $ 求极大值,得到$w$的估计值。
- 最大熵原理:最大熵原理认为,学习概率模型时,在所有可能的模型中熵最大的模型是最好的模型。也就是“不要把鸡蛋装在同一个篮子里”。
- 熵满足下列不等式
$$
0 \leq H(P) \leq \log|X|
$$
也就是说,当X服从均匀分布时,熵最大。
- 最大熵模型
假设满足所有约束条件的模型集合为
$$
\mathcal{C} \equiv \lbrace P \in \mathcal{P} | E_P(f_i),\ i=1,2,\ldots,n \rbrace
$$
它定义在条件概率分布 $ P(Y|X) $上的条件熵为
$$
H(P)=-\sum_{x,y} \tilde P(x)P(y|x)\log P(y|x)
$$
则模型集合 $ \mathcal{C} $中条件熵 $ H(P) $最大的模型称为最大熵模型。
- 求解最大熵模型使用拉格朗日法。
- 最大熵函数对偶函数的极大化等价于最大熵模型的极大似然估计。
- 模型学习的方法有改进的迭代尺度算法(improved iterative scaling, IIS)和拟牛顿法。
标签: none