《统计学习方法》读书笔记6:logistic回归与最大熵模型

  1. logistic分布:X服从logistic分布是只X具有下面的分布函数与密度函数:
    $$
    F(x) = P(X \leqslant x) = \frac{1}{1+e^{-(x-\mu)/\gamma}}
    $$
    $$
    f(x) = F'(x) = \frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})}
    $$
  2. 二项logistic回归模型条件概率分布
    $$
    P(Y=1|x) = \frac{exp(w \cdot x + b)}{1 + exp(w \cdot x + b)}
    $$
  3. 考虑对输入的x进行分类的线性函数$w \cdot x$,其值域为实数域。对于概率
    $$
    P(Y=1 | x) = \frac{exp(w \cdot x)}{1+exp(w \cdot x)}
    $$
    线性函数的值越接近正无穷,概率值就越接近与1。这样的模型就是logistic模型。
  4. 模型参数可以使用最大似然估计。
    设:$ P(Y=1|x)=\pi(x), P(Y=0 |x)=1-\pi(x) $
    似然函数为:
    $$
    \prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}
    $$
    对数似然函数为:
    $$
    \begin{align}
    L(w) &= \sum_{i=1}^N[y_i\log\pi(x_i) + (1-y_i)\log(1-\pi(x_i))] \newline
    &= \sum_{i=1}^N[y_i\log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i))] \newline
    &= \sum_{i=1}^N[y_i(w\cdot x_i) - \log (1+exp(w \cdot x_i)]
    \end{align}
    $$
    对 $ L(w) $ 求极大值,得到$w$的估计值。
  5. 最大熵原理:最大熵原理认为,学习概率模型时,在所有可能的模型中熵最大的模型是最好的模型。也就是“不要把鸡蛋装在同一个篮子里”。
  6. 熵满足下列不等式
    $$
    0 \leq H(P) \leq \log|X|
    $$
    也就是说,当X服从均匀分布时,熵最大。
  7. 最大熵模型
    假设满足所有约束条件的模型集合为
    $$
    \mathcal{C} \equiv \lbrace P \in \mathcal{P} | E_P(f_i),\ i=1,2,\ldots,n \rbrace
    $$
    它定义在条件概率分布 $ P(Y|X) $上的条件熵为
    $$
    H(P)=-\sum_{x,y} \tilde P(x)P(y|x)\log P(y|x)
    $$
    则模型集合 $ \mathcal{C} $中条件熵 $ H(P) $最大的模型称为最大熵模型。
  8. 求解最大熵模型使用拉格朗日法。
  9. 最大熵函数对偶函数的极大化等价于最大熵模型的极大似然估计。
  10. 模型学习的方法有改进的迭代尺度算法(improved iterative scaling, IIS)和拟牛顿法。

标签: none

添加新评论