《统计学习方法》读书笔记1:概论

  1. 统计学习的三要素是是模型策略、和算法。方法 = 模型 + 策略 + 方法。
    1. 模型就是所要学习的条件概率分布或决策函数。
    2. 按照什么样的准则学习或选择最优模型就是策略
      1. 首先要引入损失函数的概念,度量预测错误的程度。
      2. 风险函数或期望损失指的是损失函数的期望$$ R_{exp}(f) = E_p[L(Y, f(X)))] = \int_{\mathcal{X}\times\mathcal{Y}}L(y, f(x))P(x, y)dxdy $$ 学习的目标是让期望损失最小化。但是P(x,y)未知,所以无法得到这个期望。于是一个替代办法是使用经验风险或经验损失替代 $$ R_{emp}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i, f(x_i)) $$ 根据大数定律,样本足够大时$ R_{emp}(f) $会趋于$ R_{exp}(f) $。但是样本不足时就会有偏差,需要矫正。
      3. 经验风险最小化指的就是上面所说的直接最小化 $ R_{emp}(f) $。结构风险最小化是为了防止样本不足产生的偏差。结构风险最小化等价于正则化,结构风险的定义是 $$ R_{srm}(f) = \frac{1}{N}\sum_{i=1}^NL(y_i, f(x_i))+\lambda J(f) $$
      4. 贝叶斯中的极大后验概率估计(maximum posterior probability estimation, MAP)是结构风险最小化的一个例子。
    3. 算法是指具体的计算方法。
  2. 模型评估需要引入训练误差和测试误差。训练误差能判定当前的方法是不是能学习这些数据,测试误差反应了预测未知数据的能力。如果学习方法训练误差很小而测试误差很大,这种现象就是过拟合。在模型选取中,应该用结构风险最小化的方式避免过拟合。
  1. 正则化交叉验证是模型选择的重要方法。
  2. 评估泛化能力可以使用泛化能力上界。这个证明比较复杂,留待以后看。
  3. 模型分为生成模型判别模型。简单地说,生成模型就是给定X能输出Y,判别模型是给定(X,Y)判定是不是正确的。
  4. 分类问题是监督学习的一个核心问题。评估指标一边是准确率。对于二分类问题,精确率(precision)$$ P=\frac{TP}{TP+FP} $$ 与召回率(recall) $$ R=\frac{TP}{TP+FN} $$也是非常重要的指标。此外,还有一个指标是二者的调和平均$$ F_1=\frac{2TP}{2TP+FP+FN} $$
  5. 标注问题可以看做分类问题的扩展。例如,自然语言处理中的词性标注就是一个典型标注问题。
  6. 回归问题是考察X与Y之间关系的一类问题。在预测领域有广泛应用。

标签: none

添加新评论