统计学习及监督学习概论
作为《统计学习方法》一书的开篇内容,本文旨在系统梳理统计学习领域中的基本概念与常见问题,为后续章节的深入学习奠定理论基础。
模型评估与选择
训练误差与测试误差
一般而言,统计学习方法具体采用的损失函数未必是评估时使用的损失函数。
假设学习到的模型是 \(Y = \hat{f}(X)\),训练误差是模型 \(Y = \hat{f}(X)\) 关于训练数据集的平局损失:
\[ R_{\text{emp}} = \frac{1}{N} \sum_{i = 1}^{N} L(y_i, \hat{f}(x_i)) \]
其中 \(N\) 是训练样本容量。
测试误差是模型 \(Y = \hat{f}(X)\) 关于测试数据集的平均损失:
\[ e_{\text{emp}} = \frac{1}{N'} \sum_{i = 1}^{N'} L(y_i, \hat{f}(x_i)) \]
其中 \(N'\) 是测试样本容量。
上面所述中的函数 \(L\) 是损失函数。
常见的 \(L\) 有指示函数 \(I\),当满足函数内容是取 \(1\)。当损失函数是指示函数时,此时测试误差又叫做测试误差率:
\[ e_{\text{test}} = \frac{1}{N'} \sum_{i = 1}^{N'} I(y_i \neq \hat{f}(x_i)) \]
过拟合
过拟合是统计学习和机器学习领域中常见且重要的问题之一。它指的是模型在训练数据上表现良好,能够取得较低的训练误差,但在未见过的测试数据或新样本上表现较差,导致泛化能力下降的现象。过拟合通常发生在模型复杂度过高、参数数量远大于训练样本数量,或训练过程中对训练数据记忆过多而忽略了数据的内在规律时。
造成过拟合的主要原因包括:模型容量过大、训练数据不足、特征冗余或噪声较多等。为缓解过拟合,常用的方法有:增加训练数据量、选择更简单的模型、采用正则化技术(如L1或L2正则化)、剪枝、交叉验证等。合理地控制模型复杂度和提升数据质量,是提升模型泛化能力、避免过拟合的关键。
正则化与交叉验证
正则化
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项,一般具有下述形式:
\[ \min_{f \in \mathcal{F}} \quad \frac{1}{N} \sum_{i = 1}^{N}L(y_i, \hat{f}(x_i)) + \lambda J(f) \]
交叉验证
如果样本数据不足,此时可以应用交叉验证。