统计学习三要素

统计学习方法是由模型、策略和算法构成的，即统计学习方法由三要素构成，可以简单表示为：

$$
方法=模型+策略+算法
$$

模型

统计学习首先要考虑的问题是学习什么样的模型。在监督学习过程中，模型就是所要学习的条件概率分布$P(Y/X)$或者决策函数$Y=f(X)$。模型的假设空间包含所有可能的条件概率分布或决策函数。

对于决策函数是输入变量的线性函数的情况，模型的假设空间就是所有线性函数构成的函数集合。假设空间用$F$表示。假设空间可以定义为决策函数的集合

$$
F={f|Y=f(X)}
$$

其中，$X$和$Y$是定义在输入空间$\LARGE{x}$和输出空间$\LARGE{y}$上的变量。这时$F$通常是由一个参数向量决定的函数族：

$$
F={f|Y=f_\theta(X),\theta\in{R^n}}
$$
参数向量$\theta$取值于$n$维欧氏空间$R^n$，称为参数空间。

假设空间也可以定义为条件概率的集合

$$
F={P|P(Y/X)}
$$
其中，$X$和$Y$是定义在输入空间$\LARGE{x}$和输出空间$\LARGE{y}$上的随机变量。这时$F$通常是由一个参数向量决定的条件概率分布族：

$$
F={P|P_\theta(Y/X)}
$$

参数向量$\theta$取值于$n$维欧氏空间$R^n$，也称为参数空间。

策略

有了模型的假设空间，统计学习接着需要考虑使用什么样的策略从假设空间中选取出最优的模型。

首先引入损失函数与风险函数的概念，损失函数模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。

损失函数

监督学习问题是在假设空间$F$中选取模型$f$作为决策函数，对于给定的输入$X$，由$f(X)$给出相应的输出$Y$，这个输出的预测值$f(X)$与真实值$Y$可能一致也可能不一致，用一个损失函数(loss function)与代价函数(cost function)来度量错误的程度。损失函数是$f(X)$与$Y$的非负实值函数，记作$L(Y,f(X))$。

统计学习常用的损失函数有以下几种：
（1）0-1损失函数(0-1 loss function)

$$
L(Y,f(X)) = \begin{cases}
1, & Y \neq f(X) \
0, & Y = f(X)
\end{cases}
$$

（2）平方损失函数(quadratic loss function)

$$
L(Y,f(X)) = (Y-f(X))^2
$$

（3）绝对损失函数(absolute loss function)

$$
L(Y,f(X)) = |Y-f(X)|
$$

（4）对数损失函数(logarithmic loss function)或者对数似然损失函数(log-likelihood loss function)

$$
L(Y,P(Y/X)) = -log{P(Y/X)}
$$

风险函数

损失函数值越小，模型就越好。由于模型的输入、输出$(X,Y)$是随机变量，遵循联合分布$P(X,Y)$，所以损失函数的期望是

$$
R_{exp}(f)=E_p[L(Y,f(X))]=\int_{\LARGE{x}\times\Large{y}}L(y,f(x))P(x,y)dxdy
$$

这是理论上$f(X)$关于联合分布$P(X,Y)$的平均意义下的损失，称为风险函数（risk function）或期望损失（expected loss）。学习的目标就是选择期望风险最小的模型。

给定一个训练数据集

$$
T={(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)}
$$

模型$f(X)$关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss)，记作$R_{emp}$:

$$
R_{emp}(f)=\frac{1}{N}\sum_{i=1}^N{L(y_i,f(x_i))}
$$

期望风险$R_{exp}(f)$是模型关于联合分布的期望损失，经验风险$R_{emp}(f)$是模型关于训练样本集的平均损失。根据大数定律，当样本容量$N$趋于无穷时，经验风险$R_{emp}(f)$趋于期望风险$R_{exp}(f)$。但是现实中训练样本数目有限，甚至很小，所以用经验风险估计期望风险常常并不理想，需要对经验风险进行一定的矫正。

经验风险最小化与结构风险最小化

在假设空间、损失函数以及训练数据集确定的情况下，经验风险函数式就可以确定。通过最小化经验风险就可以得到最优的模型。根据这一策略，按照经验风险最小化求最优模型就是求解最优化问题：

$$
min_{f\in{F}}\frac{1}{N}\sum_{i=1}^N{L(y_i,f(x_i))}
$$

其中，$F$是假设空间。

当样本容量足够大时，经验风险最小化能保证有很好的学习效果，在现实中被广泛采用。当样本容量很小的时候，经验风险最小化学习的效果就不一定很好，会产生过拟合现象。

结构风险最小化(structural risk minimization,SRM)是为了防止过拟合而提出的策略。结构风险最小化等价于正则化(regularization)。结构风险在经验风险上加上表示模型复杂度的正则项(regularizer)或惩罚项(penalty term)。在假设空间、损失函数以及训练数据集确定的情况下，结构风险的定义是：

$$
R_{srm}(f)=\frac{1}{N}\sum_{i=1}^N{L(y_i,f(x_i))}+\lambda{J(f)}
$$

其中$J(f)$为模型的复杂度，是定义在假设空间$F$上的泛函。模型$f$越复杂，复杂度$J(f)$就越大。也就是说，复杂度表示了对复杂模型的惩罚。$\lambda\geq{0}$是系数，用以权衡经验风险和模型复杂度。结构风险小需要经验风险和模型复杂度同时小。

结构风险最小化的策略认为结构风险最小的模型就是最优的模型。所以求最优模型，就是求解以下问题：

$$
min_{f\in{F}}R_{srm}(f)=min_{f\in{F}}{\frac{1}{N}\sum_{i=1}^N{L(y_i,f(x_i))}+\lambda{J(f)}}
$$

算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后考虑用什么样的计算方法求解最优模型。

这时，统计学习问题归结为最优化问题，统计学习的算法称为求解最优化问题的算法。统计学习方法之间的不同，主要来自其模型、策略、算法的不同。确定里模型、策略、算法，统计学习的方法也就确定了。