均方误差损失函数(简称均方损失)可以用于线性回归的一个原因是:我们假设相对于模型的预测,原数据的实际值中包含噪声,其中噪声服从正态分布。

噪声分布如下式:

y = \omega^Tx+b+\epsilon

其中,\epsilon \sim N(0,\sigma^2)

因此,我们现在可以写出通过给定的 x 观测到特定 y 的似然(likehood):

P(y|x) = \frac{1}{\sqrt{2\pi\sigma^2}}exp\bigl(-\frac{1}{2\sigma^2}(y-\omega^Tx-b)^2\bigl)

现在,根据极大似然估计法,参数 w 和 b 的最优值是使整个数据集的似然最大的值:

P(y|X)=\prod^n_{i=1}p(y^{(i)}|x^{(i)})

根据极大似然估计法选择的估价量称为极大似然估计量。虽然许多指数函数的乘积最大化看起来很困难,但是我们可以在不改变目标的前提下,通过最大化似然对数来简化。一般来说,优化通常是指最小化而不是最大化,因此我们可以改为最小化负对数似然-logP(y|X)。由此得到的数学公式是:

-logP(y|X) = \sum^n_{i=1}\bigl(\frac{1}{2}log(2\pi\sigma^2) + \frac{1}{2\sigma^2}(y^{(i)}-\omega^Tx^{(i)}-b)^2\bigl)

现在我们只要假设\sigma是某个固定常数就可以忽略第一项,因为第一项不依赖 w 和 b。第二项除常数\frac{1}{\sigma^2}外,其余部分和前面介绍的均方误差是一样的。上面的式子并不依赖\sigma。因此,在高斯噪声的假设下,最小化均方误差等价于对线性模型的极大似然估计。