克隆成功是否进入此策略?

确定取消

机器学习选讲:从理论到算法(更新中)

发布于2017-07-21 10:46 浏览 712 评论 0 0 1 分享到:

法律申明:量邦科技原创内容,保留所有版权和知识产权,禁止任何形式的转载。

一、机器学习的统计理论和原理

对于一组随机数据(Y,X)(Y,X),假设Y=f(X)+ϵY=f(X)+\epsilon,我们可以拟合f(x){f}(x),使其和YY之间尽可能的接近,在平方损失准侧下,f(x)=E(YX=x)f(x)=E(Y|X=x)是理论最优的函数形式,统计估计的任务就是对上述期望值进行估计。两种常见的方式是:
1、对上述期望值拟合一个参数结构,比如,f^(x)=xTβ\hat{f}(x)=x^T\beta这就是回归等参数模型的思想;
2、对上述期望值直接用xx领域附近的点进行平均估计,比如f^(x)=Ave(yixiNk(x))\hat{f}(x)=Ave(y_i|x_i\in N_k(x)).这就是局部近领的思想。

不管使用什么思路构造估计模型,估计的效果可以用平方损失进行衡量,可以构造一个叫做均方误差(Mean Squared Error,MSE)的指标衡量估计值和真实值之间的差距,假设训练数据集为τ\tau,对于观测值xx

MSE(x)=Eτ[f(x)f^(x)]2=Varτ(f^(x))+Bias2(f^(x))MSE(x)=E_{\tau}[f(x)-\hat{f}(x)]^2=Var_{\tau}(\hat{f}(x))+Bias^2(\hat{f}(x))

其中Bias2(f^(x))=[f(x)f^(x)]2Bias^2(\hat{f}(x))=[f(x)-\hat{f}(x)]^2

这个指标最直观的解释是,估计误差有两部分组成,第一部分是估计值的方差,这个衡量估计模型的稳定型,模型越稳定,方差越小;第二部分是估计值的偏差,这个衡量估计模型的对训练数据的精确度,模型越复杂灵活,这个值越小。方差和偏差是硬币的两面,如果我们拟合简单的线性结构,估计值不会随着训练样本的变化而显著变化,方差必然小,但是肯定会和真实值之间有一定的差异,也就是方差比较大,估计不够准确(除非真实结构就是稳定的线性结构),对于新的样本点,这有可能造成MSE偏大;反之,如果我们用比较灵活地模型,类似K-阶近邻估计,这个估计对训练样本而言,偏差非常小,但是估计值本身的方差肯定会比较大,因为数据一变,K-阶近领估计的结果就会大幅度变动,这也有可能造成新样本点MSE的偏大。所谓的过度拟合(Overfitting),其实就是说对训练数据过度建模,在训练数据中偏差几乎为零,但是这个模型本身不稳定,方差很大,样本一变,估计值的变化会很大,进而造成对于未知值的均方误差很大。参数很多的结构化估计趋近于非参数的灵活局部估计,都会有过度拟合的倾向。

二、机器学习经典算法介绍

  1. 机器学习选讲:AdaBoost方法详解(包含证明、经典文献和Python代码)

0 个评论

发表评论