用“拟合”来理解深度学习,只是看到了表面现象。重要的是“泛化”。
https://www.libaedu.com/info/243.html这里看到一个很有意思的观点 **统计学在于拟合,深度学习在于外推**。一部分人认为,深度学习之所以成功,只是因为在高维空间有着优秀的 curve ftting 能力或者说拟合能力。而模型的输出,只是拟合函数的插值结果,或者 interpolation 结果。对于这个观点,著名的人工智能三巨头之一 Yann Lecun 有着他自己的不一样的看法。他认为"in
high dimension, there is no such thing as interpolatioIn high dimension, everything isextrapolation."
也就是说,他认为,在高维空间就不存在插值这样的东西,在高维空间-切都只有外推也就是 extrapolation 。插值和外推的区别就是,插值的话你的输入是在你给定值域范围内的,也就是你见过类似的。外推就是,你的输入是在值域之外的。
https://www.sohu.com/a/278209059_314987关于泛化,这里有一个更系统的论述 **机器学习的本质: 理解泛化的新观点**
过拟合的反面, 就是泛化, 应该说,它就是学习的本质。 否则, 整个机器学习就是一门拟合而已, 深度学习就是比较复杂的拟合。学习的最高境界,是在纷繁的现象里总结出简单的定理,比如看到大量物体运动的轨迹,总结出牛顿定律: F=ma . 但是它的预测能力几乎是无限的。学习,本来就是在总结规律,而不是复制数据。
https://www.leiphone.com/category/academic/UhwkU7HPkFz8kp80.html还有一个看起来很有意思的:**深度学习为何泛化的那么好?秘密或许隐藏在内核机中**
众所周知,像 VGG 这样的深度神经网络参数太多,应该会过拟合,但事实并非如此。而且恰恰相反,这类网络对新数据的泛化能力惊人的好——直到最近,还没人知道其中的原因。现在,内核机和理想化神经网络的数学等价性为这些过度参数化的网络效果如此好的原因和过程提供了线索。内核机是一种算法,它通过将数据投射到极高的维度中来寻找数据中的模式。也就是说,通过研究理想化神经网络在数学上易于处理的内核机等价对应物,研究人员正在了解为什么深度网络尽管具有令人震惊的复杂性,但在训练过程中会收敛到可以很好地泛化到未见过的数据的解决方案。