问:
为什么袋装学习减少了方差?
A:机器学习中的自举聚合或“装袋”通过构建更高级的复杂数据集模型来减少差异。 具体来说,装袋方法会创建子集,这些子集通常会重叠在一起,以更复杂的方式对数据进行建模。
关于如何套袋的一个有趣而直接的想法是获取一组随机样本并提取简单均值。 然后,使用同一组样本,创建数十个子集作为决策树,以操纵最终结果。 第二个均值应该更真实地显示这些样本在价值方面如何相互联系。 相同的想法可以应用于任何数据点集的任何属性。
免费下载: 机器学习及其重要性 |
由于此方法将发现整合到更明确的边界中,因此可以减少差异并有助于过度拟合。 考虑一个散点图,它具有一些分布的数据点; 通过使用装袋方法,工程师可以“降低”复杂度并将定向方向定向为更平滑的参数。
一些人谈论套袋的价值是“分而治之”或“辅助启发式”。 这个想法是,通过集成建模(例如使用随机森林),那些使用装袋技术的技术可以获得方差较低的数据结果。 在降低复杂性方面,套袋还可以帮助过度拟合。 考虑一个数据点太多的模型:例如,一个有100个未对齐点的连接点。 最终的可视数据行将呈锯齿状,动态,易变。 然后通过汇总评估来“消除”差异。 在集成学习中,通常将其视为加入多个“弱学习者”以提供“强学习”协作结果。 结果是数据线更平滑,轮廓更清晰,并且模型中的野生方差更少。
很容易看出如何将套袋概念应用于企业IT系统。 企业领导者通常希望对产品,客户等发生的事情有一个“鸟瞰”。过度拟合的模型可以返回较少的可消化数据,而返回的结果则更为“分散”,而装袋可以使模型“稳定”并使其更有用最终用户。