在新闻里 为什么特征选择在机器学习中如此重要?

为什么特征选择在机器学习中如此重要?

Anonim

问:

为什么特征选择在机器学习中如此重要?

A:

特征选择在机器学习中非常重要,主要是因为它是将变量的使用引导到对于给定机器学习系统最有效的方法的基本技术。

专家们讨论了特征选择和特征提取如何发挥作用,以最大程度地减少对维数的诅咒或帮助进行过度拟合-这些是解决过于复杂的建模概念的不同方法。

免费下载: 机器学习及其重要性

换句话说,功能选择有助于为开发人员提供工具,使其仅使用机器学习训练集中最相关和最有用的数据,从而大大降低了成本和数据量。

一个示例是按比例测量复杂形状的想法。 随着程序的扩展,它可以识别更多的数据点,并且系统变得更加复杂。 但是,复杂的形状不是机器学习系统正在使用的典型数据集。 这些系统可能使用的数据集在不同变量之间的差异水平差异很大。 例如,在对物种进行分类时,工程师可以使用特征选择来仅研究能够为其提供最有针对性的结果的变量。 如果图表中的每只动物的眼睛或腿数相同,则可以删除该数据,或者可以提取其他更相关的数据点。

特征选择是工程师将机器学习系统导向目标的区分过程。 除了从规模上消除系统复杂性的想法之外,特征选择还可以用于优化专家所谓的机器学习中“偏差方差折衷”的方面。

特征选择有助于偏差和方差分析的原因更加复杂。 康奈尔大学关于特征选择,偏差方差和装袋的研究旨在说明特征选择如何帮助项目。

这组作者说,论文“研究了特征选择提高监督学习准确性的机制。”

该研究进一步指出:

特征选择过程中的经验偏差/方差分析表明,最准确的特征集对应于学习算法的最佳偏差方差折衷点。

在讨论使用强相关性或弱相关性时,作者将特征选择称为“方差减少方法” –当您将方差本质上视为给定变量中的变化量时,这才有意义。 如果没有差异,则数据点或数组可能实质上是无用的。 如果差异非常大,它可能会演变成工程师认为是“噪声”或无关紧要的任意结果,这些结果对于机器学习系统来说很难管理。

鉴于此,特征选择是机器学习设计的基本部分。

为什么特征选择在机器学习中如此重要?