发展趋势 为什么可扩展的机器学习很重要?

为什么可扩展的机器学习很重要?

Anonim

问:

为什么可扩展的机器学习很重要?

A:

可扩展的机器学习是机器学习行业中的一个流行术语,部分原因是使机器学习过程规模化是许多机器学习项目中重要且具有挑战性的方面。

例如,一些较小的机器学习项目可能不需要扩大规模,但是当工程师正在考虑进行各种生产性建模,试图推动对巨型数据集的分析或试图将机器学习应用于不同的硬件环境时,可伸缩性可以意味着一切。

免费下载: 机器学习及其重要性

当很明显项目的范围将超过原始设置时,可扩展的机器学习非常重要。 可能需要不同的算法方法来帮助机器学习过程匹配其他数据分析过程。 对于同一组数据,机器学习可能需要更多资源。

就所使用的工具而言,Apache Hadoop通常用于处理非常大的数据集,例如约5 TB。 低于此标记,还有其他一些中级工具可能会做得很好,例如Pandas,Matlab和R。IT专业人员将使这些工具与所需的可伸缩性水平相匹配。 他们将了解机器学习程序需要做多少工作,以及如何配备这些设备才能实现这些目标。

除了能够将数据规模扩展到几个TB的能力外,可伸缩机器学习的另一个挑战是开发一种可跨多个节点工作的系统。 某些基本的机器学习系统只能设置为在单独的计算机或硬件组件上运行。 但是,当机器学习过程必须与多个节点进行交互时,这将需要不同的方法。 使机器学习在分布式体系结构中工作是可伸缩机器学习的另一个主要部分。 考虑一下机器学习算法必须从数十个甚至数百个服务器访问数据的情况–这将需要显着的可伸缩性和多功能性。

可扩展机器学习的另一个驱动力是深度学习的过程,其中工程师和利益相关者可能会从深入数据集并以更深刻的方式进行操作来获得更多结果。 深度学习项目是公司可能需要采用可扩展的机器学习策略来实现其所需功能的一个很好的例子。 随着深度学习的不断发展,它将对机器学习系统施加压力以使其更有效地扩展。

为什么可扩展的机器学习很重要?