问:
在AWS上使用平台或自带的机器学习算法会更好吗?
A:如今,许多公司将机器学习解决方案集成到其分析工具集中,以增强品牌管理,改善客户体验并提高运营效率。 机器学习模型是机器学习解决方案的核心组件。 使用数学算法和大数据集对模型进行训练,以做出可靠的预测。 预测的两个常见示例是(1)确定一组金融交易是否表明存在欺诈行为;或者(2)根据从社交媒体收集的输入来评估产品周围的消费者情绪。
Amazon SageMaker是一项完全托管的服务,可让开发人员和数据科学家构建,培训和部署机器学习模型。 在SageMaker中,您可以使用开箱即用的算法,也可以自行开发更定制的解决方案。 两种选择都是有效的,并且可以作为成功的机器学习解决方案的基础。
(编者注:您可以在这里看到SageMaker的其他替代产品。)
SageMaker的即用型算法包括用于图像分类,自然语言处理等的流行的,高度优化的示例。完整列表可在此处找到。
- 开箱即用的优势:这些算法已经过预先优化(并且正在不断改进)。 您可以快速启动,运行和部署。 另外,还提供AWS自动超参数调整。
- 开箱即用的注意事项:上面提到的持续改进可能无法如您完全控制算法的实现那样产生可预测的结果。
如果这些算法不适合您的项目,则还有其他三个选择:(1)Amazon的Apache Spark库,(2)自定义Python代码(使用TensorFLow或Apache MXNet)或(3)在您自己的位置“自带”基本上不受限制,但是需要创建Docker映像才能训练和提供模型(您可以按照此处的说明进行操作)。
自带方法为您提供了完全的自由。 对于已经建立了自定义和/或专有算法代码库的数据科学家来说,这可能证明是有吸引力的,这些库可能无法在当前的即用型集中显示。
- 带来自己的优势:借助专有IP,可以对整个数据科学管道进行完全控制。
- 自己考虑: Dockerization是训练和提供结果模型所必需的。 整合算法改进是您的责任。
不管您选择哪种算法,鉴于从数据科学的角度来看,在易用性方面投入了很多精力,基于AWS的SageMaker都是值得考虑的方法。 如果您曾经尝试过将机器学习项目从本地环境迁移到托管环境,那么SageMaker的无缝实现将使您感到惊喜。 而且,如果您是从头开始的话,那么您已经离目标几步之遥,因为您已经掌握了多少。
