音讯 自从在旧版迁移中手动输入数据以来,用于机器学习的数据抓取如何成为最耗费人力的瓶颈?

自从在旧版迁移中手动输入数据以来,用于机器学习的数据抓取如何成为最耗费人力的瓶颈?

Anonim

问:

自从在旧版迁移中手动输入数据以来,用于机器学习的数据抓取如何成为最耗费人力的瓶颈?

A:

公司在尝试启动机器学习(ML)项目时可能遇到的实际问题之一是获取初始培训数据集的挑战。 这可能包括劳动密集型过程,例如Web抓取或其他数据抓取。

术语“ Web抓取”和“数据抓取”在很大程度上是指计算机软件的自动化活动,但是对于许多ML项目,在某些情况下,计算机不具备收集正确的目标数据的能力,因此必须这样做“用手。” 您可能将其称为“人工Web /数据抓取”,这是一项令人费解的工作。 它通常涉及外出并寻找数据或图像以通过训练集“提供” ML程序。 它通常是非常反复的,这使它变得乏味,缓慢,要求苛刻。

免费下载: 机器学习及其重要性

机器学习训练集的数据抓取代表了机器学习中一个独特的问题瓶颈,部分原因是其他许多工作都是高度概念性的,而不是重复性的。 对于执行机器学习任务的新应用程序,很多人会想到一个好主意,但是具体细节和实际工作可能要困难得多。 特别是,委派训练集的工作实际上可能是机器学习项目中最困难的部分之一,正如Mike Judge的“硅谷”电视节目中充分探讨的那样。 在第四季中,初创企业家首先欺负合伙人从事劳动强度大的工作,然后通过将其伪装成家庭作业而试图将其传播给大学生。

该示例具有指导意义,因为它显示了手动数据抓取是多么令人讨厌和看似不重要。 但是,这也表明此过程对于多种机器学习产品都是必需的。 尽管大多数人不喜欢输入数据,但是必须以某种方式组合训练集。 该过程的专家通常建议使用Web抓取服务-本质上只是将这项非常劳动密集型的工作外包给外部各方,但这可能会带来安全后果并引起其他问题。 同样,在内部进行手动数据收集工作时,必须规定通常是非常手动且耗时的过程。

在某些方面,用于机器学习的“人工数据抓取”看起来像手动数据输入,有时在旧版迁移中必须这样做。 随着云变得越来越流行,以及公司将其流程和工作流放入云中,一些公司发现他们并未研究如何将公司数据从隔离的旧式系统迁移到云原生应用程序中的实际问题。 结果,一些原本是数据科学家或具有基本IT技能的创造力的人发现自己在执行令人讨厌的数据输入任务。

机器学习也可能发生同样的情况。 您可能会听到一位数据科学家在抱怨“我是一个有创造力的人”或“我在开发方面” –但是有人必须做一些肮脏的工作。

再次,如果创意流程与工作流委托的实际评估不匹配,那么任务处理的指导方式将不匹配。 当一家公司没有人来收集数据集时进行数据抓取工作时,它就缺少成功项目的过程链的关键部分。 每当公司尝试以开发新的机器学习应用程序为基础的创意时,都应牢记这一点。

自从在旧版迁移中手动输入数据以来,用于机器学习的数据抓取如何成为最耗费人力的瓶颈?