问:
有哪些自动化和优化数据科学流程的关键方法?
A:机器学习和AI上下文中的数据科学过程可以分为四个不同的阶段:
- 数据采集与探索
- 建筑模型,
- 模型部署和
- 在线评估和完善。
根据我的经验,最困难的阶段是任何基于机器学习的数据科学过程中的数据获取和模型部署阶段,这是优化它们的两种方法:
1.建立一个高度可访问的数据存储。
在大多数组织中,数据不存储在一个中央位置。 让我们仅获取与客户有关的信息。 如果您的企业是Web应用程序,则您拥有客户联系信息,客户支持电子邮件,客户反馈和客户浏览历史记录。 所有这些数据自然分散,因为它们具有不同的用途。 它们可能位于不同的数据库中,有些可能是完全结构化的,有些则是非结构化的,甚至可能存储为纯文本文件。
不幸的是,这些数据集的分散性极大地限制了数据科学的工作,因为所有NLP,机器学习和AI问题的基础都是数据 。 因此,将所有这些数据集中在一个地方-数据存储-对于加速模型开发和部署至关重要。 鉴于这对所有数据科学流程都是至关重要的,因此组织应聘请合格的数据工程师来帮助他们构建数据存储。 这可以很容易地从简单的数据转储到一个位置开始,然后慢慢地发展成一个经过深思熟虑的数据存储库,该存储库已完全记录并可以使用实用工具查询,以将数据子集导出为不同格式以用于不同目的。
2.公开您的模型作为无缝集成的服务。
除了能够访问数据外,将数据科学家开发的模型集成到产品中也很重要。 将用Python开发的模型与在Ruby上运行的Web应用程序集成起来可能非常困难。 此外,模型可能具有您的产品可能无法提供的大量数据依赖关系。
解决此问题的一种方法是在模型周围建立强大的基础架构,并公开产品所需的足够功能,以便将该模型用作“ Web服务”。例如,如果您的应用程序需要在产品评论中进行情感分类,它所需要做的就是调用Web服务,提供相关的文本,该服务将返回产品可以直接使用的适当的情感分类。 这样,集成就简单地以API调用的形式进行。 将模型与使用它的产品分离开来,可以使您想出的新产品真正容易地使用这些模型,而不会产生任何麻烦。
现在,围绕模型建立基础结构完全是另外一回事了,需要工程团队投入大量的初期投资。 一旦有了基础架构,就可以通过适合基础架构的方式来构建模型。
