在技术初创公司中,数据科学家是一个越来越普遍的术语,用于指代能够桥接传统上独立的数据智能功能区域的数据极客。 数据科学家是一个乐于执行数据智能项目的多个(如果不是全部)方面的人:
- 数据获取:这可能需要编写针对非传统数据源的特定Web服务或API的自定义解析器和Web搜寻器或脚本。
- 数据管理:ETL,操作,查询和维护数据库,键值存储或Hadoop中的数据。
- 信息可视化:通过使用静态可视化工具包和/或基于Flash,JavaScript或Processing的交互式平台来发现模式。
- 分析:在多元统计,机器学习和NLP中,其范围可以从简单到复杂。
- 洞察力:提取,总结并向主要受众展示关键发现。
有许多工具,技能和技术细节,并且您可能需要花费数年才能掌握上面列出的每个项目。 尽管数据科学家可能在任何领域都不具备真正的专家知识,但他或她很乐意来回跳动并在所有领域中执行基本任务。 结果是一个数据专家非常灵活,可以快速地调查数据项目并为管理人员提供(高级)问题的答案。 (关于“数据科学家:科技界的新摇滚明星”中的数据科学家。)
为了培养数据科学家,公司需要更加关注文化和组织结构。 许多数据工作者具有足够的技能和培训,可以迅速在多个数据智能领域中变得高效。 问题在于,大多数人都不在鼓励他们成为数据科学家的环境中工作。 它们陷入了孤岛,并仅限于一两个数据智能领域。 通常,他们被限制使用其经理“认可”的工具。