音讯 Hadoop分析:跨多个数据源并非易事

Hadoop分析:跨多个数据源并非易事

目录:

Anonim

Hadoop是卸载数据以进行分析处理或为现有系统无法实现的单个数据源建模的好地方。 但是,随着公司将来自许多来源的数据引入Hadoop,对跨不同来源的数据分析的需求日益增加,这可能非常难以实现。 这篇文章是由三部分组成的系列文章的第一篇,该系列文章解释了组织在尝试分析Hadoop中的不同数据源和类型以及如何解决这些挑战时面临的问题。 今天的帖子重点讨论了在组合多个内部资源时出现的问题。 接下来的两篇文章解释了为什么在添加外部数据源时这些问题变得越来越复杂,以及新方法如何帮助解决这些问题。

来自不同来源的数据难以连接和映射

来自不同来源的数据具有不同的结构,这使得将数据类型(甚至来自内部来源的数据)连接在一起并映射在一起也很困难。 如果客户有多个帐号或一个组织已经收购或合并了其他公司,则合并数据尤其困难。 在过去的几年中,一些组织尝试使用数据发现或数据科学应用程序来分析来自Hadoop中存储的多个来源的数据。 这种方法存在问题,因为它涉及大量猜测:用户必须确定要使用哪些外键来连接各种数据源,并在创建数据模型覆盖时进行假设。 这些猜测很难测试,并且在大规模应用时常常不正确,这会导致错误的数据分析和对来源的不信任。

Hadoop专家尝试将数据合并在一起

因此,想要在多个数据源之间分析数据的组织已聘请Hadoop专家来创建定制的,特定于源的脚本,以将数据集合并在一起。 这些Hadoop专家通常不是数据集成或实体解析专家,但他们会尽力满足组织的迫切需求。 这些专家通常使用Pig或Java编写硬性规则和快速规则,这些规则确定如何组合来自特定来源的结构化数据,例如,基于帐号匹配记录。 编写了两个源的脚本后,如果需要添加第三个源,则必须丢弃第一个脚本,并设计一个新的脚本来组合三个特定的源。 如果添加了另一个源,则发生同样的事情,依此类推。 这种方法不仅效率低下,而且在大规模应用时也会失败,处理边缘案例的能力很差,可能导致大量重复记录,并且经常合并许多不应该合并的记录。

Hadoop分析:跨多个数据源并非易事