过去,考虑数字数据时,将事务数据,业务应用程序中捕获的数据,存储在数据库表中并由BI工具呈现的数据以及所有其他数据(电子邮件,网页,图像,视频)之间的数据隔离是有意义的。等等。 如今,我们倾向于将此类“其他数据”称为非结构化数据。
然而,它是可以分析的,并且从这些数据中获取价值的软件已经跨越了鸿沟。 分析的紧迫性比什么都重要,这引起了数据湖的原始概念,这是用于两种数据种类的数据存储,另外还用于从业务外部多个来源收集的数据,其中有些不可避免地是非结构化的。
在本文中,我们将研究由数据湖创建的新生态系统将如何不再完全由业务交易(或事件)组成。 它还将包括来自其他来源的数据,企业可以使用这些数据执行分析并向其用户通知可以作为决策依据的重要信息。 记录系统将一如既往地成为公司数据的黄金副本和企业IT活动的审核记录。