IT业务 大大小小的数据:真正的价值在哪里?

大大小小的数据:真正的价值在哪里?

目录:

Anonim

大数据是一个统称,用于表示处理大量数据。 我们都知道,数据量越大,数据变得越复杂。 传统的数据库解决方案通常由于其复杂性和规模而无法正确管理大量数据。 因此,管理大量数据并提取实际见解是一项艰巨的任务。 相同的“值”概念也适用于小数据。

如何使用大数据

基于RDBMS概念的常规数据库解决方案可以很好地管理事务数据,并广泛用于不同的应用程序中。 但是,当涉及到处理大量数据(已归档且以TB或PB为单位的数据)时,这些数据库解决方案通常会失败。 这些数据集太大,并且在大多数情况下,它们不适合传统数据库的体系结构。 如今,大数据已成为处理大量数据的一种经济高效的方法。 从组织的角度来看,大数据的使用可以分为以下几类,其中大数据的真正价值在于:

  • 分析用途

    大数据分析人员发现,数据的许多重要隐藏方面过于昂贵而无法处理。 例如,如果我们必须检查学生对某个新主题的趋势兴趣,则可以通过分析每日出勤记录以及其他社会和地理事实来做到这一点。 这些事实被捕获在数据库中。 如果我们无法有效地访问此数据,则无法看到结果。

  • 启用新产品

    最近,许多新的Web公司(例如Facebook)已经开始使用大数据作为启动新产品的解决方案。 我们都知道Facebook的受欢迎程度-它已经成功地使用大数据准备了高性能的用户体验。

真正的价值在哪里?

不同的大数据解决方案在存储数据的方式上有所不同,但最终,它们都以平面文件结构存储数据。 通常,Hadoop由文件系统和一些操作系统级别的数据抽象组成。 其中包括MapReduce引擎和Hadoop分布式文件系统(HDFS)。 一个简单的Hadoop集群包括一个主节点和几个工作节点。 主节点包含以下内容:

  • 任务追踪器
  • 工作追踪器
  • 名称节点
  • 数据节点
工作程序节点包含以下内容:
  • 任务追踪器
  • 数据节点

一些实现仅具有数据节点。 数据节点是数据所在的实际区域。 HDFS存储分布在多台计算机上的大文件(从TB到PB的范围)。 通过在所有主机之间复制数据,可以实现每个节点上数据的可靠性。 因此,即使节点之一发生故障,数据也可用。 这有助于实现对查询的更快响应。 对于Facebook这样的大型应用程序,此概念非常有用。 作为用户,我们几乎立即获得了对聊天请求的响应。 考虑一种情况,其中用户在聊天时必须等待很长时间。 如果没有立即发送消息和随后的回复,那么实际上有多少人会使用这些聊天工具?

回到Facebook的实现中,如果没有跨集群复制数据,那么将不可能有一个有吸引力的实现。 Hadoop将数据分布在较大集群中的所有机器上,并将文件存储为一系列块。 除了最后一块,这些块的大小相同。 可以根据需要自定义块的大小和复制因子。 HDFS中的文件严格遵循一次写入方法,因此一次只能由一个用户写入或编辑。 有关块复制的决定由名称节点决定。 名称节点从每个数据节点接收报告和脉冲响应。 脉冲响应可确保相应数据节点的可用性。 该报告包含数据节点上块的详细信息。


另一个大数据实现Cassandra也使用类似的分配概念。 Cassandra根据地理位置分配数据。 因此,在卡桑德拉(Cassandra)中,数据是根据数据使用的地理位置进行隔离的。

有时小数据会产生更大(更便宜)的影响

根据开放知识基金会(Open Knowledge Foundation)的Rufus Pollock的说法,在大数据周围进行宣传是没有意义的,而小数据仍然是真正价值所在。


顾名思义,小数据是大数据集中的一组数据。 小数据旨在将重点从数据使用转移,也旨在应对向大数据发展的趋势。 小数据方法可帮助您根据特定需求以较少的工作量收集数据。 因此,这是实施商业智能时更有效的商业实践。


小数据的核心是围绕需要结果而需要采取进一步措施的企业。 需要迅速获取这些结果,并且还应该立即执行后续操作。 因此,我们可以消除大数据分析中常用的系统类型。


通常,如果我们考虑大数据采集所需的某些特定系统,则公司可能会投资建立大量服务器存储,使用复杂的高端服务器和最新的数据挖掘应用程序来处理不同的数据位,包括用户操作的日期和时间,受众特征信息和其他信息。 整个数据集移至中央数据仓库,在该仓库中,使用复杂的算法对数据进行分类和处理,以详细报告的形式显示。


我们都知道,这些解决方案在可伸缩性和可用性方面使许多企业受益。 有些组织发现采用这些方法需要大量的精力。 的确,在某些情况下,使用不那么鲁棒的数据挖掘策略也可以获得类似的结果。


小数据为组织提供了一种方法,使他们摆脱对支持更复杂业务流程的最新技术的迷恋。 提倡小数据的公司认为,从业务角度来看,有效利用资源非常重要,这样可以在一定程度上避免技术上的超支。


我们已经讨论了大数据和小数据现实,但是我们必须了解,选择正确的平台(大数据或小数据)以正确使用是整个练习中最重要的部分。 事实是,尽管大数据可以带来很多好处,但它并不总是最好的。

大大小小的数据:真正的价值在哪里?