目录:
Apache Hadoop长期以来一直是大数据应用程序的基础,并且被认为是所有与大数据相关的产品的基本数据平台。 但是,由于更快的性能和更快的结果,内存数据库和计算越来越受欢迎。 Apache Spark是一个新的框架,利用内存功能来提供快速处理(比Hadoop快近100倍)。 因此,Spark产品越来越多地用于大数据领域,主要用于更快的处理。
网络研讨会:建议的力量:数据目录如何赋予分析师权力 在这里注册 |
什么是Apache Spark?
Apache Spark是一个开放源代码框架,用于快速,简单地处理大量数据(大数据)。 它适用于基于大数据的分析应用程序。 Spark可以与Hadoop环境一起使用,既可以独立使用,也可以在云中使用。 它在加利福尼亚大学开发,然后提供给Apache软件基金会。 因此,它属于开源社区,并且具有很高的成本效益,从而使业余开发人员可以轻松工作。 (要了解有关Hadoop开源的更多信息,请参阅开源对Apache Hadoop生态系统有何影响?)
Spark的主要目的是为开发人员提供围绕中心数据结构工作的应用程序框架。 Spark的功能也非常强大,并且具有在短时间内快速处理大量数据的天生能力,从而提供了出色的性能。 这使它比最接近的竞争对手Hadoop快得多。
