问:
如何学习使用Hadoop分析大数据?
A:Apache软件集Hadoop正在成为处理大数据集的一种非常流行的资源。 建立这种类型的数据处理软件框架的目的是,根据可能使某些类型的数据项目更高效的设计,以特定方式帮助聚合数据。 就是说,Hadoop只是处理大型数据集的众多工具之一。
了解Hadoop的大数据分析的首要方法也是最基本的方法之一,就是了解Hadoop的一些顶级组件及其功能。 其中包括可应用于某些类型的网络设置的Hadoop YARN“资源管理平台”,以及适用于大数据集的Hadoop MapReduce功能集。 还有一个Hadoop分布式文件系统(HDFS),可帮助跨分布式系统存储数据,以便可以快速,有效地索引或检索数据。
除此之外,那些想更加熟悉Hadoop的人可以查看为专业人员提供的单独发布资源,这些专业人员在相关级别上解释该软件。 来自个人博客Chris Stucchio的该示例提供了有关Hadoop和数据规模的一组极好的观点。 基本要点之一是,Hadoop可能会比必需的更为常用,并且可能不是单个项目的最佳解决方案。 回顾这些资源将帮助专业人员更加熟悉在任何给定场景下使用Hadoop的细节。 Stucchio还提供了将Hadoop功能与特定物理任务相关联的隐喻。 在这里,示例计算的是图书馆中的书籍数量,而Hadoop函数可能会将该图书馆分成多个部分,提供将单独的计数混合到一个汇总数据结果中。
专业人士可以通过特定的培训资源和计划来更深入地了解Hadoop及其在大数据中的应用。 例如,在线学习公司Cloudera是远程培训课程的著名提供商,它具有许多有关Hadoop使用和类似数据处理类型的有趣选择。
