目录:
Hadoop上的SQL是一组分析应用程序工具,将SQL样式的数据查询和处理与最新的Hadoop数据框架元素结合在一起。 Hadoop上SQL的出现是大数据处理的重要发展,因为它允许更广泛的人群通过对Hadoop处理的大量大数据运行SQL查询来成功地使用Hadoop数据处理框架。 显然,Hadoop框架以前不是人们可访问的,特别是在查询功能方面。 在此基础上,已经开发出多种工具,有望在提高质量和速度的处理和分析大数据方面提高企业的生产率。 正如传统的SQL知识一样,也无需在学习该工具上投入大量资金。
Hadoop上的SQL定义
Hadoop上的SQL是一组应用程序,允许您在Hadoop数据处理框架托管的大数据上运行SQL样式的查询。 显然,通过在Hadoop上添加SQL,数据查询,检索和分析变得更加容易。 由于SQL最初是为关系数据库设计的,因此必须根据包含MapReduce和Hadoop分布式文件系统(HDFS)的Hadoop 1模型以及不具有MapReduce和HDFS的Hadoop 2模型进行修改。
将SQL与Hadoop相结合的最早努力之一就是使用HiveQL软件创建了Hive数据仓库,该软件可以将SQL样式的查询转换为MapReduce作业。 之后,开发了一些可以完成类似工作的应用程序。 后来的工具中突出的有Drill,BigSQL,HAWQ,Impala,Hadapt,Stinger,H-SQL,Splice Machine,Presto,PolyBase,Spark,JethroData,Shark(Hive on Spark)和Tez(Hive on Tez)。
