目录:
定义-Apache Avro是什么意思?
Apache Avro是在Apache Hadoop项目中开发的数据序列化和远程过程调用框架,它提供序列化格式以获取持久性数据,并且提供有线格式以提供Hadoop节点之间的通信,以及将客户端程序连接到Hadoop。服务。
Avro使用JSON格式定义协议和数据类型,并将数据序列化为紧凑的二进制格式。
Techopedia解释了Apache Avro
Apache Avro是一个大数据序列化框架,它以紧凑的二进制格式生成数据,不需要代码生成或代理对象。
它用作Apache Hadoop的数据序列化组件。 Avro致力于模式的概念。 读取Avro数据时,始终会存在在写入特定数据期间使用的架构。
这使得每个数据集都没有按值的开销,这使得序列化既快速又相对较小。 而且由于数据及其架构是完全自描述的,因此可以轻松地与动态脚本语言一起使用。
当Avro数据存储在特定文件中时,该架构也将与它们一起存储,以便以后由另一个程序处理。 因此,如果读取数据的程序需要其他模式,则由于存在两种模式,因此可以轻松解决。
Avro提供:
紧凑而快速的二进制数据格式
丰富的数据结构
用于存储持久数据的容器文件
远程过程调用(RPC)
与动态语言集成
读取或写入数据文件或使用或实现RPC协议不需要生成代码。
