数据系列格式 数据格式有哪几种( 三 )


·与序列文件一样 , Avro文件也包含用于分隔块的同步标记 。这使其高度可拆分 。
·可以使用诸如snappy之类的压缩格式来压缩这些块 。
总结

数据系列格式 数据格式有哪几种

文章插图
数据系列格式 数据格式有哪几种

文章插图
格式比较
*当压缩为CSV时 , JSON具有可拆分性相同的问题 , 但有一个额外的区别 。当“ wholeFile”选项设置为true时(例如:SPARK-18352) , JSON不可拆分 。
1. CSV通常应该是最快写入的 。JSON应该是人类最容易理解的 。Parquet应该是最快读取列的一个子集 , 而Avro应该是最快读取一次所有列的 。
2. JSON是用于在网络上进行通信的标准 。由于API和网站的可用性属性(如定义良好的架构) , 它们一直在使用JSON进行通信 。
3. Parquet和Avro绝对针对大数据需求进行了优化 , 包括可拆分性 , 压缩支持 , 对复杂数据结构的强大支持 。不幸的是 , 可读性和写入速度都非常差 。
译自 :dzone
【数据系列格式 数据格式有哪几种】如果发现任何不正确的地方 , 或者想分享有关上述主题的更多信息 , 欢迎反馈 。

推荐阅读