·与序列文件一样 , Avro文件也包含用于分隔块的同步标记 。这使其高度可拆分 。
·可以使用诸如snappy之类的压缩格式来压缩这些块 。
总结

文章插图

文章插图
格式比较
*当压缩为CSV时 , JSON具有可拆分性相同的问题 , 但有一个额外的区别 。当“ wholeFile”选项设置为true时(例如:SPARK-18352) , JSON不可拆分 。
1. CSV通常应该是最快写入的 。JSON应该是人类最容易理解的 。Parquet应该是最快读取列的一个子集 , 而Avro应该是最快读取一次所有列的 。
2. JSON是用于在网络上进行通信的标准 。由于API和网站的可用性属性(如定义良好的架构) , 它们一直在使用JSON进行通信 。
3. Parquet和Avro绝对针对大数据需求进行了优化 , 包括可拆分性 , 压缩支持 , 对复杂数据结构的强大支持 。不幸的是 , 可读性和写入速度都非常差 。
译自 :dzone
【数据系列格式 数据格式有哪几种】如果发现任何不正确的地方 , 或者想分享有关上述主题的更多信息 , 欢迎反馈 。
推荐阅读
- 已损坏硬盘数据恢复教程 硬盘故障怎么快速修复
- 电脑数据恢复收费标准 笔记本数据恢复多少钱
- dxf格式文件用什么软件打开 dxf格式用什么软件打开
- 0TG数据线怎么用 数据线怎么用
- 数据分析报告写作攻略 什么是策略性思考
- 详述华为nova系列好评率最高的三款手机 华为nova系列哪款性价比高
- 小米手机清除用户数据后开不了机,有什么解决的办法? 快来这里看解决途径
- 怎么格式化iphone 苹果怎么格式化电脑
- 大数据营销的特点以及运营方式 大数据推广是什么
- 苹果手机如何迁移数据 如何将安卓手机数据导入iphone7