发布网友 发布时间:2022-04-22 06:18
共2个回答
热心网友 时间:2024-01-18 13:54
spark读hbase,生成task受所查询table的region个数*,任务数有限,例如查询的40G数据,10G一个region,很可能就4~6个region,初始的task数就只有4~6个左右,RDD后续可以partition设置task数;
spark读parquet按默认的bolck个数生成task个数,例如128M一个bolck,差不多就是300多个task,初始载入情况就比hbase快,而且直接载入parquet文件到spark的内存,而hbase还需要同regionserver交互把数据传到spark的内存也是需要消耗时间的。
总体来说,读parquet更快
热心网友 时间:2024-01-18 13:55
HBase非常适合海量数据的K-V查询。如果是根据K来查询的话,性能非常好。