spark 读 hbase parquet 哪个快

发布网友 发布时间:2022-04-22 06:18

我来回答

2个回答

热心网友 时间:2024-01-18 13:54

spark读hbase,生成task受所查询table的region个数*,任务数有限,例如查询的40G数据,10G一个region,很可能就4~6个region,初始的task数就只有4~6个左右,RDD后续可以partition设置task数;
spark读parquet按默认的bolck个数生成task个数,例如128M一个bolck,差不多就是300多个task,初始载入情况就比hbase快,而且直接载入parquet文件到spark的内存,而hbase还需要同regionserver交互把数据传到spark的内存也是需要消耗时间的。
总体来说,读parquet更快

热心网友 时间:2024-01-18 13:55

HBase非常适合海量数据的K-V查询。如果是根据K来查询的话,性能非常好。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com