首页旅游资讯线路攻略景点大全国内游境外游

spark 读 hbase parquet 哪个快

发布网友发布时间：2022-04-22 06:18

共2个回答

热心网友时间：2024-01-18 13:54

spark读hbase，生成task受所查询table的region个数*，任务数有限，例如查询的40G数据，10G一个region，很可能就4~6个region，初始的task数就只有4~6个左右，RDD后续可以partition设置task数；
spark读parquet按默认的bolck个数生成task个数，例如128M一个bolck，差不多就是300多个task，初始载入情况就比hbase快，而且直接载入parquet文件到spark的内存，而hbase还需要同regionserver交互把数据传到spark的内存也是需要消耗时间的。
总体来说，读parquet更快

热心网友时间：2024-01-18 13:55

HBase非常适合海量数据的K-V查询。如果是根据K来查询的话，性能非常好。

声明：本网页内容为用户发布，旨在传播知识，不代表本网认同其观点，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。E-MAIL:11247931@qq.com

全部栏目

spark 读 hbase parquet 哪个快