sparksql产生的临时表之间可以进行去重查询吗
答案:2 悬赏:0
解决时间 2021-02-13 03:10
- 提问者网友:风华是一指流沙
- 2021-02-12 07:09
sparksql产生的临时表之间可以进行去重查询吗
最佳答案
- 二级知识专家网友:啵啵桃汀
- 2021-02-12 07:22
(一)分批执行,就是把几万个id,按3000一组查询一次,最后把所有的查询结果在汇合起来。
(二)使用join,把几万个id创建成一张hive表,然后两表关联,可以一次性把结果给获取到。
这里倾向于第二种解决办法,比较灵活和方便扩展,尽量不要把数据集分散,一旦分散意味着客户端需要做更多的工作来合并结果集,比如随便一个sum或者dinstict,如果是第一种则需要在最终的结果集再次sum或者distinct。
(二)使用join,把几万个id创建成一张hive表,然后两表关联,可以一次性把结果给获取到。
这里倾向于第二种解决办法,比较灵活和方便扩展,尽量不要把数据集分散,一旦分散意味着客户端需要做更多的工作来合并结果集,比如随便一个sum或者dinstict,如果是第一种则需要在最终的结果集再次sum或者distinct。
全部回答
- 1楼网友:深街酒徒
- 2021-02-12 07:43
spark sql就是shark ,也就是sql on spark。如果没记错的话,shark的开发利用了hive的api,所以支持读取hbase。而且spark的数据类型兼容范围大于hadoop,并且包含了hadoop所支持的任何数据类型。
我要举报
如以上问答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
推荐资讯