Hive On Spark执行计划总结
吕益平 2018-03-28 来源 : 阅读 2476 评论 0

1、  Hive on Spark EXPLAIN statement

在Hive中,命令Explain可以用来查看查询的执行计划。对于Hive on Spark,这个命令本身不会改变,还会表现的和以前一样。它仍然会显示依赖语法树和每个stage阶段的执行计划。

然后,如果hive.execution.engine设置为spark,它将代替默认的MapReduce的查询引擎,而是显示Spark查询引擎的执行计划。

 

2、  Dependency Graph

依赖图显示了Stages之间的依赖关系,对于Hive on Spark来说,将使用Spark stages代替MapReduce的stages。

对于绝大多数查询,因为很多map和reduce的works能够在Spark的一个work中完成,所以Spark的查询引擎只有一个Spark stage。因此,对于同样的查询,使用Hive on Spark,这里可能会有更少的stages数量。对于一些查询,会有多个Spark stages,比如map join,skew join等等。

 

需要指出的是,Hive中的stage与Spark中的stage的概念是不同的。一个Hive的stage可以相当于Spark中的多个stages。在Spark中,一个stage通常意味着一组tasks,这些task在一个executor中执行。而在Hive中,一个stage包含一系列操作,这些操作在一个job中处理。

 

3、  Spark Stage Plan

Spark的stage显示Spark的work graph,是一个DAG(有向无环图)。它包括:

l  DAG名称,Spark工作的DAG名称

l  Edges边界,显示在这个DAG中works直接的依赖关系

l  Vertices顶点,显示每个work的操作树

对于每个独立的操作树,在Hive on Spark中没什么改变。不同在与依赖图。对于MapReduce来说,没有mapper时,无法有reducer。但是对于Spark来说,这个不是问题。因此,Hive on Spark能够优化执行计划并移除那些不需要的mappers。

Edge(边界)信息对于Hive on Spark来说是新的内容。不同的边界类型表示不同的shuffle需要。比如PARTITION-LEVEL SORT意味着在shuffling期间,行记录应该在分区级别上排序。

 

4、  Sample Query Plans

下面将介绍一些Hive on Spark的查询计划的例子。这里必不会涉及太多的优化设置和计划。

l  Common Join

在Hive on Spark中的查询计划为:

 

这是一个common join,并且这里仅有一个Spark stage, The Fetch stage还是和MapReduce一样。在Spark stage中,这里有两个map works(Map 1和Map 4)。Reduce 2依赖这两个map works,并且Reduce 3依赖Reduce 2。

 

而在MapReduce中,一个reducer是不能依赖另一个reducer的,因此它有更多的stages:

 

 

这里有两个Map Reduce stages,因此对于MapReduce有两个jobs,而对于Hive on Spark,这里只有一个job。

 

l  Map Join

如果设置set hive.auto.convert.join为true,那么Hive onSpark的执行计划为:

STAGEDEPENDENCIES:

Stage2 is a root stage

Stage1 depends on stages:Stage2

Stage0 depends on stages:Stage1

 

STAGEPLANS:

Stage: Stage2

 

现在,我们使用map join。这里有两个Spark stages。第一个Spark stages(Stage-2)有一个map操作。第二个Spark stage(Stage-1)包含一个map操作和一个reducer操作。

下面的代码显示了reducer工作依赖与map工作。在map 1中这里是一个Group by操作。这个reducer工作仅有一个reducer:

Reducer 2 <- Map 1(GROUP,1)

对于Map Join,Hive on Spark至少有两个stages。第一个stage加载小表并处理它,然后输出到HDFS上的一些文件中。剩余的stages加载文件并且执行map join。

 

 

l  Bucket Map Join

对于Bucket Map join,查询计划和Map Join类似。然而,如果你使用命令”EXPLAIN EXTENDED”,它将显示如下:

BucketMapJoin: true 和BucketMapjoin Context:

如果表被bucketed,并且hive.optimize.bucketmapjoin设为true,则extendedplan为:

 

Stage: Stage0

Fetch Operator

limit: 1

Processor Tree:

ListSink

 

 

l  Sorted Merge Bucket Map Join

如果hive.auto.convert.sortmerge.join设为true,优化器将检查查询是否可以被转化为sorted merge bucket(SMB)的join。如果可以的话,查询计划如下:

 

l  Skew Join

如果表数据倾斜,我们设置hive.optimize.skewjoin为true,并且设置hive.skewjoin.key为一个倾斜键的数据量,在倾斜键上的join将被转化为一个skew join,查询计划如下:

 

ListSink

 

希望这篇文章可以帮助到你,总之同学们,it资讯尽在职坐标。


本文由 @职坐标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论
本文作者 联系TA

熟悉企业软件开发的产品设计及开发

  • 57
    文章
  • 24877
    人气
  • 86%
    受欢迎度

已有50人表明态度,86%喜欢该老师!

进入TA的空间
求职秘籍 直通车
  • 资料领取 资料领取 资料领取
  • 答疑解惑 答疑解惑 答疑解惑
  • 技术交流 技术交流 技术交流
  • 职业测评 职业测评 职业测评
  • 面试技巧 面试技巧 面试技巧
  • 高薪秘笈 高薪秘笈 高薪秘笈
TA的其他文章 更多>>
java语言实现栈的顺序存储与链式存储
经验技巧 100% 的用户喜欢
一天天都在说hadoop,到底什么才是hadoop呢?
经验技巧 57% 的用户喜欢
WEB前端之div css 层级
经验技巧 100% 的用户喜欢
WEB前端之div css 绝对定位
经验技巧 100% 的用户喜欢
Java语言之Java Socket NIO示例
经验技巧 67% 的用户喜欢
其他海同师资 更多>>
孔庆琦
孔庆琦 联系TA
对MVC模式和三层架构有深入的研究
戴懿颢​
戴懿颢​ 联系TA
20年+嵌入式开发经验,精多语言 / 云 / 安全 / 数据库
郭自琦
郭自琦 联系TA
16年物联网经验,涉多项目,多校授课,出版书籍并研发IT教程
余承民
余承民 联系TA
8年开发+5年教学经验,指导数千名学员高薪就业
张浩
张浩 联系TA
15年全栈技术研发经验,中南大学、湖南师大等10+所高校特聘讲师
经验技巧30天热搜词 更多>>

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式AI+学习就业服务平台 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved