Hive On Spark执行计划总结-职坐标

Hive On Spark执行计划总结

吕益平 2018-03-28 来源：阅读 2500 评论 0

1、 Hive on Spark EXPLAIN statement

在Hive中，命令Explain可以用来查看查询的执行计划。对于Hive on Spark，这个命令本身不会改变，还会表现的和以前一样。它仍然会显示依赖语法树和每个stage阶段的执行计划。

然后，如果hive.execution.engine设置为spark，它将代替默认的MapReduce的查询引擎，而是显示Spark查询引擎的执行计划。

2、 Dependency Graph

依赖图显示了Stages之间的依赖关系，对于Hive on Spark来说，将使用Spark stages代替MapReduce的stages。

对于绝大多数查询，因为很多map和reduce的works能够在Spark的一个work中完成，所以Spark的查询引擎只有一个Spark stage。因此，对于同样的查询，使用Hive on Spark，这里可能会有更少的stages数量。对于一些查询，会有多个Spark stages，比如map join，skew join等等。

需要指出的是，Hive中的stage与Spark中的stage的概念是不同的。一个Hive的stage可以相当于Spark中的多个stages。在Spark中，一个stage通常意味着一组tasks，这些task在一个executor中执行。而在Hive中，一个stage包含一系列操作，这些操作在一个job中处理。

3、 Spark Stage Plan

Spark的stage显示Spark的work graph，是一个DAG(有向无环图)。它包括：

l DAG名称，Spark工作的DAG名称

l Edges边界，显示在这个DAG中works直接的依赖关系

l Vertices顶点，显示每个work的操作树

对于每个独立的操作树，在Hive on Spark中没什么改变。不同在与依赖图。对于MapReduce来说，没有mapper时，无法有reducer。但是对于Spark来说，这个不是问题。因此，Hive on Spark能够优化执行计划并移除那些不需要的mappers。

Edge(边界)信息对于Hive on Spark来说是新的内容。不同的边界类型表示不同的shuffle需要。比如PARTITION-LEVEL SORT意味着在shuffling期间，行记录应该在分区级别上排序。

4、 Sample Query Plans

下面将介绍一些Hive on Spark的查询计划的例子。这里必不会涉及太多的优化设置和计划。

l Common Join

在Hive on Spark中的查询计划为：

这是一个common join，并且这里仅有一个Spark stage， The Fetch stage还是和MapReduce一样。在Spark stage中，这里有两个map works(Map 1和Map 4)。Reduce 2依赖这两个map works，并且Reduce 3依赖Reduce 2。

而在MapReduce中，一个reducer是不能依赖另一个reducer的，因此它有更多的stages：

这里有两个Map Reduce stages，因此对于MapReduce有两个jobs，而对于Hive on Spark，这里只有一个job。

l Map Join

如果设置set hive.auto.convert.join为true，那么Hive onSpark的执行计划为：

STAGEDEPENDENCIES:

Stage2 is a root stage

Stage1 depends on stages:Stage2

Stage0 depends on stages:Stage1

STAGEPLANS:

Stage: Stage2

现在，我们使用map join。这里有两个Spark stages。第一个Spark stages(Stage-2)有一个map操作。第二个Spark stage(Stage-1)包含一个map操作和一个reducer操作。

下面的代码显示了reducer工作依赖与map工作。在map 1中这里是一个Group by操作。这个reducer工作仅有一个reducer：