面试必备 | 8个Hive数据仓工具面试题锦集！-职坐标

面试必备 | 8个Hive数据仓工具面试题锦集！

小职 2020-10-29 来源：公众号：职坐标在线阅读 1959 评论 0

摘要：本篇介绍了大数据开发中Hive数据仓工具面试中的必备考点，希望对即将成为大数据工程师的你有所帮助。

本篇介绍了大数据开发中Hive数据仓工具面试中的必备考点，希望对即将成为大数据工程师的你有所帮助。

面试必备 | 8个Hive数据仓工具面试题锦集！进入数据时代，大数据技术成为互联网发展的核心要素之一。与此同时大数据开发工程师的薪资也成为行业内高薪的代表。想从事大数据开发需要掌握多种核心技术：Hadoop、Hive、Storm、Spark、Scala等等。而且这些技术知识点已经成为大数据工程师进入职场时面试中必备的考点。这里主要和大家分享一下数据仓库工具hive相关的面试题！

Hive 的 join 有几种方式，怎么实现 join 的？

答：有3 种 join 方式。

▶ 1. 在 reduce 端进行 join，最常用的 join 方式

Map 端的主要工作：为来自不同表(文件)的 key/value 对打标签以区别不同来源的记录。然后用连接字段作为 key，其余部分和新加的标志作为 value，最后进行输出。

reduce 端的主要工作：在 reduce 端以连接字段作为 key 的分组已经完成，我们只需要在每一个分组当中将那些来源于不同文件的记录 (在 map 阶段已经打标志)分开，最后进行笛卡尔。

▶ 2. 在 map 端进行 join，使用场景：一张表十分小、一张表很大

在提交作业的时候先将小表文件放到该作业的 DistributedCache 中，然后从 DistributeCache 中取出该小表进行 join key / value 解释分割放到内存中(可以放大 Hash Map 等等容器中)。然后扫描大表，看大表中的每条记录的 join key /value 值是否能够在内存中找到相同 join key 的记录，如果有则直接输出结果。

▶ 3. SemiJoin，semijoin 就是左边连接是 reducejoin 的一种变种，在 map 端过滤掉一些数据，在网络传输过程中，只传输参与连接的数据，减少了 shuffle的网络传输量，其他和 reduce的思想是一样的。

实现：将小表中参与 join 的 key 单独抽取出来通过 DistributeCache 分发到相关节点，在 map 阶段扫描连接表，将 join key 不在内存 hashset 的纪录过滤掉，让参与 join 的纪录通过 shuffle 传输到 reduce 端进行 join，其他和 reduce join 一样。

Hive 内部表和外部表的区别？

➡ 内部表：建表时会在 hdfs 创建一个表的存储目录，增加分区的时候，会将数据复制到此location下，删除数据的时候，将表的数据和元数据一起删除。

➡ 外部表：一般会建立分区，增加分区的时候不会将数据移到此表的 location下，删除数据的时候，只删除了表的元数据信息，表的数据不会删除。

Hive 是如何实现分区的？

建表语句：

create table tablename (id) partitioned by (dt string)

增加分区：

alter table tablenname add partition (dt = ‘2016-03-06’)

删除分区：

alter table tablename drop partition (dt = ‘2016-03-06’)

Hive 有哪些方式保存元数据，各有哪些优缺点

➡ 存储于 derby数据库，此方法只能开启一个hive客户端，不推荐使用