50个大数据面试题第五篇:经验丰富的Hadoop开发人员面试问题
小职 2021-01-14 来源 :https://blog.csdn.net/qq_27005679/article/details/ 阅读 522 评论 0

摘要:最重要的大数据面试问题以及具体问题的详细解答,10个经验丰富的Hadoop开发人员面试问题,希望对学习大数据或者面试大数据的你有所帮助。

最重要的大数据面试问题以及具体问题的详细解答,10个经验丰富的Hadoop开发人员面试问题,希望对学习大数据或者面试大数据的你有所帮助。

50个大数据面试题第五篇:经验丰富的Hadoop开发人员面试问题

截止到现在我们已经更新了四期,涵盖了大数据新人面试、大数据经验者面试、大数据hadoop面试和hadoop开发新人面试四个板块,大家是否有收获呢?如果对其中的版块有兴趣的小伙伴,去下方文章学习。


《50个大数据面试题第一篇:10个大数据面试入门级问题》

《50个大数据面试题第二篇:10个大数据面试中级问题》

《50个大数据面试题第三篇:10个大数据Hadoop面试问题》

《50个大数据面试题第四篇:10个Hadoop开发人员新手面试问题》


开始学习吧!


本篇是10个经验丰富的Hadoop开发人员面试问题以及大答案,话不多说,赶紧开始今天的学习。



面试官对经验丰富的Hadoop开发人员有更多的期望,因此他们会提一些相对有难度的问题。因此,如果您已经获得了一些经验,请不要忘记涵盖基于命令,基于场景,基于真实体验的问题。在这里,我们为有经验的Hadoop开发人员带来一些示例面试问题。


41. 如何重启Hadoop中的所有守护进程?

答:要重新启动所有守护进程,需要先停止所有守护进程。Hadoop目录包含sbin目录,该目录存储脚本文件以在Hadoop中停止和启动守护进程。


使用stop daemons命令/sbin/stop-all.sh停止所有守护进程,然后使用/sin/start-all.sh命令再次启动所有守护进程。


42. 在Hadoop中使用jps命令有什么用?

答: jps命令用于检查Hadoop守护程序是否正常运行。此命令显示在计算机上运行的所有守护程序,即Datanode,Namenode,NodeManager,ResourceManager等。


43. 解释覆盖HDFS中复制因子的过程

答:有两种方法可以覆盖HDFS中的复制因子。

方法1:在文件基础上

在此方法中,使用Hadoop FS shell在文件的基础上更改复制因子。用于此的命令是:

$ hadoop fs - setrep -w2 / my / test_file

这里,test_file是复制因子将设置为2的文件名。


方法2:在目录基础上

在此方法中,复制因子在目录基础上更改,即修改给定目录下所有文件的复制因子。

$ hadoop fs -setrep -w5 / my / test_dir

这里,test_dir是目录的名称,目录的复制因子,其中的所有文件都将设置为5。


44. 没有任何数据的NameNode会发生什么?

答案: Hadoop中不存在没有任何数据的NameNode。如果有NameNode,它将包含一些数据或它将不存在。


45. 解释NameNode恢复过程

答案: NameNode恢复过程涉及下面提到的使Hadoop集群运行的步骤:

在恢复过程的第一步中,文件系统元数据副本(FsImage)启动一个新的NameNode。


下一步是配置DataNodes和Clients。然后,这些DataNode和客户端将确认新的NameNode。


在最后一步中,新的NameNode在完成最后一个检查点FsImage加载和接收来自DataNodes的块报告时开始为客户端提供服务。

注意:不要忘记,这个NameNode恢复过程在大型Hadoop集群上消耗了大量时间。因此,它使日常维护变得困难。因此,建议使用HDFS高可用性架构。


46. Hadoop CLASSPATH如何启动或停止Hadoop守护进程是必不可少的?

CLASSPATH包含必要的目录,其中包含用于启动或停止Hadoop守护程序的jar文件。因此,设置CLASSPATH对于启动或停止Hadoop守护进程至关重要。


但是,每次设置CLASSPATH都不是我们遵循的标准。通常CLASSPATH写在/etc/hadoop/hadoop-env.sh文件中。因此,一旦我们运行Hadoop,它将自动加载CLASSPATH。


47. 为什么HDFS只适用于大型数据集而不适用于许多小文件?

这是由于NameNode的性能问题。通常,NameNode被分配了巨大的空间来存储大规模文件的元数据。元数据应该来自单个文件,以实现最佳的空间利用率和成本效益。对于小尺寸文件,NameNode不使用整个空间,这是性能优化问题。


48. 为什么我们需要Hadoop中的数据位置?

HDFS中的数据集存储为Hadoop集群的DataNodes中的块。在MapReduce作业执行期间,各个Mapper处理块(Input Splits)。如果数据不在Mapper执行作业的同一节点中,则需要通过网络将数据从DataNode复制到映射器DataNode。


现在,如果MapReduce作业具有超过100个Mapper并且每个Mapper尝试同时从集群中的其他DataNode复制数据,则会导致严重的网络拥塞,这是整个系统的一个重要性能问题。因此,数据接近计算是一种有效且具有成本效益的解决方案,在技术上称为Hadoop中的数据位置。它有助于提高系统的整体吞吐量。


数据局部性能的3 种:

数据本地 - 在此类型数据和映射器驻留在同一节点上。这是最接近数据和最优选的方案。

机架本地 - 在这种情况下,映射器和数据驻留在同一机架上,但位于不同的数据节点上。

不同的机架 - 在这种情况下,映射器和数据驻留在不同的机架上。


49. DFS可以处理大量数据,为什么我们需要Hadoop框架?

Hadoop不仅用于存储大数据,还用于处理这些大数据。虽然DFS(分布式文件系统)也可以存储数据,但它缺少以下功能:

它不容错

网络上的数据移动取决于带宽


50. 什么是Sequencefileinputformat?

Hadoop使用特定的文件格式,称为序列文件。序列文件将数据存储在序列化键值对中。Sequencefileinputformat是读取序列文件的输入格式。


50个大数据面试问题及答案系列已完结,不管您是新人还是经验丰富的老手都希望您能在我们分享的50个面试问题和答案中获取您想要的东西。



关注“职坐标在线”(Zhizuobiao_Online)公众号,免费获取学习教程资料、技术就业咨询

50个大数据面试题第五篇:经验丰富的Hadoop开发人员面试问题

本文由 @小职 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程