50个大数据面试题第二篇:10个大数据面试中级问题
小职 2020-12-11 来源 :慧都大数据https://blog.csdn.net/qq_27005679/article/det 阅读 568 评论 0

摘要:本篇总结了最重要的大数据面试问题以及具体问题的详细解答,无论是大数据行业的新手还是经验丰富的,都需要大数据基础知识。希望对于大数据的学习或者面试有所帮助。

本篇总结了最重要的大数据面试问题以及具体问题的详细解答,无论是大数据行业的新手还是经验丰富的,都需要大数据基础知识。希望对于大数据的学习或者面试有所帮助。

50个大数据面试题第二篇:10个大数据面试中级问题

在之前的文章中,我们总结了10个大数据面试入门级问题,大家是否有收获呢?如果还没有看的小伙伴,可以在《50个大数据面试题第一篇:10个大数据面试入门级问题》开始学习吧!


依然是10个已经在大数据行业工作的老司机们面试时的问题及建议答案,话不多说,赶紧开始今天的学习。



基于大数据已从业者的面试问题

如果你在大数据世界中有相当丰富的工作经验,那么根据您以前的经验,将在大数据面试中被问到一些问题。这些问题可能与您的经验或基于场景有关。所以,准备好这些最好的大数据面试问题和答案 。


11.您有大数据经验吗?如果有,请分享一下

如何处理:  问题没有具体答案,因为这是一个主观问题,答案取决于你以前的经验。在大数据面试期间询问这个问题,面试官想要了解您以前的经验,并且还试图评估您是否适合项目要求。


那么,你将如何处理这个问题呢?如果有以前的经验,请在过去的职位上开始履行职责,并慢慢向对话添加详细信息。告诉他们你使项目成功的贡献。一般来说,这个问题是在面试中提出的第二或第三个问题。后面的问题是基于这个问题,所以请仔细回答。你还应该注意不要过度使用以前工作的一个方面。保持简单和重点。


12.您更喜欢好的数据还是好的模型?为什么?

如何处理: 这是一个棘手的问题,但通常在大数据面试中被问到。它要求你在好的数据或好的模型之间进行选择。作为候选人,你应该尝试根据自己的经验回答这个问题。许多公司希望遵循严格的数据评估流程,这意味着他们已经选择了数据模型。在这种情况下,拥有良好的数据可能会改变游戏规则。另一种方式也适用于基于良好数据选择的模型。


正如我们已经提到的,请根据你的经验回答。但是,不要说拥有良好的数据和良好的模型很重要,因为在现实生活中很难同时拥有这两个数据。


13.您是否会优化算法或代码以使其运行更快?

如何处理: 这个问题的答案应该始终是“是”。真实世界的性能很重要,它不依赖于你在项目中使用的数据或模型。


面试官可能也有兴趣知道你是否有任何以前的代码或算法优化经验。对于初学者来说,这显然取决于他过去从事过哪些项目。有经验的候选人也可以相应地分享他们的经验。但是,请诚实地对待你工作,如果您过去没有优化代码,那就没关系了。只需让面试官了解你的真实体验,就可以破解大数据面试了。


14.您如何处理数据准备?

如何处理: 数据准备是大数据项目的关键步骤之一。大数据面试可能涉及至少一个基于数据准备的问题。当面试官问你这个问题时,他想知道你在数据准备过程中采取了哪些步骤或预防措施。


如你所知,需要数据准备才能获得必要的数据,然后可以进一步用于建模目的。你应该把这个消息传达给面试官。还应该强调要使用的模型类型以及选择特定模型的原因。最后,但并非最不重要,你还应该讨论重要的数据准备术语,如转换变量,异常值,非结构化数据,识别差距等。


15.您如何将非结构化数据转换为结构化数据?

如何处理: 非结构化数据在大数据中非常常见。应将非结构化数据转换为结构化数据,以确保正确的数据分析。你可以通过简要区分两者来开始回答问题。完成后,你现在可以讨论用于将一个表单转换为另一个表单的方法。你也可以分享你所做的真实情况。


如果你最近刚毕业,那么你可以分享与你的学术项目相关的信息。


通过正确回答这个问题,你发出信号表明你了解结构化和非结构化数据的类型,并且具有使用这些数据的实践经验。如果你具体回答这个问题,你肯定能够破解大数据面试。


16.哪种硬件配置对Hadoop作业最有利?

配置4/8 GB RAM和ECC内存的双处理器或核心机器是运行Hadoop操作的理想选择。但是,硬件配置因项目特定的工作流程和流程而异,因此需要进行自定义。


17.当两个用户尝试访问HDFS中的同一文件时会发生什么?

HDFS NameNode支持独占只写。因此,只有第一个用户将收到文件访问权限,第二个用户将被拒绝。


18.如何在NameNode关闭时恢复它?

需要执行以下步骤才能启动并运行Hadoop集群:

使用文件系统元数据副本的FsImage启动新的NameNode。 

配置DataNode以及客户端以使它们确认新启动的NameNode。

一旦新的NameNode完成加载从DataNode收到足够块报告的最后一个检查点FsImage,它将开始为客户端提供服务。 


在大型Hadoop集群的情况下,NameNode恢复过程会消耗大量时间,这在日常维护的情况下将成为更大的挑战。


19.您对Hadoop中的Rack Awareness有何了解?

它是一种应用于NameNode的算法,用于决定块及其副本的放置方式。根据机架定义,同一机架内的DataNode之间的网络流量最小化。例如,如果我们将复制因子视为3,则将两个副本放在一个机架上,而将第三个副本放在单独的机架中。


20.“HDFS Block”和“Input Split”有什么区别?

HDFS将输入数据物理地划分为用于处理的块,这被称为HDFS块。


输入拆分是映射器用于映射操作的逻辑数据划分。


面试找工作不是一朝一夕就可以完成的事情,而且失败的面试经历未必是坏事,积累面试经验也是一种进步,希望这里可以帮到你。




关注“职坐标在线”(Zhizuobiao_Online)公众号,免费获取源码资料、技术就业咨询。

50个大数据面试题第二篇:10个大数据面试中级问题

本文由 @小职 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程