大数据 Spark+Hadoop环境搭建-职坐标

海同科技，欢迎您！

就业

培训

资料

求职秘籍

求职秘籍

站

热门城市全国站>

其他省市

快速购买

400-636-0069

热门课程

IT学院

职坐标首页海同在线求职秘籍经验技巧

选择在海同培训： 30 天 1366 名，今日申请 29 人 IT培训咨询 >>

大数据 Spark+Hadoop环境搭建

黄骈 2018-03-29 来源：阅读 945 评论 0

摘要：一、工具下载： 1、spark下载目前最新的是2.1.1，spark 2.0开始api和之前的还是有比较多的变化，因此如果选择2.0以上版本，最好看一下api变化，下载地址：http://spark.apache.org/downloads.html.

一、工具下载：

1、spark下载

目前最新的是2.1.1，spark 2.0开始api和之前的还是有比较多的变化，因此如果选择2.0以上版本，最好看一下api变化，下载地址： //spark.apache.org/downloads.html

2、hadoop下载

目前最新的hadoop版本已经到了3.0了，可以根据你的选择需要的版本，下载地址：https://dist.apache.org/repos/dist/release/hadoop/common/

3、jdk下载，这个就不多说了，基本很多都用到，不过建议下载1.8以上的，这样避免出现兼容问题。

二、spark和hadoop基本介绍

1、Hadoop

Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算

Hadoop的核心包括两块，一个是map/reduce操作，另一个是HDFS分布式文件系统，这个文件系统核心是NameNode和DataNode，前者负责记录文件树形结构，简单来说就是维护文件目录结构，以及每个文件对应在DataNode中的文件块属性。后者是用作数据存储用的，举个例子，如果你往HDFS里面放入一个文件，首先经过NameNode将文件信息记录下来，然后将它存放到各个DataNode中。

2、Spark

Spark是专为大规模数据处理而设计的快速通用的计算引擎，里面封装了很多方便的api调用，可以把它看做是Hadoop的补充，虽然hadoop也能进行一些分布式计算，但是spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS。

三、开始搭建环境

1. 选择几个ubuntu的虚拟机，其中一个作为spark的master节点以及hadoop的 NameNode节点，其他的作为slave节点和DataNode节点

2. 解压下载的spark和hadoop分别到目录/home/spark和/home/hadoop

3. 配置ssh无秘钥登录

a) Master节点生成公钥

ssh-keygen -t rsa -P '' #一路回车直到生成公钥

b) 将master生成的pub拷贝到worker(10.14.66.215)上

scp /home/master/.ssh/id_rsa.pub

10.14.66.215:/home/worker/.ssh/id_rsa.pub.master

c) 将自己生成的pub添加到授权列表里

cat /home/master/.ssh/id_rsa.pub >> /home/master/.ssh/authorized_keys

d) worker节点中将master的pub添加到授权列表里

cat /home/worker/.ssh/id_rsa.pub.master >> /home/worker/.ssh/authorized_keys

编程入门先学什么无基础学编程软件开发工作心得体会

本文由 @职坐标发布于职坐标。未经许可，禁止转载。

喜欢 | 0

不喜欢 | 0

看完这篇文章有何感觉？已经有0人表态，0%的人喜欢快给朋友分享吧~

评论（0）

后参与评论

本文作者联系TA

黄骈

认证System Analyst，System Architect

17
文章
7431
人气
88%
受欢迎度

已有17人表明态度，88%喜欢该老师！

进入TA的空间

求职秘籍 直通车

索取资料
答疑解惑
技术交流
职业测评
面试技巧
高薪秘笈

TA的其他文章更多>>

大数据 Kafka优化

经验技巧 75% 的用户喜欢

正向代理与反向代理的区别

经验技巧 100% 的用户喜欢

大数据 MapReduce中的常见算法

经验技巧 0% 的用户喜欢

大数据 MapReduce工作原理图文详解

经验技巧 0% 的用户喜欢

大数据 Mapreduce基础入门

经验技巧 0% 的用户喜欢

其他海同师资更多>>

吕益平

吕益平联系TA

熟悉企业软件开发的产品设计及开发

孔庆琦

孔庆琦联系TA

对MVC模式和三层架构有深入的研究

周鸣君

周鸣君联系TA

擅长Hadoop/Spark大数据技术

范佺菁

范佺菁联系TA

擅长Java语言，只有合理的安排和管理时间你才能做得更多，行得更远！

金延鑫

金延鑫联系TA

擅长与学生或家长及时有效沟通

经验技巧30天热搜词更多>>

java项目经验 java开发简历项目经验职业技能培训名师教学海同培训师资力量最强介绍培训老师主持词软件开发经验总结项目开发经验计算机软件学习心得软件学习心得软件开发项目总结 matlab软件学习心得如何介绍培训老师软件开发项目的组织管理 java项目教学软件开发模型培训班如何介绍老师软件开发工作心得体会平台化开发经验软件开发需要学什么 java开发经验

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场匹配合适岗位

验证码手机号，获得海同独家IT培训资料

选择就业方向：: 人工智能物联网; 大数据开发/分析; 人工智能Python; Java全栈开发; WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了，明天再试试吧！

提交

我们会在第一时间安排职业规划师联系您！

您也可以联系我们的职业规划师咨询：

小职老师的微信号：z_zhizuobiao

小职老师的微信号：z_zhizuobiao

友情链接

职业技能培训职业教育培训 IT教育培训机构 IT教育北京IT培训广州IT培训深圳IT培训杭州IT培训南京IT培训天津IT培训成都IT培训武汉IT培训郑州IT培训江苏IT培训浙江IT培训厦门IT培训西安IT培训 IT课程视频职坐标商城 IT培训课程软件开发书籍 IT技术资料 IT培训公开课 IT视频教程 IT就业培训班软件工程师培训职坐标介绍 IT知识人工智能大数据编程语言 WEB前端移动端开发品牌设计数据库软件测试系统运维常用软件 IT教育新闻职坐标新闻职业教育研究海同名师 IT教学视频职场沟通技巧海同学员软件开发项目 IT热门话题 IT热点新闻海同科技话题

版权所有职坐标-一站式IT培训就业服务领导者沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com，All Rights Reserved.
沪公网安备 31011502005948号

关于我们 │ 法律声明 │ 联系我们

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程