Hadoop集群环境搭建
学习Hadoop第一步,从Hadoop集群环境的搭建开始。
准备工作
虚拟机(VMware Workstation)
Xshell5
Linux系统(CentOS-6.7-x86_64-bin-iso)
Hadoop编译后的安装包(hadoop-2.7.5-centos-6.7.tar.gz)
JDK(jdk-8u73-linux-x64.tar.gz)、
集群规划
HDFS | YRAN | |
---|---|---|
Hadoop02 | NameNode+DataNode | NodeManager |
Hadoop03 | DataNode+SecondaryNameNode | NodeManager |
Hadoop04 | DataNode | NodeManager |
Hadoop05 | DataNode | ResourceManager+NodeManager |
集群共四个节点,HDFS主节点为Hadoop02,YRAN主节点为Hadoop05
流程
集群搭建:Haddoop02、Hadoop03、Hadoop04、Hadoop05
- 各个节点必须固定IP地址,并互相配置集群所有的主机映射
- 安装JDK,配置SSH免密登录(相互持有对方的公钥,就算是自己也需要持有)
- 关闭防火墙,关闭防火墙自动开启(关系到web管理页面是否能访问成功)
- 除root用户外,统一增加用户名:hadoop
- 可以配置一个节点后,克隆其余三个节点
解压Hadoop安装包,这里指定路径:/home/hadoop/apps/hadoop-2.7.5
修改hadoop的环境变量:普通用户(~/etc/.bashrc),root用户(/etc/profile)
1
2
3export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
配置Hadoop配置文件(见下方详情)
- 先配置一个节点中的配置文件,然后通过scp分发到其余的节点
- 所有节点的Hadoop安装路径和配置文件必须一致
分发安装包
scp
命令,需要配置SSH
启动Hadoop集群
- 初始化
- 启动HDFS
- 启动YARN
检测验证是否成功
- JPS命令查看各个节点进程
- 查看集群状态:
hdfs dfsadmin -report
、hadoop dfsadmin -report
- HDFSweb管理页面:https://hadoop02:50070
- YARNweb管理页面:https://hadoop05:8088
修改Hadoop配置文件
Hadoop配置文件需要修改六个,路径在:hadoop-2.7.5/etc/hadoop/
hadoop-env.sh
默认的JAVA_HOME变量,建议修改JAVA_HOME的路径为jdk的原始路径
core-site.xml
添加hdfs配置路径,文件上传端口,临时文件存放的目录等
hdfs-site.xml
namenode、datanode数据存储的目录,数据备份副本的个数,以及第二主节点
mapred-site.xml
配置名mapreduce-yarn管理
yarn-site.xml
yarn的主机名等
slaves
集群的节点列表。slaves文件中配置的是DataNode的所在节点服务,方便Hadoop启动时去寻找当前集群的节点,从而命令对应的服务器启动对应的进程
1
2
3
4hadoop02
hadoop03
hadoop04
hadoop05
分发
通过scp
,命令,将hadoop-2.7.5安装包分发到各个节点的相同位置上;
scp local_file remote_username@remote_ip:remote_folder
,-r
递归复制
例:scp -r /apps/hadoop-2.7.5 hadoop@hadoo02:~/apps/
启动Hadoop集群
初始化只能在主节点中进行:
(/home/hadoop/apps/hadoop-2.7.5/)bin/hadoop namenode -format
哪个节点启动HDFS均可:
(/home/hadoop/apps/hadoop-2.7.5/)sbin/start-dfs.sh
YARN启动必须在主节点:
(/home/hadoop/apps/hadoop-2.7.5/)sbin/start-yarn.sh