Hadoop集群环境搭建

学习Hadoop第一步，从Hadoop集群环境的搭建开始。

准备工作

虚拟机（VMware Workstation）
Xshell5
Linux系统（CentOS-6.7-x86_64-bin-iso）
Hadoop编译后的安装包（hadoop-2.7.5-centos-6.7.tar.gz）
JDK（jdk-8u73-linux-x64.tar.gz）、

集群规划

	HDFS	YRAN
Hadoop02	NameNode+DataNode	NodeManager
Hadoop03	DataNode+SecondaryNameNode	NodeManager
Hadoop04	DataNode	NodeManager
Hadoop05	DataNode	ResourceManager+NodeManager

集群共四个节点，HDFS主节点为Hadoop02，YRAN主节点为Hadoop05

流程

集群搭建：Haddoop02、Hadoop03、Hadoop04、Hadoop05

各个节点必须固定IP地址，并互相配置集群所有的主机映射
安装JDK，配置SSH免密登录（相互持有对方的公钥，就算是自己也需要持有）
关闭防火墙，关闭防火墙自动开启（关系到web管理页面是否能访问成功）
除root用户外，统一增加用户名：hadoop
可以配置一个节点后，克隆其余三个节点

解压Hadoop安装包，这里指定路径：/home/hadoop/apps/hadoop-2.7.5

修改hadoop的环境变量：普通用户（~/etc/.bashrc），root用户（/etc/profile）

1
2
3

export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
  
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

配置Hadoop配置文件（见下方详情）

先配置一个节点中的配置文件，然后通过scp分发到其余的节点
所有节点的Hadoop安装路径和配置文件必须一致

分发安装包

scp命令，需要配置SSH

启动Hadoop集群

初始化
启动HDFS
启动YARN

检测验证是否成功

JPS命令查看各个节点进程
查看集群状态：hdfs dfsadmin -report 、hadoop dfsadmin -report
HDFSweb管理页面：https://hadoop02:50070
YARNweb管理页面：https://hadoop05:8088

修改Hadoop配置文件

Hadoop配置文件需要修改六个，路径在：hadoop-2.7.5/etc/hadoop/

hadoop-env.sh

默认的JAVA_HOME变量，建议修改JAVA_HOME的路径为jdk的原始路径

core-site.xml

添加hdfs配置路径，文件上传端口，临时文件存放的目录等

hdfs-site.xml

namenode、datanode数据存储的目录，数据备份副本的个数，以及第二主节点

mapred-site.xml

配置名mapreduce-yarn管理

yarn-site.xml

yarn的主机名等

slaves

集群的节点列表。slaves文件中配置的是DataNode的所在节点服务，方便Hadoop启动时去寻找当前集群的节点，从而命令对应的服务器启动对应的进程
1
2
3
4
hadoop02
hadoop03
hadoop04
hadoop05

分发

通过scp，命令，将hadoop-2.7.5安装包分发到各个节点的相同位置上；

scp local_file remote_username@remote_ip:remote_folder，-r递归复制

例：scp -r /apps/hadoop-2.7.5 hadoop@hadoo02:~/apps/

启动Hadoop集群

初始化只能在主节点中进行：（/home/hadoop/apps/hadoop-2.7.5/）bin/hadoop namenode -format
哪个节点启动HDFS均可：（/home/hadoop/apps/hadoop-2.7.5/）sbin/start-dfs.sh
YARN启动必须在主节点：（/home/hadoop/apps/hadoop-2.7.5/）sbin/start-yarn.sh