Hadoop集群环境搭建

学习Hadoop第一步,从Hadoop集群环境的搭建开始。

准备工作

  • 虚拟机(VMware Workstation)

  • Xshell5

  • Linux系统(CentOS-6.7-x86_64-bin-iso)

  • Hadoop编译后的安装包(hadoop-2.7.5-centos-6.7.tar.gz)

  • JDK(jdk-8u73-linux-x64.tar.gz)、

集群规划

HDFSYRAN
Hadoop02NameNode+DataNodeNodeManager
Hadoop03DataNode+SecondaryNameNodeNodeManager
Hadoop04DataNodeNodeManager
Hadoop05DataNodeResourceManager+NodeManager

集群共四个节点,HDFS主节点为Hadoop02,YRAN主节点为Hadoop05

流程

集群搭建:Haddoop02、Hadoop03、Hadoop04、Hadoop05

  • 各个节点必须固定IP地址,并互相配置集群所有的主机映射
  • 安装JDK,配置SSH免密登录(相互持有对方的公钥,就算是自己也需要持有)
  • 关闭防火墙,关闭防火墙自动开启(关系到web管理页面是否能访问成功)
  • 除root用户外,统一增加用户名:hadoop
  • 可以配置一个节点后,克隆其余三个节点

解压Hadoop安装包,这里指定路径:/home/hadoop/apps/hadoop-2.7.5

  • 修改hadoop的环境变量:普通用户(~/etc/.bashrc),root用户(/etc/profile)

    1
    2
    3
    export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5

    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

配置Hadoop配置文件(见下方详情)

  • 先配置一个节点中的配置文件,然后通过scp分发到其余的节点
  • 所有节点的Hadoop安装路径和配置文件必须一致

分发安装包

scp命令,需要配置SSH

启动Hadoop集群

  • 初始化
  • 启动HDFS
  • 启动YARN

检测验证是否成功

修改Hadoop配置文件

Hadoop配置文件需要修改六个,路径在:hadoop-2.7.5/etc/hadoop/

hadoop-env.sh

  • 默认的JAVA_HOME变量,建议修改JAVA_HOME的路径为jdk的原始路径

    hadoop-env.sh

core-site.xml

  • 添加hdfs配置路径,文件上传端口,临时文件存放的目录等

    core-site.xml

hdfs-site.xml

  • namenode、datanode数据存储的目录,数据备份副本的个数,以及第二主节点

    hdfs-site.xml

mapred-site.xml

  • 配置名mapreduce-yarn管理

    mapred-site.xml

yarn-site.xml

  • yarn的主机名等

    yarn-site.xml

slaves

  • 集群的节点列表。slaves文件中配置的是DataNode的所在节点服务,方便Hadoop启动时去寻找当前集群的节点,从而命令对应的服务器启动对应的进程

    1
    2
    3
    4
    hadoop02
    hadoop03
    hadoop04
    hadoop05

分发

通过scp,命令,将hadoop-2.7.5安装包分发到各个节点的相同位置上;

scp local_file remote_username@remote_ip:remote_folder-r递归复制

例:scp -r /apps/hadoop-2.7.5 hadoop@hadoo02:~/apps/

启动Hadoop集群

  • 初始化只能在主节点中进行:(/home/hadoop/apps/hadoop-2.7.5/)bin/hadoop namenode -format

  • 哪个节点启动HDFS均可:(/home/hadoop/apps/hadoop-2.7.5/)sbin/start-dfs.sh

  • YARN启动必须在主节点:(/home/hadoop/apps/hadoop-2.7.5/)sbin/start-yarn.sh