Hadoop
MapReduce编程框架之Shuffle详述
MapReduce编程案例(下)
- Versions变动版本记录
- 数值累加
MapReduce编程案例(上)
- 单词计数WordCount
- 数组排序并加序号
- 共同好友
HDFS核心API编程案例
- 删除HDFS集群中所有的空文件和空目录
- 使用流的方式上传下载文件
- 统计HDFS文件系统中文件大小小于HDFS集群中默认块大小的文件占比
- 统计出HDFS文件系统中平均副本数
HDFS核心设计
- 心跳机制
- 安全模式
- 副本存放策略
- 负载均衡
Hadoop HA集群搭建
HA:High Available,高可用。为什么需要HA机制?怎么配置HA?
为什么会有Hadoop HA机制
在HDFS集群中NameNode会存在单点故障(SPOF:A Single Point of Failure)问题:对于只有一个NameNode的集群,如果唯一的NameNode机器出现故障,比如宕机、软件硬件升级等。那么整个集群将无法使用,直到NameNode重新启动才会恢复。
所以在hadoop2.0之前,出现这种单节点故障问题是无法解决的;但是Hadoop HA机制的出现就很好的解决了这个问题,在一个典型的Hadoop HA集群中,使用两台单独的机器配置为NameNodes节点。在任何时间点,确保NameNodes中只有一个处于Active状态,另一个处在Standby状态。其中ActiveNameNode负责集群中所有的客户端的操作,StandbyNameNode仅仅充当备机,保证一旦ActiveNameNode出现问题能够快速切换。
Hadoop集群环境搭建
学习Hadoop第一步,从Hadoop集群环境的搭建开始。
Hadoop生态体系
Hadoop生态体系架构图
体系演变过程
Hadoop生态系统部分组件导图