HDFS 全称为 Hadoop Distributed File System,是业界应用最为广泛的开源分布式文件系统。它具备较高的容错性,能够提供高吞吐量的数据访问,尤其适用于大规模数据集上的应用。HDFS 提供了一种高度容错且高吞吐量的海量数据存储解决办法。
HDFS 采用 master/slave 架构。一个 HDFS 集群通常由一个 NameNode 和若干 DataNode 组成。在考虑 NameNode 高可用时,还会有一个 SecondaryNameNode 负责做元数据的 checkpoint。
参数名词 | 解释说明 |
---|---|
NameNode | 是整个文件系统的管理节点:
|
SecondaryNameNode | HdfsHA 的一个解决方案,但不支持热备。 |
Client | 客户端代表用户与 NameNode 和 DataNode 进行交互,以访问整个文件系统。HDFS 向外部开放文件命名空间,并允许用户以文件形式存储数据。用户通过客户端(Client)与 HDFS 进行通讯和交互。 |
DataNode | DataNode 是 HDFS 的实际数据存储节点,负责管理所在节点的存储以及客户端的读写请求,并定期上报心跳(Heartbeat)和块的存储位置信息(Blockreport)。DataNode 在 NameNode 的指令下进行数据块的创建、删除和复制。 |
Block | HDFS 上的一个大文件,如果其大小大于配置的 blocksize(默认值为 128MB),就会被分割成多个数据块(block)进行存储,并且这些数据块会分散地存放在不同的 DataNode 上。 |
EditLog | 在 HDFS 发起的创建、删除等操作实际上是一个事务,NameNode 会利用事务日志(EditLog)来记录文件系统元数据的每一项变化。EditLog 会持久化存储在 NameNode 的本地磁盘当中。 |
FsImage | FsImage 是 NameNode 的元数据存储快照,持久化在 NameNode 的本地磁盘上。 |