最近更新时间:2024.02.28 11:45:15
首次发布时间:2022.05.26 14:18:32
本文介绍如何将 IDC 或自建 Hadoop 文件系统数据迁移至 CloudFS。迁移后,您可以在 CloudFS 中管理和访问数据。
在迁移 Hadoop 文件系统数据至 CloudFS 前,确保您已经完成以下准备工作:
说明
如果原集群满足上述条件且计算资源充足,可以直接将原集群当作迁移集群使用,而不必额外创建新集群。
说明
集群所有节点都要修改如下配置。
下载 CloudFS SDK 并解压。下载地址:inf.hdfs.cfs_sdk_deploy_1.4.1.tar.gz。
将解压后的 SDK 目录下的cloudfs-hadoop-with-dependencies-cfs-1.4.1.jar
文件复制到Hadoop的share/hadoop/hdfs
目录下。
配置core-site.xml
文件。
<property> <name>fs.defaultFS</name> <value>cfs://xxxx.cfs-cn-beijing.ivolces.com</value> </property> <property> <name>fs.cfs.impl</name> <value>com.volcengine.cloudfs.fs.CfsFileSystem</value> </property> <property> <name>fs.AbstractFileSystem.cfs.impl</name> <value>com.volcengine.cloudfs.fs.CFS</value> </property> <property> <name>cfs.access.key</name> <value>AKxxxxxxxxxxx</value> </property> <property> <name>cfs.secret.key</name> <value>SKxxxxxxxxxxx</value> </property> <!-- 可选:如果使用的是 STS Token,需要填写 --> <property> <name>cfs.security.token</name> <value>STSTokenxxxxxxxx</value> </property> <!-- 可选:如果开启缓存加速,需要配置缓存加速接入的 VPC 的网段 --> <property> <name>cfs.client.network.segment</name> <value><VPC 网段,例如 192.168.0.0/16></value> </property>
说明
xxxx.cfs-cn-beijing.ivolces.com
是大数据文件存储的挂载点地址,将其替换为已创建文件存储系统的挂载地址即可。AKxxx
和SKxxx
分别为访问密钥 ID 和私有访问密钥,详细说明请参考密钥管理。直接从原集群迁移数据到大数据文件存储 CloudFS,需要先连通原集群和迁移集群的网络环境,再执行数据迁移任务。
验证迁移集群和大数据文件存储 CloudFS 文件存储系统之间的连通性。
hdfs dfs -mkdir /dfs_links
hdfs dfs -ls cfs://xxxx.cfs-cn-beijing.ivolces.com/dfs_links
说明
xxxx.cfs-cn-beijing.ivolces.com
为大数据文件存储系统的挂载点,请根据您的实际情况进行修改。
使用 hadoop shell 迁移集群 HDFS 数据至 CloudFS。
hdfs dfs -cp hdfs:///README.md cfs://{CFS_ENDPOINT}/
说明
{CFS_ENDPOINT}
替换为您的文件存储系统的挂载点例cfs://xxxx.cfs-cn-beijing.ivolces.com
。