本文介绍如何将 IDC 或自建 Hadoop 文件系统数据迁移至 CloudFS。迁移后,您可以在 CloudFS 中管理和访问数据。
在迁移 Hadoop 文件系统数据至 CloudFS 前,确保您已经完成以下准备工作:
说明
如果原集群满足上述条件且计算资源充足,可以直接将原集群当作迁移集群使用,而不必额外创建新集群。
说明
集群所有节点都要修改如下配置。
wget https://cloudfs.tos-cn-beijing.volces.com/sdk/prod/cloudfs-client-1.5.3.43.tar.gz
tar -zxvf cloudfs-client-1.5.3.43.tar.gz
将解压文件cloudfs-client/lib/cloudfs-sdk-1.5.3.43.jar
拷贝至集群/share/hadoop/hdfs
路径下。
cp {YOUR_DOWNLOAD_PATH}/cloudfs-client/lib/cloudfs-sdk-1.5.3.43.jar /opt/{Directory}/hadoop/share/hadoop/hdfs/
配置 core-site.xml。
<property> <name>fs.defaultFS</name> <value>cfs://xxxx.cfs-cn-beijing.ivolces.com</value> </property> <property> <name>fs.cfs.impl</name> <value>com.volcengine.cloudfs.fs.CfsFileSystem</value> </property> <property> <name>fs.AbstractFileSystem.cfs.impl</name> <value>com.volcengine.cloudfs.fs.CFS</value> </property> <property> <name>cfs.access.key</name> <value>AKxxxxxxxxxxx</value> </property> <property> <name>cfs.secret.key</name> <value>SKxxxxxxxxxxx</value> </property> <!-- 可选:如果使用的是 STS Token,需要填写 --> <property> <name>cfs.security.token</name> <value>STSTokenxxxxxxxx</value> </property> <!-- 可选:如果开启缓存加速,需要配置缓存加速接入的 VPC 的网段 --> <property> <name>cfs.client.network.segment</name> <value><VPC 网段,例如 192.168.0.0/16></value> </property>
说明
xxxx.cfs-cn-beijing.ivolces.com
是大数据文件存储的挂载点地址,将其替换为已创建文件存储系统的挂载地址即可。AKxxx
和SKxxx
分别为访问密钥 ID 和私有访问密钥,详细说明请参考密钥管理。直接从原集群迁移数据到大数据文件存储 CloudFS,需要先连通原集群和迁移集群的网络环境,再执行数据迁移任务。
验证迁移集群和大数据文件存储 CloudFS 文件存储系统之间的连通性。
hdfs dfs -mkdir /dfs_links
hdfs dfs -ls cfs://xxxx.cfs-cn-beijing.ivolces.com/dfs_links
说明
xxxx.cfs-cn-beijing.ivolces.com
为大数据文件存储系统的挂载点,请根据您的实际情况进行修改。
使用 hadoop shell 迁移集群 HDFS 数据至 CloudFS。
hdfs dfs -cp hdfs:///README.md cfs://{CFS_ENDPOINT}/
说明
{CFS_ENDPOINT}
替换为您的文件存储系统的挂载点例cfs://xxxx.cfs-cn-beijing.ivolces.com
。