HDFS上如何将ORC格式Hive表内容转为普通文本展示？

阿华AIGC实验室

2026-5-7

解决ORC格式Hive表转普通文本展示的问题

嘿，我完全懂你遇到的这个困扰！hdfs dfs -text命令确实没法直接解析ORC这种列存二进制格式的文件，所以你看到的还是原始的ORC编码内容。下面给你几个实用的方法来把ORC表的内容转成普通文本展示：

方法1：用Hive/Beeline查询导出文本

这是最直接的方式，适合临时查看或者导出到本地：

打开Beeline或者Hive CLI，连接到你的Hive集群
直接查询表内容：
```
SELECT * FROM hiveExamples.jsonTest;
```

如果要把结果导出到本地文件，可以用：

INSERT OVERWRITE LOCAL DIRECTORY '/your/local/output/path'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
SELECT * FROM hiveExamples.jsonTest;

执行完后，去指定的本地路径就能拿到分隔符分隔的文本文件了。

方法2：用Spark读取ORC表再输出文本格式

如果你需要在HDFS上生成文本格式的文件，用Spark处理很方便：
在Spark Shell（Scala）或者PySpark里执行：

// 读取ORC表
val orcDF = spark.read.table("hiveExamples.jsonTest")
// 输出为CSV格式（带表头，方便查看）到HDFS
orcDF.write.format("csv")
  .option("header", "true")
  .option("delimiter", ",")
  .save("/hdfs/path/to/text-output")

之后用hdfs dfs -cat /hdfs/path/to/text-output/*就能直接查看普通文本内容了。如果你的表是单列数据，也可以用orcDF.write.text("/hdfs/path/to/text-output")来输出纯文本。

方法3：用ORC官方工具解析

ORC提供了专门的orc-tools工具来查看和处理ORC文件：

先确保你的环境安装了orc-tools（一般Hadoop生态环境里会自带，或者可以单独安装）
直接指定ORC文件路径解析：
```
orc-tools data /path-of-table/000000_0  # 替换成你实际的ORC数据文件路径
```
这个命令会直接把ORC文件里的内容以可读的文本格式打印出来，还会附带显示字段类型等信息。

内容的提问来源于stack exchange，提问作者SNS