如何基于Avro Schema转换XML为AVRO/JSON？Java及Kafka Connect方案

阿华AIGC实验室

2026-5-14

我来帮你拆解这两个场景的实现方案，都是实际项目里常用的靠谱做法：

一、Java程序中实现XML到Avro/JSON的转换

核心思路是先把XML解析成结构化的Java对象，再转成目标格式（Avro或JSON），推荐用统一的工具链减少切换成本。

1. 工具选型与依赖准备

优先用Jackson XML模块处理XML解析（它同时支持JSON和Avro序列化，生态统一），搭配Avro官方库处理Avro格式。Maven依赖示例：

<!-- Jackson XML解析依赖 -->
<dependency>
    <groupId>com.fasterxml.jackson.dataformat</groupId>
    <artifactId>jackson-dataformat-xml</artifactId>
    <version>2.15.2</version>
</dependency>
<!-- Avro核心库 -->
<dependency>
    <groupId>org.apache.avro</groupId>
    <artifactId>avro</artifactId>
    <version>1.11.2</version>
</dependency>
<!-- 可选：用Avro Schema自动生成Java类的Maven插件 -->
<plugin>
    <groupId>org.apache.avro</groupId>
    <artifactId>avro-maven-plugin</artifactId>
    <version>1.11.2</version>
    <executions>
        <execution>
            <phase>generate-sources</phase>
            <goals>
                <goal>schema</goal>
            </goals>
            <configuration>
                <sourceDirectory>${project.basedir}/src/main/avro</sourceDirectory>
                <outputDirectory>${project.basedir}/src/main/java</outputDirectory>
            </configuration>
        </execution>
    </executions>
</plugin>

2. 具体实现步骤

步骤1：解析XML到Java对象

先定义一个和XML结构匹配的POJO（如果你的Avro Schema已经生成了Java类，也可以直接用它来适配XML）：

import com.fasterxml.jackson.dataformat.xml.annotation.JacksonXmlRootElement;

@JacksonXmlRootElement(localName = "user")
public class User {
    private String id;
    private String name;
    private int age;
    // 生成getter、setter、无参/全参构造方法
}

然后用Jackson XML解析XML内容：

import com.fasterxml.jackson.dataformat.xml.XmlMapper;

public class XmlParser {
    public static User parseXmlToPojo(String xmlContent) throws Exception {
        XmlMapper xmlMapper = new XmlMapper();
        return xmlMapper.readValue(xmlContent, User.class);
    }
}

步骤2：转成Avro格式

如果已经通过Avro Schema生成了UserAvro类，直接把POJO数据映射过去，再序列化：

import org.apache.avro.file.DataFileWriter;
import org.apache.avro.io.DatumWriter;
import org.apache.avro.specific.SpecificDatumWriter;

import java.io.File;

public class AvroConverter {
    public static void convertToAvro(User user, String outputPath) throws Exception {
        // 映射POJO到Avro生成的类
        UserAvro avroUser = new UserAvro();
        avroUser.setId(user.getId());
        avroUser.setName(user.getName());
        avroUser.setAge(user.getAge());

        // 序列化到Avro文件（也可以输出字节流）
        DatumWriter<UserAvro> datumWriter = new SpecificDatumWriter<>(UserAvro.class);
        try (DataFileWriter<UserAvro> dataFileWriter = new DataFileWriter<>(datumWriter)) {
            dataFileWriter.create(avroUser.getSchema(), new File(outputPath));
            dataFileWriter.append(avroUser);
        }
    }
}

步骤3：转成JSON格式

如果是普通JSON，直接用Jackson的ObjectMapper即可；如果需要符合Avro规范的JSON（保留Schema关联信息），可以用Avro的JsonEncoder：

// 普通JSON转换
import com.fasterxml.jackson.databind.ObjectMapper;

public class JsonConverter {
    public static String convertToJson(User user) throws Exception {
        ObjectMapper objectMapper = new ObjectMapper();
        return objectMapper.writeValueAsString(user);
    }
}

// Avro规范的JSON转换
import org.apache.avro.io.JsonEncoder;
import org.apache.avro.io.EncoderFactory;
import java.io.StringWriter;

public class AvroJsonConverter {
    public static String convertToAvroJson(UserAvro avroUser) throws Exception {
        StringWriter writer = new StringWriter();
        JsonEncoder encoder = EncoderFactory.get().jsonEncoder(avroUser.getSchema(), writer);
        DatumWriter<UserAvro> datumWriter = new SpecificDatumWriter<>(UserAvro.class);
        datumWriter.write(avroUser, encoder);
        encoder.flush();
        return writer.toString();
    }
}

二、Kafka Connect中XML转JSON/Avro的最佳实现方式

在Kafka Connect场景下，优先用成熟的开源Connector而非自定义代码，能大幅减少维护成本，还能兼容Kafka生态的各种组件。

1. 最佳方案：XML Source Connector + 格式Converter

推荐使用Confluent官方的kafka-connect-xml Connector（社区也有同类实现），它可以直接从HTTP接口、文件等源读取XML数据，解析为结构化的Connect Record，再配合Kafka Connect的Converter转成JSON或Avro格式。

核心配置示例（从HTTP源读取XML，输出Avro）

name=xml-source-connector
connector.class=io.confluent.connect.xml.XmlSourceConnector
tasks.max=1

# 数据源配置：指定XML接口地址和解析节点的XPath
xml.url=http://your-server/xml-data-endpoint
xml.xpath=/root/users/user

# Schema配置：可以用自定义Avro Schema文件，也可以开启自动推断
schema.file.path=/path/to/your/user.avsc
# schema.inference=true  # 开启自动推断Schema（适合快速验证）

# Avro Converter配置（配合Schema Registry）
value.converter=io.confluent.connect.avro.AvroConverter
value.converter.schema.registry.url=http://schema-registry:8081
key.converter=org.apache.kafka.connect.storage.StringConverter

如果要输出JSON，只需把value.converter改成org.apache.kafka.connect.json.JsonConverter即可。

2. 特殊场景的补充方案

如果你的XML格式非常特殊（比如复杂命名空间、非标准嵌套结构），可以：

先用HTTP Source Connector获取原始XML数据，再用Kafka Connect的ScriptTransform编写Groovy/JavaScript脚本解析XML，转成结构化数据后再输出。
自定义一个Transform实现org.apache.kafka.connect.transforms.Transformation接口，在其中用Jackson或JAXB解析XML，转换为Struct对象。

但除非必要，还是优先用现成的XML Source Connector，它已经处理了XML解析的各种边缘情况（比如重复节点、空值处理等）。

内容的提问来源于stack exchange，提问作者ago