自动化测试中PDF/HTML/XML文件对比及差异保存的简便方案问询

阿华AIGC实验室

2026-5-22

自动化测试中PDF/HTML/XML文件对比的简便方案

Great question—automated testing often calls for low-fuss, reliable ways to compare files like PDFs, HTML, and XML, especially when dealing with large XML payloads where writing 50-60 POJOs feels like a huge waste of time. Let’s break down practical, tool-based solutions for each file type, with code snippets you can drop into your tests right away.

1. PDF文件对比

PDF对比分两种场景：文本内容验证（适合纯内容测试）和视觉/布局验证（适合需要确认格式、排版的场景）。

文本内容对比（轻量高效）

提取PDF文本后直接对比，无需处理复杂格式：

Python示例（用pdfplumber，比PyPDF2提取更准确）：

import pdfplumber

def compare_pdf_text(path1, path2):
    with pdfplumber.open(path1) as pdf1, pdfplumber.open(path2) as pdf2:
        # 提取所有页面文本并拼接
        text1 = "\n".join([page.extract_text() or "" for page in pdf1.pages])
        text2 = "\n".join([page.extract_text() or "" for page in pdf2.pages])
        
        if text1 == text2:
            print("PDF content matches")
            return True
        else:
            # 保存差异到文件
            with open("pdf_text_diff.txt", "w", encoding="utf-8") as f:
                f.write("=== PDF 1 Content ===\n" + text1 + "\n\n=== PDF 2 Content ===\n" + text2)
            print("PDF content differs—diff saved to pdf_text_diff.txt")
            return False

视觉/布局对比（精准验证）

用工具生成带高亮差异的PDF，适合需要确认排版、图片位置的测试：

用Python的pdfdiff2命令行工具（安装后直接调用）：
```
pip install pdfdiff2
pdfdiff2 file1.pdf file2.pdf -o pdf_visual_diff.pdf
```
输出的pdf_visual_diff.pdf会用红色高亮显示两个PDF的视觉差异。

2. HTML文件对比

HTML对比核心是忽略无关格式差异（比如多余空格、class属性顺序），只验证核心结构和内容。

结构+内容对比（标准化后验证）

用工具清洗HTML（去除冗余标签、格式化结构）后对比：

Java示例（用JSoup）：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.File;
import java.io.IOException;
import java.io.PrintWriter;

public class HtmlComparer {
    public static boolean compareHtml(String path1, String path2) throws IOException {
        Document doc1 = Jsoup.parse(new File(path1), "UTF-8");
        Document doc2 = Jsoup.parse(new File(path2), "UTF-8");
        
        // 标准化HTML：去除多余空格、统一标签格式
        String cleanHtml1 = doc1.normalize().html();
        String cleanHtml2 = doc2.normalize().html();
        
        if (cleanHtml1.equals(cleanHtml2)) {
            System.out.println("HTML structure and content match");
            return true;
        } else {
            try (PrintWriter writer = new PrintWriter("html_diff.txt")) {
                writer.println("=== Cleaned HTML 1 ===\n" + cleanHtml1 + "\n\n=== Cleaned HTML 2 ===\n" + cleanHtml2);
            }
            System.out.println("HTML differs—diff saved to html_diff.txt");
            return false;
        }
    }
}

视觉对比（页面截图验证）

如果需要验证页面渲染效果，用Selenium配合截图对比工具：

Python示例（用selenium+pyscreenshot）：

from selenium import webdriver
import pyscreenshot as ImageGrab

def compare_html_visual(url1, url2):
    driver = webdriver.Chrome()
    driver.get(url1)
    img1 = ImageGrab.grab(bbox=(0,0,driver.execute_script("return document.body.scrollWidth"), driver.execute_script("return document.body.scrollHeight")))
    driver.get(url2)
    img2 = ImageGrab.grab(bbox=(0,0,driver.execute_script("return document.body.scrollWidth"), driver.execute_script("return document.body.scrollHeight")))
    driver.quit()
    
    if img1 == img2:
        print("HTML visual rendering matches")
        return True
    else:
        img1.save("html_screenshot_1.png")
        img2.save("html_screenshot_2.png")
        print("HTML visual differs—screenshots saved to current directory")
        return False

3. XML文件对比（重点：避免POJO）

这是你提到的核心痛点——完全没必要写几十份POJO。下面是三种零POJO的简便方案：

方案1：标准化后文本对比（快速入门）

先将XML标准化（去除空格、注释、统一属性顺序），再对比纯文本：

Python示例（用lxml）：

from lxml import etree

def normalize_xml(xml_path):
    # 解析时自动去除空白和注释
    parser = etree.XMLParser(remove_blank_text=True, remove_comments=True)
    tree = etree.parse(xml_path, parser)
    # 输出格式化后的标准化XML
    return etree.tostring(tree, encoding='utf-8', pretty_print=True).decode('utf-8')

def compare_xml(path1, path2):
    norm1 = normalize_xml(path1)
    norm2 = normalize_xml(path2)
    
    if norm1 == norm2:
        print("XML content matches")
        return True
    else:
        with open("xml_diff.txt", "w", encoding="utf-8") as f:
            f.write("=== Normalized XML 1 ===\n" + norm1 + "\n\n=== Normalized XML 2 ===\n" + norm2)
        print("XML differs—diff saved to xml_diff.txt")
        return False

方案2：结构化差异分析（友好的差异报告）

用专门的XML对比工具生成节点级的差异报告（比如哪个节点值修改、哪个节点新增）：

Java示例（用XMLUnit，自动化测试首选）：

import org.xmlunit.builder.DiffBuilder;
import org.xmlunit.diff.Diff;
import java.io.File;
import java.nio.file.Files;
import java.io.PrintWriter;

public class XmlUnitComparer {
    public static void compareXmlStructured(String path1, String path2) throws Exception {
        String xml1 = new String(Files.readAllBytes(new File(path1).toPath()));
        String xml2 = new String(Files.readAllBytes(new File(path2).toPath()));
        
        Diff diff = DiffBuilder.compare(xml1)
                .withTest(xml2)
                .ignoreWhitespace()
                .ignoreComments()
                .checkForSimilar() // 忽略节点顺序差异（可选）
                .build();
        
        if (diff.hasDifferences()) {
            try (PrintWriter writer = new PrintWriter("xml_structured_diff.txt")) {
                diff.getDifferences().forEach(d -> writer.println(d.toString()));
            }
            System.out.println("XML has node-level differences—report saved to xml_structured_diff.txt");
        } else {
            System.out.println("XML structure and content match");
        }
    }
}

Python示例（用xmltodict+deepdiff）：

import xmltodict
from deepdiff import DeepDiff

def compare_xml_structured(path1, path2):
    with open(path1, 'r') as f1, open(path2, 'r') as f2:
        # 转成字典后对比
        xml_dict1 = xmltodict.parse(f1.read())
        xml_dict2 = xmltodict.parse(f2.read())
        diff = DeepDiff(xml_dict1, xml_dict2, ignore_order=True)
        
        if diff:
            with open("xml_deep_diff.txt", "w", encoding="utf-8") as f:
                f.write(str(diff))
            print("XML has detailed differences—report saved to xml_deep_diff.txt")
            return False
        else:
            print("XML matches")
            return True

方案3：命令行工具（CI/CD自动化友好）

直接用系统命令快速对比，适合集成到Shell脚本或CI流水线：

# 用xmllint标准化XML，再用diff生成差异
xmllint --format --noblanks file1.xml > norm1.xml
xmllint --format --noblanks file2.xml > norm2.xml
diff norm1.xml norm2.xml > xml_diff.txt

总结

文件类型	推荐工具/方案	核心优势
PDF	文本对比：pdfplumber；视觉对比：pdfdiff2	轻量/精准按需选择
HTML	结构对比：JSoup/BeautifulSoup；视觉对比：Selenium+截图	自动忽略无关格式差异
XML	结构化对比：XMLUnit（Java）/deepdiff（Python）；标准化文本对比	零POJO，支持大文件，生成友好差异报告

内容的提问来源于stack exchange，提问作者Prasanna