从Gzip提取XML时出现乱码问题，请求技术支援

阿华AIGC实验室

2026-5-28

解决Gzip压缩包解析XML乱码的问题

看起来你的代码里有几个关键问题导致了解压后乱码、XML无法解析的情况，我来帮你一步步排查和修复：

核心问题1：cURL可能已经自动帮你解压了响应

你设置了CURLOPT_ENCODING, 'gzip,deflate'，这个选项会让cURL自动向服务器请求gzip/deflate压缩的响应，并且在收到响应后自动解压。也就是说，$result变量里的内容很可能已经是明文XML了，而不是gzip压缩数据。这时候你把它写入arquivo.gz再去解压，相当于把明文当成压缩包处理，自然会得到乱码。

你可以在curl_close($ch)前加一行调试代码，确认响应是否被自动解压：

echo "Content Encoding: " . curl_getinfo($ch, CURLINFO_CONTENT_ENCODING) . "\n";
echo "Raw Result Preview: " . substr($result, 0, 200) . "\n";

如果输出的Raw Result开头是<（XML的起始标签），那说明已经是明文了，直接跳过getZip步骤，直接解析XML即可。

核心问题2：getZip函数的文件读写限制

如果服务器确实返回的是未解压的gzip数据（比如cURL的自动解压没生效），你的getZip函数也有两个严重问题：

fwrite($fp, $stream, 2048)：只写入了前2048字节，完整的压缩数据流被截断，导致压缩包损坏，解压出来必然乱码
gzread($zp, 10000)：只读取了前10000字节，如果XML内容超过这个长度，会被截断，既乱码又无法解析XML

修复后的getZip函数（如果需要手动处理压缩）

function getZip($stream) {
    // 写入完整的压缩数据流，不要限制长度
    $fp = fopen("arquivo.gz", "w");
    fwrite($fp, $stream); // 去掉第三个参数，写入全部内容
    fclose($fp);
    
    // 读取整个压缩文件的内容，直到结束
    $zp = gzopen("arquivo.gz", "r");
    $contents = '';
    while (!gzeof($zp)) {
        $contents .= gzread($zp, 4096); // 分块读取直到文件结束
    }
    gzclose($zp);
    
    return $contents;
}

另外，sleep(2)完全没必要，文件写入后立即就可以读取，不需要等待。

更高效的方案：直接在内存中处理压缩数据

其实不需要写入临时文件，可以直接用gzdecode函数在内存中解压数据，既高效又避免文件操作的问题：

// 假设$result是gzip压缩的数据
try {
    $xmlContent = gzdecode($result);
    $xml = new SimpleXMLElement($xmlContent);
} catch (Exception $e) {
    echo "Bad xml or decompression error: ".$e->getMessage();
}