使用HttpClient下载PDF后页面空白问题求助

阿华AIGC实验室

2026-5-15

解决HttpClient下载PDF后文件空白的问题

嘿，我一眼就发现问题的核心了！你在读取响应内容的时候用了InputStreamReader——这可是处理文本文件的字符流工具，而PDF是纯二进制文件，用字符流读取必然会破坏原始的二进制数据，哪怕字节数组的大小看起来正常，内容已经不是合法的PDF格式了，阅读器自然显示空白。

问题根源

InputStreamReader的作用是将字节流按指定编码转换为字符流，但PDF的二进制数据里包含大量不符合文本编码规则的字节，转换过程中这些字节会被替换或丢失，再转成字节数组时，已经不是原本的PDF数据了。

正确的解决方案

直接用二进制输入流读取响应内容，跳过字符流转换这一步。下面是修正后的代码示例：

HttpGet httpget = new HttpGet(url);
HttpResponse response = null;
try {
    response = httpclient.execute(httpget);
    // 直接获取二进制输入流，不要使用InputStreamReader
    InputStream inputStream = response.getEntity().getContent();
    // 用IOUtils直接读取二进制流到字节数组
    byte[] bytes = IOUtils.toByteArray(inputStream);
    
    // 方法1：用FileUtils写入（确保commons-io依赖正确）
    FileUtils.writeByteArrayToFile(new File(outputFilePath), bytes);
    
    // 或者方法2：用FileOutputStream写入（更基础的方式）
    try (FileOutputStream fos = new FileOutputStream(outputFilePath)) {
        fos.write(bytes);
    }
} catch (IOException e) {
    e.printStackTrace();
} finally {
    // 记得关闭资源
    if (response != null) {
        EntityUtils.consume(response.getEntity());
    }
    httpclient.close();
}