如何在Python中删除列表内的所有换行符？PyPDF2读取PDF求助

阿华AIGC实验室

2026-5-20

解决PyPDF2提取PDF文本时列表中存在换行符的问题

嘿，我之前也踩过PyPDF2提取文本时换行符乱入的坑，给你几个实用的解决思路，应该能帮你搞定！

问题分析

你说用了strip()、split()但没效果，大概率是因为这些方法只处理了字符串首尾或者按分割拆分，没覆盖到文本中间的换行。PyPDF2提取文本时，会原封不动保留PDF里的所有换行——包括段落内的软换行（为了适应页面宽度的换行）和段落间的硬换行，这些都会混在你的列表元素里。

针对性解决方案

根据你的代码片段，我修改并补充了处理逻辑，你可以直接参考：

import PyPDF2 as pdf
import re

PDF_FILENAME_DIRECTORY = "你的PDF文件路径.pdf"

# 用with语句自动管理文件资源，避免忘记关闭
with open(PDF_FILENAME_DIRECTORY, "rb") as file:
    fileReader = pdf.PdfFileReader(file)
    cleaned_text_list = []
    
    # 遍历每一页提取文本
    for page_num in range(fileReader.numPages):
        page = fileReader.getPage(page_num)
        raw_page_text = page.extract_text()
        
        # 方案1：彻底移除所有换行，合并成连续文本（适合不需要保留段落的场景）
        # cleaned_text = raw_page_text.replace('\n', ' ').strip()
        
        # 方案2：保留段落结构，只清理多余换行和空格（更常用）
        # 先把连续的换行合并成单个换行（区分段落）
        cleaned_text = re.sub(r'\n+', '\n', raw_page_text)
        # 再把连续的空格合并成单个空格，同时去掉首尾空白
        cleaned_text = re.sub(r'\s+', ' ', cleaned_text).strip()
        
        cleaned_text_list.append(cleaned_text)

# 现在列表里的内容就没有多余换行符啦
print(cleaned_text_list)

额外场景处理

如果你是把文本按行拆分后存入列表（比如用split('\n')），那每个行元素可能带换行或空白，这时候可以用列表推导式批量处理：

# 处理按行拆分后的列表，去掉空行和首尾空白
raw_lines = raw_page_text.split('\n')
cleaned_lines = [line.strip() for line in raw_lines if line.strip()]
# 此时cleaned_lines里就没有带换行的空元素了