使用Python Pandas对Excel字符串列排序并保留空白值的方法

阿华AIGC实验室

2026-5-14

解决Pandas中字符串列排序（保留空白）与比对问题

嘿，作为Pandas新手，你已经迈出了第一步——读取Excel并找出不匹配的行，很棒！接下来我们来实现保留空白位置的字符串排序，以及后续的比对和修改操作。

首先，核心需求是对每个单元格的字符串排序时，不改变原有空白的位置。比如字符串 "C A "（C+空格+A+空格）排序后应该变成 "A C "，空格的位置完全保留。我们可以写一个自定义函数来实现这个逻辑：

import pandas as pd

def sort_string_with_spaces(s):
    # 处理空值或全空白的情况
    if pd.isna(s) or s.strip() == "":
        return s
    # 提取所有非空白字符并排序
    non_space_chars = [c for c in s if c != " "]
    sorted_chars = sorted(non_space_chars)
    # 重新构建字符串，空白位置保留
    result = []
    char_index = 0
    for char in s:
        if char == " ":
            result.append(" ")
        else:
            result.append(sorted_chars[char_index])
            char_index += 1
    return "".join(result)

接下来，我们把这个函数应用到你的a和b列，生成排序后的新列：

# 读取Excel文件
df = pd.read_excel('test.xlsx')

# 对a、b列应用排序函数
df['a_sorted'] = df['a'].apply(sort_string_with_spaces)
df['b_sorted'] = df['b'].apply(sort_string_with_spaces)

比对与修改

现在你可以根据需求选择操作：

找出排序后仍不匹配的行：

# 筛选排序后a和b仍不相等的行
mismatched_rows = df[df['a_sorted'] != df['b_sorted']]
print("排序后不匹配的行：")
print(mismatched_rows)

将b列修改为与a列排序后的结果一致：

# 把b列替换为a列排序后的内容
df['b'] = df['a_sorted']
# 可选：删除临时的排序列
df = df.drop(['a_sorted', 'b_sorted'], axis=1)
print("修改后的DataFrame：")
print(df)

针对你的输入示例

假设你的输入DataFrame是：

a	b
A	C
B	D
D
C	A

应用修改b列的代码后，最终输出会是：

a	b
A	A
B	B
D	D
C	C

如果你的期望输出中行2的b需要保留空白，可以调整逻辑：只修改b列中非空白且与a排序后不匹配的内容为空白，示例代码如下：

# 仅修改b列中非空白且排序后与a不匹配的内容为空白
df['b'] = df.apply(
    lambda row: row['b'] if row['b_sorted'] == row['a_sorted'] else "" if pd.notna(row['b']) and row['b'].strip() != "" else row['b'],
    axis=1
)

你可以根据实际需求调整函数和修改规则，核心的保留空白排序和比对逻辑已经覆盖到了。

内容的提问来源于stack exchange，提问作者Pattryk