将Excel文件传入Python代码统计行数时，实际统计内容是什么？为何结果偏差？

阿华AIGC实验室

2026-5-19

解答：Python统计Excel行数时实际在统计什么？

嘿，这个问题我太熟悉了——之前帮同事排查过几乎一模一样的情况！你遇到的核心矛盾是：两种不同的Python方法统计同一Excel文件都返回40，但实际数据行数是56，而且代码没报错、结果一致但全错。咱们拆解下这些代码到底在统计什么，以及为什么会出现偏差：

1. 常见Excel统计代码的真实统计对象

情况一：统计「某列非空值的数量」（而非整行）

很多新手会用类似len(df[df['列名'].notna()])的代码统计行数，但如果你的代码默认只检查了某一列（比如第一列）的非空状态，就会出问题：

假设你的Excel前40行第一列有数据，后面16行第一列是空的，但其他列有有效内容，代码就会只统计到40行，而忽略了后面16行。
甚至有些库（比如pandas）在读取Excel时，如果某一行全列为空，会自动跳过，但如果只是部分列空，不会跳过——但如果你的代码误把“某列非空”当成了“整行有效”，就会得到错误结果。

情况二：统计Excel的「已使用范围（UsedRange）行数」

像openpyxl这类直接操作Excel文件的库，用ws.max_row返回的是Excel内部标记的「已使用范围」的最后一行号，而不是真实的所有数据行：

如果你之前编辑过这个Excel（比如删除过后面的行、清空过内容），Excel可能不会自动更新UsedRange，导致它认为最后一行是40，哪怕你后来又在41-56行填了数据。
验证这个很简单：打开你的Excel文件，按Ctrl+End，光标会跳到Excel认为的“最后一行”，如果跳到第40行，那就是这个问题了。

情况三：用CSV统计方法处理Excel——完全是错误统计

你提到用《统计多个CSV文件的行数》的方法统计Excel也得到40，这其实是逻辑错误：

Excel是二进制格式的文件，不是纯文本的CSV，用逐行读取计数的方法统计Excel，本质上是在数文件二进制内容里的换行符数量，这和真实数据行没有任何对应关系。得到40只是巧合，其他文件结果不对也完全正常。

快速验证&修复方案

验证UsedRange问题：打开Excel，按Ctrl+End看光标位置。如果不是56行，选中41-56行，随便输入一个字符再删除，保存文件后重新统计，Excel会更新UsedRange。
强制读取所有行：用pandas读取时加上参数pd.read_excel('你的文件.xlsx', skip_blank_lines=False, keep_default_na=False)，这样会保留所有空行，不会自动跳过。
直接统计真实数据行：用openpyxl遍历每一行，检查是否有任意一个单元格非空，再计数：

from openpyxl import load_workbook

wb = load_workbook('你的文件.xlsx')
ws = wb.active
count = 0
for row in ws.iter_rows(min_row=1):
    if any(cell.value is not None for cell in row):
        count +=1
print(count)

内容的提问来源于stack exchange，提问作者jhurst5