数字排序最佳算法咨询及百万位π值文件排序性能优化求助

阿华AIGC实验室

2026-4-29

问题分析与优化方案

嗨，咱们来拆解下你的问题，找到更高效的解决方案～

一、你的代码速度慢的核心原因及优化

首先，你的代码速度慢主要是因为用了冒泡排序——这种算法的时间复杂度是O(n²)，当处理大量数据（比如百万级的π数位）时，效率会极低，相当于要做上亿次的比较交换操作，自然慢得离谱。另外，文件读取的部分也可以稍微优化得更简洁高效。

优化后的代码示例

a = []
with open("/Users/serax/desktop/new.txt", "r") as r:
    # 一次性读取全部内容，比逐行遍历开销更小
    content = r.read()
    # 过滤掉非数字字符（比如换行符），把每个数位存入列表
    a = [char for char in content if char.isdigit()]

# 直接用Python内置的sorted()函数，比你自己写的冒泡排序快N倍
sorted_digits = sorted(a)
print(sorted_digits)

优化点说明：

替换冒泡排序为内置排序：Python的sorted()和list.sort()底层用的是Timsort算法，这是一种结合了归并排序和插入排序的高效混合算法，平均和最坏时间复杂度都是O(n log n)，处理大数据量时性能比冒泡排序高出好几个数量级。
优化文件读取逻辑：用r.read()一次性读取全部内容，避免逐行循环的额外开销；加上isdigit()过滤，可以确保只把数字字符加入列表（如果你的new.txt里纯是数字，这步可以去掉，但加上更稳妥）。

二、数字排序的“最佳算法”怎么选？

其实没有绝对的“最佳”排序算法，得看你的具体场景：

通用大数据量场景（比如你的π数位排序）：首选Timsort（Python默认）或者归并排序，它们的时间复杂度稳定在O(n log n)，而且处理部分有序的数据时表现更优，同时是稳定排序（相同值的元素排序后相对位置不变）。
追求空间效率：可以选快速排序，平均时间复杂度也是O(n log n)，空间开销比归并排序小，但最坏情况会退化到O(n²)（不过现代实现都会用随机基准值来避免这种情况）。
数据规模极小（比如几十上百个元素）：插入排序或者冒泡排序反而更合适——因为它们的常数项小，额外开销低，反而比O(n log n)的算法更快。
数据范围固定（比如你的数字是0-9）：计数排序是最优解！时间复杂度能达到O(n + k)（k是数据范围，这里k=10），直接统计每个数字出现的次数，再按顺序输出，完全不需要元素比较，速度比所有比较类排序都快。针对你的场景，计数排序的实现如下：

with open("/Users/serax/desktop/new.txt", "r") as r:
    content = r.read()

# 初始化0-9的计数数组
counts = [0] * 10
for char in content:
    if char.isdigit():
        num = int(char)
        counts[num] += 1

# 生成排序后的列表
sorted_digits = []
for i in range(10):
    sorted_digits.extend([str(i)] * counts[i])

print(sorted_digits)

用这种方式处理百万级的π数位，速度会比Timsort还要快哦～

内容的提问来源于stack exchange，提问作者serax