如何用Python正则从服务器日志提取IP并统计访问量最高的IP（字典实现）

阿华AIGC实验室

2026-5-27

解决服务器日志中统计访问最多IP的问题

嘿，我来帮你搞定这个问题！咱们一步步拆解你遇到的几个疑问：

是否必须使用字典？

其实不是必须，但字典绝对是这个场景下最直观、最高效的选择。因为字典的键值对结构刚好能对应「IP地址」和「访问次数」，查找和更新次数的操作时间复杂度都是O(1)，比用列表存储(IP, 次数)再逐个遍历查找要高效得多。如果不用字典，你可能需要维护两个列表（一个存IP，一个存对应次数），每次统计都要遍历列表找IP位置，不仅代码繁琐，处理大日志文件时速度也会慢很多。

如何用正则提取IP地址？

你之前写的正则^\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}$是用来匹配整行都是IP的情况，但服务器日志里IP通常是每行的第一个字段（比如常见的Nginx/Apache日志格式），所以需要调整正则来匹配行内的IP。

推荐用这个正则：r'\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b'，其中\b是单词边界，确保我们匹配的是完整的IP，而不是其他数字片段的一部分。如果你的日志格式特殊，IP不在开头，可能需要调整匹配逻辑，但大部分通用日志里这个正则足够用。

不用Counter，纯字典实现的完整代码

我帮你修改了代码，解决了提取IP和统计的问题，同时优化了内存使用（逐行读取文件，而不是一次性读入全部内容，适合大日志文件）：

import re

# 初始化空字典用于统计IP次数
ip_counts = {}
# 定义匹配IP的正则表达式
ip_pattern = re.compile(r'\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b')

# 逐行读取日志文件，避免占用过多内存
with open('text.txt', 'r') as log_file:
    for line in log_file:
        # 在当前行中查找IP地址
        match = ip_pattern.search(line)
        if match:
            ip = match.group()
            # 更新字典中的IP计数
            if ip in ip_counts:
                ip_counts[ip] += 1
            else:
                ip_counts[ip] = 1

# 找出访问次数最多的IP
max_count = 0
most_frequent_ip = None
for ip, count in ip_counts.items():
    if count > max_count:
        max_count = count
        most_frequent_ip = ip

print(f"访问次数最多的IP是：{most_frequent_ip}，共访问{max_count}次")
print("所有IP的访问次数统计：")
for ip, count in ip_counts.items():
    print(f"{ip}: {count}次")

代码说明：

使用with语句打开文件，会自动处理文件关闭，比手动open/close更安全。
逐行读取文件，避免一次性加载大文件到内存，适合处理大型日志。
用re.search在每行中提取第一个匹配的IP（如果日志每行只有一个IP的话足够用），如果一行可能有多个IP，可以用re.findall遍历所有匹配结果。
纯字典实现计数逻辑，没有使用collections.Counter，完全符合你的需求。

额外小提示

如果你的日志里有不合法的IP格式（比如999.999.999.999），可以优化正则来验证IP的合法性，比如：

ip_pattern = re.compile(r'\b(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\b')

这个正则会匹配符合IPv4规范的合法IP，过滤掉无效的数字组合。

内容的提问来源于stack exchange，提问作者azrael v