基于列B最频繁值筛选CSV子集的通用代码实现请求

基于列B最频繁值筛选CSV子集的通用代码实现请求

阿华AIGC实验室

2026-5-12

通用解决方案：提取CSV中目标列最频繁值对应的所有行

这里有两种通用的实现方案，分别适合不同的环境需求：

使用pandas库（推荐，简洁高效）

如果你的环境已经安装了pandas，这是最省心的方式，代码逻辑清晰且处理效率高：

import pandas as pd

# 读取CSV文件，根据实际文件路径修改
# 注意：如果你的CSV是逗号分隔，去掉sep=' '参数即可
df = pd.read_csv('your_input_file.csv', sep=' ')

# 获取列B的众数（最频繁出现的值），取第一个众数（若有多个可调整）
most_frequent_val = df['B'].mode()[0]

# 筛选出列B等于最频繁值的所有行
filtered_data = df[df['B'] == most_frequent_val]

# 将结果保存为新的CSV文件，index=False避免写入额外索引列
filtered_data.to_csv('your_output_file.csv', index=False, sep=' ')

代码说明：

pd.read_csv()：读取CSV文件，sep参数指定列分隔符，示例中是空格，标准CSV用逗号的话可以省略该参数。
df['B'].mode()：返回列B的所有众数（即出现次数最多的值），如果有多个值出现次数相同且都是最高，会返回一个包含多个值的Series，这里取第一个[0]。
筛选逻辑：直接通过布尔索引过滤出符合条件的行，最后保存为新的CSV。

纯Python实现（无第三方依赖）

如果不想安装pandas，用Python标准库就能完成：

from collections import Counter

# 定义输入输出文件路径
input_path = 'your_input_file.csv'
output_path = 'your_output_file.csv'

# 读取文件内容，分离表头和数据行
with open(input_path, 'r') as f:
    all_lines = f.readlines()
header = all_lines[0]
data_rows = all_lines[1:]

# 提取列B的所有值，统计每个值的出现次数
b_values = [line.strip().split()[1] for line in data_rows]
value_counts = Counter(b_values)

# 找到出现次数最多的值
max_count = max(value_counts.values())
most_frequent_val = [k for k, v in value_counts.items() if v == max_count][0]

# 筛选出对应行
filtered_rows = [header] + [row for row in data_rows if row.strip().split()[1] == most_frequent_val]

# 写入结果文件
with open(output_path, 'w') as f:
    f.writelines(filtered_rows)

代码说明：

Counter：来自collections标准库，能快速统计列表中元素的出现频率。
先获取列B所有值的频率，找到最高出现次数后，定位到对应的数值，再筛选出所有包含该数值的行。

处理多个众数的情况

如果列B中有多个值出现次数相同且都是最高（比如同时有两个值各出现5次），上述代码默认只取第一个。如果需要保留所有众数对应的行，只需修改筛选逻辑：

Pandas版本调整：

# 获取所有众数
all_most_frequent = df['B'].mode()
# 筛选出列B属于众数集合的所有行
filtered_data = df[df['B'].isin(all_most_frequent)]

纯Python版本调整：

max_count = max(value_counts.values())
# 获取所有出现次数等于最高次数的值
all_most_frequent = [k for k, v in value_counts.items() if v == max_count]
# 筛选出所有列B值在众数集合里的行
filtered_rows = [header] + [row for row in data_rows if row.strip().split()[1] in all_most_frequent]

内容的提问来源于stack exchange，提问作者Amie Johnson

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，最新支持 DeepSeek-V4 系列与 GLM-5.1，受邀下单叠加9.5折

ArkClaw

7×24在线专属智能伙伴

Seedance 2.0 全面开放 API

创作无限可能，一键生成电影级 AI 视频

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠