按函数组合分组并绘制结果的最佳实践方法（附电影数据库DataFrame示例）

按函数组合分组并绘制结果的最佳实践方法（附电影数据库DataFrame示例）

阿华AIGC实验室

2026-5-25

嘿，针对你提出的按函数组合分组并绘制结果的问题，结合你手里的电影数据库，我整理了一套实用的最佳实践方案，一步步来：

一、按函数组合分组的核心思路与最佳实践

首先得明确几个关键步骤，确保分组和可视化的逻辑清晰、结果靠谱：

先梳理分组与聚合目标：先想清楚你要分析什么——比如是想看不同类型电影的平均评分？还是导演+年份组合的总票房？明确维度（分组依据）和指标（要计算的数值）是第一步。
处理多值分隔列：你的数据里cast、genres这类用|分隔的列，直接分组会把整个字符串当成单一类别（比如"Action|Adventure"会被算作一个独立组），完全没法体现单个类型的统计意义。这时候一定要先拆分再展开：
```
# 以genres为例，拆分并展开多值列
dfn['genres'] = dfn['genres'].str.split('|')
df_genres_exploded = dfn.explode('genres')
```

用命名聚合组合多函数：groupby配合agg的命名聚合语法，能让你一次性组合多个统计函数，结果列名也更清晰，比传统的列表式聚合好维护太多：

# 按类型分组，同时计算平均评分、电影数量、总调整后票房
genre_stats = df_genres_exploded.groupby('genres').agg(
    avg_rating=('vote_average', 'mean'),
    movie_count=('id', 'nunique'),
    total_revenue=('revenue_adj', 'sum')
).reset_index()

二、分组结果可视化的最佳实践

可视化的核心是让数据故事一目了然，这些技巧能帮你做得更好：

选对图表类型：
- 统计类别数量/总和：用柱状图（横向柱状图适合类别多的情况）
- 对比平均值/分布：用箱线图或柱状图
- 时间趋势：用折线图
- 多维度交叉统计：用热力图
先排序再可视化：比如按电影数量降序排列类型，图表会更直观，不会显得杂乱：
```
genre_stats_sorted = genre_stats.sort_values('movie_count', ascending=False)
```

美化细节提升可读性：添加标题、轴标签，调整旋转角度避免文字重叠，用合适的配色：

import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(12,6))
sns.barplot(data=genre_stats_sorted, x='genres', y='movie_count', palette='viridis')
plt.title('Number of Movies by Genre')
plt.xlabel('Genre')
plt.ylabel('Movie Count')
plt.xticks(rotation=45)  # 旋转x轴标签避免重叠
plt.tight_layout()  # 自动调整布局
plt.show()

三、针对你的电影DataFrame的具体示例

假设你想分析导演+年份的组合表现，咱们可以这么做：

先处理导演列（如果存在多导演用|分隔的情况，同样拆分展开）：

dfn['director'] = dfn['director'].str.split('|')
df_director_exploded = dfn.explode('director')

按导演和发行年份分组，聚合关键指标：

director_year_stats = df_director_exploded.groupby(['director', 'release_year']).agg(
    avg_revenue=('revenue_adj', 'mean'),
    avg_rating=('vote_average', 'mean'),
    movie_count=('id', 'count')
).reset_index()

可视化特定导演的年度趋势（比如示例里的Colin Trevorrow）：

plt.figure(figsize=(10,5))
target_director = director_year_stats[director_year_stats['director'] == 'Colin Trevorrow']
sns.lineplot(data=target_director, x='release_year', y='avg_revenue', marker='o', color='darkorange')
plt.title('Colin Trevorrow\'s Average Annual Adjusted Revenue')
plt.xlabel('Release Year')
plt.ylabel('Average Adjusted Revenue (USD)')
plt.grid(alpha=0.3)
plt.show()

四、额外实用技巧

处理缺失值：分组前记得过滤掉关键列的缺失数据，比如dfn = dfn.dropna(subset=['genres', 'vote_average', 'revenue_adj'])，避免聚合结果出现偏差。
过滤小样本分组：如果某些分组的样本量太小（比如某类型只有1部电影），可以过滤掉，保证统计结果有意义：
```
genre_stats = genre_stats[genre_stats['movie_count'] >= 5]
```

多维度交叉可视化：如果想展示类型+年份的电影数量分布，用热力图很直观：

genre_year_pivot = df_genres_exploded.pivot_table(
    index='genres',
    columns='release_year',
    values='id',
    aggfunc='count',
    fill_value=0
)
plt.figure(figsize=(15,8))
sns.heatmap(genre_year_pivot, cmap='YlGnBu', annot=True, fmt='d')
plt.title('Number of Movies by Genre and Release Year')
plt.show()

内容的提问来源于stack exchange，提问作者bytebybyte

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠