如何根据另一列分组填充 Pandas DataFrame 中缺失值（众数插补）_技术教程

本文介绍如何基于分组（如按 col_b）计算每组内目标列（col_a）的众数，并用该众数原地填充该组内的 nan 值，全程无需手动构建映射表，仅用 groupby + transform + fillna 即可高效、可读性强地完成众数导向的缺失值插补。

在数据预处理中，针对分类或离散型特征的缺失值，按业务逻辑分组后取众数（mode）插补是常见且稳健的做法。例如，当 col_A 的缺失值需依据 col_B 的类别分别填充时——即“若 col_B == 5，则用 col_A 在 col_B == 5 子集中的最频繁值填充”，此时直接使用 groupby().transform() 配合自定义众数填充函数，是最简洁、向量化、可扩展的解决方案。

核心思路是：对 col_A 按 col_B 分组后，对每组调用 transform，使其返回与原组等长的 Series；内部通过 .mode().iloc[0] 获取众数（注意处理空众数情形），再用 .fillna() 完成组内插补。

以下是完整可运行示例：

import pandas as pd
import numpy as np

# 构造示例数据（含真实分布，便于验证众数逻辑）
data = {
    'col_A': [1, 1, 1, 5, 5, 7, 7, 7, 8, 8, np.nan, np.nan],
    'col_B': [5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 8]
}
df = pd.DataFrame(data)

# 定义安全众数填充函数（兼容无众数或全 NaN 组）
def impute_mode(group):
    mode_series = group.mode()
    if not mode_series.empty:
        return group.fillna(mode_series.iloc[0])
    else:
        # 若无众数（如所有值唯一或全为 NaN），回退为 group 均值（数值型）或首非空值（通用）
        return group.fillna(group.dropna().iloc[0] if not group.dropna().empty else np.nan)

# 执行分组众数插补，结果写入新列（推荐）或覆盖原列
df['col_A_imputed'] = df.groupby('col_B')['col_A'].transform(impute_mode)

print(df)

输出示意：

   col_A  col_B  col_A_imputed
0    1.0      5            1.0
1    1.0      5            1.0
2    1.0      5            1.0
3    5.0      5            5.0
4    5.0      5            5.0
5    7.0      5            7.0
6    7.0      5            7.0
7    7.0      5            7.0
8    8.0      5            8.0
9    8.0      5            8.0
10   NaN      5            1.0   ← 被 col_B==5 组的众数 1 填充
11   NaN      8            NaN   ← col_B==8 组仅一个值（NaN），无有效众数，保持 NaN