Seaborn CountPlot 错误修复:正确传递 x 参数与数据源

当使用 seaborn 12+ 版本调用 `sns.countplot()` 时,若未显式指定 `x`(或 `y`)参数,且 `order` 参数依赖于 pandas series 的索引排序,会触发“input data must be a pandas object to reorder”错误。根本原因是新版本强制要求分类变量必须通过命名参数(如 `x=`)传入,并确保 `order` 与数据上下文一致。

该错误常见于从旧版 seaborn(如 0.11.x)升级到 0.12+ 后的代码迁移场景。sns.countplot() 在新版中不再支持位置参数直接传入数组(如 df[kol]),而要求明确指定绘图维度(x= 或 y=),尤其当使用 order 参数时——因为 order 的推导需关联原始 DataFrame 的结构上下文,以保证重排序逻辑可追溯。

✅ 正确写法有两种等效方式:

方式一:显式传入 Series 并指定 x=

sns.countplot(x=df[kol], order=df[kol].value_counts().index, ax=axs[i])

方式二:使用 data= 参数 + 列名字符串(推荐,更符合 seaborn 声明式风格)

sns.countplot(x=kol, order=df[kol].value_counts().index, ax=axs[i], data=df)

后者优势明显:

  • 代码更清晰,语义明确(x 是列名,data 是数据源);
  • 支持自动处理缺失值和类别顺序一致性;
  • 便于后续扩展(如添加 hue= 分组时无需重构数据传入方式)。

⚠️ 注意事项:

  • order 必须为列表或 Index 类型(如 df[kol].value_counts().index 返回 Index,完全兼容);
  • 若列中含 NaN,value_counts() 默认 dropna=True,导致 order 不包含空值——如需保留,应改用 df[kol].value_counts(dropna=False).index;
  • 避免混用 df[kol] 和 data=df:例如 sns.countplot(x=df[kol], data=df, ...) 会引发冗余或冲突,应二选一。

完整修复后的循环段如下:

for i, kol in enumerate(kolom_kategorikal):
    sns.countplot(x=kol, order=df[kol].value_counts().index, ax=axs[i], data=df)
    axs[i].set_title(f'\nCount Plot {kol}\n', fontsize=15)

    for p in axs[i].patches:
        axs[i].annotate(f'{p.get_height():.0f}',
                        (p.get_x() + p.get_width()/2., p.get_height()),
                        ha='center', va='center', xytext=(0, 10), textcoords='offset points')

    sns.despine(right=True, top=True, left=True)
    axs[i].axes.yaxis.set_visible(False)
    plt.setp(axs[i])

plt.tight_layout()
plt.show()

总结:seaborn 0.12+ 强化了 API 的健壮性与可读性,弃用模糊的位置参数传递,转而要求显式声明变量角色(x, y, hue, data)。将 countplot(df[kol], ...) 升级为 countplot(x=kol, data=df, ...) 不仅解决报错,更是拥抱更可持续、可维护的可视化编码实践。