Python数据分组统计怎么写_groupby实战解析【教程】

冷炫風刃 2025-12-19 00:00:00 次阅读

Python中groupby分组统计核心是“先切块再分别算”，三步：选列分组、选列聚合、明确计算逻辑；常用df.groupby('列名').agg({'数值列': '方法'})，需确保分组列非空、聚合列数值型。

Python中用groupby做数据分组统计，核心就三步：选列分组、选列聚合、写清楚要算什么。别被名字吓住，它本质是“先切块，再分别算”。

最常用写法是：df.groupby('列名').agg({'数值列': '统计方法'})。注意两点：分组列必须存在且非空，聚合列要是数值型（否则像求均值会报错）。

不是所有函数都适合所有场景。比如对销售额用mean可能掩盖高低差异，这时sum或count更直观；对用户ID用nunique才能算真实人数。

groupby默认把分组列变索引，如果后续还要和其他列运算，得用reset_index()拉回来；想在原表新增一列“每组均值”，用transform更高效。

还原索引：df.groupby('品类')['价格'].mean().reset_index(name='均价')
新增列（保持行数不变）：df['品类均价'] = df.groupby('品类')['价格'].transform('mean')
筛选组内条件：用filter，比如只保留订单数超100的地区：df.groupby('地区').filter(lambda x: len(x) > 100)