pandas布尔索引如何实现?

布尔索引通过条件表达式筛选数据,如df[df['age'] > 30]筛选年龄大于30的行,支持多条件组合与逻辑运算。

在pandas中,布尔索引是一种非常常用的数据筛选方式,它通过返回布尔值(True或False)的条件表达式来选择数据。实现布尔索引的核心是构造一个与目标数据对齐的布尔序列,然后用它来过滤出满足条件的行或列。

构造布尔条件

布尔索引的第一步是创建一个布尔表达式,该表达式作用于DataFrame或Series时会生成一个布尔序列。常见操作包括比较运算(如>、&、|~)。

例如,假设有一个DataFrame df,包含'age'和'salary'列:
  • 筛选年龄大于30的行:df[df['age'] > 30]
  • 筛选工资等于50000的记录:df[df['salary'] == 50000]

多个条件的组合

实际应用中常需多个条件联合判断。注意:多个条件必须用括号括起来,并使用按位运算符。

  • 同时满足两个条件(与操作):df[(df['age'] > 30) & (df['salary']
  • 满足任一条件(或操作):df[(df['age'] 70000)]
  • 取反操作(非):df[~(df['age'] 表示年龄不小于30的行

结合isin和字符串方法

对于分类或文本数据,可以结合isin()或字符串处理方法生成布尔序列。

  • 筛选姓名在特定列表中的行:df[df['name'].isin(['Alice', 'Bob'])]
  • 筛选邮箱包含特定域名的记录:df[df['email'].str.contains('gmail.com')]
基本上就这些。掌握布尔索引的关键是理解条件表达式返回的是布尔序列,pandas会自动根据True位置提取对应数据。不复杂但容易忽略括号和运算符的正确使用。