C++如何使用std::set_intersection求两个集合的交集?

std::set_intersection要求两输入范围必须升序排序,结果需写入预留空间的容器或使用插入迭代器;它不自动排序,仅归并扫描,支持自定义比较但须一致。

std::set_intersection 求两个集合的交集,前提是两个输入范围必须是**已排序的**(升序),且结果需写入一个目标容器(也需预留足够空间或使用插入迭代器)。

前提:确保输入已排序且使用合适容器

std::set_intersection 不会自动排序,它只做归并式扫描。所以如果你的数据来自 std::setstd::vector 或其他容器,必须满足:

  • 两个输入范围(如 vec1.begin()vec1.end())已按升序排列;
  • 若用 std::vector 存储结果,需提前 resize() 或用 std::back_inserter
  • 若用 std::set 作为结果容器,可直接用 inserter,但注意它不保留插入顺序(不过本身有序)。

基本用法示例(vector + back_inserter)

这是最常用、最安全的方式:

#include 
#include 
#include 
#include 

std::vector a = {1, 2, 4, 5, 6};
std::vector b = {2, 3, 5, 7};

std::vector result;
result.reserve(std::min(a.size(), b.size())); // 预分配,提升性能

std::set_intersection(a.begin(), a.end(),
                       b.begin(), b.end(),
                       std::back_inserter(result));

// result 现在是 {2, 5}

使用 set 作为输入或输出(更简洁但注意语义)

std::set 天然有序且去重,适合直接参与运算:

  • 输入为 std::set:可直接传 s1.begin()s1.end()
  • 输出到 std::set:用 std::inserter(output_set, output_set.begin())
  • 注意:std::set_intersection 不处理重复元素——它按“多集交集”规则工作(即每个元素最多出现 min(在a中频次, 在b中频次) 次),但 std::set 本身无重复,所以结果自然无重。

常见错误和注意事项

容易出错的地方:

  • 忘记排序:对未排序的 vector 直接调用,结果不可预测;
  • 目标容器空间不足且没用插入迭代器:导致越界写入(UB);
  • 混用不同类型的迭代器(如 const_iteratoriterator)导致编译失败;
  • 误以为它支持自定义比较(它支持!但两个输入范围必须用**相同**的比较规则,且需显式传入第5个参数,如 std::greater{})。