在Java中如何使用HashSet进行集合去重_HashSet集合实践方法

HashSet通过hashCode和equals方法实现去重,内置类型可直接使用,自定义类需重写这两个方法,如Student类按id和name去重,确保逻辑相同对象不重复添加。

在Java中,HashSet 是基于哈希表实现的集合类,它继承自 AbstractSet 并实现了 Set 接口。由于 Set 集合不允许重复元素,因此 HashSet 天然适合用于集合去重。只要正确使用,就能高效地去除重复数据。

HashSet 去重的基本原理

HashSet 判断元素是否重复依赖于对象的 equals()hashCode() 方法:

  • 添加元素时,HashSet 会先计算该对象的 hashCode 值,确定存储位置。
  • 如果多个对象的 hashCode 相同(哈希冲突),再通过 equals() 方法判断是否真正相等。
  • 只有当两个对象的 hashCode 相同且 equals 返回 true 时,才被视为重复元素,不会被添加。

因此,若要让自定义对象在 HashSet 中正确去重,必须重写这两个方法。

对基本类型和字符串去重

对于 String、Integer 等 Java 内置类型,系统已重写了 hashCode 和 equals 方法,可直接用于去重。

import java.util.*;

public class DedupExample {
    p

ublic static void main(String[] args) { List list = Arrays.asList("apple", "banana", "apple", "orange", "banana"); Set uniqueSet = new HashSet<>(list); System.out.println(uniqueSet); // 输出:[banana, orange, apple](顺序不保证) } }

这段代码将原始列表转为 HashSet,自动去除重复字符串,简单高效。

对自定义对象去重

若想对自定义类的对象去重,比如学生信息,需确保逻辑上“相同”的对象被视为重复。

class Student {
    private int id;
    private String name;

    public Student(int id, String name) {
        this.id = id;
        this.name = name;
    }

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (!(o instanceof Student)) return false;
        Student student = (Student) o;
        return id == student.id && Objects.equals(name, student.name);
    }

    @Override
    public int hashCode() {
        return Objects.hash(id, name);
    }

    @Override
    public String toString() {
        return "Student{id=" + id + ", name='" + name + "'}";
    }
}

使用示例:

List students = Arrays.asList(
    new Student(1, "Alice"),
    new Student(2, "Bob"),
    new Student(1, "Alice")
);

Set uniqueStudents = new HashSet<>(students);
System.out.println(uniqueStudents);
// 输出仅包含两个元素,重复的 Student(1, "Alice") 被去除

如果不重写 hashCode 和 equals,即使内容相同,也会被视为不同对象,导致去重失败。

HashSet 的特点与注意事项

  • 不保证元素顺序(如需有序,可用 LinkedHashSet)。
  • 允许一个 null 元素。
  • 添加、删除、查找的时间复杂度接近 O(1),效率高。
  • 非线程安全,多线程环境下需自行同步或使用 Collections.synchronizedSet

基本上就这些。只要理解了 hashCode 和 equals 的作用,用 HashSet 去重非常直观。对于大多数去重场景,它是首选方案。注意自定义类务必重写关键方法,否则去重可能失效。