并查集

在计算机科学中，并查集是一种树型的数据结构，用于处理一些不交集（Disjoint Sets）的合并及查询问题。有一个联合-查找算法（union-find algorithm）定义了两个用于此数据结构的操作：

Find：确定元素属于哪一个子集。这个确定方法就是不断向上查找找到它的根节点，它可以被用来确定两个元素是否属于同一子集。
Union：将两个子集合并成同一个集合。

由于支持这两种操作，一个不相交集也常被称为联合-查找数据结构（union-find data structure）或合并-查找集合（merge-find set）。其他的重要方法如MakeSet，用于建立单元素集合。有了这些方法，许多经典的划分问题可以被解决。

并查集的引入

并查集的重要思想在于，用集合中的一个元素代表集合。我曾看过一个有趣的比喻，把集合比喻成帮派，而代表元素则是帮主。接下来我们利用这个比喻，看看并查集是如何运作的。

最开始，所有大侠各自为战。他们各自的帮主自然就是自己。（对于只有一个元素的集合，代表元素自然是唯一的那个元素）

现在1号和3号比武，假设1号赢了（这里具体谁赢暂时不重要），那么3号就认1号作帮主（合并1号和3号所在的集合，1号为代表元素）。

现在2号想和3号比武（合并3号和2号所在的集合），但3号表示，别跟我打，让我帮主来收拾你（合并代表元素）。不妨设这次又是1号赢了，那么2号也认1号做帮主。

现在我们假设4、5、6号也进行了一番帮派合并，江湖局势变成下面这样：

现在假设2号想与6号比，跟刚刚说的一样，喊帮主1号和4号出来打一架（帮主真辛苦啊）。1号胜利后，4号认1号为帮主，当然他的手下也都是跟着投降了。好了，比喻结束了。如果你有一点图论基础，相信你已经觉察到，这是一个树状的结构，要寻找集合的代表元素，只需要一层一层往上访问父节点（图中箭头所指的圆），直达树的根节点（图中橙色的圆）即可。根节点的父节点是它自己。我们可以直接把它画成一棵树：

用这种方法，我们可以写出最简单版本的并查集代码。

初始化

void init(int n){
	vector<int> fa(n+1,0);
	for(int i = 1;i<=n; ++i){
		fa[i]=i;
	}
}

假如有编号为1, 2, 3, ..., n的n个元素，我们用一个数组fa[]来存储每个元素的父节点（因为每个元素有且只有一个父节点，所以这是可行的）。一开始，我们先将它们的父节点设为自己。

查询

int find(int& x){
	if(fa[x] == x) return x;
	else{
		return find(fa[x]);
	}
}

我们用递归的写法实现对代表元素的查询：一层一层访问父节点，直至根节点（根节点的标志就是父节点是本身）。要判断两个元素是否属于同一个集合，只需要看它们的根节点是否相同即可。

合并

1
2
3

void merge(int i, int j) {
    fa[find(i)] = find(j); // 修改的是根节点
}

合并操作也是很简单的，先找到两个集合的代表元素，然后将前者的父节点设为后者即可。当然也可以将后者的父节点设为前者，这里暂时不重要。本文末尾会给出一个更合理的比较方法。

路径压缩（发生在查询时）

随着merge次数的增加，形成的并查集可能会成为一条长长的链，随着链越来越长，我们想要从底部找到根节点的时间复杂度会成为线性。

怎么解决呢？我们可以使用路径压缩的方法。既然我们只关心一个元素对应的根节点，那我们希望每个元素到根节点的路径尽可能短，最好只需要一步，那么这就是我们的路径压缩：

思想是：在查询的过程中，把沿途的的每个节点的父节点都设为根节点，下一次查询时就可以以\(O(1)\)获得根节点

int find(int& x){
	if(fa[x]==x) return x;
	else{
		fa[x] = find(fa[x]);
		return fa[x];
	}
}

按秩合并

有些人可能有一个误解，以为路径压缩优化后，并查集始终都是一个菊花图（只有两层的树的俗称）。但其实，由于路径压缩只在查询时进行，也只压缩 一条路径，所以并查集最终的结构仍然可能是比较复杂的。例如，现在我们有一棵较复杂的树需要与一个单元素的集合合并：假如这时我们要merge(7,8)，如果我们可以选择的话，是把7的父节点设为8好，还是把8的父节点设为7好呢？

当然是后者。因为如果把7的父节点设为8，会使树的深度（树中最长链的长度）加深，原来的树中每个元素到根节点的距离都变长了，之后我们寻找根节点的路径也就会相应变长。虽然我们有路径压缩，但路径压缩也是会消耗时间的。而把8的父节点设为7，则不会有这个问题，因为它没有影响到不相关的节点。

这启发我们：我们应该把简单的树往复杂的树上合并，而不是相反。因为这样合并后，到根节点距离变长的节点个数比较少。

我们用一个数组rank[]记录每个根节点对应的树的深度（如果不是根节点，其rank相当于以它作为根节点的子树的深度）。一开始，把所有元素的rank（秩）设为1。合并时比较两个根节点，把rank较小者往较大者上合并。路径压缩和按秩合并如果一起使用，时间复杂度接近O(n)，但是会破坏rank的准确性。

初始化（按秩合并）

void init(int n){
	vector<int> fa(n+1,0);
	vector<int> rank(n+1,1);
	for(int i = 1;i<=n:==i){
		fa[i]=i;
	}
}

合并

void merge(int i,int j){
	int x=find(i),y=find(j);
	if(rank[x]<=rank[y]){
		fa[x] = y;
	}
	else{
		fa[y] = x;
	}
	if(rank[x]==rank[y]&&x!=y){
		rank[y]++;
	}
}

总结

并查集主要解决的分组管理一类的问题，如果问题能抽象成组与组之间的问题，一般情况下可考虑并查集，并查集的常见思路

是否在一个组；在一个组的条件；路径和组在图中都属于连通域，上述组均可替换为路径，问题不变；

并查集的主要难点：

Union时，有的问题已经告诉了分组的信息，有的问题则需要自行挖掘；一般情况下，并查集底层为一个1d数组，有的问题需要对元素进行编号或者转化与之对应；在不清楚并查集中到底会存放多少数据时，底层也可以map；

并查集功能是Union也就是将两个组合并成一个组，对于拆分的情况，可以逆序思考问题，例如leetcode803 打砖块
根据问题，也可在并查集底层使用其他数据结构，帮助解决问题；

例题

等式方程的可满足性

题目

给定一个由表示变量之间关系的字符串方程组成的数组，每个字符串方程 equations[i] 的长度为4，并采用两种不同的形式之一："a==b" 或 "a!=b"。在这里，a 和 b 是小写字母（不一定不同），表示单字母变量名。

只有当可以将整数分配给变量名，以便满足所有给定的方程时才返回true，否则返回 false。

分析

分析题目可知，可组等式方程或有关系或无关系，那么因此对所有的方程进行管理，该背景下可考虑使用并查集解决：

lass UnionFind {
private:
    vector<int> parent(26,0);

public:
    UnionFind() {
		parent.resize(26);
        //对范围内的赋值0
        iota(parent.begin(), parent.end(), 0);
    }

    int find(int index) {
        if (index == parent[index]) {
            return index;
        }
        parent[index] = find(parent[index]);
        return parent[index];
    }

    void unite(int index1, int index2) {
        parent[find(index1)] = find(index2);
    }
};

class Solution {
public:
    bool equationsPossible(vector<string>& equations) {
        UnionFind uf;
        for (const string& str: equations) {
            if (str[1] == '=') {
                int index1 = str[0] - 'a';
                int index2 = str[3] - 'a';
                uf.unite(index1, index2);
            }
        }
        for (const string& str: equations) {
            if (str[1] == '!') {
                int index1 = str[0] - 'a';
                int index2 = str[3] - 'a';
                if (uf.find(index1) == uf.find(index2)) {
                    return false;
                }
            }
        }
        return true;
    }
};

参考文献： >并查集