基于mapreduce的大规模连通图寻找算法
当我们想要知道哪些账号是一个人的时候往往可以通过业务得到两个账号之间有联系,但是这种联系如何传播呢?
问题 已知每个账号之间的联系
如:
A B
B C
D E
F C
B G
得到 对应的一个人的账号
如:
A B C F G为同一个人
D E 为同一个人
当前迭代次数11次
理论最大迭代次数:
max_nick_count = max(nick_count)
max_iterator = log2(max_nick_count)
62%的账号可在前5次迭代完成计算
瓶颈:所有账号可以在一个reduce中进行运算