[Botnet Crawler] consistent hashing with super node 方案的问题

当讲到consistent hashing with super node 方案的时候,老师说这个方案的缺点是会爬duplicate的url。
1.可既然这些node是共享crawl history那么我的理解是每次验证url或者document是否可以爬的时候都去同一个database /cache验证吧?也就是虽然每个node有自己的url frontier and fetcher 但是他们验证url 总是去同一个远程数据库/cache那么就不会有重复?
2. 使用同一个数据库为了避免single point of failure是不是也要数据库replica一下呢?

谢谢解答

在黑客版的情况下,是没有远程数据库或者缓存可以用的,只能依赖本地的信息来做决策。这是黑客系统的一个特点,黑客只需要一台笔记本就能控制大量的机器,而不需要有远程数据库,并且这个黑客系统可以在少量来自黑客的干预情况下运作。
这里指可能有会重复,就是同一个 Super Node 里的机器都会有同样的 Crawl list 和 Crawl history,每一台机器都会独立地进行爬取,爬完之后会将更新的 Crawl list 和 Crawl history 传递到 Super Node 中的其他 Node。这样有可能会同时两个机器爬取同一个网页。