课上讲的架构相当于取的replica数是1,如果变成3甚至更高,是不是容灾性就更强?
这样还能避免第五种super node架构的多次爬取的问题,因为只有主node爬取网页,然后可以备份到hash ring上后面3个node上。这样的话是不是可以媲美super node的方案呢?
另外第五种架构中是否还存在C&C server?是不是可以借鉴Cassandra的完全无主的架构呢?
课上讲的架构相当于取的replica数是1,如果变成3甚至更高,是不是容灾性就更强?
这样还能避免第五种super node架构的多次爬取的问题,因为只有主node爬取网页,然后可以备份到hash ring上后面3个node上。这样的话是不是可以媲美super node的方案呢?
另外第五种架构中是否还存在C&C server?是不是可以借鉴Cassandra的完全无主的架构呢?
第四种架构加上了 replica 其实就是变成了第五种架构。差别在于,课上讲的第五种的每台机器都做爬取工作,而第四种+replica只有其中一台做爬取工作。如果每台都做爬取工作,爬取速度应该是更快的。
第五种构架的C&C Server 拿掉的话变成完全无主架构可以考虑。C&C Server 相当于多一重保障,用一台黑客可以控制的机器来维护网络里的机器的ip地址以及他们的职权范围。
如果没有Command & Control Server, 那是每个机器都备份一个全部要爬的list么? 不然谁来告诉这些机器去爬什么啊?
可以不需要。每台机器知道自己爬的区间就可以,不需要有完整 list。比如 hash(URL) % 10 == 0 就爬。