[Crawler] 数据的传递

  1. 您在视频中说URL Frontier的数据量不大,那是不是global有一个就可以?相对的fetcher和processor需要根据location去部署
  2. URL Frontier内部的数据传输(front queue, back queue)都是在内存中完成的吗?还是说URL prioritizer 和 back queue selector是不同的机器,中间需要RPC/message queue通信?
  3. URL Frontier和fetcher之间是通过RPC通信吗?还是MQ?
  4. Fetcher和HTML processor应该是MQ吗?
  1. 一台机器处理工作加上另一台数据备份以及在出现问题的时候顶上。
  2. 内存中完成,不需要多台机器
  3. MQ
  4. 是 MQ