[Web Crawler] 各组件之间通讯

ponyqian · 2022 年2 月 28 日 19:42

请问老师

HTML processor是怎么把urls发送给URL frontier的？比如html processor每generate一个url 就rpc 发送给url frontier吗？那按照之前的资源估算，qps会达到40k qps?
URL frontier 又是怎么把urls 发送给 Fetcher 的呢？ Fetcher里面的实现是有一个worker pool，每收到一个请求就schedule一个worker来处理新到达的请求吗？
Fetcher enqueue 一些urls到url queue里面，queue会以rpc的方式call html processor还是html processor会去pull from the queue?
按资源估算, 总共有5B的数据 every 2 weeks，为什么html storage可以放在cache里？是作为general cache的use case, 每次load 一部分到cache里吗？
在最终的系统设计图上， web page crawl history 也放在cache里，也是作为general cache的use case, load 一部分到cache里吗？

多谢老师答疑解惑！

logic · 2022 年3 月 2 日 04:55