请问老师
-
HTML processor是怎么把urls发送给URL frontier的? 比如html processor每generate一个url 就rpc 发送给url frontier吗?那按照之前的资源估算,qps会达到40k qps?
-
URL frontier 又是怎么把urls 发送给 Fetcher 的呢? Fetcher里面的实现是有一个worker pool, 每收到一个请求就schedule一个worker来处理新到达的请求吗?
-
Fetcher enqueue 一些urls到url queue里面,queue会以rpc的方式call html processor还是html processor会去pull from the queue?
-
按资源估算, 总共有5B的数据 every 2 weeks, 为什么html storage可以放在cache里? 是作为general cache的use case, 每次load 一部分到cache里吗?
-
在最终的系统设计图上, web page crawl history 也放在cache里,也是作为general cache的use case, load 一部分到cache里吗?
多谢老师答疑解惑!