[Crawler] 保证爬取最小间隔

logic · 2021 年5 月 26 日 05:29

感谢提问！我把你的三个问题拆分成了三个主题，方便大家讨论和查询。
问题二｜问题三
这里的 current_ts 是 back queue selector 选取 URL 进行爬取的时间，而不是 push 进 back queue 的时间。对于同一个 single host queue 里的 URL，下一次爬取会在时间过去 current_ts + time_gap 之后。