[Crawler] 保证爬取最小间隔

感谢提问!我把你的三个问题拆分成了三个主题,方便大家讨论和查询。
问题二问题三
这里的 current_ts 是 back queue selector 选取 URL 进行爬取的时间,而不是 push 进 back queue 的时间。对于同一个 single host queue 里的 URL,下一次爬取会在时间过去 current_ts + time_gap 之后。