[Crawler] 网络爬虫single host queue

第三课网络爬虫是不是每次我们都会把同一个host里面的所有网站都爬完再去爬另一个host的网站?

不是,要根据 politeness 的要求来。一般来说一个 host 下面的网页会来源于一个服务,不应该短时间内不停地爬,所以原则上是要换着 single-host queue 爬。