请问题解的网络爬虫需求里提到的 “平均2周重新爬取全网一次” ,是指每两周系统会run一次,把500m website都爬一遍以后停止,还是说并没有什么schedule的概念,系统就是一直不停的在crawl,同时保证每两周把网站都重新爬一遍?又或者说两种都可以,只要保证两周爬一次就可以了呢?
系统是不停地爬互联网的,要保证所有的网页平均两周被爬一次,有的常更新的网站会比两周更频繁,更新少的会更不频繁。
1 个赞