请问是怎么样从签名得到这个SIMILAR CONTENT GROUP ID的呢,是offline job计算的吗?然后计算的时候怎么知道要和哪些网页较呢?
确实是使用 Offline Job 实现的,需要对任意两个签名做两两匹配,找到类似签名,生成 Content Group。
HTML processor是根据之前爬取的结果HTML来对比网页内容的,也就是说必须先爬过一遍,我们才知道网页是不是相似的,对吗?那这里一旦我们判断了有些网页是相似的,那下次爬取的时候就会跳过相似网页,那我们什么时候才知道这些跳过的网页的内容和上次不一样了呢?
必须先爬过一遍,我们才知道网页是不是相似的,对吗?
需要爬过了才知道类似。
我们什么时候才知道这些跳过的网页的内容和上次不一样了呢?
可以 make head request 看看页面是不是更新过了。如果更新的话就还是需要爬的,就是频率和优先级可以降低。
1 个赞
哦对哦课里提了head requst,没想起来。谢谢!