[爬虫] similar content group id

grace · 2021 年1 月 16 日 06:14

请问是怎么样从签名得到这个SIMILAR CONTENT GROUP ID的呢，是offline job计算的吗？然后计算的时候怎么知道要和哪些网页较呢？

logic · 2021 年1 月 16 日 23:45

确实是使用 Offline Job 实现的，需要对任意两个签名做两两匹配，找到类似签名，生成 Content Group。

chun · 2022 年5 月 6 日 05:46

HTML processor是根据之前爬取的结果HTML来对比网页内容的，也就是说必须先爬过一遍，我们才知道网页是不是相似的，对吗？那这里一旦我们判断了有些网页是相似的，那下次爬取的时候就会跳过相似网页，那我们什么时候才知道这些跳过的网页的内容和上次不一样了呢？

logic · 2022 年5 月 9 日 04:22

必须先爬过一遍，我们才知道网页是不是相似的，对吗？

需要爬过了才知道类似。

我们什么时候才知道这些跳过的网页的内容和上次不一样了呢？

可以 make head request 看看页面是不是更新过了。如果更新的话就还是需要爬的，就是频率和优先级可以降低。

chun · 2022 年5 月 9 日 04:56

哦对哦课里提了head requst，没想起来。谢谢！