[Crawler]关于group content id的问题

spiderman · 2022 年5 月 12 日 05:30

老师，

1 当fetcher处理完html存入history table的时候，这个时候还没有signature的计算，这时候group content id应该写什么啊？因为按我的理解content group id是后面html processor 计算signature的时候计算出来的，当后面这个html processor计算出这个content group id的时候是不是要回去更新history table的content group id？

2 这个系统看上去是个闭环，那么服务起来的时候，是手动把所有的url放入url frontier吗？

logic · 2022 年5 月 14 日 23:31

如果是第一次爬这个网页的话，这个 group content id 可以先不填。等到 signature 算完以后再更新。如果是反复爬取的话，这个 field 可能之前就有。如果这个网页是独特的，那么这个 group content id 可以一直都没有。
需要放一些 Seed URL 来开始这个过程，一般是一些大型网站以及门户网站。