[Crawler]关于group content id的问题

老师,

1 当fetcher处理完html存入history table的时候,这个时候还没有signature的计算,这时候group content id应该写什么啊?因为按我的理解content group id是后面html processor 计算signature的时候计算出来的,当后面这个html processor计算出这个content group id的时候是不是要回去更新history table的content group id?

2 这个系统看上去是个闭环,那么服务起来的时候,是手动把所有的url放入url frontier吗?

  1. 如果是第一次爬这个网页的话,这个 group content id 可以先不填。等到 signature 算完以后再更新。如果是反复爬取的话,这个 field 可能之前就有。如果这个网页是独特的,那么这个 group content id 可以一直都没有。
  2. 需要放一些 Seed URL 来开始这个过程,一般是一些大型网站以及门户网站。