[Web Crawler 数据库设计]

Web Crawler数据库中有讲解Web Page Crawl History Table的设计,其中有个column是content group id, 视频说如果一个网页和另一个网页是一样的,可以归到同一个content id, 可以共享last crawl TS.

我的问题:如果网页和另一个网页是一样的,那么应该在URL processor里被filter掉吧?为什么还要存到数据库里呢?

追问:如何共享last crawl TS? 是因为content group id被index了, 所以我们可以找到相同的content id 的last crawl TS做更新吗?

网页内容一样不代表 URL 一样。URL Processor 会做 URL 这个 string 的匹配,而分析网页内容是更复杂的。

通过 content group id 来检索