[Web Crawler 数据库设计]

Spark · 2022 年9 月 28 日 04:51

Web Crawler数据库中有讲解Web Page Crawl History Table的设计，其中有个column是content group id, 视频说如果一个网页和另一个网页是一样的，可以归到同一个content id, 可以共享last crawl TS.

我的问题：如果网页和另一个网页是一样的，那么应该在URL processor里被filter掉吧？为什么还要存到数据库里呢？

Spark · 2022 年9 月 28 日 04:56

追问：如何共享last crawl TS? 是因为content group id被index了, 所以我们可以找到相同的content id 的last crawl TS做更新吗？

logic · 2022 年9 月 29 日 22:01

网页内容一样不代表 URL 一样。URL Processor 会做 URL 这个 string 的匹配，而分析网页内容是更复杂的。

通过 content group id 来检索