[web crawler] HTML Store 存储选择

pollyed · 2022 年10 月 30 日 23:33

理解录播课上提到的可以使用BigTable wide-column db来存储HTML Store。而且BigTable cell支持存储不同 timerstamped version.
想问的是，为什么要存储同一网页不同时间点的HTML Store？是满足某种使用场景吗？
如果不考虑存储历史版本，只是存储一个网页object，是不是可以使用Document DB, S3, 甚至GFS作为HTML store?
谢谢

logic · 2022 年11 月 1 日 05:03

就是存储爬取网页的历史状态，场景比如分析两个网页的相似度就需要考虑历史状态。

只存最近一次爬取状态的话，Document DB 是可以的。S3 不太好，S3 不适合做大量的从网址到网页的 lookup。GFS 问题类似，不适合做这种 lookup。BigTable 就是建立在 GFS 之上的，就是为了提供查询的功能。