[web crawler] HTML Store 存储选择

理解录播课上提到的可以使用BigTable wide-column db来存储HTML Store。 而且BigTable cell支持存储不同 timerstamped version.
想问的是,为什么要存储同一网页不同时间点的HTML Store?是满足某种使用场景吗?
如果不考虑存储历史版本,只是存储一个网页object,是不是可以使用Document DB, S3, 甚至GFS作为HTML store?
谢谢

就是存储爬取网页的历史状态,场景比如分析两个网页的相似度就需要考虑历史状态。

只存最近一次爬取状态的话,Document DB 是可以的。S3 不太好,S3 不适合做大量的从网址到网页的 lookup。GFS 问题类似,不适合做这种 lookup。BigTable 就是建立在 GFS 之上的,就是为了提供查询的功能。

1赞