- 请问Document index 的结构是类似这样吗?(To make sure I understand it correctly)
Machine1 (doc id 1-10):
term1 : <doc1, 2>, <doc3. 6>
term2 : <doc1, 4> ,<doc5,8>
Machine2 (doc id 11-20):
term1 : <doc11, 2>, <doc13. 6>
term2 : <doc11, 4> ,<doc15,8>
2.为什么说Document partition可以存在内存中而term partition不可以?
posting list的size说一定的,两种partition的方式只是分区方法不同,数据总量应该是都一样的。如果一个能放到内存里,那另一个应该也可以啊?为什么说docment的可以而term的不可以呢?
- 如果使用Document partition的方式,那每次search都要query所有的机器,这样每个机器的Network不就成为bottleneck了么?假设有10个request,10台机器, 用这种方式,每个机器都要处理10个RPC,如果request继续增加,最后就会出现RPC排队的问题。term partition如果分区够好的话应该是平均的,每个机器只有一个RPC,这样scale起来更make sense?