现在的很多AI项目都用word embedding做向量搜索来检索文本或知识库,但这里面有很大的误区: 1. 词向量模型往往训练的是词语在训练语料上的接近性,而非语义上的同义性。这有助于召回,但对准确性造成较大影响。 2. query的句向量和text chunk的句向量仍然表示的是接近性,它往
现在的很多AI项目都用word embedding做向量搜索来检索文本或知识库,但这里面有很大的误区: 1. 词向量模型往往训练的是词语在训练语料上的接近性,而非语义上的同义性。这有助于召回,但对准确性造成较大影响。 2. query的句向量和text chunk的句向量仍然表示的是接近性,它往