向量化的两个模型有没有替代品

Viewed 66

Rerank模型和Embedding,每次都因为上下文太短报错

2 Answers

优先建议是选用Qwen/Qwen3-Embedding-8B模型,其上下文长度约32k(32*1024=32768Token)
Rerank也优先建议选择与其配套的Qwen的Rerank模型,但Rerank费用会较高。如果希望节约费用可以考虑适量增加少量Embedding输出块数并关闭Rerank(如从5块提升到7块输出但不再开启Rerank进行二次筛选,虽然数据总量会增加,但是Rerank的费用会降低)。
Rerank适用于需要缩减Token提高注意力、按需计费等情况,如果是按次使用则可以选择全部使用Embedding模型。

配套是最好的
即使有其它模型也不推荐,因为只有qwen配套

Related
CloudFlare Protection DDoS Protection WAF Enabled