2 Answers

常见于凝识块数太多

再说一遍,不要向量化正文

直译:队列过长

发生原因:因传入数据过多而导致总长度超出模型上下文(或误将短Embedding模型错误的用于Rerank模型处产生的数据过长),调整方式:

  • 确定模型上下文长度进行高级设定调整,如降低Embedding后输出块数以获取更精确的结果。
  • 使用更高性能模型(可能产生额外的费用)
  • 降低单次检索最大结果数
  • 提高忆识匹配度(不如降低检索结果数稳定)

粗略计算是否会超长时可查看供应商的模型介绍,并用以下公式估算:

书卷尺寸 * 单次检索最大结果数 = 预估Token长度

Related
CloudFlare Protection DDoS Protection WAF Enabled