工作流缓存

停止为重复的 AI 生成付费。自动为 ModelRiver 已经处理过的完全匹配的请求提供即时缓存的响应。

为什么需要工作流缓存?

随着用户量的增长,在生产环境中运行 AI 模型的成本可能会变得很高。通常,用户会提出类似的查询或多次触发完全相同的工作流。重新处理这些相同的请求会导致高延迟和重复的 token 成本。

ModelRiver 缓存通过捕获并在您的工作流中即时提供以前成功的响应来解决这个问题。

工作原理

  1. 智能捕获:当 AI 请求成功完成时,如果启用了缓存,ModelRiver 会记录输入上下文和结构化输出。
  2. 即时交付:当传入请求与缓存模式完全匹配时,缓存的响应将在不到 10ms 的时间内即时提供。
  3. 分析:您项目控制台中的 Cache 选项卡概述了您的缓存命中率、节省的带宽和总延迟减少量。

启用缓存

  1. 导航到 Workflows 部分并打开特定工作流的设置。
  2. 找到 Caching (optional) 部分。
  3. 选择您所需的 Cache window(例如,15m1h1d)。早于此窗口的缓存响应将被自动忽略。
  4. 您也可以随时使用 Clear 按钮手动清除此工作流的缓存。

关键指标

通过利用工作流缓存,您的团队可以期待:

  • 零成本命中:缓存的请求不会产生来自底层供应商(如 OpenAI 或 Anthropic)的 token 成本。
  • 低于 10ms 的延迟:无需等待 2-5 seconds 让 LLM 生成文本,响应立即可用。

注意: 虽然缓存命中可以为您节省昂贵的外部供应商使用费,但它们仍计为标准请求,以计入您的 ModelRiver 限制,从而帮助我们维护高性能的全球缓存网络。

缓存命中标准

为确保缓存时响应的准确性,ModelRiver 强制执行严格的匹配要求。仅在以下情况下触发缓存命中:

  • System 和 User prompt 完全匹配
  • Temperature、Top P 和 Model 设置保持一致
  • 附件(例如视觉模型的图像)计算出完全相同的哈希值

如果任何向量发生不匹配,请求将智能地绕过缓存并正常运行。

后续步骤

  • Type-safe solutions:了解缓存如何与结构化输出协同工作。
  • Workflows:探索工作流如何处理缓存的查询。
  • Observability:了解缓存的响应如何出现在您的时间线中。