性能

零延迟、零成本的 AI 响应

停止为重复的 AI 生成付费。自动为传入请求提供即时缓存、完全匹配的响应。.

零成本命中 低于 10 毫秒的延迟 确切匹配标准 按工作流窗口

可视化

缓存流

我们如何即时提供之前成功的响应。.

01

输入提示

非结构化文本或数据流

03

即时交付

无需访问供应商 API 即可即时提供

02

匹配设置

System、User、Temp、Model 必须完全匹配

04

决策点

命中 → 提供缓存响应

未命中 → 正常路由请求至供应商

05

分析

缓存 hit rate, 延迟, and tokens saved logged

配置
workflow: "chat-agent"
cache:
  enabled: true
  window: "15m"  // Cached responses older than 15m ignored
criteria:
  - "exact match on system/user prompts"
  - "exact match on provider settings"
  - "exact match on attachment hashes"
              
1

立即启用

Toggle 缓存 per-workflow and configure 缓存 duration window.

2

Strict matching

A 缓存 hit only triggers if prompt, settings, and payload attachments match completely.

3

Metrics

缓存 hits count towards overall usage but save you 延迟 and provider 成本.

成本

零 Token

命中可避开底层供应商。.

延迟

< 10ms

在几毫秒内提供复杂的生成。.

故障转移

感知配置

如果解析失败,自动重试。.

滚动生命周期

01 · 启用

直接从设置菜单切换工作流缓存。.

02 · 计算

对输入参数的严格哈希匹配保证了相关性。.

03 · 提供

立即返回之前有效的完成项。.

04 · 监控

在分析窗格中查看确切的 Token 和带宽节省。.

使用场景

  • 重复的批处理流程。.
  • 高产量的相同用户查询。.
  • 电子商务分类工作流。.

独特之处

  • 按工作流动态应用缓存。.
  • 在路由之前进行硬标准哈希验证。.
  • 跟踪每个工作流的精确指标。.

程序化访问

指标直接从仪表板端点报告

POST https://api.modelriver.com/v1/ai
Authorization: Bearer mr_live_your_key

{
  "workflow": "product-extractor",
  "messages": [...]
}

// Response returns validated structured data:
{
  "data": {
    "name": "Widget Pro",
    "price": 49.99,
    "category": "Electronics"
  },
  "meta": { "structured_output": true }
}

缓存命中指示器作为元数据标头在每次生成请求中动态返回。.

缓存查询,降低延迟,粉碎成本

原生支持 Zod、JSON 配置和所有提供商的类型化输出。无需解析代码。.