性能

零延迟、零成本的 AI 响应

停止为重复的 AI 生成付费。自动为传入请求提供即时缓存、完全匹配的响应。.

零成本命中低于 10 毫秒的延迟确切匹配标准按工作流窗口

可视化

缓存流

我们如何即时提供之前成功的响应。.

输入提示

非结构化文本或数据流

即时交付

无需访问供应商 API 即可即时提供

匹配设置

System、User、Temp、Model 必须完全匹配

决策点

命中 → 提供缓存响应

未命中 → 正常路由请求至供应商

分析

缓存 hit rate, 延迟, and tokens saved logged

配置

workflow: "chat-agent"
cache:
  enabled: true
  window: "15m"  // Cached responses older than 15m ignored
criteria:
  - "exact match on system/user prompts"
  - "exact match on provider settings"
  - "exact match on attachment hashes"

立即启用

Toggle 缓存 per-workflow and configure 缓存 duration window.

Strict matching

A 缓存 hit only triggers if prompt, settings, and payload attachments match completely.

Metrics

缓存 hits count towards overall usage but save you 延迟 and provider 成本.

成本

零 Token

命中可避开底层供应商。.

延迟

< 10ms

在几毫秒内提供复杂的生成。.

故障转移

感知配置

如果解析失败，自动重试。.

滚动生命周期

01 · 启用

直接从设置菜单切换工作流缓存。.

02 · 计算

对输入参数的严格哈希匹配保证了相关性。.

03 · 提供

立即返回之前有效的完成项。.

04 · 监控

在分析窗格中查看确切的 Token 和带宽节省。.

使用场景

● 重复的批处理流程。.
● 高产量的相同用户查询。.
● 电子商务分类工作流。.

独特之处

● 按工作流动态应用缓存。.
● 在路由之前进行硬标准哈希验证。.
● 跟踪每个工作流的精确指标。.

程序化访问

指标直接从仪表板端点报告

POST https://api.modelriver.com/v1/ai
Authorization: Bearer mr_live_your_key

{
  "model": "product-extractor",
  "messages": [...]
}

// Response returns validated structured data:
{
  "data": {
    "name": "Widget Pro",
    "price": 49.99,
    "category": "Electronics"
  },
  "meta": { "structured_output": true }
}

缓存命中指示器作为元数据标头在每次生成请求中动态返回。.

缓存查询，降低延迟，粉碎成本

原生支持 Zod、JSON 配置和所有提供商的类型化输出。无需解析代码。.

免费开始查看文档