性能
零延迟、零成本的 AI 响应
停止为重复的 AI 生成付费。自动为传入请求提供即时缓存、完全匹配的响应。.
零成本命中 低于 10 毫秒的延迟 确切匹配标准 按工作流窗口
可视化
缓存流
我们如何即时提供之前成功的响应。.
01
输入提示
非结构化文本或数据流
03
即时交付
无需访问供应商 API 即可即时提供
02
匹配设置
System、User、Temp、Model 必须完全匹配
04
决策点
命中 → 提供缓存响应
未命中 → 正常路由请求至供应商
05
分析
缓存 hit rate, 延迟, and tokens saved logged
配置
workflow: "chat-agent"
cache:
enabled: true
window: "15m" // Cached responses older than 15m ignored
criteria:
- "exact match on system/user prompts"
- "exact match on provider settings"
- "exact match on attachment hashes"
1
立即启用
Toggle 缓存 per-workflow and configure 缓存 duration window.
2
Strict matching
A 缓存 hit only triggers if prompt, settings, and payload attachments match completely.
3
Metrics
缓存 hits count towards overall usage but save you 延迟 and provider 成本.
成本
零 Token
命中可避开底层供应商。.
延迟
< 10ms
在几毫秒内提供复杂的生成。.
故障转移
感知配置
如果解析失败,自动重试。.
滚动生命周期
01 · 启用
直接从设置菜单切换工作流缓存。.
02 · 计算
对输入参数的严格哈希匹配保证了相关性。.
03 · 提供
立即返回之前有效的完成项。.
04 · 监控
在分析窗格中查看确切的 Token 和带宽节省。.
使用场景
- ● 重复的批处理流程。.
- ● 高产量的相同用户查询。.
- ● 电子商务分类工作流。.
独特之处
- ● 按工作流动态应用缓存。.
- ● 在路由之前进行硬标准哈希验证。.
- ● 跟踪每个工作流的精确指标。.
程序化访问
指标直接从仪表板端点报告
POST https://api.modelriver.com/v1/ai Authorization: Bearer mr_live_your_key { "workflow": "product-extractor", "messages": [...] } // Response returns validated structured data: { "data": { "name": "Widget Pro", "price": 49.99, "category": "Electronics" }, "meta": { "structured_output": true } }
缓存命中指示器作为元数据标头在每次生成请求中动态返回。.
缓存查询,降低延迟,粉碎成本
原生支持 Zod、JSON 配置和所有提供商的类型化输出。无需解析代码。.