配额
全球 AI 流量的速率限制
通过按用户、IP 或项目进行的细粒度速率限制来控制成本并防止滥用。保护您的 AI 预算的灵活配额。.
滑动窗口限制 用户和 IP 识别 可配置的突发保护 多个范围
可视化
速率限制流
我们如何识别、检查并对传入请求强制执行配额。.
01
请求到达
包含用户 ID 或 IP 元数据
02
身份已识别
解析特定的速率限制密钥
03
检查滑动窗口
针对配额验证使用情况
04
峰值保护
平滑流量峰值
05
决策点
允许 → 转发到提供商
超出限制 → 429 + 请稍后重试 (Retry-After)
06
分析 + 请求日志
记录节流事件
灵活逻辑
limits: user: 120 req/min ip: 300 req/min project: 1_000 req/min strategy: "token-bucket" action: "429 + retry-after" log_throttles: true
1
按用户或 IP
传递标识符,对任何特定用户的跨会话强制执行限制。.
2
滑动窗口
精确的限制,防止在整小时/整分钟交界处出现突发流量。.
3
项目范围
设置全局保护,确保没有任何项目超出您的提供商端计费。.
范围
按用户/IP
限制单个用户在任何会话中的流量。.
Algorithm
Sliding
Smooth enforcement that avoids fixed-window edge cases.
Response
429 标准
带有 Retry-After 的整洁标头,用于客户端退避逻辑。.
滚动剧本
01 · 定义
在控制台中按项目、用户或 IP 设置限制。.
02 · 识别
通过请求元数据触发正确的配额桶。.
03 · 强制执行
多出的流量将获得带有清晰 Retry-After 标头的 429 响应。.
04 · 保护
确保您的 AI 预算永远不会被失控的脚本或滥用烧光。.
使用场景
- ● 具有按 IP 保护的公开 API 密钥。.
- ● 需要项目级配额的多租户应用。.
- ● 具有严格突发限制的免费增值计划。.
独特之处
- ● 在供应商调用之前强制执行,以节省 Token。.
- ● 分析 + 日志显示谁被节流了以及原因。.
- ● 与故障转移、流式传输和 Webhook 协同工作。.
程序化访问
每个项目自动执行速率限制
POST https://api.modelriver.com/v1/ai Authorization: Bearer mr_live_your_key { "workflow": "user-query", "messages": [ { "role": "user", "content": "..." } ] } // When rate limited, you receive: { "error": { "message": "Rate limit exceeded", "retry_after": 60 } }
在控制台中按项目配置限制。请求在调用提供商之前强制执行,以节省代币。节流事件显示在分析中。.
默认安全交付
将限制与故障转移、结构化输出和 Webhook 相结合,实现弹性且可观察的流量。.