配额

全球 AI 流量的速率限制

通过按用户、IP 或项目进行的细粒度速率限制来控制成本并防止滥用。保护您的 AI 预算的灵活配额。.

滑动窗口限制 用户和 IP 识别 可配置的突发保护 多个范围

可视化

速率限制流

我们如何识别、检查并对传入请求强制执行配额。.

01

请求到达

包含用户 ID 或 IP 元数据

02

身份已识别

解析特定的速率限制密钥

03

检查滑动窗口

针对配额验证使用情况

04

峰值保护

平滑流量峰值

05

决策点

允许 → 转发到提供商

超出限制 → 429 + 请稍后重试 (Retry-After)

06

分析 + 请求日志

记录节流事件

灵活逻辑
limits:
  user: 120 req/min
  ip: 300 req/min
  project: 1_000 req/min
strategy: "token-bucket"
action: "429 + retry-after"
log_throttles: true
              
1

按用户或 IP

传递标识符,对任何特定用户的跨会话强制执行限制。.

2

滑动窗口

精确的限制,防止在整小时/整分钟交界处出现突发流量。.

3

项目范围

设置全局保护,确保没有任何项目超出您的提供商端计费。.

范围

按用户/IP

限制单个用户在任何会话中的流量。.

Algorithm

Sliding

Smooth enforcement that avoids fixed-window edge cases.

Response

429 标准

带有 Retry-After 的整洁标头,用于客户端退避逻辑。.

滚动剧本

01 · 定义

在控制台中按项目、用户或 IP 设置限制。.

02 · 识别

通过请求元数据触发正确的配额桶。.

03 · 强制执行

多出的流量将获得带有清晰 Retry-After 标头的 429 响应。.

04 · 保护

确保您的 AI 预算永远不会被失控的脚本或滥用烧光。.

使用场景

  • 具有按 IP 保护的公开 API 密钥。.
  • 需要项目级配额的多租户应用。.
  • 具有严格突发限制的免费增值计划。.

独特之处

  • 在供应商调用之前强制执行,以节省 Token。.
  • 分析 + 日志显示谁被节流了以及原因。.
  • 与故障转移、流式传输和 Webhook 协同工作。.

程序化访问

每个项目自动执行速率限制

POST https://api.modelriver.com/v1/ai
Authorization: Bearer mr_live_your_key

{
  "workflow": "user-query",
  "messages": [
    { "role": "user", "content": "..." }
  ]
}

// When rate limited, you receive:
{
  "error": {
    "message": "Rate limit exceeded",
    "retry_after": 60
  }
}

在控制台中按项目配置限制。请求在调用提供商之前强制执行,以节省代币。节流事件显示在分析中。.

默认安全交付

将限制与故障转移、结构化输出和 Webhook 相结合,实现弹性且可观察的流量。.