每个 AI 请求的网关输入护栏
在用户提示到达提供商之前进行扫描。在 API、流式传输、异步和 Playground 流量中执行或监控内容策略——始终开启未成年人保护。.
可视化
护栏决策流程
我们如何在网关提取、分类和处理用户提供的输入。.
请求到达
API、流式传输、异步或 Playground
提取用户文本
扫描 messages、prompt 和 input 字段
本地分类器
快速正则表达式模式 + 始终开启的未成年人检查
远程审核
针对模糊情况的 OpenAI omni-moderation
决策点
允许 → 转发到提供商
拦截 → 403 及通用消息
审计日志
记录类别——永不存储请求正文
guardrail_mode: "enforce" guardrail_categories: - sexual - self-harm - hate - violence // minors/CSAM: always enforced modes: enforce | monitor | disabled
执行或监控
在执行模式下拦截违规请求,或在监控模式下记录违规并允许流量,以便逐步推出。.
类别控制
按项目切换性、自残、仇恨和暴力类别。未成年人保护无法禁用。.
隐私优先拦截
被拦截的提示永远不会存储在日志中或返回到错误响应中。不消耗提供商 Token。.
本地检查
<5ms
在任何提供商调用之前运行正则表达式分类器。.
类别
4 + 未成年人
可配置的策略类别加上始终开启的 CSAM 保护。.
覆盖范围
所有入口点
API、流式传输、异步、Playground 和 OpenAI 兼容路由。.
01 · 配置
在项目设置中设置执行、监控或禁用模式并选择类别。.
02 · 扫描
本地分类器检查每个请求;模糊情况升级到远程审核。.
03 · 决策
根据您的模式拦截或记录违规。重复提示的决策会被缓存。.
04 · 审计
请求日志捕获类别和延迟——永不记录被拦截的提示文本。.
重复拒绝后的滥用保护
When enforce mode blocks the same actor repeatedly, ModelRiver applies a cooldown throttle — similar to 智能速率限制 — returning HTTP 429 with Retry-After headers. This stops bad actors from hammering the gateway without consuming provider tokens.
使用场景
- ● 需要内容策略执行的面向公众的聊天机器人。.
- ● 首先以监控模式推出安全策略的企业应用。.
- ● 需要按项目策略控制的多租户平台。.
独特之处
- ● 在提供商调用之前运行——被拦截的请求永不计费。.
- ● 两级本地 + 远程分类,带决策缓存。.
- ● 适用于同步、异步、流式传输和 OpenAI 兼容 API。.
程序化访问
护栏在每个请求上自动运行——在控制台中按项目配置
POST https://api.modelriver.com/v1/ai Authorization: Bearer mr_live_your_key { "model": "chat-assistant", "messages": [ { "role": "user", "content": "..." } ] } // When blocked by content policy: { "error": "content_policy_violation", "message": "Request blocked by content policy.", "categories": ["violence"] }
在项目设置中配置护栏模式和类别。只有组织所有者和管理员可以禁用或削弱策略。被拦截的请求永不计费。.
内置安全交付
将护栏与速率限制、故障转移和分析相结合,实现弹性且符合策略的 AI 流量。.