内容安全

每个 AI 请求的网关输入护栏

在用户提示到达提供商之前进行扫描。在 API、流式传输、异步和 Playground 流量中执行或监控内容策略——始终开启未成年人保护。.

Enforce & monitor modes 四个策略类别 始终开启的未成年人保护 本地 + 远程审核

可视化

护栏决策流程

我们如何在网关提取、分类和处理用户提供的输入。.

01

请求到达

API、流式传输、异步或 Playground

02

提取用户文本

扫描 messages、prompt 和 input 字段

03

本地分类器

快速正则表达式模式 + 始终开启的未成年人检查

04

远程审核

针对模糊情况的 OpenAI omni-moderation

05

决策点

允许 → 转发到提供商

拦截 → 403 及通用消息

06

审计日志

记录类别——永不存储请求正文

按项目策略
guardrail_mode: "enforce"
guardrail_categories:
  - sexual
  - self-harm
  - hate
  - violence
// minors/CSAM: always enforced
modes: enforce | monitor | disabled
              
1

执行或监控

在执行模式下拦截违规请求,或在监控模式下记录违规并允许流量,以便逐步推出。.

2

类别控制

按项目切换性、自残、仇恨和暴力类别。未成年人保护无法禁用。.

3

隐私优先拦截

被拦截的提示永远不会存储在日志中或返回到错误响应中。不消耗提供商 Token。.

本地检查

<5ms

在任何提供商调用之前运行正则表达式分类器。.

类别

4 + 未成年人

可配置的策略类别加上始终开启的 CSAM 保护。.

覆盖范围

所有入口点

API、流式传输、异步、Playground 和 OpenAI 兼容路由。.

滚动剧本

01 · 配置

在项目设置中设置执行、监控或禁用模式并选择类别。.

02 · 扫描

本地分类器检查每个请求;模糊情况升级到远程审核。.

03 · 决策

根据您的模式拦截或记录违规。重复提示的决策会被缓存。.

04 · 审计

请求日志捕获类别和延迟——永不记录被拦截的提示文本。.

重复拒绝后的滥用保护

When enforce mode blocks the same actor repeatedly, ModelRiver applies a cooldown throttle — similar to 智能速率限制 — returning HTTP 429 with Retry-After headers. This stops bad actors from hammering the gateway without consuming provider tokens.

使用场景

  • 需要内容策略执行的面向公众的聊天机器人。.
  • 首先以监控模式推出安全策略的企业应用。.
  • 需要按项目策略控制的多租户平台。.

独特之处

  • 在提供商调用之前运行——被拦截的请求永不计费。.
  • 两级本地 + 远程分类,带决策缓存。.
  • 适用于同步、异步、流式传输和 OpenAI 兼容 API。.

程序化访问

护栏在每个请求上自动运行——在控制台中按项目配置

POST https://api.modelriver.com/v1/ai
Authorization: Bearer mr_live_your_key

{
  "model": "chat-assistant",
  "messages": [
    { "role": "user", "content": "..." }
  ]
}

// When blocked by content policy:
{
  "error": "content_policy_violation",
  "message": "Request blocked by content policy.",
  "categories": ["violence"]
}

在项目设置中配置护栏模式和类别。只有组织所有者和管理员可以禁用或削弱策略。被拦截的请求永不计费。.

内置安全交付

将护栏与速率限制、故障转移和分析相结合,实现弹性且符合策略的 AI 流量。.