输入护栏：ModelRiver 安全

概述

ModelRiver 输入护栏在请求转发给 AI 提供商之前，于网关层扫描用户提供的文本。护栏在所有支持的入口点上自动运行——原生 API、流式传输、异步、Playground 和 OpenAI 兼容路由。

被拦截的请求永远不会到达提供商，不会产生计费，也不会在日志或错误响应中保留原始提示。

每个请求都会经过分层决策流程：

重复提示会按项目策略进行指纹化和缓存，以减少相同输入的延迟。

在 Settings → Project settings → Content Safety 中按项目配置执行模式：

新项目默认使用 enforce 模式，并启用全部四个可配置类别。自托管部署可设置 GUARDRAILS_FORCE_ENFORCE=true，强制所有项目使用执行模式。

每个项目可配置四个类别：

未成年人/CSAM 保护始终强制执行，无法禁用。即使项目模式为 disabled 或全局 GUARDRAILS_ENABLED 标志关闭，此保护仍然有效。

护栏在以下位置自动运行：

仅包含图片或空文本的请求返回 not_checked，在没有文本分类的情况下继续处理。护栏仅适用于输入——AI 输出不会在服务端被审核。

在执行模式下，被拦截的请求会显示清晰的错误：

API	状态	错误代码	消息
原生 API	403	`content_policy_violation`	`Request blocked by content policy.`
OpenAI 兼容	400	`content_policy_violation`	`Request blocked by content policy.`
流式传输（预检）	403	`content_policy_violation`	SSE 开始前的 JSON 响应
滥用节流	429	`rate_limited`	重复拒绝后的冷却期

被拦截的响应在可用时包含触发的 categories。原始提示永远不会在错误正文中返回。当同一 API 密钥或用户反复在执行模式下被拒绝后，ModelRiver 会返回带有 Retry-After 标头的 HTTP 429（默认：每个项目 900 秒窗口内 5 次拒绝）。

无提示泄露：被拦截的提示不会存储在请求日志中，也不会在 API 错误中返回
无提供商计费：被拦截和节流的请求不会增加组织请求计数器，也不会消耗提供商 Token
审计而不暴露：护栏日志记录 guardrail_result、guardrail_action、guardrail_source、guardrail_categories 和 guardrail_latency_ms，且 request_body: nil

在监控模式下，违规请求会继续发往提供商，但护栏决策仍会记录为 guardrail_action: allow。