监控那些失败崩掉的模型（Monitoring Failed Models）

概览（Overview）

“调用模型失败”这一动作是整个 Request Logs 表单中所能释放出最扎眼、至关重要的信号之一。如果出现过高的失败转接率（failover rate），那也就等于宣告了你所定位于首发主力的那家服务商是个坑货——在它身上发生的每一笔空耗，都会结结实实地转化成为无尽的用户等待时延以及暗地里白白流失的资费成本账目。所以只有先发制人主动把这套失败捕捉监控网建好织密，才能确保能在系统服务严重劣化并传导被终端客户感知抱怨之前，将劣质供应商果断换下。

应当监控什么（What to monitor）

给那些曾有过掉线转接前科的记录打上的警示标（Failed models badge）

去翻翻请求日志（Request Logs）名录列表，去找那些嵌带着琥珀色报警小徽章及带上跌了几个模型计数牌的记号项：

Request #1: OpenAI gpt-4o     ✓ success    1,200ms
Request #2: OpenAI gpt-4o     ✓ success    3,400ms   ⚠ 2 failed (有过 2 次失败)
Request #3: Anthropic claude  ✓ success      890ms
Request #4: Google gemini     ✓ success    4,100ms   ⚠ 3 failed (有过 3 次失败)

例如标号为 #2 和 #4 的两单请求虽然拼到了最后赢得了成功返回，但都是沾了备用方案（fallback）力挽狂澜的光：这导致它们背上了极其惨重的冗长延迟耗时。

如何核算故障转接发生比率（Failover rate calculation）

在这个持续的时间跨度下追查下述这项评核指标：

切入后备转接比率 = 跌倒了调用过失败模型的倒霉总单量 ÷ 总请求发起单数量 × 100
 
举例推算：
  本周全线请求总单量为:           1,200 次
  其中触发带了 ≥1 个跌倒模型的有:      72 次
  切去后备的故障转接比率（Failover rate）:  6.0%
 
  健康基带: < 3%
  警示带:   3-8%
  危机红线: > 8%

分门类排查出错摔跟头的基本面走势（Analyzing failure patterns）

依据各家服务商分别看（By provider）

把发生的各种跌马记录按它们自个门庭派别大阵营收纳拢到一块儿看，就能揪出这套流水环节上哪家是最薄弱的软脚泥。

Provider (供方服务商及模型)   Total attempts (总受召应考起数)  Failures(失败跌马数)  Rate(比率)
─────────────────────────────────────────────────────────────────────────────
OpenAI gpt-4o                 850                       34       4.0%
OpenAI gpt-4o-mini            620                       52       8.4%  ← 这问题可大了
Anthropic claude-3.5          480                        6       1.3%
Google gemini-1.5             390                        4       1.0%

依照每天特定钟点聚类去看（By time of day）

掉线跟大罢工往往总爱扎堆发生跟风凑热闹在车水马龙的访问大高峰期里：

Hour(点钟)  Requests(总请求量)  Failures(跟头数)    Rate(出事概率)
──────────────────────────────────────────────────────
00-06        120               2          1.7%
06-12        380              14          3.7%
12-18        520              38          7.3%  ← 日间高峰瘫痪带
18-24        280               8          2.9%

此等明显的趋势走位说明您这是在客量峰值期碰触到了提供商定下的限流管控天花板（rate limiting）。要摆平这事，要么拿钱去给账户套餐作提权升格加护，不然就是再多拉拢一帮别家的服务牌商共同均流分担卸去洪峰。

依报错款式归类着看（By error type）

将倒掉的跟头按症状起因分门归类以求追索直奔劣由根源头：

Error category(报错大类)     Count(频次)    %(占比)     Action(开出的应对药方)
─────────────────────────────────────────────────────────────────────────
限频配额撑破耗尽了              42      66%     快充钱升级去或者找更多商户拉分流
服务端自己挂了死机              12      19%     留心眼接着盯看；一般是小浪花暂发
没动静应答全盘超时              6       9%      探诊一下网线；想着换口手脚更快的快模型
鉴权秘钥对刷不通过没给进        4       6%      赶紧把旧 API keys 回收上新轮值切换掉

采取干预大动作（Taking action）

基于你刚刚查体得出的结论：

大检得出毛病	开出的施治手段
有某家平台供商失败频次出奇地高	在工作流把该厂商排到边缘顺位，或花钱买配额
在跑流高峰段爆发大片抛错	再多拉一些别家供应商进来做底线，或者把发件队伍拉长挂进队列
持续不断撞破限速墙	利落切果断充值上交月租保护费去升大号套餐级别
无法辨认身份登入遭拒（鉴权错等没门）	一刻不等当下要求立马把旧 API keys 作废停用全上新
持续吃下干老死也不见的由于超长等待超了底线时	换搭上一口手脚更快的代答，也或者把你本地放长等候收件响应长线

为报错跌倒失败这类毛病立下个报警常驻雷达（Setting up failure monitoring）

建起推用这些临界值哨探卡子标：

针对所有向后备调转的频率率在任意连续 1 小时窗口只要超过逾越这红线 > 5%，请大警立响报警
盯死了凡对单家某指定供方有跑丢等 3 连摔或接连宕不断直连线情况时亮出鸣笛黄牌告紧通告等
做雷打不动的一以周复一各家的防供线等失败跌烂频报做复大查阅
依按月落地的对这跨时远长失败趋于等等向给上性能报表总复盘全摸察检

未尽后途延展步步看下文

挂在门外等死盯 Webhook 向外的这回调稳度（Tracking Webhook Reliability）: 一路追眼看着投的那些小报向信回调单送货稳妥情况。
深深盘算下该供商可信得几分的详盘分析（Provider Reliability Analysis）: 钻进个深海等个具体景用案看它稳不稳靠拉不跨谱分析盘算等等。
退出回拢到那大前等首页的最佳章全解栏（Back to Best Practices）: 开场首表全页概总录向大盘览图。

防患于未然：主动监控模型供应商的垮台率