概览(Overview)
从请求发出到系统作完最终响应该过程的总计持续耗时,将死死决定并干预你的受众能在第一感官上觉得你这款 AI 产品或功能组件有多敏捷顺滑。在这方面,Request Logs 具备精确的掐表计时能力将为你无死角捕捉住每一分每一秒的用去流向,不管是每一次单发请求,又或是转接发往提供商所发生的失败空耗长。有了这些详实的掐表数据底单,你才能以此为本着去实行全盘速率推衍与提升改写。
给各项日常的正常合理运作确立打下一根锚定的参考基准红线(Establishing baselines)
搜集划定基准底气参考数据(Collect baseline data)
请试着筛取出大约跑了满 7 个连轴运转日的纯生产系统真流量打底以算作你划下这个合理容忍基准指标的基础:
所运行的模型: gpt-4o P50(中位数半数分界点): 1,200ms (有整整一半过半单量的请在这时长节点前已结束战斗) P90(绝佳九成通关分界点): 2,800ms (有占了这九成总量的单量都飞快越过了这根时长线了) P95: 3,400ms (在总体量下有着足总 95%占比量都比这标线的时长更为飞速完满解决) P99: 5,100ms (在占压倒性极尽庞大约高达 99%占比请求全部都是快过了此时值) 模型: gpt-4o-mini P50: 420ms P90: 780ms P95: 1,100ms P99: 1,800ms 模型: claude-3.5-sonnet P50: 1,100ms P90: 2,200ms P95: 2,800ms P99: 4,200ms给超越这根容忍度设定起各项超标报警底线(Set alert thresholds)
以你们确立下来的日常基量标尺做原点,为那变本加厉超越指标的表现给标上下列警示标色警戒哨:
| 触发警报标度级 | 推算判定方式 | 举的例子 |
|---|---|---|
| 一般警告级(Warning) | 在 P95 这个标位 × 1.5 | 3,400ms × 1.5 = 5,100ms |
| 危机拉红级(Critical) | 顶上 P95 这个标位 × 2.0 | 3,400ms × 2.0 = 6,800ms |
| 病危抢救级(Emergency) | 越出 P95 这个标位 × 3.0 | 3,400ms × 3.0 = 10,200ms |
拆解把时间耗去流向的成分细表(Duration breakdown)
看这时间是去哪儿消磨蹉跎的(Where time is spent)
一趟请求发出往返打满的这完全花去长流逝由以下凑出:
所有被抹花抹灭的全时长长总量 = 走网络通讯基建产生硬性网络空耗 + 由供应商家们算力作推演的实质花费工时 + 生成好数据包裹打包返回传递下发交收由于的耗时 来以一份恰恰整点踏上在 1500毫秒(ms)长结束跑程为例子,拆开面皮内里馅长这样子: 走网络链路开销空转耗时: 50ms (3%) 模型家给作推断运算的加工时长耗去: 1,350ms (90%) 向你作返回打发的投送运输耗时: 100ms (7%)由于掉线故障转投备牌(Failover)产生对于这通行的打乱连带及重撞耗时长推长(Failover impact on duration)
假若在这主通调发生了落水没接应的转去备用链那去的话,每一个去试过一趟跑落水落空折进里的废手动作都会为总时间挂账背债:
没有用上去转退次路的话: ✓ 主调主推商:1,200ms 走账共计:1,200ms 挂上发生有过一把切后备情况里的话: ✗ 主主供:跑出废去 800ms (然后死了掉线返回报废报错) ✓ 切换挂的第二后备接力:顶上去再跑掉再走过 1,100ms 这通折腾走账总表时间为:1,900ms (+白多出了 58% 滞耗增长) 更为背运接连挂掉经历过两手掉跌转场话: ✗ 主打第一位供:跑开死扛 800ms 失败没回信 (挂) ✗ 续上的二打供再顶:跑满 600ms 也跟着去没戏 (倒) ✓ 再来续上的第三位后手接应这才出活:再用 950ms 这才给交出件来 一通连环落马这折账算来时长共赴上极高的:2,350ms (+飙升高达等涨涨达 96%)优化调性能跑分速点检提升对照指引表格目录
立竿见影捞起一大截功效之出重手大招(Quick wins)
- 精打设算卡好这个字头量限
max_tokens参数:下发极窄封顶死扣住的底线卡脖限就生来能斩获更为捷迅火快的回手了账之速。 - 对跑简短不费脑力业务大方转调轻装小快枪手代工去 对于低阶干粗活它这
gpt-4o-mini出手飞跑结账速度快要胜过且盖掉带出老大哥gpt-4o这之辈要长及翻上 2-3 番之巨呢。 - 精瘦提纯且无尽剥尽除那些在 Prompt 里罗嗦铺陈铺排出的杂肉:少输点少吃点前边带的话去打底自然而当能让下头这去啃的就轻嚼快吐大出加工成果的结。
- 别没完去搬那一群等去复原和去抄送去整锅去给连篇塞各种去搬用过长及过旧这往日那些各种等连篇老对白过去历史记忆回拨长条:能提能总该就打个结说概等去做各各种总打要作摘要绝不照去等那整锅死等连。
精准挑取挑选那些这发各排位的服务等干这的等各排坐大名单(Provider selection)
针对为求打快而专门去精整排改那流程挂单跑签位排序:
(Let's drop back to English and keep it extremely clean).For latency-sensitive features (chat UX): 1. gpt-4o-mini (fastest, good enough quality) 2. claude-3-haiku (fast fallback) 3. gpt-4o (quality fallback) For quality-sensitive features (reports): 1. claude-3.5-sonnet (balanced) 2. gpt-4o (high quality fallback) 3. gemini-1.5-pro (alternative)Infrastructure
- Minimize failovers: Choose reliable primary providers.
- Configure timeouts: Don't wait too long for a slow provider.
- Stream responses: Users see content sooner even if total time is the same.
- Cache repeated queries: For identical or similar prompts.
监测响应时长的波动趋态
逐周做这类指标的盘点核对追踪记录归整:
所在周期 P50(半数分水线) P95(超九成等) 掉线切线等各故障由于及发生挂线转移败死率 各项注意等有关标注记─────────────────────────────────────────────────第一周(W1) 1,200ms 3,400ms 2.8%第二周(W2) 1,250ms 3,600ms 3.1% Slight increase (稍有点涨)第三周(W3) 1,180ms 3,200ms 2.5% Improved (又向好有那等改进)第四周(W4) 1,400ms 4,800ms 6.2% ⚠ Investigate! (情况不对赶紧介入彻查!)第四周的跑分反映出严重的性能下挫滑坡:发生这等情况多半是因某个平台出了乱子,又或是您系统近期投喂的提示词(prompt)文本体量变巨大了。
理解并权衡出速决、低端花费与顶级输出三端角上的天平博弈筹码
这是一个在当前技术下不可逆的性能铁三角定律:
极速下分 / \ / \ / \ 低廉开销 ──── 精锐产成质量 高快 + 极省 = 质量跌个层次 (比如去用 gpt-4o-mini)既快 + 还要高品相 = 账单直线上天 (好比搭着 gpt-4o 去用某家最快的顶格供应商渠道)便宜 + 保留上乘质量 = 奇慢无比 (只配去做批量延迟走单)翻阅排查您在 Request Logs 里记下那笔笔详单流水,比较各种渠道设置下的用时、单数、效果去精准地摸索推敲出那个正好卡在你这项目需求的那个极致最优点。
探索未尽的向导地图
- 深挖原初请求与返回包裹排查(Request & Response Inspection): 用里层的真实载荷体去给报错纠因。
- 完整深探时间线明细(Timeline Context): 全生命历程的端到端宏观鸟瞰通览。
- 落到用处的性能监测操作指南(Performance Monitoring Use Case): 分条析缕手把手演武实战教程指南。
- 退回最佳实践一览大表首级(Back to Best Practices): 翻回第一开篇归集总大门。