概览(Overview)
ModelRiver 给你家的大门准备了几套各尽其能的测试跑马场——有纯打空包弹的 测试模式(test mode)、对接真实大厂的 游乐场(playground),更有交织其中的组合态。每一枪打出的测试踪迹全被按上了诸如 seed_batch 的名牌留存备案,不仅做到了绝不拿沙盘里跑出的杂数据去脏了你们看真实营盘(Production)报表的眼,更叫每一次落场跑火验阵的全程都在可查可纠这长目之下无处遁形。
拆解排摸各路沙盘大戏(Testing environments explained)
测试走账的纯模型线(Test mode)
它是干啥的(What it is):在跑测试线工作流时,后台不再去死敲远端大模型大厂供货商的厚重大门要真回复,而是截留下来把你在结构化骨架(structured outputs)内填喂的样例预制料直接倒吐回给你,供你查验。
落在时间线上给你签死的前带章(Seed batch prefix):"test_mode:{channel_id}"
常打这种包的主用武地(Use cases):
- 跑长线走流程连管路排错等又不愿白掏一毛钱送予厂商大模口的情况。
- 要塞挂在你们底层家当的自动发车走线的 CI/CD 自动测挂流水大阵内。
- 给在研发圈子里打磨组件做基架测联调的 Dev 时期供着大便车。
- 敲骨画形用来验看自己框画出来的 schema 定线到底包容性妥不妥够不够能对。
留在这案底能录下的真踪迹(What is logged):
- 有头有尾完整无缝的一长条模拟互动抛接数据包。
- 记了挂算出来的模拟账虚拟字数(Token)代币本。
- 记下了那大内本地一顿穿梭跑盘跑死跑顺耗下的时漫长大表(Duration)。
- 干净分不拔的一页挂零大账单(Cost: $0.00)。
游乐场:走起纯生产供方实练口(Playground - Production)
它是干啥的(What it is):就着在老总看大局仪表大板区打开的、调用挂满了对外向外花真代币钱的在线版本那头走连厂家的真游乐场。
落在时间线上给你签死的前带章(Seed batch prefix):"pg:{channel_id}"
常打这种包的主用武地(Use cases):
- 给已经拼完组上线的大流程再动改刀作前测探深打准它会去厂里拉出的应答水色。
- 只针对改一两句的提示引信词(prompt)想去厂那捞摸效果水花的高频探视调验。
- 用真吐字答卷的凌乱出回样里解剖、重造和验证它的非标回音等大戏。
- 将要通入活网通关长挂上线前压阵最后全盘兜满点将这终测这彩排。
留在这案底能录下的真踪迹(What is logged):
- 接应来大厂这回吐的各全回送载带长文的实回票据肉包体。
- 去打的真走时的这真实开代币粮仓的费耗。
- 该落大厂出兜记上的外掏钱流水总归账。
- 长线事件触发引线往 webhook 等甩件送送带这的实走派单投递记录这等也大给包圆。
游乐场:空包带模拟练大场(Playground - Test mode)
它是干啥的(What it is):纯挂在不开外叫大厂只留系统内部样带死数据的内部过单盘。
落在时间线上给你签死的前带章(Seed batch prefix):"pg_test_mode:{channel_id}"
常打这种包的主用武地(Use cases):
- 在仪表前板点一点过下引流水且绝对不去花那外家钱的快调。
- 给构思画下的大骨大壳骨格架(schema)作大验装快抛盘。
- 无心开金矿就纯把手展示抛跑跑一溜的白嫖。
留在这案底能录下的真踪迹(What is logged):
- 基本全类同上方讲那第一大样(Test Mode),零开包费耗零外部牵挂走的是模拟虚戏。
打长调甩给你们家的回调投接传唤表(Callback logs)
落在时间线上给你签死的前带章(Seed batch prefix):"callback:{channel_id}" 或是 "pg_callback:{channel_id}"
当去搞这种驱动下发的事件放挂的回声(callback)调拨时专设拉账留给你们备查档落的底。一旦你们系统这后台连上应点返回了我们交这这指定的发投 URL,系统就会就地拉出一张新名牌长收这据留入本大这回执总池底中。
给两头互不侵河水的分家划账底(Separating test data)
这些个大漏斗大卡子都起啥效用(Filters available)
你看 Request Logs 这片大顶头上给你开的这长长过滤下拉表兜着这各种档位卡:
| 过滤档位项(Filter) | 显示出对应哪些货色(Shows) | 最佳适用大场合(Use case) |
|---|---|---|
| All requests(统揽放行) | 卸了门槛,啥神仙妖精全出单子让你照单盘看 | 对天下发生之大戏做个大全宏观统包手拢把摸看大数时 |
| Live mode(线上真脉流放行) | 一概截红,只放通有主大客走在线网流里砸的实活通走单 | 全心坐大帐盯着保正这在跑命的线上盘路不出挂点雷 |
| Test mode(全看后室暗底测) | 收盘入只从跑空包全虚发演线打这出的模拟大机房自动化线件 | 用它来拆洗和单调你们那边配打的 CI/CD 集配线 |
| Playground - Production(探厂真跑游乐沙盘显出) | 从自家控大板点这出去接去探厂外真叫声出的活大走回包 | 放给正式发布前临门一打点将的彩排试刀练这前哨大点 |
| Playground - Test mode(操控内测游乐场放这过) | 人手从操控仪表那放闸跑着本地自包数据空打不出户不烧钱 | 仅来梳通和验出你编连的业务导向跟搭件线架通路这效用 |
| All Playground(所有大控盘手工出戏包拉) | 将以上不管是否掏花钱往外出单,一切总出全打控盘出游大戏一勺收 | 对在这项目前首板上一切打调和操作的全数摸盘把手控局这探 |
为啥要不厌其烦地给你死这般开路清源和排杂布界(Why separation matters)
- 圈死只留主营干净江山这保清明大局盘(Production monitoring):死死焊牢点向在 Live mode 内就能全拒这从沙盘跟测试那跑死出来污的废流包脏的你主线去,只盯着你们那供金主的效能真账盘和出漏跑雷。
- 好去真揪出来验大检看你们这化测之大数线这大对考(Test validation):单放拨卡向 Test mode 就专等着盯你们这 CI/CD 那反复滚轧出来投给送检的这过往账。
- 真交差出那前头总过验的这拉大盘这底牌点查大戏眼(Pre-deployment review):调往 Playground 供大头你放网发长线走出去打出给全线开活前的终检审验看落底之这大包。
- 包揽起整个星系全貌来复刻看这长长这底宇宙大全象(Complete picture):想要把一切从测起到底长发生那全案底算大总账时直戳那全包圆 All requests 的门看总收。
翻实大场摸爬过那真招来验看你的流水底线动作真功夫(Testing workflows)
当你修修改改这线板之后开拨的大查走(Testing changes)
在拿新改出来的长线真把客官领进来上线之前你不得放把走水这来试演下:
- 先跑到兜底不开销不破大银水库那游乐空单局(playground - test mode)中试把空雷推两手验不跌 – 纯套这你们留置放定在里打备的测试原模小样例去拉这不至于拉胯死底。
- 调开刀把杀去那实下大场的生产连盘子(playground - production)来发试真练接跑 – 直指去连外面这家供需厂的真给叫来一局并拿它所应答出的这吐活看验其反馈真伪。
- 两头扯对日志拿前边那打出两册的游乐大帐去调阅分出比对拉(Check Request Logs) – 照着各门那牌档拨对过去你刚刚发测向去那方地门子进去看这两账出入。
- 起底细扒出那去投送门投去叫的信囊那看信引(Request bodies) – 点检看里边包裹你那些各配全料,特别重点看看大引的主阵眼(prompts),并查你所填设这些参准对位。
- 拆验所交大投寄收转那拿到接的回寄大答卷(Response bodies) – 收起手接那一段出吐来给接投回来的人工造句卷仔细深验其是否合格打这长应这没歪预制期。
- 紧扣这出定标构框(Structured output) – 如果用了这一道硬扣令来锁返,必点核对其没有发滑掉底出落跑到它定设在骨骼模框大大限外走跑废盘。
让这构骨大模死定落脚结构件无从脱套的大框(Structured outputs)
对你所画死那落回必须这守的大规型骨框设定(schema)你得里外两看两过眼地这去压大查真局:
- 打空这把测跑长线(Test mode) – 测保那假测试本样例数据也能完备服帖进你们配设的大骨架套框去不外破。
- 拿外来真实打回看落点拉实战里来跑演(Production playground) – 看那些外厂家给回出的实活,会不会也能乖顺就你拉好的框来给你全接塞进不跑崩。
- 点单开库去全明长实测验清底账拉出 – 去长盘单所有挂记留备标出底号,有没少残次漏有没什么不符设定那格。
- 拉出长头极怪偏门去刁钻打盘拉实看验(Test edge cases) – 把那些五花十门变生冷偏空投投给实战看看有会不会致在让没拉跑的直接把建好的架骨撞烂死挂报错。
挂靠扯长线带长挂在异步流水大带事件(Async workflows & Webhook)
当你去打长排单异步全带连带触发事件大后回的大阵长水线下时要查全:
- 扔进游乐沙盘里(Playground)去放一把连行过水这大动作走全通跑长流水单长发件趟。
- 点进入到其长挂线内时间走跑的长实轴去验打落:
- 查看你主线抛接过去给主阵挂的主调用那大请求这长头是否能过关没有死在这红雷线上。
- 再去寻摸找 webhook 派飞外送去交给你们家里接口这快递是不是完好安康投送并获回回条。
- 去验证你家那后台回拨来调(callback)真能响应在盘线上未丢音。
- 查内挂肚装里的那大实兜传交转单底(Analyze the payload) – 要不要去查这 Webhook 装过去那个包裹是不是全按规无差装内没少,接着那 callback 数据有没脱框能合。
- 长个心眼提防在空跑模拟里给那些系统虚报长表忽电(simulated indicators) – 在模拟内游乐这一区做着演调试场时,系统它是会给您虚拟弄假走回拨戏份的(以免卡全流程引向)。
防触雷最佳的把守盘行定盘这规(Best practices)
切不要让那探路线脏水去冲了线上你们大清水(Don't mix test and production data)
- 将那些日常拉连测挂调统往走测(test mode)这根单行管那推。
- 把由真操盘检用往跑拉手操练往真实游乐场(playground - production)来做战前提审定心丸。
- 调错找原因时时刻把手里端那过滤器拨打入对应那专管其分大不混拉大混账。
必务在上实拉生产大网前把这出清线验证透(Test before deployment)
- 将新变更全拉在 playground(游乐局)再行跑拉走单探全雷。
- 揭盘对明各项投单回馈表出缺不跑异相。
- 死锁结构化骨架(structured output)给全深查其严不跑无跌走形差相。
- 用上了异步事件请随一块过一遍那 Webhook 放镖送全包裹验证。
锁死认名唯一号(seed_batch ID)穿钩全找查全管(Use seed_batch IDs to track requests)
- 那系统每一出单都有一名号叫
channel_id给藏盖在签seed_batch里。 - 将它作为穿线引索把相关的请求、Webhook 递发和在那回调(callback)起一串拉包。
- 这 Channel IDs 就把长散落在外投这Webhook 和 callback 等能一把贯连不漏走单。
望下对望印板跨界比对复盘去查异(Compare across environments)
- 在上线真正接盘开活以后这走去那起,应把你做出演那先期数与实底进行对拉复查双对看。
- 保证其走在线长后的各项现态等完全一恰像出盘定画套样。
- 把些早发环境大偏差引致错外出那差在这就按早萌灭掉断大拉死去绝这除雷。
后续向导导航大往下探走
- 除障扫雷去翻排这死口表(Debugging) – 打灯长查明去这底错源死挂掉这联各门故障死雷。
- 审计合规对头全查出洗地不这混大底账(Compliance) – 清水长离大生产和假乱全造测试这中间两界分清留长表门独立清底线。
- 把控那开支门看拉成本耗花表(Cost Analytics) – 从大面上空看懂出实钱跟模拟不交钱掏这其中长里差出明落各款细这分析出表。
- 退至可观总大盘页门那去(Back to Observability) – 回归那引览主大页观的总结首这引。