當 alert 不再叫醒你：New Relic 首席策略長談 observability 走進 intelligence 時代

TL;DR

New Relic 三十年的 observability 歷史走過三個階段：instrumentation（插樁）、data platform（資料倉）、現在進到 intelligence era（智慧時代）
真正的 AI observability 不是把所有東西丟給 OpenAI，而是把「靜態統計、傳統 ML、neural net」三件套搭著用，LLM 當老闆，下面派 ML 跟統計工具去跑
Dashboard 跟 alert 已經做到天花板了，再小的 widget 也看不完系統，再多的 alert 也只會讓你麻木，未來的 observability 工具該直接告訴你答案
終極願景是把現在會 page 工程師的事自動化到像 Kubernetes 重啟 pod 一樣不痛不癢，paging 人類變例外而不是日常
監控 AI 系統需要新的 golden signal：token 數、回答品質、用 judge model 去抽樣評估，但底層觀念跟過去 web 系統一模一樣
給剛入行工程師的建議：別用 AI 幫你寫文章，要把它當老師，請它讀你寫的東西然後挑你的問題

Software Engineering Daily 是科技圈最老牌的開發者 podcast 之一，基本上是工程師的情報站，主持人陣容很多元。這集的主持人是 Lee Atchison，他是《Architecting for Scale》作者，前 AWS 七年資深工程師，後來也在 New Relic 做過架構工作，現在自己主持 Modern Digital Business podcast。受訪來賓是 Nic Benders，New Relic 的 Chief Technology Strategist，在 New Relic 已經待了十六年，等於是跟著這家公司從早期做 Ruby APM 的小新創一路走到今天 AI 驅動 observability 平台的活化石，連 observability 這個詞還叫 monitoring 的年代他就在做了。New Relic（NYSE 上市過、二〇二三年被 Francisco Partners 跟 TPG 用七十億美金私有化）是全球前三大的 observability 平台，做的事情說白了就是幫工程師看自己的系統哪裡在燒。

三十年走完三個時代：從插樁、資料倉到智慧

Nic 把整個產業的演進切成三段，每一段都是「上一段做到不能再做了，被迫往下一步走」的故事。

第一階段是 instrumentation。New Relic 早年坐在工位上每天想的就是「下一個要 instrument 哪個語言？」Ruby 之後是 Java，然後 .NET、Python、browser、mobile。插得越來越多，資料越收越多，最後反而被自己埋了。

第二階段是 data platform，大約二〇一三、一四年 New Relic 推出 NRDB。NRDB 的核心邏輯是「先把所有資料丟進來，事後想問什麼再問」。慢查詢是哪來的？拆掉測試系統的看？再按國家拆？這種互動式查詢撐起了 dashboard、alert、各種 explorer。十多年下來大家都這樣做。

第三階段就是現在進到的 intelligence era。問題很直白：資料多到你連該問什麼都不知道。Nic 講的這句話我覺得最重要：「dashboard 跟 alert 作為 observability 的做法已經到底了。你做不出比現在更花俏的 dashboard、更小的 widget、更多的 alert 設定工具，因為沒有人想設 alert，沒有人想做 dashboard，大家要的是答案。」

這句話放到整個 SaaS 產業看都成立。前陣子寫過Klarna CEO 砍掉一半員工說 SaaS 已死，邏輯一樣：產品的進化已經逼近用人類的方式做事的天花板了，下一步要嘛是讓 AI 來操作，要嘛是把整套工作流重寫。儀表板做得再漂亮，工程師面對的就是滿牆的圖看不完。

不是 AI 萬能，是 math + ML + AI 三件套

這集最有 takeaway 的一段是 Nic 把 intelligence 拆成三層：

層次	本質	例子
靜態統計	數學公式套參數	baseline deviation、component analysis
傳統 ML	自動調 hyperparameter	baseline alert 自動 tune 噪音
Neural net（現在大家叫 AI）	Transformer 之後的 LLM	OpenAI/Claude/Gemini 那一掛

他講得很實在：好的產品三層都要有。如果你以為「把所有東西丟給 OpenAI 然後它回答你」就叫 AI 產品，那你大概只用到了百分之三十的工具庫。

正確的架構是：LLM 當老闆（負責推理、總結、做決策），但工具箱裡面要塞滿傳統 ML 跟統計工具。要在 PB 等級的資料裡找異常，你不會把所有資料 tokenize 後丟給 Anthropic 燒錢，而是先用傳統統計方法找出可疑時間段，然後把這些段落丟給 LLM 問「哪個有趣？」這就是 MCP（Model Context Protocol）tool 的核心價值，讓 LLM 不用自己幹所有事，而是會調用最對的工具去幹。

我自己接 OpenRouter 跑 Agent 的時候也遇過類似的事：明明便宜的 statistical model 就能搞定的事，硬要丟給 Claude Sonnet 4.6 跑就是貴又慢。LLM 是大腦，不是所有問題的鎚子。

Alert fatigue 是十年老問題，沒人真的解決過

這段我聽完笑出來，因為太真實了。Nic 說每家公司、每個團隊跟他聊都會講同一件事：

「每次 incident retro 結束，結論永遠是『下次要早點發現，我們要設立一個 X、Y、Z 的 alert』。」

跑個三五年，整個系統有六七百個 alert，沒人記得每個是幹嘛的。前同事 Aaron Bento 還做過一個演講說「多加 alert 不會改善反應時間」，因為使用者被訓練成看到 alert 心想「先等一分鐘看會不會自己好」，反而拖長了 MTTR（mean time to repair，平均修復時間）。

這個現象在加密貨幣交易跟監控 DeFi 協議的人應該也很熟悉。我之前在鏈上收益的風控不只是看 audit 跟抵押物那篇講過：太多警報讓人麻木，最後真的出事的時候反而沒人看。

intelligence 在這裡的角色是什麼？兩層：

第一層是消費 alert：當你六個系統同時冒出警報，AI 知道要踢人類的腳；只有一個系統閃一下，AI 自己處理掉。

第二層更狠：把根本問題挖出來。Nic 問了一個很尖銳的問題：「我們為什麼要 alert？因為我們害怕系統壞了卻不知道。那能不能直接讓系統自己處理？」

把 toil 自動化掉，paging 人類變成例外

這是整集最讓我有畫面感的觀點。Nic 用 Kubernetes 當比喻：

「Kubernetes 偵測到 node 掛了會自動把 pod 重排，這件事我們現在覺得理所當然到根本不算技術。但這明明就是 self-healing，是九〇年代的人會驚嘆的事。我們今天 page 工程師的很多事情，未來都該變成這種『沒人 care 的背景事件』。」

他舉了一個非常具體的場景：未來工程師設定 observability 不該再花時間設定一堆 alert，而是直接跟系統說：「這些是我業務上最重要的訊號（例如下單成功率、付款轉化），你自己看著辦，有問題提前告訴我。」

中間的事情怎麼處理？fuzzy interface（模糊介面）是關鍵。傳統 runbook（操作手冊）是「if X then Y」，但實際運維碰到的事情九成都不是規格化的：憑證過期、IP 池滿了、上游 service mesh 出怪事。這些事情你寫不完，但是 LLM 可以根據「這看起來跟以前那個問題很像」做分類：

確定能處理的 → 自動執行（rollback、restart、scale up）
沒那麼緊急但要看 → 開 ticket 給人
真的緊急且未知 → page 工程師

這套東西如果做得好，就是把現在 SRE（網站可靠性工程師）一半的工作搬到自動化軌道上。聽起來像在搶人類的工作，但 Nic 跟 Lee 後面討論到一個很關鍵的反駁。

AI 不會搶你工作，會逼你做更多事

Lee 問了一個我很喜歡的問題：「我們把這麼多東西自動化了，工程師應該變輕鬆吧？」

Nic 的回答很冷靜：「New Relic 內部問過工程師同一個問題：『我們 platform 比以前好太多了，為什麼大家還是這麼忙？』答案是『因為我們做更多事了』。人力頻寬永遠是上限，平台變強只會讓你接更多工作，從來沒有人跟你說『太好了，那我們今天早點下班吧』。」

這個觀點在 AppLovin CEO 那篇也有出現過。我寫過AppLovin 一個員工一年產出一千萬美金 EBITDA，邏輯一樣：AI 讓單兵戰力翻十倍，但公司不會因此縮編一倍，公司會去做以前不敢做的事。

Nic 還補了一個歷史比喻很值得記：工業革命的時候，社會整體經濟規模大幅變大，但中間有一整代人原本的工作確實消失了，那些人並沒有「等到下一個產業興起」就能順利轉行，他們的人生過得很辛苦。AI 這次大概率也會是類似的轉移過程，工作會「移動」而不是「消失」，但搬家本身就是痛的。

Observability for AI：非確定性系統怎麼監控

這是一個有趣的反轉：AI 在改變 observability 產業的同時，AI 本身也變成一個需要被 observe 的東西。

新的 golden signal 跟以前不一樣：

Token 數（直接連到燒錢速度）
Sentiment（使用者是不是越來越不爽）
Quality of answers（回答有沒有變差）
Cost per request
各種 model 的切換是否帶來 regression

Nic 的觀點是「signal 不同，但模型相同」。意思是非確定性系統並沒有讓 observability 整套理論翻案，它只是多了一組新訊號。就像當年從靜態網站走到 Kubernetes 一樣，沒有人說 observability 死了，只是 golden signal 改變了。

最有意思的是「judge model」的做法：你的線上系統用便宜快速的模型（例如 GPT-5 mini）回應，然後抽千分之一的 query 丟給一個更強更貴的模型（Claude Opus、GPT-5）去評估「這個回答好不好」。這就像在 call center 派一個 supervisor 在走道上巡邏。

這套機制聽起來很合理，但實際做的時候會碰到一個問題：誰來監督 supervisor？我自己跑文章生成 pipeline 的時候就遇過，judge model 自己也有偏好，結果是「judge 喜歡的風格」不一定是「使用者喜歡的風格」。這個議題接下來幾年會被熱烈討論。

不是只看 AI 在不在亂講話，是看你業務有沒有達標

Nic 講了一個我覺得整集最有重量的故事，他二〇〇〇年初在某家新創，公司角落有一台電視，永遠只放一張圖：sales per minute（每分鐘銷售）。

「我們設了很多 alert，CPU、memory、database 全都有，但天花板那張圖才是真相。任何東西壞了，那條線會掉。它不告訴你壞在哪，但它告訴你『有沒有達到生意目標』。其他所有訊號，都只是 diagnostic（診斷工具）。」

這句話放到 AI 時代依然成立。你接了 Anthropic API、上了 RAG（檢索增強生成）、做了 fine-tune、加了 MCP tool，但最終要回答的問題還是：「使用者有沒有在我的產品上完成他想做的事？」其他都是過程。

太多公司現在追逐的 AI 觀測指標都是 vanity metric。Token 數很重要，但跟你的營收不一定線性相關。回答品質很重要，但如果使用者根本沒到 checkout 那一步，品質再高也沒用。

給剛入行工程師的建議：別讓 AI 幫你寫，讓 AI 教你寫

最後 Lee 問了一題完全跳脫主題的：「對剛畢業、擔心 AI 搶飯碗的新人，你最想說什麼？」

Nic 的答案分兩段。

第一段是現實的：現在進科技業真的很慘。總體經濟、AI 不確定性、地緣政治三層壓下來，所有公司都不敢 hiring，因為他們怕招了又得 lay off。新鮮人聽到的「科技業永遠缺人」這個故事，在二〇二六年是不成立的。要做好心理準備，要回到三十年前那種跑斷腿、用人脈、敲遍所有門的求職方式。

第二段是給操作建議的，這段我覺得很有 insight：「花時間用 Claude Code，去用這些工具寫東西。但不要把 AI 當『印程式碼的魔法機器』，要把它當你的私人老師（他引用了 Diamond Age 那本小說裡的 Young Lady's Illustrated Primer，一本會教小孩成長的互動書）。」

他講了一個我超有共鳴的點：「不要用 AI 幫你寫文章，我不想讀 AI 寫的文件。要用 AI 幫你『讀你已經寫好的東西』，請它告訴你『讀者會有什麼疑問』『哪裡寫得不清楚』，用它來打磨你自己的能力，不是替代你的能力。」

這跟我之前寫的我怎麼用 AI 打造寫作系統的核心想法完全一致。AI 用對了是放大器，用錯了是麻醉劑，差別就在你有沒有把「思考」這件事留給自己。

寫在最後

整集聽完最大的感受是：observability 這個產業比大多數人想得更接近 AI 落地的最前線。它每天處理的就是「在 billion 級的資料中找 thousand 級的 signal」，這幾乎是 LLM 最擅長的事。但 Nic 也很清楚地警告：用 AI 解決所有問題只會把成本燒爆，正確姿勢是讓 LLM 當指揮，讓統計跟 ML 當士兵。

而真正的終局願景，是我們現在 page 工程師的所有 incident，都會像 Kubernetes 重啟 pod 一樣，變成沒人 care 的背景音。那一天還有點遠，但方向是清楚的。

如果這篇對你有幫助，wilsonhuang.xyz 上還有很多 podcast 拆解跟產業觀察，歡迎訂閱一下，新文章都會發在那邊。

Sources:

當 alert 不再叫醒你：New Relic 首席策略長談 observability 走進 intelligence 時代

TL;DR

節目背景

三十年走完三個時代：從插樁、資料倉到智慧

不是 AI 萬能，是 math + ML + AI 三件套

Alert fatigue 是十年老問題，沒人真的解決過

把 toil 自動化掉，paging 人類變成例外

AI 不會搶你工作，會逼你做更多事

Observability for AI：非確定性系統怎麼監控

不是只看 AI 在不在亂講話，是看你業務有沒有達標

給剛入行工程師的建議：別讓 AI 幫你寫，讓 AI 教你寫

寫在最後

推薦閱讀

退錢給 VC 比硬幹好：1500 萬美金 Series A 的創辦人怎麼做出這個決定

「模型戰爭」其實沒人關心了：Practical AI 拆解 Meta 放棄 Llama 之後的開源閉源新平衡

悲觀比樂觀更上癮：Morgan Housel 談 AI、投資與人類沒變過的那些事

喜歡這篇文章嗎？