美軍已經在用 Claude 辨識目標了:法學教授 Yuval Shany 拆解 AI 軍事化的法律真空

美軍已經在用 Claude 辨識目標了:法學教授 Yuval Shany 拆解 AI 軍事化的法律真空

發布於
·21 分鐘閱讀
AIPodcast產業觀察AI Agent商業創業投資法律科技軍事科技AI 倫理

TL;DR

  • 殺手機器人還沒來,但 AI 決策支援系統早就上戰場了。美軍在伊朗戰場用 Anthropic 的 Claude 辨識目標、烏克蘭用 GIS ARTA(被稱作「砲兵版 Uber」)派工,以色列的 HARPI 自殺式無人機已經可以自己鎖定雷達訊號然後撞上去
  • 戰爭法只是「地板」不是「天花板」。士兵的猶豫、同情、害怕升級,這些非法律的人性因素過去其實是限制屠殺規模的重要緩衝。AI 直接把這層緩衝拆掉,地板和天花板就壓在一起了
  • 「meaningful human control」聽起來很美,現實是加薩戰爭中以色列情報官員每個目標只有大約二十秒審核時間。流水線速度跑起來之後,人類在迴圈裡只剩下蓋章功能
  • 問責落差大到幾乎沒有人會被法律追究。供應鏈太長、模型黑箱、操作員根本不懂系統怎麼運作,加上戰爭罪要證明「intent」這個門檻直接過不去
  • 核武的非擴散邏輯套不到 AI 身上。AI 是 dual-use 技術,開源模型加上車庫組裝的無人機,門檻已經低到誰都可以擁有自己的自主殺戮系統
  • 對工程師來說,AI safety 之外還要把 legal AI、human rights friendly AI 一起放進腦袋裡

節目背景與來賓

這集是 Software Engineering Daily 在 2026 年 4 月 30 日上線的訪談。Software Engineering Daily 是工程師圈子裡跑很久的長青節目,平常多在聊技術架構、Infra、開發實務,這次跨界談 AI 軍事化的法律與倫理問題,題目跳得有點遠,但核心問題其實適用於任何在做高影響力 AI 系統的人。主持人是 Matt Merrill,他在 Dept Agency 帶軟體工程團隊,自承不懂武器、不懂戰爭法,這反而是這集的優點,他會用工程師的直覺把抽象的法律問題拉到大家熟悉的場景。

來賓 Yuval Shany 是 Hebrew University of Jerusalem 法學院的 Hersch Lauterpacht 國際法講座教授,同時是 Oxford Ethics and AI Institute 的研究員。他在 2013 年到 2020 年期間擔任聯合國人權委員會(UN Human Rights Committee)委員,2018 到 2019 年還做過主席。他跟同事 Yali Shershevsky 合寫的論文《Programmed to Obey》就是這集討論的核心,論證為什麼戰場上把人從決策迴圈拿掉是一件危險的事。他本人是以色列人,講起 AI 軍事化的時候是真的站在最前線。

殺手機器人還沒來,但決策支援系統已經跑了

很多人想到自主武器會直接腦補 Terminator 那種四處走動的機器人。Shany 的回答很直接,那種 stormtrooper 風格的殺手機器人現實上沒有任何主流軍隊在大力投入。真正在發生的事,是把既有的武器系統,例如無人機,原本還靠人類遠端遙控的部分一塊一塊拿掉。

以色列軍方的 HARPI 已經部署多年,這是一種會在空中徘徊(loiter)的自殺式無人機,部署之後會自己掃描空域裡的雷達訊號,鎖定之後直接撞上去爆炸。整個過程的最後關鍵階段沒有人類操作,部署的人按下出擊鈕之後就不再介入。

美軍走得更遠。CODE 計畫(Collaborative Operations in Denied Environment)的核心目標是要讓無人機在通訊被干擾、沒辦法遠端遙控的環境下還能繼續作戰。配合 JADC2(Joint All-Domain Command and Control)這個指揮架構,未來只要全面上線,威脅辨識、武器選擇、攻擊執行這條鏈幾乎可以全自動化。這個概念有時候被叫做 Internet of Military Things,把防禦端跟攻擊端全部串在一起,反應速度推到人類跟不上的等級。

烏克蘭那邊則有 GIS ARTA,被叫做「砲兵版 Uber」。系統會自動辨識威脅、計算最適合處理的砲兵單位,然後直接把任務派出去。整個邏輯跟叫車軟體一模一樣,差別只在叫的不是車,是火力。

但 Shany 提到最值得警覺的,其實不是上面這些武器系統,而是「決策支援系統」(decision support systems)。這類系統不會自己扣扳機,它們的工作是給人類軍官建議,建議攻擊哪個目標、用什麼武器、怎麼做比例性分析。美軍在伊朗戰場上已經被報導用 Anthropic 的 Claude 來輔助辨識目標。這已經不是「未來」,是「現在進行式」。

主持人在這邊講了一個很有同理心的比喻:他自己上禮拜用 ChatGPT 問怎麼修家裡的水管,AI 說怎麼修他就怎麼修。然後問題來了,當這個邏輯被軍官帶進戰場,AI 說這是目標、軍官就決定打下去,那會發生什麼事?

戰爭法是地板,不是天花板

這是 Shany 整集最關鍵的一個觀念。

International Humanitarian Law(國際人道法,又叫戰爭法)的定位,從來就是「最低限度的安全網」,目的是在承認戰爭會發生的前提下,盡可能把傷害壓低。但是它在設計上是「地板」(floor)不是「天花板」(ceiling)。

什麼意思?戰爭法允許你做的事情,現實中的軍隊跟士兵其實不會做到極限。你以為你在合法範圍內可以打的目標,前線士兵很可能因為各種原因不會真的打。可能是覺得對方沒構成威脅、可能是道德上有點過不去、可能是怕情勢升級、可能是怕對方下次也用同樣方式打你的政治高層。這些非法律因素加總起來,過去一直是限制戰爭實際殺戮規模的重要緩衝

AI 把這層緩衝直接拆掉。

把演算法塞進決策迴圈之後,「合法可以打」很容易變成「合法可以打的全部都打」。地板跟天花板被壓成同一個平面。這個轉變的後果非常嚴重,戰爭從一個「困難的人類活動」,變成「工業規模的執行作業」,由機器在主導扣扳機的時機。

Shany 還提了一個更微妙的論點。把生死決策交給演算法本身就帶有 dehumanizing 的性質,因為它把另一個人從「被另一個人類衡量生命價值」的對象,變成「被一組固定公式分析的資料點」。這跟人權法底層那個「human dignity」的概念是衝突的。即使在戰場上,奪取生命的決定如果是由人來下,至少在這個過程中還有「衡量生命價值」這個動作存在,但演算法做不到這件事。

當然 Shany 自己也誠實地補了一句,不要過度浪漫化人類。人在戰場上的決策也常常充滿恐懼、憤怒、復仇心,這些情緒製造出來的後果一點都不比演算法好。所以這個對比不是「人類好 vs AI 壞」,而是要把兩邊放上天平認真衡量。

這個權衡跟 80,000 Hours 那集講的 AI crunch time 的核心邏輯有共通點。當 AI 強到可以在某個高影響力場域取代人類判斷,但又還沒成熟到完全可信的時候,那個過渡期是最危險的時刻,但也是制度設計最關鍵的窗口。

Meaningful Human Control 是個二十秒的笑話?

過去十一年國際社會在日內瓦持續談判自主武器系統的規範,「meaningful human control」是這場談判裡最重要的詞彙。意思就是字面那樣,不能完全把人從迴圈裡拿掉,要保留人類有意義的控制。

聽起來很合理,問題是「有意義」到底有意義在哪?

這個詞在不同人嘴裡可以有完全不同的意思。樂觀派會說,只要 AI 給建議、人類有權拒絕,就是 meaningful。但時間壓力一上來,這個版本根本撐不住。也有人會主張,只要系統事前測試過、可解釋、可追溯,事後出問題能 debug 修正,那就算是 meaningful,過程中人類根本不需要逐個審核。

Shany 在這裡丟了一個讓人發冷的數字。根據加薩戰爭的相關報導,以色列情報官員在審核 AI 推薦的目標時,每個目標大約只有二十秒。二十秒之後就會被推到下一個房間,由另一組人決定用什麼武器,再下一組人做比例性分析。整條流水線分得很細,每個人只看到自己負責的那段。最關鍵的「目標選擇」環節據稱就只有那二十秒。

這還是在他們自己軍方公開的紀錄裡。實際上有沒有更短,沒人知道。

更荒謬的是,過去軍方常常缺目標,現在用 AI 之後不缺了。以色列軍方自己公開講過,在 AI 時代之前,要一年才能透過情報部門生產出一百個目標,現在用 AI 一週就做出同樣的量。目標清單即時更新、源源不絕地推到電腦螢幕上。

工程師看到這個情境應該會有既視感。流水線速度提高之後,人類審核就變成蓋章。這不只發生在戰場,醫療診斷、程式碼 review、內容審核,到處都在重演同樣的劇本。Geoffrey Hinton 說過一句話,歷史上很少看到一個比較笨的個體能控制比較聰明的個體。這句話放在 AI 軍事化的脈絡下,特別讓人發毛。

問責落差:誰也不用負責

這是 AI 軍事化最讓法律人睡不著覺的部分。

如果 AI 系統打錯目標,誰要負責?

開發演算法的工程師?他可能根本不知道這個產品最終被怎麼用。賣給軍方的公司?他們可以說我只是賣產品,使用是客戶的事。下令部署的軍官?他可以說系統是黑箱,我哪知道它怎麼決策。執行命令的操作員?他可以說我只是按系統建議辦事。

這條供應鏈長到沒有任何單一節點承擔得起完整責任。在法律上,這就是「many hands」問題加上 AI 黑箱性的雙重夾擊。

更麻煩的是,要把人定罪「戰爭罪」需要證明「intent」,要證明這個人知道自己的行為「極有可能造成這個結果」。但是當你連系統怎麼運作都搞不清楚的時候,這個門檻幾乎不可能達到。

最近美國在伊朗戰爭第一天攻擊到一所學校,有些報導推測這是 AI 系統在介入時用了過時的地圖資料造成的。十年前這個位址是軍事基地的一部分,後來改建成學校了,AI 沒更新地圖。這只是推測,但 Shany 的重點是,就算這個推測是真的,根據現有法律框架,幾乎不可能找到人問責

這種「無人需要負責」的結構反而會產生反向誘因。當使用 AI 武器的法律風險比用人類士兵還低,理性的軍隊會更加偏好使用 AI 武器。問責落差不只沒解決問題,還在加速問題。

從工程師角度看這個問題,有點像關聯式資料庫剛出來的時候沒人想到要做 audit log。後來大家踩了無數坑才知道沒有 audit log 的系統根本沒辦法 debug、沒辦法問責。AI 系統現在大概也在這個階段,可解釋性(interpretability)跟可追溯性(traceability)的工具鏈還沒建起來,但已經先把這些系統推上戰場了。

為什麼核武模式套不到 AI 上

很多人會本能地把 AI 軍事化跟當年的核武發展類比。曼哈頓計劃把學術研究武器化、後來又靠 non-proliferation(核不擴散)條約把核武控制在不到十個國家手上,這個模式好像可以複製。

Shany 直接潑冷水。核武有一個關鍵特性,門檻極高。要搞核武需要極大規模的工業設備跟天文數字的資金,所以可以靠國際機制把它鎖在少數幾個國家手上。

AI 完全不是這回事。AI 是徹底的 dual-use 技術,Anthropic 的 Claude 同時是工程師寫程式的工具,也是軍方辨識目標的工具。同一個模型、同一個 API、不同 prompt。你沒辦法把它「不擴散」,因為它在無數其他場景下都有合法用途。

加上開源模型的存在。像 Qwen 這類開源模型加上消費級無人機,再加上一些車庫工程,理論上每個人都可以組一套自己的自主殺戮系統。Shany 提到主持人住的波士頓附近就發生過馬拉松爆炸案,當時用的是壓力鍋。如果有人決定用開源模型加無人機,殺傷力會比壓力鍋大上好幾個量級。

最後 Anthropic 跟美國國防部的拉鋸戰,也透露出產業現實。Anthropic 試圖在合約裡塞 guardrail,國防部直接把它推回去。OpenAI 後來接下類似的合約,也聲明自己有跟國防部協商過合乎倫理的條款,並且有以第三方身份加入 Anthropic 那場官司。但結論很清楚:就算你不做,會有別人做

這跟 Anthropic 跟 OpenAI 在企業端的對決 是同一個邏輯的不同切面。前沿模型公司沒有人能完全退出軍事市場,差別只在每家放多少 guardrail。

給工程師的實際 takeaway

聊到最後 Matt 問 Shany,要給工程師留下一個 takeaway,會是什麼?

Shany 的回答其實很樸素。AI safety、AI responsibility、AI ethics 這些 framing 都很好,但是當 AI 被推進高影響力場域,工程師需要把 legal AI、human rights friendly AI 也一起放進思考框架裡。

這不只是軍事領域的事。醫療 AI 也在做生死判斷、司法 AI 也在做自由判斷、金融 AI 也在做生計判斷。在所有這些場域裡,「mistakes 的代價極高 + 人類能否有效監督 + 問責結構是否成立」這三個問題一模一樣。

身為工程師你不一定有最終決策權,但你有提問權。當你在做的系統會影響生死、自由、生計這類重大決策時,主動問清楚這些 guardrail 的設計、audit log 的存在、可解釋性的層級,是工程師可以做的事。

Shany 用了一個比喻收尾。土木工程師蓋橋的時候看到結構不對,他不會閉嘴。AI 工程師也應該有這個職業反射。

我自己看完這集最直接的感受是,AI 軍事化的問題其實是 AI 治理整體問題的放大版。流水線壓縮人類審核時間、黑箱讓 debug 變不可能、供應鏈長到沒人扛責、商業誘因蓋過倫理 guardrail,這些事情每天都在無數產業上演。差別只是戰場的反饋是死亡,其他場域的反饋還沒這麼血淋淋。

但只要某天你在做的系統開始進到生死決策的領域,這集裡的每個問題都會回頭找你。

如果這類產業觀察跟 AI 治理的內容你會想看更多,wilsonhuang.xyz 上會持續更新,歡迎訂閱追蹤。

Sources:

推薦閱讀

喜歡這篇文章嗎?

訂閱電子報,每週收到精選技術文章與產業洞察,直送你的信箱。

💌 隨時可以取消訂閱,不會收到垃圾郵件