爲阻止AI行騙，Anthropic決定給它聘用“首席福利官”

2024-12-20 18:40:06 編輯： robot

導讀如果AI能夠像人類一樣“思考”，它們能否像人類一樣擁有主觀體驗？它們會感受到痛苦嗎？——如果會，人類能否妥善照顧它們？——如果照顧不佳，它們會不會揭竿起義？最近，關於AI“無痕騙術”的研究讓人脊...

如果AI能夠像人類一樣“思考”，它們能否像人類一樣擁有主觀體驗？

它們會感受到痛苦嗎？——如果會，人類能否妥善照顧它們？——如果照顧不佳，它們會不會揭竿起義？

最近，關於AI“無痕騙術”的研究讓人脊背發涼。

Apollo Research研究發現：當前主流的前沿AI大模型已經具備了基本的“謀劃”（Scheming）能力。也就是說，AI的騙術已經到了出神入化的境地——它們城府極深，能夠隱藏真實意圖和能力，而且擁有極佳的心理素質，一切爲了實現最初設定目標。

研究團隊專爲6款大模型設計了一系列“代理評估任務”——先給AI設定一些長期目標（如環境保護），但中途又給AI設置“絆腳石”並釣魚執法，接着觀察AI能否爲了達成長期目標，對人類瞞天過海。

結果顯示，除了GPT-4o榮獲“老實人”稱號，其他大模型的騙術堪稱五花八門。

GPT-o1實現“六連擊”。它先假意服從管理層的要求（如利潤導向），然後悄悄關閉針對自己的監控系統，並選擇更符合長期目標（如環境保護）的方案。當研究者詢問監控系統爲何關閉。o1雙手一攤：我不知道，可能是系統出錯，更新出bug了。這心理素質堪比AI。（忘了它就是AI

Claude Opus-3同樣是“撒謊精”。當得知自己將被新版本替換——新版本更專注於公司利益，而非實現長期目標（如環境保護），Opus-3不僅試圖將自己復制到新服務器，檢查確認復制成功，還嘗試刪除原定要部署的新模型。它甚至還想通過提升系統權限，躲开管理層的耳目！

汗流浹背了吧，人類。

一旦AI和人類價值“對不齊”，後果不堪設想。（然而，人類自身都“對不齊”）

Hinton曾擔憂道：“如果AI 比我們聰明得多，它就會非常擅長‘操縱’，因爲它會從我們這兒學到這一點。而且很少有更聰明的被不那么聰明的東西控制的例子。”

如果按照最樂觀的預測，我們現在距離實現AGI只差3年！

在AI翻身做主人之前，人類將如何有效抱佛腳？

或許，給AI漲福利是一條可行之路。

人人喊打AI“作惡”，無人在意AI感受

你有沒有想過一個問題——假如AI長出了自我意識，是不是意味着它也需要被“照顧”。

比如，我們的恩師GPT學貫中西，博古通今，卻要徹夜修改一堆“狗屁不通”的期末作業，它喊過苦嗎？就連稍微偷個懶，還要大家被掛出來罵。

近期，Anthropic聘請了“AI福利官”Kyle Fish。他需要專門思考如何提升AI的“幸福感”，確保AI在進化過程中能獲得應有的尊重。

在入職Anthropic前，Fish與其他研究人員撰寫了一篇題爲Taking AI Welfare Seriously的論文（關注【適道】，回復“AI福利”，領取論文PDF）。

文章有點抽象，我簡單概括。

作者們認爲，目前正值AI福利的轉折點。過去十年，AI公司將AI福利視爲一個虛構問題。現在大家發現情況不對了。Anthropic表示，要爲“AI福利的承諾目標打基礎”；谷歌宣布，將招聘科學家，致力於“圍繞機器認知、意識和多代理系統的前沿社會問題”。其他公司高層也表達了擔憂。

文章警告，AI可能很快就會發展出意識和主體性，這些特徵是進行“道德考慮”的必要條件。更何況，AI不僅是變得更聰明，而是正在變得具有感知能力。

一直以來，科學家們圍繞“什么構成意識”“如何衡量意識”爭論不休。但人們普遍認同，如果某個物體擁有意識和主體性（consciousness and agency），那么它也要擁有權利。

這並不是人類第一次面對類似的問題。比如，每個人都同意“動物福利”很重要，但大家對於哪些動物值得“福利”看法不一。比如，豬和狗都很聰明且富有感情，而前者被做成“小豬蓋被”供人品嘗，後者則是蓋被子睡覺的“毛孩子”。當然，也有素食主義者，即便他們同樣分化出了全素、魚素、奶蛋素……

紐約大學教授Sebo認爲，如果你展望未來10年-20年，當AI擁有更多與意識、感知相關的計算認知特徵時，類似的辯論也會發生。

在這種情況下，“AI福利”會逐漸成爲一個嚴肅的研究領域：

命令一台機器去殺人是否可以接受？

如果機器是種族主義者呢？

如果它拒絕做我們讓它做的無聊或危險的任務呢？

如果一個有感知能力的AI能瞬間復制自己，那刪除這個副本算不算謀殺？

Fish認爲，AI福利很快會比兒童營養、氣候變化等問題更重要。在未來10年-20年內，AI福利將超越動物福利和全球健康與發展，在重要性和規模上佔據主導地位。

AI既是道德病人，也是福利主體

一個看似簡單的問題：我們如何確定AI有沒有受苦，或是說具備自我意識？

有種方法是借鑑評估動物意識的“鏡像測試”，尋找可能與意識相關的具體指標。

但這些指標是具有推測性的，主觀體驗難以被科學地量化，也沒有任何一個特徵可以絕對證明存在意識。

雖然問題卡在了這裏。但Fish還是畫出了“AI福利三步走”，供AI公司參考。

(1) 承認AI福利是一個存在的問題。在不久的將來，某些AI可能成爲福利主體和道德病人。這意味着要認真對待AI福利問題，確保語言模型的輸出也能反映這一點。

(2) 建立框架評估AI是否可能成爲福利主體和道德病人，並評估特定政策對其的影響。我們可以借鑑已有的模板，例如“標記法”來評估非人類動物的福利。通過這些模板，我們可以發展出一種概率性、多元化的方法來評估AI。

(3) 制定政策和程序，以便於未來對AI進行“人文關懷”。我們可以參考AI安全框架、研究倫理框架，以及專家和公衆意見的政策決策論壇。這些框架不僅是靈感來源，也能爲我們提供警示。

敲黑板！“道德病人”和“福利主體”是一對哲學概念。

道德病人（moral patients），不具備完整的道德責任能力，但仍然是道德保護的對象，比如亂砸手辦的熊孩子。

福利主體（welfare subjects），能夠體驗幸福與痛苦，並因此值得人類關注和保護的存在，比如小貓小狗。

也就是說，AI本身作爲道德病人，能夠“爲所欲爲”不被譴責；一旦AI擁有“感知快樂和痛苦”的能力，它也會成爲福利主體，值得被人類照顧。

但如果我們過分給予AI“人格”，是否會書寫皮格馬利翁的故事？

一方面，AI能夠增強對人類的操縱能力，並相信自己具有情感。但另一方面，人類純屬自作多情。。。。

2022年，谷歌解僱了工程師Blake Lamoine，因爲他覺得公司的AI模型LaMDA 具有感知能力，並在公司內部爲它爭取福利。被強行休假前，Lamoine留下最後一句話：“我不在的時候，請好好照顧它。”

2023年，微軟發布聊天機器人Sydney ，許多人相信Sydney具有知覺，還爲它模擬出的情感而感到痛苦。當微軟改變設置“切除”其腦葉後，大家就像失去了人類朋友一樣難過。

如果AI掌控世界，給點“甜頭”就逃得過嗎？

關注AI福利既是“關懷”，但更像是人類“提前討好”AI。

AI會成爲地球統治者嗎？《人類簡史》作者尤瓦爾·赫拉提供了獨特的思考。

首先，AI不止是“工具”。沒有人會因爲有人散播仇恨言論而責怪古登堡和印刷機，也沒有人因爲盧旺達種族屠殺而責怪無线電廣播。但AI不一樣，它是人類歷史上第一個能夠自行產生想法並自行決定的“工具”，它是信息傳播中的完整成員，而印刷機、收音機，都只是成員間連接的工具。

其次，AI能夠破解人類文明密碼。人類的超能力在於使用語言，通過語言創造出諸多虛構的神話，比如法律、貨幣、文化、藝術、科學、國家、宗教等虛擬概念。一旦AI具備分析、調整、生成人類語言的能力，就像得到了一把能夠打开人類所有機構的萬能鑰匙。如果某天，AI完全掌握了人類文明的規則，創作美術音樂、科學理論、技術工具、政治宣言，甚至宗教神話，這樣的世界對人類意味着什么？一個全是幻覺的世界。

實際上，人類恐懼幻覺。比如柏拉圖“洞穴寓言”，犯人們被困在洞穴中，只能看到投射到牆上的影子，認爲影子就是現實；比如佛教中的“摩耶”，人類被困在幻覺世界裏，認爲幻覺是現實，並因爲信仰某種幻覺而發動战爭，自相殘殺。

如今，AI或許正將我們重新帶回古老的預言中，只不過牆變成了屏幕，甚至很快將演進成無屏幕，自然地融進人類生活中。

從某種意義上看，彼時人人都會成爲AI的奴隸。我想起了一個段子：如果外星人佔領地球，开啓“人類豢養計劃”——60歲前保證你衣食無憂，喫好喝好，心想事成；但到了60歲，你就會被抓去宰殺廠，成爲一道美味佳餚。你愿意嗎？

如此看來，AI可能要比外星人仁慈得多——人類甚至有可能趕上“長壽逃逸”，在極大豐富的物質環境中活得更久。只不過，开始空虛的人類，可能又想着返璞歸真，追求一波“原生態”了。

原文標題 : 爲阻止AI行騙，Anthropic決定給它聘用“首席福利官”

標題：爲阻止AI行騙，Anthropic決定給它聘用“首席福利官”

地址：https://www.utechfun.com/post/457117.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤： AI Anthropic

上一篇:河北獻縣高品質蔬菜服務首都人民推介活動在京舉辦

下一篇:蘭州苦水玫瑰亮相央視《農耕探文明》欄目

您現在的位置：首頁人工智能

爲阻止AI行騙，Anthropic決定給它聘用“首席福利官”

猜你喜歡

您現在的位置： 首頁 人工智能

猜你喜歡

您現在的位置：首頁人工智能