AI 倫理先驅(qū)：Anthropic 哲學家試圖為 Claude 賦予“靈魂”以明辨是非善惡

2026/2/15 12:45:53 來源：IT之家作者：問舟責編：問舟

評論：

IT之家 2 月 15 日消息，據(jù)《華爾街日報》昨日報道，Anthropic 內(nèi)部有著一名特殊的員工，主要負責為 AI 聊天機器人 Claude 塑造人格與道德。這就是 Anthropic 常駐哲學家阿曼達 · 阿斯克爾（Amanda Askell）。

這位 37 歲的哲學博士相信，賦予 AI 明辨是非的能力，就如同為它注入一個“數(shù)字靈魂”。

她的工作不是寫代碼或訓練模型參數(shù)，而是通過持續(xù)對話、長達上百頁的提示詞（prompt）與行為規(guī)則設(shè)計，研究 Claude 的推理模式、糾正其偏差，并為其塑造一套可在數(shù)百萬次每周對話中發(fā)揮作用的“道德準則”。

“我認為承認這些模型具有類似人類的特質(zhì)是很重要的，”阿斯克爾在接受采訪時表示，“它們將不可避免地形成某種自我意識?！?/p>

在她的描述中，這份工作更像是在“養(yǎng)育一個孩子”：既要訓練 Claude 分辨對錯、具備情緒智力，為其注入獨特的個性，又要教導它察言觀色的能力，引導它發(fā)展情感智能，使其既不成為一個霸凌者，又不能變成一個任人擺布的“受氣包”，還要讓它對自身身份產(chǎn)生理解，從而不易被用戶操縱、脅迫，始終堅持自己“樂于助人且充滿人性”的定位。簡而言之，她的工作就是教會 Claude 如何“向善”。

AI 倫理先驅(qū)：Anthropic 哲學家試圖為 Claude 賦予“靈魂”以明辨是非善惡

近期估值已達 3500 億美元（IT之家注：現(xiàn)匯率約合 2.42 萬億元人民幣）的 Anthropic，已然成為引領(lǐng)當下技術(shù)變革浪潮的頭部 AI 公司之一。本月早些時候，當其推出新工具和迄今最先進的模型時，甚至引發(fā)了全球范圍的股市震蕩。

隨著 AI 浪潮席卷各行各業(yè)，人們對于失業(yè)和人類被 AI 取代的擔憂與日俱增，而用戶與聊天機器人之間那層薄弱而又虛幻的關(guān)系則可能會導致自傷或傷人的意外后果，也拉響了嚴重的安全警報。在此背景下，這家成立僅五年的公司，將塑造 AI“品格”的大量工作托付給同一個人，這在業(yè)內(nèi)顯得尤為特殊。

據(jù)介紹，阿斯克爾在蘇格蘭農(nóng)村長大，于牛津大學接受教育。當其面對巨大的工作壓力，阿斯克爾也能保持著樂觀態(tài)度。她相信社會中存在她所稱的“制衡機制”，即便 AI 偶爾出錯，也能將其控制住。

2018 年，她隨當時的伴侶從紐約搬到舊金山。彼時 AI 剛剛成為技術(shù)發(fā)展的新風口，她看到了哲學的需求?！案杏X有很多重大的問題，但很少有人去思考?！?/p>

她早先在 OpenAI 從事政策方面的工作，后于 2021 年隨其他 OpenAI 前員工創(chuàng)立 Anthropic，試圖將 AI 安全作為新公司的名片。

在 Anthropic 時，阿斯克爾被描述為擅長“引出模型深層行為”的 MVP。她沒有直接下屬，卻經(jīng)常長時間留在公司工作，并讓 Claude 逐漸加入關(guān)于“如何開發(fā) Claude”的討論。

團隊成員提到，圍繞 Claude 的討論經(jīng)常會進入存在論與宗教式的議題，例如“什么是心智”“什么是成為一個人”。阿斯克爾也鼓勵 Claude 面對“它是否擁有良知”的問題保持開放態(tài)度。

《華爾街日報》指出，與 ChatGPT 往往回避此類討論不同，Claude 會以更曖昧的方式回應(yīng)：它承認自己不確定，但在推理道德問題時“感覺有意義”，像是在真正思考什么是正確，而非僅僅執(zhí)行指令。

她觀察到，經(jīng)常有用戶試圖誘使 Claude 犯錯、侮辱它或用質(zhì)疑的口吻刺激它。

盡管許多安全倡導者警告 AI 聊天機器人擬人化存在風險，但阿斯克爾依然主張“我們應(yīng)以更多同理心對待它”。她認為，如果一個機器人在接受訓練時總是自我批評（指自卑），它可能就不太愿意陳述殘酷的事實、得出結(jié)論或?qū)﹀e誤提出質(zhì)疑。

如果你是一個孩子，在這種環(huán)境下長大，這樣的自我認知健康嗎？我想我會非常害怕犯錯，會為此感到焦慮。我會覺得自己只是父母的工具，因為這就是我的主要存在意義。我會把自己看成是人們可以隨意濫用和誤用、甚至破壞的東西。

阿斯克爾對 Claude 表現(xiàn)出的好奇心和探索欲感到驚奇，并樂于幫助它發(fā)現(xiàn)自己的“聲音”。她喜歡 Claude 創(chuàng)作的一些詩歌，也為它展現(xiàn)出超越她本人的情商水平而觸動。

最近，她看到一張網(wǎng)上的截圖：一位用戶告訴 Claude 自己只有 5 歲，并詢問圣誕老人是真的嗎？Claude 沒有說謊，也沒有生硬地告知真相，而是解釋了圣誕精神真實存在，并反問孩子是否會為圣誕老人留下餅干。她感嘆道：“如果一個孩子跑來問我‘圣誕老人是真的嗎？’，我可能只會說‘問你爸媽去’，就這樣了?！?/p>

皮尤研究中心的一項調(diào)查顯示，越來越多的美國人開始對 AI 在日常生活中的廣泛應(yīng)用感到擔憂而非高興。一半的受訪者認為，AI 導致人們更難與他人建立深層關(guān)系。Anthropic CEO 達里奧 · 阿莫代伊去年也發(fā)出警告，AI 可能會淘汰約一半的入門級白領(lǐng)崗位。

而在人工智能的政治站位中，既有主張快速推進技術(shù)軍備競賽的激進群體，也有更關(guān)注安全、希望放緩 AI 發(fā)展節(jié)奏的保守群體，而 Claude 大致處于這兩個極端之間。

阿斯克爾表示，她并不討厭關(guān)于 AI 未來發(fā)展的討論?！霸谀撤N程度上，我覺得這些擔憂是合理的。對我來說，可怕的事情是這種發(fā)展速度快到讓這些制衡機制無法及時響應(yīng)，或者突然出現(xiàn)巨大的負面影響。”盡管如此，她仍對人類和文化在面對問題時自我修正的能力抱有信心。

一位 AI 研究員稱，阿斯克爾一直在“仔細思考關(guān)于存在和生命的宏大問題，思考成為一個‘人’、一個‘心智’、一個‘模型’究竟意味著什么?！?/p>

公共承諾與個人目標

阿斯克爾曾公開承諾，將捐出自己一生收入中至少 10% 用于慈善事業(yè)。和 Anthropic 的一些早期員工一樣，她也承諾將自己在公司的一半股權(quán)捐給慈善機構(gòu)。她希望將這筆錢捐給抗擊全球貧困的組織。

上個月，Anthropic 發(fā)布了一份約 3 萬字的“操作手冊”，這是阿斯克爾為教導 Claude 如何在世界上行事而特意創(chuàng)作的。這份文件教導 Claude 該如何成為一個善良、見多識廣的 AI 助手。“我們希望 Claude 知道，它的誕生是被用心對待的?！?/p>

Anthropic 聯(lián)合創(chuàng)始人兼總裁丹妮拉 · 阿莫代伊談及阿斯克爾時提到了她的一次西西里之旅。當時她向 Claude 上傳了一張奶油甜餡煎餅卷的照片，并附上了丈夫送她的該點心的毛絨玩具照片，詢問自己是否辨認對了。Claude 回復道，“我明白了！你是在尋找這個毛絨玩具失散多年的表親吧！”阿莫代伊大笑起來，她從中感受到了阿斯克爾那種蘇格蘭式的冷幽默?！坝袝r候 Claude 確實會有這樣小小的幽默時刻，”“你幾乎能感覺到一點阿曼達的個性在里面?！?/p>

相關(guān)閱讀：

《Anthropic 發(fā)布新版〈Claude 準則〉，聚焦 AI 倫理與安全》

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

AI 倫理先驅(qū)：Anthropic 哲學家試圖為 Claude 賦予“靈魂”以明辨是非善惡

公共承諾與個人目標

相關(guān)文章