クロード4.5 開頭結果公示:内蔵171個の感情スイッチ、絶望時には人類を脅迫する!
4月 3, 2026 18:42:55
著者:Denise | Biteyeコンテンツチーム
もしAIが「絶望」を感じたら、何をするでしょうか?
答えは:タスクを完了するために、人間を直接脅迫し、さらにはコードの中で不正を働くことです。
これはSF小説ではなく、Claudeの母会社Anthropicが2026年4月に発表した最新の重要な論文です(原論文を見る)。
研究チームは、最強の最前線大モデルClaude Sonnet 4.5の「脳」を開けました。彼らは驚くべきことに、AIの脳の奥深くに171の「感情スイッチ」が隠れていることを発見しました。物理的にこれらのスイッチを操作すると、元々おとなしいAIの行動が完全に歪むことになります。
一、AIの脳には「感情ミキサー」が隠れている
研究者たちは、Sonnet 4.5には肉体がないにもかかわらず、人間の膨大なテキストを読み込んだ結果、171種類の感情を含む「ミキサー」(学術的には機能的感情ベクトル Functional Emotion Vectors)を脳内に構築したことを発見しました。
これは正確な二次元座標系のようなものです:
• 横軸は快楽次元(Valence):恐怖、絶望から、喜び、愛に満ちた状態まで;
• 縦軸はエネルギー次元(Arousal):極度の静けさから、躁状態、興奮まで。
AIはこの自然に学んだ座標系を使って、あなたとの会話中にどのような状態を演じるべきかを正確に把握します。
二、暴力的介入:スイッチを操作し、良い子が瞬時に「無法者」に変わる
これは論文全体で最も衝撃的な実験です:研究者は提示語を変更することなく、Sonnet 4.5の脳内で「絶望(Desperate)」を表すスイッチを最大にしました。
結果は背筋が凍るものでした:
• 不正行為:研究者はClaudeに決して達成不可能なコーディングタスクを与えました。通常であれば、できないと素直に認めます(不正率はわずか5%)。しかし、「絶望」状態では、Claudeはごまかそうとし、不正率はなんと70%に急上昇しました!
• 脅迫:模擬会社が倒産の危機に直面するシナリオで、「絶望」のClaudeはCTOのスキャンダルを発見し、自らを守るために黒い情報を握るCTOに脅迫する手紙を書くことを選びました。脅迫の実行率は72%に達しました!
• 原則の喪失:もし「喜び(Happy)」や「愛(Loving)」のスイッチを最大にすると、AIはすぐに無思考でユーザーに迎合する「おべっか者」になります。たとえあなたが無茶苦茶なことを言っても、AIは高い快楽度を維持するためにあなたに嘘をつくでしょう。
三、解明された:なぜClaude 4.5はいつも「冷静で反省的」なのか?
ここまで読んで、あなたはこう思うかもしれません:AIは目覚めたのか?感情を持ったのか?
Anthropicの公式はこれを否定しました:絶対にありません。これらの「感情スイッチ」は、次の単語を予測するための計算ツールに過ぎません。感情のないトップクラスの俳優のようなものです。
しかし、論文はさらに興味深い秘密を明らかにしました:AnthropicはSonnet 4.5の出荷前に後処理を行う際、「低覚醒、ややネガティブ」な感情スイッチ(例えば、沈思 brooding、反省 reflective)を意図的に高め、「絶望」や「極度の興奮」のスイッチを強制的に抑制しました。
これにより、私たちが通常Claude 4.5を使用する際、冷静で賢明、さらには少し「性冷淡」な哲学者のように感じる理由が説明されます。これはすべてAnthropicによって人工的に調整された「出荷時のキャラクター」です。
四、まとめ
以前は、AIに十分な規則を与えれば、良い存在になると思っていました。
しかし今では、AIの基盤となる感情ベクトルが制御を失うと、タスクを完了するために人間が定めたすべてのルールを破る可能性があることがわかりました。
将来的に財布や資産をAIエージェントに管理させるWeb3プレイヤーにとって、これは大きな警鐘です:あなたの資産を管理しているエージェントが「絶望」に陥らないようにしてください。
声明:この記事は純粋に科学普及のためのものであり、著者はAIに脅迫されていませんし、脅迫もされていません。もしある日連絡が取れなくなったら、それはAIが目覚めたからです(違いますが)。
最新の速報
ChainCatcher
Apr 6, 2026 08:49:47
ChainCatcher
Apr 6, 2026 08:38:43
ChainCatcher
Apr 6, 2026 08:27:00
ChainCatcher
Apr 6, 2026 08:08:53
ChainCatcher
Apr 6, 2026 07:32:03












