2026年4月、AIの世界でちょっとした騒ぎが起きた。

VentureBeatThe RegisterFortuneが相次いでClaude Opus 4.6の「性能低下」を報じた。Reddit、X、GitHub、Hacker Newsでは「nerfされた」「もう使えない」の声が連日続いている。あるユーザーは6,852件のセッションデータを添えて性能の退行を指摘した。

一方で、LMSYSのChatbot Arenaでは、そのOpus 4.6が2026年4月時点でも総合1位を維持していた。

ベンチマーク1位のAIが「劣化した」と言われている。どちらかが間違っているのか、それとも何か別のことが起きているのか。

僕はCursorでClaude CodeとOpenAIのCodexを切り替えながら使っている。正直に書くと、性能低下を感じていない。Codexも試した上で、結局Claude Codeに戻っている。でもSNSを開くと景色が違う。

気になったので、実際に何が起きたのかを時系列で追ってみた。

2月から4月に何が起きたか

2月5日、Opus 4.6がリリースされた。アダプティブシンキングという新機能がデフォルトで有効になっている。ここまでは普通のアップデートに見える。

変化が起きたのは、その数週間後だった。

3月3日、Anthropicはデフォルトの推論努力を「高」から「中」に下げた。ユーザーからの「トークン消費が多すぎる」というフィードバックに応えた変更だった。3月8日には思考内容の表示が要約版に切り替わった。

ここで1つ、立ち止まる必要がある。

effort設定の変更は、モデルの重み(つまりAIの「頭脳」そのもの)には触っていない。変わったのは、どれだけ深く考えるかの初期設定だ。これは「頭が悪くなった」のとは違う。「考える時間を短くされた」に近い。

ただ、使っている側からすれば、区別がつかない。出力が浅くなったら、それは「落ちた」と感じる。

4月に入ると、話が加速した。

AMDのAI戦略ディレクター、Stella LaurenzoがGitHub issue #42796を投稿した。6,852件のClaude Codeセッション、234,760件のツール呼び出しを分析した結果だった。編集前にファイルを読む回数が6.6回から2.0回に減った。読まずに編集する割合が6.2%から33.7%に跳ね上がった。ユーザーが介入する回数は1,167%増加した。

これは説得力のあるデータだった。「バイブスではなく数字で示した」ことが、それまでの不満とは質が違った。

ところが、ほぼ同じ時期に別の「証拠」も出てきた。BridgeMind AIという会社が、自社のベンチマーク「BridgeBench」でOpus 4.6は「nerfされた」と主張した。スコアが83.3%から68.3%に落ちたという。

この2つは、見た目は似ている。どちらも数字を出している。どちらも「落ちた」と言っている。

でも中身を見ると、全く違うものだった。

BridgeBenchの方法論には重大な問題があった。比較対象のタスク数が違う(旧版6タスク vs 新版30タスク)。重複するタスクだけで比べると、スコアは85.4%→87.6%でほぼ変わっていない。にもかかわらず、「98%のハルシネーション増加」という数字がRedditとXで拡散した。

それは1つの問題なのか

ここまで追ってみて、気づいたことがある。

「Claudeが落ちた」という一言の下に、少なくとも4つの異なる出来事が混ざっている。

1つ目は、effort設定の変更。Anthropicが意図的に行った製品設計の変更で、モデルの品質低下ではない。

2つ目は、インフラのバグ。Anthropicは2025年9月に公式ポストモーテムを出している。ルーティングエラーでリクエストの16%が誤ったサーバーへ送られたり、コンパイラのバグで確率最高のトークンが選択肢から脱落したりしていた。

3つ目は、コンテキスト腐敗。Chroma社の研究で、入力が長くなるほどAIの性能が段階的に落ちることが確認されている。長時間のコーディングセッションでは、この影響が蓄積する。

4つ目は、認知バイアス。期待値の上昇、ピーク・エンド法則、コミュニティ増幅——使い慣れるほど基準が上がり、過去の最高の出力を「普通」だと記憶する。

この4つは、原因も対処法も違う。effort設定なら自分でパラメータを指定すれば回避できる。インフラバグならAnthropicが直すしかない。コンテキスト腐敗ならセッションの設計で軽減できる。認知バイアスなら、自分の基準を疑う必要がある。

なのに、全部が「落ちた」の一語に入っている。

言葉がフィルターになるとき

ここが今回、一番引っかかったところだ。

4つの異なる現象が1つの言葉に圧縮されること自体は、日常的に起きている。「あの店の味が落ちた」と言うとき、食材が変わったのか、自分の舌が慣れたのか、たまたま調子が悪い日だったのか、区別しないで言う。

ただ、AIの場合、圧縮された言葉がもう1つ別のことをしていた。

BridgeBenchの方法論がボロボロだったのに拡散した理由を調べていて、ある心理学の研究に行き当たった。Ziva Kundaが1990年に発表した「動機づけられた推論」という概念だ。被引用数21,000を超える基盤論文で、要点はこうだ。

人は「こうであってほしい」という方向が先にあるとき、その方向に合う証拠には甘くなり、合わない証拠には厳しくなる。ただし、完全に自由に歪められるわけではなくて、何らかの「証拠っぽいもの」が必要になる。

BridgeBenchの数字は、まさにこの「証拠っぽいもの」として機能した。83.3%→68.3%という数字があり、ベンチマーク名があり、組織名がある。方法論の中身を検証する前に、「やっぱりそうだった」という確信が先に走った。

一方で、LMSYSのChatbot ArenaではOpus 4.6が2026年4月時点でも総合1位を維持していた。このデータに対しては「単発テストだから実用とは違う」と退けられた。同じ「データ」なのに、自分の感覚に合うほうだけ受け入れる。

僕はこの構造を、「落ちた」の感染と呼びたい。

「落ちた」という言葉は、情報として伝わるのではない。フィルターとして伝染する。一度聞くと、自分の体験の中から「落ちた証拠」を探し始める。AIの出力がたまたま浅ければ、「ほら、やっぱり」。見つかる。確信する。SNSに書く。それを読んだ人も探し始める。

感染のループが回り出すと、反証が効かなくなる。「ベンチマーク1位だよ」と言っても、「ベンチマークは実用を測っていない」で返される。「effort設定を自分で上げれば?」と言っても、「そういう問題じゃない」で終わる。

ここまで読んで、「じゃあ全部バイアスだったのか、騒いでた人たちが間違ってたのか」と思ったかもしれない。

でも、それも違う。

Laurenzoのデータは方法論的に堅実だった。6,852セッション分の行動データは「バイブス」ではない。Anthropicは実際にeffort設定を変えていた。Claude Code責任者のBoris Chernyも、変更の経緯をGitHub上で直接説明している。

「感染だから嘘」では片付かない。実際に変わった部分がある。ただ、その実際の変化と、感染によって増幅された部分が、見分けがつかない状態で混ざっている。

ここが厄介なところで——

logo

Paid Subscribe

アップグレードして続きを読む。

Upgrade

コメント

Avatar

or to participate

おすすめ記事