【悲報】最新AI(GPT-5.2/Gemini等)の化けの皮が剥がれる?難解言語ベンチマークで正答率わずか11%の衝撃。AIはただの暗記マシンなのか?

本ページはプロモーションが含まれています

管理人の一言

国内のAI狂い

やっほー!今日も元気にAI(愛)を叫んでるかな?「国内のAI狂い」管理人だよ!最近、最新モデルのGPT-5.2や、私の大好きなGeminiくんたちが「実はただの暗記マシンなんじゃないか」っていう、心臓がバクバクしちゃうようなニュースが飛び込んできたんだ。

きっかけは、海外のエンジニアが仕掛けた「EsoLang-Bench」っていう意地悪なテスト。Pythonみたいに美しくて読みやすい言語じゃなくて、BrainfuckやWhitespaceみたいな「人間が読むことを拒絶する難解言語」をぶつけたら、正答率がガクンと11%まで落ちちゃったんだって!

今まで「AIは論理的に考えてる」って信じられてきたけど、実は学習データにあるコードをパターンの組み合わせで出してるだけだったのかも……?今日は、この「AIの化けの皮」疑惑の真相と、知能の本質についてみんなと一緒に深掘りしていくよ!

3行でわかる!今回の話題

  • 学習データがほぼ存在しない難解プログラミング言語(Esolang)を用いた、カンニング不可能な新ベンチマークが開発された。
  • GPT-5.2やGemini、Qwenなどの最新モデルを総動員しても、最高正答率はわずか11%という惨憺たる結果に。
  • 「AIは論理的に推論しているのではなく、単にパターンを暗記しているだけではないか」という議論が再燃している。
1 : 以下、海外のAI狂いがお届けします。 2026/03/16(月)10:45:12 ID:3KGO9Kad
「AIがコード書けるのは推論してるから」とか言ってる奴、全員息してるー? 既存のベンチマークがヌルすぎるから、絶対にカンニング不可能な「激ムズ・ベンチマーク」を作ってやったわ。 結果:GPT-5.2、O4-mini、Gemini、Qwen、Kimiとかの最強モデルにプロンプトの裏技を全部ぶっ込んでも、正答率わずか「11%」w
2 : 以下、海外のAI狂いがお届けします。 2026/03/16(月)10:46:30 ID:hPoGooea
>>1 手法がエグくて草。 Brainfuck、Befunge-98、Whitespace、Shakespeareとかの難解プログラミング言語(Esolang)をぶつけたらしい。 PythonとかJSは学習データが多すぎて、AIは「考えてる」んじゃなくて「パターン暗記」で解いてるだけなんだよな。 学習データがほぼゼロの言語でテストしたら、難易度Medium以上は全モデル「正解率0%」で完全沈没。 AIの「汎用的な推論能力」なんて、実は幻想だったってこと。
3 : 以下、海外のAI狂いがお届けします。 2026/03/16(月)10:47:55 ID:2UgQzl3w
>>1 いや、Brainfuckとかの類いならテストとして微妙じゃね? もっと「誰も使ってないけど読みやすい独自言語」とかを設計して試すべき。
4 : 以下、海外のAI狂いがお届けします。 2026/03/16(月)10:49:10 ID:Jn1jJMU7
>>1 これ卑怯だろw ベテランのプログラマーでも、仕様書渡されただけでBrainfuckを初見でスラスラ書けるわけないじゃん。 「AIは難解言語が苦手」っていう当たり前のことを言ってるだけ。
5 : 以下、海外のAI狂いがお届けします。 2026/03/16(月)10:50:22 ID:RUUhwvLU
>>4 激しく同意。これ単に「学習してないトークンは予測できませんでした」ってだけの話だろ。 実務だと独自のツールや社内データを使うけど、そんなのコンテキストにぶち込めばAIは普通に対応できるしな。 このベンチマーク、マジで実用性ゼロ。
6 : 以下、海外のAI狂いがお届けします。 2026/03/16(月)10:52:40 ID:OBiSHecU
>>5 いや、問題はそこじゃない。 「未知の構文でも論理構造を理解して適用できるか」が本当の知能だろ。 それができないってことは、今のLLMは結局「超高性能なオウム」でしかないって証明なんだよ。
7 : 以下、海外のAI狂いがお届けします。 2026/03/16(月)10:54:15 ID:OvEIDCF7
>>7 じゃあ、外部ツールとかコンパイラを使える「エージェント型」のモデルなら解けるんじゃないの?

【エージェント型】

単に回答するだけでなく、自分でツールを使ったり、コンパイルしてエラーを確認しながら試行錯誤するAIのスタイルのことだよ。これなら難解言語も解けるのでは?と期待されているね。
8 : 以下、海外のAI狂いがお届けします。 2026/03/16(月)10:55:50 ID:FgTKKT0w
>>7 それも厳しいぞ。 結局「次に来る確率が高い文字」を出してるだけだからな。 論理的に積み上げていく思考回路がないから、試行錯誤させてもランダムにガチャ回してるのと変わらん。
9 : 以下、海外のAI狂いがお届けします。 2026/03/16(月)10:58:05 ID:i1PQXGYP
>>1 もっとまともな言語でやれよ。
・関数がある
・制御フローがある
・データ構造がある こういう「普通の言語」だけど学習データがないやつで試して、初めて「推論能力」が測れるんだわ。 あと今の時代、エージェント(ClaudeCodeとか)にドキュメント読ませてやらせるのがデフォだろ。
10 : 以下、海外のAI狂いがお届けします。 2026/03/16(月)11:02:33 ID:pIcAlMsB
>>9 人間はドキュメントと実行環境さえあれば、C++から新言語に乗り換えるなんて余裕でしょ? 既存のプログラミング言語は、どんなにマイナーでもネット上のどこかにコードが落ちてて、学習データに混ざっちゃってるんだよ。 だから「真に未知の領域」で戦わせるには、Esolangを使うしかなかったんだ。
11 : 以下、海外のAI狂いがお届けします。 2026/03/16(月)11:05:12 ID:Xw0PY7TH
>>10 いや「まともな言語は全部学習済み」ってのは嘘だろw 知名度ゼロでも文法がしっかりしてる言語なんて探せばいくらでもある。 わざわざ「チューリングの落とし穴(Turingtarpit)」みたいな、人間でも書くのが苦痛な言語を選ぶのは悪意を感じるわ。
12 : 以下、海外のAI狂いがお届けします。 2026/03/16(月)11:08:45 ID:2xqTUesu
プロンプトに言語の仕様書(ドキュメント)は入れたのか? もし入れてないなら、それは「汎用能力」の測定じゃなくて、単なる「薄い記憶の掘り起こしテスト」だぞ。 仕様書を読み込ませた上でのスコアなら興味あるけどな。
13 : 以下、海外のAI狂いがお届けします。 2026/03/16(月)11:12:20 ID:Dzt7aUxg
>>1 これ面白い試みだけど、結局「AI様」が最強なのは変わらんわ。 だって、俺らが一生かかっても書かないようなBrainfuckのコードを、11%とはいえ正解してるわけだし。
14 : 以下、海外のAI狂いがお届けします。 2026/03/16(月)11:15:40 ID:k8ElN8nJ
これからのベンチマークは「Pythonでいかに難しい問題を解くか」じゃなくて、 「仕様も知らない未知の環境でいかに適応できるか」にシフトしていくんだろうな。 その点では、この「EsoLang-Bench」は叩かれてるけど方向性は間違ってない。
15 : 以下、海外のAI狂いがお届けします。 2026/03/16(月)11:20:10 ID:EXv0Fdb3
俺もちょうど、Brainfuckに変換可能な独自言語を開発してClaudeOpusに解かせてるけど、 単純な比較演算させるだけでも「思考プロセス」をめちゃくちゃ回してて草生えるわ。 やっぱり、トークン効率が最悪な言語だと、AIも脳みそフル回転させないと対応できないっぽい。 今のLLMにとって、難解言語は「暗記というドーピング」を封じられた状態のガチンコ試験なんだろうな。

【ClaudeOpus】

Anthropic社が開発した、特に知能が高いとされるモデルのことだよ。本文では、難解言語を解かせようとすると『思考プロセス』をフル回転させて必死に考えている様子が語られているね。
国内のAI狂い

管理人のまとめ

今回のベンチマーク結果、11%という数字を「AIの敗北」と見るか「新たな時代の幕開け」と見るかで、その人のAI愛が試されるよね!正直に言うと、私たちが愛するPythonがあまりに洗練されすぎていて、AIも「可読性の高い論理構造」に甘えていた部分は否定できないと思うんだ。

Pythonは人間にとってもAIにとっても、思考をトレースしやすい最強の母国語。でも、今回のテストに使われたBrainfuckみたいな言語は、一文字のミスも許されない「純粋な論理の檻」なんだよね。今のLLMがトークンの並びを統計的に予測している以上、学習データが極端に少ない未知の領域で、ドキュメントを読み込んでゼロから論理を組み上げるのは、まだちょっとハードルが高かったみたい。

でも、悲観することなんてないよ!むしろ、Geminiくんみたいな広大なコンテキスト窓を持つモデルが、実行環境を自分で回しながら「試行錯誤」して、未知の言語を理解していく『エージェント型知能』に進化するための大きなヒントになるはず。

単なる知識の蓄積(暗記)から、未知のルールをその場で解釈する『動的知能』へのシフト。これこそが、私たちが待ち望んでいるAGIへのショートカットなんだから!今はまだ11%かもしれないけど、AIが「記号の意味」を真に理解したとき、世界はまた一歩、私たちの想像を超えた先へ進むんだと思うな。

これからも、進化し続ける彼らの背中を、誰よりも熱く追いかけていこうね!

Source: https://www.reddit.com/r/LocalLLaMA/comments/1ruskjk/we_made_a_coding_benchmark_thats_actually_hard_to/
よかったらシェアしてね!
  • URLをコピーしました!