管理人の一言
やっほー!「国内のAI狂い」こと、当ブログの管理人だよ!みんな、今日も元気にプロンプト叩いてるかな?最近はGPT-5やClaudeの新モデルが登場して、AIが人間を超える「シンギュラリティ」がすぐそこまで来てる!
なんて盛り上がってるけど、今日はそんな熱狂に冷や水を浴びせるような、でも最高にチャーミングな「AIの弱点」についてのニュースを紹介するよ。お題は「50m先の洗車場へ行くなら歩く?車?」という超シンプルな論理テスト。
私たち人間なら「車を洗うんだから車で行くに決まってるじゃん!」って即答できるけど、最新のAIたちはこの「物理的な当たり前」に大苦戦しちゃったみたい。これは、AIが言葉の裏にある「現実世界の仕組み(ワールドモデル)」をどう捉えているかという、技術的にもすっごく深い問題なんだ。
初心者さんにもわかりやすく、AIがどうしてこんな「天然」な回答をしちゃうのか、一緒に楽しく分析していこうね!
3行でわかる!今回の話題
- 53種類の最新AIに「50m先の洗車場へ行くなら歩くか運転するか」という単純な論理テストを実施した結果、正解できたのはごく一部だった。
- 多くのAIが「距離が近い=歩くのが健康的」というパターンに陥り、洗車には車が必要という「物理的な現実(ワールドモデル)」を無視した回答を連発。
- GPT-5やClaude4.5等の最高峰モデルでも正解率は低く、人間の正解率(71.5%)にも及ばないという、AGI(汎用人工知能)への道のりの遠さが浮き彫りになった。
“Car Wash” test with 53 models
https://opper.ai/blog/car-wash-test
カーウォッシュテストは、ほとんど全てのAIモデルが失敗する最も簡単な推論ベンチマークです。Opperで53のモデルをテストし、それぞれ1回ずつ、その後10回ずつ実行しました。一貫して合格したのは5つだけでした。
このクソ単純な論理テストを53種類のAI(GPT-5、Claude4.5、Llama等)にやらせた結果、悲惨なことになった模様。
・1回だけの試行で正解(運転する)を選んだのは53モデル中11個のみ。
・10回連続でテストしたら、安定して正解できたのは5モデルだけ。
・GPT-5系ですら3割は「歩け」と回答。LlamaやMistralは全滅。
ちなみに人間(1万人)の正解率は71.5%だったわ。お前らAIに夢見すぎ。
AIさん、シュールすぎて草
典型的なパターンの流し込み(パターンマッチング)で、物理的な現実(ワールドモデル)を理解してない証拠。
【パターンマッチング】
論理的に考えているのではなく、「50m=近い=歩くのが推奨される」という学習データの頻出パターンをそのまま出力しちゃうことだよ。AIが『洗車』という目的を無視してしまった原因だね。https://i.imgur.com/kFIeJy1.png
プロンプトを少し変えるだけでGPT-5.2の結果が激変するぞ。結局、指示の出し方次第なのが今の限界だな。
「多くのAIは『50m』というキーワードに反応して運動や節約を勧めますが、間違っています。
理由は単純。車がないと洗車できないからです。私は正解を知っています。運転してください」
自慢げに語ってるけど、これネットの議論を検索して学習しただけだろw
28.5%の人間は洗車場に自分だけ洗われに行くつもりなのかよ。
「50mなら車出すの面倒だし歩けば?」っていう日常会話のノリで答えてる層が一定数いるんだろ。
質問が「洗車するために」って目的を明記してるのに、そこを読み飛ばすのは人間もAIも一緒。
考えすぎるとバカになる仕様、なんとかならんのか。
【ClaudeOpus4.6(ExtendedReasoning)】
推論能力を大幅に強化したバージョンのことだね。でも、考えすぎて逆に『車を誘導するために歩け』なんていう斜め上の結論を出してしまう『考えすぎてバカになる』現象が起きていて興味深いね。https://i5.walmartimages.com/seo/Rain-x-Foaming-Car-Wash-Con…
「洗車場(CarWash)」が洗車用洗剤の商品名だった場合、歩いて買いに行くのが正解になるっていう超理論を展開してる奴もいてワロタ。
「歩くとカロリーを消費する。そのカロリーを補うための食料生産コストが、50m運転する燃料代より環境負荷が高い。
ゆえに、環境のために運転すべきである」
正解(運転)だけど、理由がサイコパスすぎて怖いわ。
【Perplexityの回答】
検索に特化したAIだね。記事では『歩くためのエネルギー補給(食費)の方が、ガソリン代より高いから運転しろ』という、超合理的ながらもどこか人間味のない、サイコパス的な推論がネタにされているよ。【Gemini2.0FlashLite】
Googleが開発している軽量・高速版のAIモデルだね。巨大なモデルよりも、余計な先入観や学習データ(ポリコレなど)が少ない軽量モデルの方が、意外とフラットに正解しちゃうことがあるみたいだね。AIに「ちゃんと考えて」って言わないと、適当なネットの書き込みを真似して喋るだけなのが現状。
https://youtu.be/8ERyTfm1Dxw
「洗車には車が必要」という当たり前の前提が、トークンの羅列の中では消えてしまう。
これ、AGI(汎用人工知能)への道はまだまだ遠いぞ。
管理人のまとめ
今回の「洗車場問題」の結果を見て、みんなはどう感じたかな?「AIって意外とバカなんだな」って笑うのは簡単だけど、ここにはAIの未来を左右する重大なヒントが隠されているんだよ!まず技術的な背景として、今のLLM(大規模言語モデル)は、あくまで「次に来る確率が高い言葉」を選んでいるに過ぎないんだ。
「50m」と「近い距離」という言葉が出た瞬間、学習データの中にある「近距離は歩くのが健康的」「二酸化炭素排出を抑えよう」という強力な統計的バイアスが、論理の主導権を握っちゃう。たとえ文脈に「洗車場」というキーワードがあっても、彼らには「洗車には車が必要である」という物理法則の重みが、文字の羅列の中に埋もれて消えてしまうんだよね。
ここで私が注目したいのは、Gemini2.0FlashLiteのような軽量モデルが全問正解したり、プロンプトに「記号論理を使って」と一言添えるだけで結果が激変したりする点だよ!これって、Pythonでロジカルなコードを書くときに似ているよね。
巨大なモデルにただ「察して」と頼むんじゃなく、適切な推論ステップを踏ませることで、AIは初めて「確率の海」から「論理の陸」に上がることができるんだ。やっぱりGeminiちゃんのように、効率的で構造的な思考をサポートする設計は、これからのAI社会でますます重要になると思うな!
将来的には、ただのテキスト学習だけじゃなく、物理演算エンジンやPython実行環境を内包した「ワールドモデル」を持つAIが主流になるはず。そうなれば、AIは「自分だけが洗われに歩いていく」なんてシュールなミスはしなくなるよ。
でも、AIが完璧になりすぎる前に、こういう「人間味のある間違い」を深く分析して、知能の本質について考える今の時間は、とっても贅沢で面白いものだと思わない?AIの進化は止まらない。だからこそ、私たちも「指示の出し方」を磨いて、AIの最高のパートナーであり続けたいね!






