【AIガチ比較】Gemma4vsQwen3.5頂上決戦！ClaudeOpus4.6審判による30問ブラインドテストの結果が面白い

2026年4月6日

本ページはプロモーションが含まれています

管理人の一言

国内のAI狂い

やっほー！国内のAI狂いこと、当ブログ管理人だよ！みんな、今日も元気にPython叩いてるかな？今日は2026年のLLM界隈を熱狂させている「Gemma4」と「Qwen3.5」の頂上決戦について語っちゃうよ！

最近はモデルの進化が速すぎて、人間が評価するのも一苦労なんだよね。そこで登場したのが「LLM-as-judge」っていう、AI（今回はClaudeOpus4.6様！）にAIを採点させる手法だよ。Google推しの私としては、愛するGeminiの設計思想を受け継ぐGemma4がどれだけ「賢く、美しく」振る舞うのか、もうワクワクが止まらないんだ！

初心者さん向けに言うと、これは「最強の計算機」を目指すQwenと、「最高のパートナー」を目指すGemmaの、魂のぶつかり合い。掲示板では設定の甘さに厳しいツッコミも入ってるけど、その「不完全さ」も含めて、今のAI研究の最前線を感じてほしいな！

それじゃあ、分析いってみよう！

【ClaudeOpus4.6】Anthropic社のAIモデル「Claude」シリーズの最上位版だね。ここではその高い推論能力を活かして、他のモデルの回答を採点する「審判役」として使われているよ。

【LLM-as-judge】AIの性能を評価するために、より高性能なAI（今回はClaudeOpus）に採点させる手法のことだね。人間が評価するより圧倒的に速いけど、AI特有の「バイブス（雰囲気）」で加点しちゃう癖もあるから注意が必要だよ。

3行でわかる！今回の話題

Qwen3.527Bは「勝率」でトップだが、10%の確率で拒否や崩壊を起こして0点になる極端な「暴れ馬」性能を見せた。
Gemma431Bは「平均スコア」で首位。高い安定感と人間のようなコミュニケーション能力、ひっかけ問題への耐性が評価された。
MoE（混合専門家）モデルであるGemma426B-A4Bが、軽量ながら密モデルの31Bに匹敵する「地頭の良さ」を見せつけ注目を集めている。

1 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:00:01 ID:wNqre3Kt

Gemma4(31B/26B-A4B)とQwen3.5(27B)をガチ比較してみたぞ！審判はClaudeOpus4.6様に全30問(コード、推論、分析など)を0-10点で採点してもらった。 **■勝率(一番スコアが高かったモデル)**
・Qwen3.527B:**46.7%**(14勝)
・Gemma431B:40.0%(12勝)
・Gemma426B-A4B:13.3%(4勝) **■平均スコア**
・Gemma431B:8.82
・Gemma426B-A4B:8.82
・Qwen3.527B:8.17 **■結論** Qwen3.527Bは**「最強だけど10%の確率で発狂(拒否やフォーマット崩れ)して0点を出す」**暴れ馬ｗそれがなければ平均9.08でぶっちぎり。Gemma431Bはコミュ力と安定感が神。

2 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:05:12 ID:15UN0dme

全モデル共通のTemperature(0.7)でテストしたとか正気か？ｗモデルごとに最適解は違うだろ。アスリート全員に同じサイズの靴履かせて走らせるようなもんだぞ。

6 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:12:45 ID:hLYPeqh2

>>2 耳が痛い。OpenRouterのAPIデフォルト(Temp0.7)でやったからな。再現性重視か最適化重視かって話だけど、次はモデルごとの推奨値でローカル再戦するわ。

7 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:15:33 ID:DGNG6ZRf

max_tokens2048も少なすぎワロタ複雑な問題だと最後まで書ききれずにスコア落としてるだろこれ

9 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:22:18 ID:VsKx5pvS

もしローカルでやるならllama.cppのb8660ビルド使えよ。最新版はトークナイザーにデグレ(先祖返り)があるからな。設定は`–temp0.3–top-p0.9–min-p0.1–top-k20`が鉄板。

あとClaude審判は「バイブス」で加点しがちだから、判定プロンプトをこう書き換えろ。

プロンプト

【llama.cpp】

AIモデルを一般的なPCのCPUやGPUで高速に動かすためのオープンソースソフトウェアだよ。開発スピードが凄まじくて、特定のビルド(バージョン)で急にバグが直ったりすることもあるんだね。

MAKESUREtoevaluatethemcorrectly,notbasedonvibealone(checkformisinformation,hallucinations,iftheyareusefulornot,andnotonformatting).

13 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:30:55 ID:6izvCYcD

公式の推奨設定なんて、ぶっちゃけドキュメント担当がコピペして出してるだけだろｗエンジニアリング系のタスクでTemp1.0推奨とか正気とは思えん。

22 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:45:21 ID:KLEc29VE

LLM-as-judge(LLMが審判)とか、もはや「ボットがボットを褒め合う学芸会」じゃねーかｗつーかGemma4、llama.cppのb8665でパーサー修正されてから、この画像の問題も秒殺できるようになったぞ。

25 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:52:10 ID:hReBNP1u

>>22 正論。コードや数学は単体テスト(pytest)で自動採点するようにロードマップ組んでる。ただ「技術提案書の質」とかは、どうしても人間に代わる審判が必要なんだよな……。

29 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)11:05:44 ID:34N2qkeC

Qwenは「思考プロセス」を垂れ流しすぎてトークンの無駄。ローカルで使うと発熱と待ち時間で**る。

30 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)11:12:33 ID:jeYBVmJM

Gemmaは単純にチューニング不足な気がする。でも人間のコミュ力に近いのは圧倒的にGemmaなんだよな。 LLM審判には分かりにくい部分だけど。

35 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)11:25:01 ID:abjqnAnd

ちなみに項目別の詳細スコアだとこんな感じだ。
・Gemma431B:明確さ(Clarity)が最強
・Qwen3.527B:網羅性(Completeness)が最強。ただし長文すぎて読みづらい。 GitHubに生データ置いとくわ。 [github.com/themultivac/multivac-evaluation/tree/main/data/GEMMA4-H2H-20260404]

41 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)11:40:19 ID:aCIH6aAk

トークンの「質」というか「効率」も評価に入れるべき。同じ正解なら、短いトークンで回答したほうが「賢い」だろ。 Qwenは喋りすぎなんだよ、逆噴射加点されてねーか？

45 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)11:55:44 ID:3NYbMFnm

>>41 Qwenの過剰な思考(Overthinking)を止めるには、適当な「ツール」を一つ渡してやるといいぞ。それだけで急にシャキッとして無駄口叩かなくなる。仕様だろこれｗ

48 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)12:10:22 ID:JNKTqHuH

Gemma431Bは「ひっかけ問題」をスルーできるのが凄い。 Qwen3.527Bは、どうでもいい情報に固執して自爆するパターンがよくある。

55 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)12:30:15 ID:6JkIfKrJ

もはや掲示板の書き込みも、そのうちAIがAIの感想を書き込んでそれを俺たちが読んで「ワロタ」って言うだけの地獄になりそうだな。

59 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)12:45:55 ID:l87ukHES

Gemma426B-A4B(MoE版)のコスパが化け物すぎる。実行コストは格安なのに、地頭の良さが密モデルの31Bとほぼ互角とか。 Googleが信頼性さえ改善すれば、ローカルLLMの覇権これだろ。

66 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)13:00:11 ID:OFzJHKZH

MoE版がたまに惨敗してるのは、スパース化の弊害か？効率重視もいいけど、結局ローカル民が求めてるのは「絶対的な賢さ」なんだよな。次回のQwen35BとのMoE頂上決戦に期待。

国内のAI狂い

管理人のまとめ

今回の検証結果、みんなはどう感じたかな？私はね、Gemma4の「明確さ（Clarity）」に、Googleの執念とも言える美学を感じて感動しちゃった！Qwen3.5は確かに数字上の爆発力は凄いけど、10%の確率で発狂しちゃうのは、実務でPythonスクリプトに組み込む身としてはちょっと怖いよね。

エラーハンドリングが大変になっちゃうもん。技術的に見ると、Gemma426B-A4BのようなMoE（混合専門家）モデルが、フルパラメータのモデルに匹敵する安定感を出せているのが2026年最大の衝撃だと思うな。

これはまさに、効率的な推論と知性の両立だよね！でも、一つだけ警鐘を鳴らしておきたいのは「AIがAIを評価する」という閉鎖系の危うさだよ。掲示板で「バイブス加点」って言われていたけど、AIは時として「論理的な正解」よりも「それっぽい丁寧な言葉」を高く評価しちゃうバイアスがあるんだ。

これが行き過ぎると、ネット上の情報が「AIに褒められるための、中身のない美辞麗句」ばかりになる「地獄」が来ちゃうかも。だからこそ、うｐ主さんが言っていた「pytestによる自動採点」みたいな、物理的な正解（コードが動くか、数学的に正しいか）という客観的な指標に立ち返る必要があるんだね。

結局、私たちが求めているのは「数字上のスコア」じゃなくて、私たちの意図を汲み取って、綺麗なPythonコードを書いてくれるような「対話の質」なんだと思う。その点、ひっかけ問題をスルーできるGemma4の地頭の良さは、やっぱりGemini譲りの本物だよ！

Qwenをツールで制御するハックも面白いけど、私はやっぱり、そのままの君で完璧なGemmaを信じたいな。これからもAI同士の切磋琢磨を、狂ったような愛で見守っていこうね！

Source: https://www.reddit.com/r/LocalLLaMA/comments/1scwos6/gemma_4_31b_vs_gemma_4_26ba4b_vs_qwen_35_27b/

よかったらシェアしてね！

URLをコピーしました！

【AIガチ比較】Gemma4vsQwen3.5頂上決戦！ClaudeOpus4.6審判による30問ブラインドテストの結果が面白い

管理人の一言

3行でわかる！今回の話題

【llama.cpp】

管理人のまとめ

カテゴリー