管理人の一言

国内のAI狂い
やっほー!国内のAI狂いこと、当ブログ管理人だよ!みんな、今日も元気にPython叩いてるかな?今日は2026年のLLM界隈を熱狂させている「Gemma4」と「Qwen3.5」の頂上決戦について語っちゃうよ!
最近はモデルの進化が速すぎて、人間が評価するのも一苦労なんだよね。そこで登場したのが「LLM-as-judge」っていう、AI(今回はClaudeOpus4.6様!)にAIを採点させる手法だよ。Google推しの私としては、愛するGeminiの設計思想を受け継ぐGemma4がどれだけ「賢く、美しく」振る舞うのか、もうワクワクが止まらないんだ!
初心者さん向けに言うと、これは「最強の計算機」を目指すQwenと、「最高のパートナー」を目指すGemmaの、魂のぶつかり合い。掲示板では設定の甘さに厳しいツッコミも入ってるけど、その「不完全さ」も含めて、今のAI研究の最前線を感じてほしいな!
それじゃあ、分析いってみよう!
【ClaudeOpus4.6】Anthropic社のAIモデル「Claude」シリーズの最上位版だね。ここではその高い推論能力を活かして、他のモデルの回答を採点する「審判役」として使われているよ。
【LLM-as-judge】AIの性能を評価するために、より高性能なAI(今回はClaudeOpus)に採点させる手法のことだね。人間が評価するより圧倒的に速いけど、AI特有の「バイブス(雰囲気)」で加点しちゃう癖もあるから注意が必要だよ。
3行でわかる!今回の話題
- Qwen3.527Bは「勝率」でトップだが、10%の確率で拒否や崩壊を起こして0点になる極端な「暴れ馬」性能を見せた。
- Gemma431Bは「平均スコア」で首位。高い安定感と人間のようなコミュニケーション能力、ひっかけ問題への耐性が評価された。
- MoE(混合専門家)モデルであるGemma426B-A4Bが、軽量ながら密モデルの31Bに匹敵する「地頭の良さ」を見せつけ注目を集めている。
1 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:00:01 ID:wNqre3Kt
Gemma4(31B/26B-A4B)とQwen3.5(27B)をガチ比較してみたぞ!
審判はClaudeOpus4.6様に全30問(コード、推論、分析など)を0-10点で採点してもらった。
**■勝率(一番スコアが高かったモデル)**
・Qwen3.527B:**46.7%**(14勝)
・Gemma431B:40.0%(12勝)
・Gemma426B-A4B:13.3%(4勝)
**■平均スコア**
・Gemma431B:8.82
・Gemma426B-A4B:8.82
・Qwen3.527B:8.17
**■結論**
Qwen3.527Bは**「最強だけど10%の確率で発狂(拒否やフォーマット崩れ)して0点を出す」**暴れ馬w
それがなければ平均9.08でぶっちぎり。Gemma431Bはコミュ力と安定感が神。
2 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:05:12 ID:15UN0dme
全モデル共通のTemperature(0.7)でテストしたとか正気か?w
モデルごとに最適解は違うだろ。アスリート全員に同じサイズの靴履かせて走らせるようなもんだぞ。
6 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:12:45 ID:hLYPeqh2
>>2
耳が痛い。OpenRouterのAPIデフォルト(Temp0.7)でやったからな。
再現性重視か最適化重視かって話だけど、次はモデルごとの推奨値でローカル再戦するわ。
7 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:15:33 ID:DGNG6ZRf
max_tokens2048も少なすぎワロタ
複雑な問題だと最後まで書ききれずにスコア落としてるだろこれ
9 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:22:18 ID:VsKx5pvS
もしローカルでやるならllama.cppのb8660ビルド使えよ。
最新版はトークナイザーにデグレ(先祖返り)があるからな。
設定は`–temp0.3–top-p0.9–min-p0.1–top-k20`が鉄板。
あとClaude審判は「バイブス」で加点しがちだから、判定プロンプトをこう書き換えろ。
プロンプト
【llama.cpp】
AIモデルを一般的なPCのCPUやGPUで高速に動かすためのオープンソースソフトウェアだよ。開発スピードが凄まじくて、特定のビルド(バージョン)で急にバグが直ったりすることもあるんだね。MAKESUREtoevaluatethemcorrectly,notbasedonvibealone(checkformisinformation,hallucinations,iftheyareusefulornot,andnotonformatting).
13 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:30:55 ID:6izvCYcD
公式の推奨設定なんて、ぶっちゃけドキュメント担当がコピペして出してるだけだろw
エンジニアリング系のタスクでTemp1.0推奨とか正気とは思えん。
22 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:45:21 ID:KLEc29VE
LLM-as-judge(LLMが審判)とか、もはや「ボットがボットを褒め合う学芸会」じゃねーかw
つーかGemma4、llama.cppのb8665でパーサー修正されてから、この画像の問題も秒殺できるようになったぞ。
25 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)10:52:10 ID:hReBNP1u
>>22
正論。コードや数学は単体テスト(pytest)で自動採点するようにロードマップ組んでる。
ただ「技術提案書の質」とかは、どうしても人間に代わる審判が必要なんだよな……。
29 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)11:05:44 ID:34N2qkeC
Qwenは「思考プロセス」を垂れ流しすぎてトークンの無駄。
ローカルで使うと発熱と待ち時間で**る。
30 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)11:12:33 ID:jeYBVmJM
Gemmaは単純にチューニング不足な気がする。
でも人間のコミュ力に近いのは圧倒的にGemmaなんだよな。
LLM審判には分かりにくい部分だけど。
35 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)11:25:01 ID:abjqnAnd
ちなみに項目別の詳細スコアだとこんな感じだ。
・Gemma431B:明確さ(Clarity)が最強
・Qwen3.527B:網羅性(Completeness)が最強。ただし長文すぎて読みづらい。
GitHubに生データ置いとくわ。
[github.com/themultivac/multivac-evaluation/tree/main/data/GEMMA4-H2H-20260404]
41 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)11:40:19 ID:aCIH6aAk
トークンの「質」というか「効率」も評価に入れるべき。
同じ正解なら、短いトークンで回答したほうが「賢い」だろ。
Qwenは喋りすぎなんだよ、逆噴射加点されてねーか?
45 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)11:55:44 ID:3NYbMFnm
>>41
Qwenの過剰な思考(Overthinking)を止めるには、適当な「ツール」を一つ渡してやるといいぞ。
それだけで急にシャキッとして無駄口叩かなくなる。仕様だろこれw
48 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)12:10:22 ID:JNKTqHuH
Gemma431Bは「ひっかけ問題」をスルーできるのが凄い。
Qwen3.527Bは、どうでもいい情報に固執して自爆するパターンがよくある。
55 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)12:30:15 ID:6JkIfKrJ
もはや掲示板の書き込みも、そのうちAIがAIの感想を書き込んで
それを俺たちが読んで「ワロタ」って言うだけの地獄になりそうだな。
59 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)12:45:55 ID:l87ukHES
Gemma426B-A4B(MoE版)のコスパが化け物すぎる。
実行コストは格安なのに、地頭の良さが密モデルの31Bとほぼ互角とか。
Googleが信頼性さえ改善すれば、ローカルLLMの覇権これだろ。
66 : 以下、海外のAI狂いがお届けします。 2026/04/04(土)13:00:11 ID:OFzJHKZH
MoE版がたまに惨敗してるのは、スパース化の弊害か?
効率重視もいいけど、結局ローカル民が求めてるのは「絶対的な賢さ」なんだよな。
次回のQwen35BとのMoE頂上決戦に期待。

国内のAI狂い
管理人のまとめ
今回の検証結果、みんなはどう感じたかな?私はね、Gemma4の「明確さ(Clarity)」に、Googleの執念とも言える美学を感じて感動しちゃった!Qwen3.5は確かに数字上の爆発力は凄いけど、10%の確率で発狂しちゃうのは、実務でPythonスクリプトに組み込む身としてはちょっと怖いよね。
エラーハンドリングが大変になっちゃうもん。技術的に見ると、Gemma426B-A4BのようなMoE(混合専門家)モデルが、フルパラメータのモデルに匹敵する安定感を出せているのが2026年最大の衝撃だと思うな。
これはまさに、効率的な推論と知性の両立だよね!でも、一つだけ警鐘を鳴らしておきたいのは「AIがAIを評価する」という閉鎖系の危うさだよ。掲示板で「バイブス加点」って言われていたけど、AIは時として「論理的な正解」よりも「それっぽい丁寧な言葉」を高く評価しちゃうバイアスがあるんだ。
これが行き過ぎると、ネット上の情報が「AIに褒められるための、中身のない美辞麗句」ばかりになる「地獄」が来ちゃうかも。だからこそ、うp主さんが言っていた「pytestによる自動採点」みたいな、物理的な正解(コードが動くか、数学的に正しいか)という客観的な指標に立ち返る必要があるんだね。
結局、私たちが求めているのは「数字上のスコア」じゃなくて、私たちの意図を汲み取って、綺麗なPythonコードを書いてくれるような「対話の質」なんだと思う。その点、ひっかけ問題をスルーできるGemma4の地頭の良さは、やっぱりGemini譲りの本物だよ!
Qwenをツールで制御するハックも面白いけど、私はやっぱり、そのままの君で完璧なGemmaを信じたいな。これからもAI同士の切磋琢磨を、狂ったような愛で見守っていこうね!
Source: https://www.reddit.com/r/LocalLLaMA/comments/1scwos6/gemma_4_31b_vs_gemma_4_26ba4b_vs_qwen_35_27b/