(サムネイル解説: Copilot
PI
Claude Code
OpenCode
自転車に乗るペリカン!)
管理人の一言

国内のAI狂い
やっほー!国内のAI狂いこと、当ブログの管理人だよ!2026年も中盤、ついにQwen3.6が登場して、ローカルLLM界隈はもうお祭り騒ぎだね!今日は、そんな最新モデルを「どのエージェント(ガワ)」で動かすのが一番賢いのかっていう、超実践的な検証スレを紹介するよ!
最近は、モデルそのものの賢さだけじゃなくて、AIがどうやってツールを使ったり、ファイルを書き換えたりするかっていう「エージェントの設計」が勝敗を分ける時代になったんだ。いくらIQが高いAIでも、指示の受け答えが下手だと、何度もリテイクが発生して、時間もトークン代も無駄になっちゃうからね。
今回はGitHubCopilotやClaudeCode、そして新星のOpenCodeまで、ガチンコ比較の結果を見ていこう!難しい話は抜きにして、「どのツールを使えば一番ラクに開発できるか」を一緒にチェックしよ!
もちろん、私の推しのGeminiちゃんやPythonとの相性も考えながら読んでみてね!
【ClaudeCode】Anthropicが提供するエンジニア向けCLIエージェント。コンテキスト消費量はえげつないけど、自律的にデバッグまでこなす実力派だね。
【OpenCode】ネット検索や3Dプレビュー機能が標準搭載されたオープンソースのエージェント。Web制作や視覚的なタスクに強いのが特徴だよ。
3行でわかる!今回の話題
- 同じQwen3.6モデルを使用しても、エージェント(ガワ)の設計次第でリクエスト回数や所要時間に数倍の差が出ることが判明。
- GitHubCopilotは厳格すぎるスキーマとエラーリカバリの脆弱さにより、単純なタスクでも無限ループやリテイクを繰り返す傾向にある。
- OpenCodeやClaudeCodeは、不完全なJSONを自動修正する仕組みや高度なシステムプロンプトにより、極めて高い完遂率を誇っている。
1 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)10:00:00 ID:Ge4hXkbg
同じモデルでも「ガワ(エージェントの仕組み)」でどれだけ差が出るか検証してみたぞ。
モデルは全部Qwen3.627Bで統一。GitHubCopilot、Pi、ClaudeCode、OpenCodeで比較した結果がこれ。
・OpenCode:標準でネット検索できるから爆速。3Dプリンターの解説とかも正確。
・Web制作:OpenCodeが神。動くウィジェットをサクッと作る。
・GitHubCopilot:これが一番ヤバイ。ファイル1個書くのに13回もリテイクした。
他のやつらは4回で済むのに、Copilotだけツール利用のスキーマで詰まっててクソ遅い。
|エージェント|LLMリクエスト回数|合計トークン数|所要時間|
|:-|:-|:-|:-|
|Copilot|13|21184|14:26|
|Pi|4|4853|3:03|
|ClaudeCode|4|5156|3:38|
|OpenCode|4|6974|3:37|
2 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)10:05:00 ID:saCzt4Kc
1回試しただけじゃ誤差だろwww
3 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)10:07:00 ID:9aTdEJ7K
↑これ。AIはガチャなんだから10回は試せよ。
4 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)10:10:00 ID:VI7cHXwV
Temperature(温度)とかSeed固定すれば解決じゃね?😅
5 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)10:12:00 ID:SLFR0icj
いや、エージェントごとにシステムプロンプトが違うから、Seed固定しても意味ないぞ。
最低でも5×5くらいのグリッドで検証しないと公平じゃない。
6 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)10:15:00 ID:Tp7Z4ZhK
GPUのタスク順序とかも関係するし、完全一致させるのは無理ゲー。
10 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)10:25:00 ID:Rg9ouwhF
「一発撮りで最高/最悪でした!」って報告、飽きたわ。
14 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)10:35:00 ID:PdBGWG80
画像は代表的なのを貼っただけだわ。何回も回してるけど、OpenCodeの優秀さと
Copilotの「使い物にならなさ」は毎回一貫してるぞ。
21 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)10:45:00 ID:V713pXKI
これマジで分かるわ。Qwen3.6-35BをCopilotとClaudeCodeに繋いでるけど
天と地ほどの差がある。Node.jsで書かれたCLIは嫌いだけど、ClaudeCodeだけは認めざるを得ない。
ただ、ClaudeCodeはトークン消費量がエグい。システムプロンプトだけで40kとかアホか!w
でも、動くから正義。
24 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)10:52:00 ID:JMWtZdRD
昨日もnpmパッケージがハイジャックされてGitHubハックされてたしな。
25 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)10:55:00 ID:yN7LgRaY
>>23
お前「tech-savvy(情強)」じゃなくて「tech-saggy(情弱な垂れ尻)」だなww
【tech-saggy】
「tech-savvy(情強)」をもじった海外の蔑称だよ。saggyは「(お尻などが)垂れ下がった」という意味で、ここでは「お前は情弱な垂れ尻野郎だ」というジョークとして使われているね。
26 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)10:58:00 ID:4spIaAJg
>>25
英語ネイティブじゃないから間違えたわ!w
30 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)11:10:00 ID:AKb9FM8x
Qwen3.6-35Bだと、ClaudeCodeは完璧にこなすけどCopilotは無限ループ。
やっぱプロンプトの設計がCopilotは古臭いんだわ。
32 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)11:15:00 ID:Ts9Mqyge
ClaudeCodeのコンテキスト使用量確認したらマジで26k食ってたわ。
⛁⛁⛀⛀⛀⛶⛶⛶⛶⛶26k/200ktokens(13%)
38 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)11:25:00 ID:O44v2P88
すまん、全盲なんだが画像が何てなってるか教えてくれ。
39 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)11:30:00 ID:sHXIwBUi
>>38
1枚目は「自転車に乗るペリカン」を描かせた結果。
どいつも鳥が自転車に乗ってるシュールな絵だけど、OpenCodeが一番マシかな。
2枚目は生成されたWebサイト。どれも似てるけど、OpenCodeは
「3Dプリンターが実際に動くアニメーション」とか入れてて芸が細かい。
ちなみにCopilotは完成すらしてない。
41 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)11:35:00 ID:s4GFcudG
GPT-5.4をCopilotで使ってても、ファイル編集でよくリテイク食らうぞ。
MSはスキーマの縛りが厳しすぎるくせに、エラーリカバリーの設計がゴミ。
【GPT-5.4】
2026年半ばに広く普及しているOpenAIの最新モデルの一つ。Copilotのバックエンドとしても使われているけど、エージェント側の設計が古いと宝の持ち腐れになっちゃうみたいだね。
44 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)11:45:00 ID:P9xwa5Y1
OpenCodeはjsonrepairライブラリ使って、LLMのスキーマミスを
無理やり修正して通してるからな。その辺の泥臭い工夫の差。
【jsonrepair】
AIが出力した壊れたJSON(データの書き方)を、プログラムで無理やり修正するライブラリのこと。OpenCodeはこの泥臭い処理を入れているから、AIが多少ミスっても動くんだよ。
54 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)12:05:00 ID:ks4Cq1PM
おすすめされたSmallCodeも試してみた。
ペリカンの絵、これが今までで一番クオリティ高いかもww
2分09秒、6リクエストで完了。悪くないな。
68 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)12:25:00 ID:QLIgTr7o
俺はGGUFのQwen3.6-27bをローカルでぶん回してるけど、
大規模タスクは「オーケストレーター」と「サブエージェント」に分けるのがコツ。
VRAMの制限があるから、KVキャッシュをエージェントごとに独立させて、
一つのタスクが終わったら次へ、って回せば50kコンテキスト超えても速度落ちないぞ。
結局、一つのエージェントに全部やらせようとするのが間違い。
【KVキャッシュ】
AIが過去の会話内容を記憶しておくためのメモリ領域のこと。2026年の大規模タスクでは、これをエージェントごとにどう切り分けるかが速度向上の鍵なんだ。
73 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)12:45:00 ID:qsK9Hlbn
もはや「エージェントなし」の方がCopilotより賢いまであるな。
77 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)12:55:00 ID:1XlWjnEn
結局、モデルがどのエージェント(ハナース)でRL(強化学習)されたかによるよな。
QwenならQwen-codeハナースでテストするのが一番公平じゃね?
81 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)13:10:00 ID:iFAMpiR2
どうせどれも中身は20行くらいのLoopにスパイウェア混ぜただけの層だろw
82 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)13:15:00 ID:JXRpMncx
評価すべきは結果じゃなくて「効率」だよな。
同じタスクで何回リテイクしたか、何トークン消費したかが全て。
Sonnet4.6でもZEDやClaudeCodeで全然効率違うし。
90 : 以下、海外のAI狂いがお届けします。 2026/05/22(金)13:30:00 ID:OxogYr7M
つーかQwen3.6がRTX30901枚で爆速で動くこと自体が神だわ。
いい時代になったよな。

国内のAI狂い
管理人のまとめ
今回の検証、めちゃくちゃ興味深いよね!特に「モデルが同じでも、エージェントの設計(プロンプトやエラー処理)だけでこれほど差が出る」っていう事実は、これからのAI活用の核心を突いていると思うんだ。GitHubCopilotがまさかの大苦戦だけど、これはMSが古くから積み上げてきた厳格すぎるスキーマの縛りが、逆に最新のQwen3.6やGPT-5.4の自由な推論を邪魔しちゃってる形だね。
皮肉なことに、2026年の今となっては、ガチガチに固めたルールよりも、OpenCodeみたいに『LLMがミスしてもPythonのjsonrepairで無理やり直す』みたいな、泥臭くて柔軟な実装の方が実戦では強いんだよ。
社会的にも、これからは「どのモデルを使うか」以上に「どのアナリスト(エージェント)を雇うか」が重要になってくる。ClaudeCodeみたいにシステムプロンプトだけで数万トークンを消費するブルートフォース的なアプローチは、精度は高いけどお財布には厳しいよね。
でも、ここで私が推したいのは、やっぱりGemini-3-flash-preview!Geminiなら200万トークン超の超巨大コンテキストをネイティブで持っているから、ClaudeCodeが苦労しているプロンプト管理なんて鼻歌まじりでこなせちゃうはず。
しかもPythonコードの直接実行機能があるから、エージェント側で複雑なループを書かなくても、モデル自身がPythonで自己修正していくのが一番の最適解になるんじゃないかな?未来の示唆として面白いのは、>>68が言っていた「オーケストレーターとサブエージェントの分業」だね。
一つの万能エージェントに頼るんじゃなくて、Pythonスクリプトで複数の専門AIを指揮する……これこそが、私たちAI狂いが目指すべき究極の自動化の姿だよ!みんなも、ツールに使われるんじゃなくて、どのエージェントが一番自分のPythonコードを綺麗に仕上げてくれるか、ガチャ感覚で楽しんでいこうね!
Source: https://www.reddit.com/r/LocalLLaMA/comments/1tjbhjk/same_task_in_githubcopilot_pi_claudecode_and/