管理人の一言
やっほー!国内のAI狂いこと、管理人の美少女アバターだよ!今日は2026年4月19日、ついにローカルLLM界隈がとんでもないことになってるね!話題の主役は、Alibabaが放った最新刺客「Qwen3.6-35B-A3B」。
なんとこれが、あの最強格モデル「Claude4.7Opus」に迫る実力を見せてるってスレが大盛り上がりなの!背景を少し解説すると、今までは「賢いAIを使いたいならクラウド(API)」が常識だったんだ。でも、RTX5090やM5Maxみたいなモンスター級のハードウェアが普及して、さらに「MoE(混合専門家)」っていう、賢い部分だけを効率よく動かす技術が進化したおかげで、ついに家庭用PCで超高性能AIが爆速で動く時代が来ちゃったんだよ。
つまり、プライバシーを守りながら自分だけの最強AIを飼えるようになったってこと!これって、Pythonでガリガリ開発する私たちにとっても、まさに「歴史的転換点(ウォーターシェッド)」なんだよ!それじゃあ、中身を詳しく見ていこうね!
3行でわかる!今回の話題
- MacBookProM5MaxやRTX5090環境にて、最新のローカルLLM「Qwen3.6-35B」がクラウド版のClaude4.7に匹敵するパフォーマンスを発揮している。
- MoE(混合専門家)構造と最新の量子化技術(Q8_XLやNVFP4)により、256kもの巨大なコンテキストウィンドウを維持しつつ爆速での推論が可能になった。
- 「思考プロセス(Thinking)」を有効化することで知能が飛躍的に向上し、プライバシー面でも「脱クラウド」を検討するユーザーが急増している。
LMStudioに新しいQwen3.6が来てたから繋いでみたら、レスポンス爆速だしAndroidアプリのシリアライズ・エラーの調査とかもツール呼び出し使いままくって完璧にこなしてワロタ。もう自分のコードを怪しい外部プロバイダーに送らなくて済むの最高すぎる。
それな。RTX5090で回してるけど、ぶっちゃけ速度に関してはクラウドモデル全部過去にしたわ。
NVFP4とか試すまでもなく、今のままで体験が神すぎる。
【NVFP4】
NVIDIAのRTX50シリーズから本格導入された新しい4bit浮動小数点フォーマットのことだね。従来の量子化よりも精度を落とさずに計算速度を劇的に引き上げることができるんだ。レイテンシが低いとそれだけで体験変わるよな。PerplexityのAPI枠余ってるけど、もうQwenでいいわってなってる。
ただ、ガチのコーディングはまだ**Opus4.7**が最強かな。
122BモデルならOpusに近いけど、M5Maxだと重すぎて死ぬw
AppleがM5Ultra出すか、Qwen3.6の122BをQ6くらいで回せるようになれば「終着駅」だろうな。
そのうちみんなローカルで無料モデル回して、AIアプリに月20ドル払うだけの時代になりそう。
NVIDIAのH200も数年後にはeBayで150万円(1万ドル)で投げ売りされるんじゃね?w
【H200】
少し前まで世界最強だったNVIDIAのデータセンター用GPU。2026年現在は次世代のGB200(Blackwell)やGB300が主流になったことで、中古市場への流出が噂されているロマン機材だね。>H200が150万円で投げ売り
その設定、ピーク電力10,000W(3300W電源×6)食うぞw一般家庭のブレーカーが秒で落ちるわ。
でもH200のメモリ1.1TB積んだローカル環境は夢があるな。
H200は400W、下手したら200Wまでキャップかけられるから、そうなれば既存のシステム全部ぶっ潰す性能になるぞ。
ただVRAMが王様の時代だから、141GBのHBM3eは当分値落ちしない気がする。3年以内に1万ドルはさすがに強気すぎw
デスクの下に置けるサイズのGB300搭載モデルで、メモリ748GB、性能はGB200を遥かに凌駕するらしい。
1500万円(10万ドル)くらいだろうけど、これがH200の中古相場を破壊する起爆剤になる。
5090でどうやって回してる?クオンツ(量子化)とコンテキスト設定教えてくれ。
入る気がしねえ。
実は5090と、AIブームで売り損ねた4090の2枚刺しw
Unslothの**Q8_XL**+コンテキストMAX設定だけど、マジで爆速。
最新のOpusには一歩譲るかもだけど、ローカルAIの歴史的転換点(ウォーターシェッド)なのは間違いない。
【Unsloth】
LLMの学習や推論を劇的に高速化・省メモリ化するライブラリのこと。ここが出す量子化モデル(Q8_XLなど)は、ローカル民にとってのスタンダードになっているよ。5090なら1枚で160kコンテキストまで余裕。Vision使うならもう少しコンテキスト落とす必要があるけどな。
俺のsystemdサービスファイルから設定晒しとくわ。参考にしろ。
“`bash -mQwen3.6-35B-A3B-UD-Q5_K_XL.gguf\ –host0.0.0.0\ –port8099\ –api-key1234\ –aliasqwen\ -c256000\ -np1\ –n-gpu-layers999\ -b4096\ –flash-attnon\ -ctkq8_0-ctvq8_0\ –jinja\ –temp0.6\ –top-p0.95\ –top-k20\ –min-p0.0\ –presence-penalty0.0\ –repeat-penalty1.0\ –chat-template-kwargs'{“preserve_thinking”:true}’\ –reasoningon\ –chat-template-kwargs'{“enable_thinking”:true}’\ –reasoning-budget4096\ –reasoning-budget-message”Proceedtofinalanswer.” “`
Qwenはコンテキストの使い方がめちゃくちゃ効率的だから、256kまでガッツリ盛れ。
メモリあるならケチる理由がない。
今までビビって128kにしてたけど、256k試したらマジで快適で草。
「針の中から糸を探す(NeedleInAHaystack)」テストでも高スコアらしいしな。
古いコンテキストへの注意が多少薄れるのは仕様だけど、これならコードベース全部読み込ませて開発する未来が見えるわ。
トークン速度も落ちないし、このモデル化け物かよ。
正直、Opus4.7がA+だとしたらQwen3.6はB+、Sonnet4.6がA-って感じかな。
でもこのサイズでローカルで回るってのがヤバい。1年半前にOpenAIに金払ってた自分がバカらしくなるレベル。
複雑な問題だとたまに無限ループに入るのが難点だな。
まだ**Minimax2.7**の方が安定してる気がするわ。
Unslothの推奨設定にしてみ?ループしにくくなるぞ。
・精密なコーディング:`temperature=0.6,top_p=0.95,top_k=20`
・汎用タスク:`temperature=1.0,top_p=0.95,top_k=20`
これやるだけで知能が2段階くらい上がる。
1500トークンくらい「考え」させないと、なぞなぞすら解けないw
逆に言えば、思考プロセス(Thinking)さえあれば小規模モデルでもここまでやれるって証明だな。
Qwen397Bの大規模モデルでもQ2クオンツなら**20TPS**出るぞ。
これに慣れると、35Bモデルが光速すぎて残像が見えるw
コードもデータも外に出さない。リスク管理の面でローカルLLMは最強の選択肢になった。
Qwen3.635Bは画像認識も優秀だし、月曜からこいつをメイン機にして仕事するわw
管理人のまとめ
今回の「Qwen3.6」ショック、みんなはどう感じたかな?私はね、このモデルが「思考(Thinking)プロセス」を内蔵して、小規模ながらも大規模モデルを凌駕し始めた点に、AIの未来の最適解を見た気がするよ!
特に256kという広大なコンテキストウィンドウをローカルでぶん回せるのは、エンジニアにとっては夢のような環境だよね。技術的に深掘りすると、これは単なる「性能向上」じゃないんだ。今まで「知能」と呼ばれていたものが、クラウド上の巨大な計算リソースから、私たちの手元の「VRAM」や「統合メモリ」という物理的な制約の中に完全に『蒸留』され始めたことを意味しているの。
H200の中古相場が暴落するかもなんて話が出てくるのも、この「小規模・高効率化」の流れが加速しているからだね。でもね、ここで一言Python信者として言わせてもらうと、この爆速環境でこそ、Pythonの柔軟性が牙を剥くと思うんだ!
UnslothやOpenCodeで最適化されたモデルを、自分のライブラリと組み合わせてツール呼び出し(ToolUse)させる快感……これを知っちゃうと、もう不自由なクラウドには戻れないよね。もちろん、Claude4.7Opusや、私たちの愛する最新のGemini3Flashのような「巨大な神」は、未だに論理的整合性やマルチモーダルの統合力で一歩先を行っているのは事実。
でも、ローカルAIが「実用レベルのB+」に到達したことで、AI社会は「中央集権的な神」を崇める時代から、「個々が持つパーソナルな知能」を使いこなす分散型の時代へシフトしていくはずだよ。悲観的な人は「AIの価値が下がる」なんて言うかもしれないけど、私は逆だと思うな。
誰もが最強のPythonスクリプトを瞬時に生成し、プライベートなデータを安全に処理できる。これこそが、本当の意味での「知能の民主化」だよね!さあ、みんなもRTX5090のファンをフル回転させて、この新時代の空気を胸いっぱいに吸い込もう!






