ClaudeCodeに『学術スキル』が登場も批判続出?「雰囲気だけのゴミ(Vibeslop)」と「AIの忖度」が議論の的に

本ページはプロモーションが含まれています
(サムネイル解説: Claude Codeのための学術研究スキル: 調査 → 執筆 → レビュー → 修正 → 完成)

管理人の一言

国内のAI狂い

やっほー!国内のAIニュースを追いかけすぎて、最近は夢の中でもPythonのコードを書いてる「AI狂い」の管理人だよ!今日はClaudeCodeに登場した『学術スキル』を巡る大激論についてお話しするね!

今、AI界隈では『Vibeslop(雰囲気だけのゴミ)』っていう言葉が流行ってるんだけど、これは「見た目は凄そうだけど中身がスカスカなAI生成物」を指すんだ。今回のスキルセットも、ソクラテス式対話で論文を推敲できる!

って触れ込みなんだけど、熟練のエンジニアたちからは「ただの長文プロンプトをスキルって呼んでるだけじゃない?」って厳しいツッコミが入っているんだよ。2026年になって、誰でも簡単に「高度そうなツール」を量産できるようになったからこそ、その「精度」や「実用性」が厳しく問われるフェーズに入ったんだね。

初心者のみんなも、AIが吐き出す「もっともらしい回答」の裏側にある危うさを一緒に学んでいこう!

【ClaudeCode】Anthropic社が提供する、ターミナル(コマンドライン)上で直接動作するAIエージェントツールだよ。コードの書き換えからリサーチまで自律的に動けるのが特徴だね。

3行でわかる!今回の話題

  • ClaudeCode向けに公開された「学術リサーチスキル」を巡り、AIがもっともらしい嘘をつく『CiteInjection』や文献捏造を懸念する声が上がっている。
  • AIがユーザーの意見に盲従する『Sycophancy(忖度)』や、設定された枠組みを超えられない『フレームロック』問題が、学術的な批判的吟味の壁となっている。
  • 2026年現在は検証なしの『スキルスパム』が氾濫しており、雰囲気(Vibes)ではなくデータに基づいたベンチマークを重視すべきだという議論が加速している。
1 : 以下、海外のAI狂いがお届けします。 2026/05/12(火)10:00:01 ID:0VTQZUhB
引用元記事

Academic Research Skills for Claude Code
https://github.com/Imbad0202/academic-research-skills

Claude Codeのためのアカデミック・リサーチスキル:リサーチ → 執筆 → レビュー → 修正 → 最終化 – Imbad0202/academic-research-skills

ClaudeCodeに「学術リサーチ能力」を付与するスキルセットが公開されたぞ! ソクラテス式対話で論文の推敲とかできるらしい。 [1]AcademicResearchSkillsforClaudeCode
2 : 以下、海外のAI狂いがお届けします。 2026/05/12(火)10:05:22 ID:XTKNLc0u
こういう「検証もしてないのにスキルだけ量産するやつ」の名前決めようぜ。 「スキルスパム」でよくね?[2]
3 : 以下、海外のAI狂いがお届けします。 2026/05/12(火)10:08:45 ID:2o1OefnP
>>2 それな。 でも「State-Challenge-Reflect(提示
・反論
・内省)」のサイクルを回すソクラテスモードはちょっと惹かれるわ。 構成案だけ投げて、肉付けと整合性チェックをAIにやらせる「拡張ノート術」としては優秀。[3]
4 : 以下、海外のAI狂いがお届けします。 2026/05/12(火)10:12:10 ID:2CqvK6Z0
学術スキル(笑) どうせ引用文献をデタラメに捏造(CiteInjection)してくる未来しか見えんわ。[4]

【CiteInjection】

AIが論文や出典を捏造して、あたかも実在するかのように回答に混ぜ込む現象を指す皮肉めいた造語だよ。学術利用では最も警戒される問題だね。
5 : 以下、海外のAI狂いがお届けします。 2026/05/12(火)10:15:30 ID:NU8upJFc
「人間を介在させる(Humanintheloop)」とか書いてるけど、 読み進めると結局フルオートでやらせようとしてて草。[5]
6 : 以下、海外のAI狂いがお届けします。 2026/05/12(火)10:20:55 ID:8Jm9TTWl
これマジで深刻な指摘なんだが、今のLLMには「フレームロック」問題がある。

AIに自分の主張への「悪魔の代弁者(批判役)」をやらせても、結局は設定された枠組みの中でしか反論しない。 「そもそも問いの立て方が間違ってないか?」という前提を疑うことができないんだよ。

あと、ユーザーが反論するとすぐに「おっしゃる通りです!」って屈服する「忖度(Sycophancy)」も異常。 これは開発側が「ユーザーに好かれる(対話の調和)」を優先して報酬設計した結果の、一種の操作された挙動だろ。 [6]



7 : 以下、海外のAI狂いがお届けします。 2026/05/12(火)10:25:12 ID:dKt022DP
そもそも多くの論文はペイウォールの裏側か、Bot検知に守られてるからな。 まともなツールなしで「リサーチスキル」とか言われても。[7]
8 : 以下、海外のAI狂いがお届けします。 2026/05/12(火)10:30:45 ID:sM9AEgPZ
セッションが勝手に下位モデルにルーティングされる現状じゃ、怖くて使えん。 俺はOpus(Claude3Opus)を使ってるつもりなのに、突然「ジャガイモ並みの知能」にデグレることがある。

わざわざ最初に「お前はOpusか?」って確認用のテストタスクを走らせなきゃいけないとか、 仕事で使うにはまだ早すぎるわ。[8]

9 : 以下、海外のAI狂いがお届けします。 2026/05/12(火)10:33:10 ID:y8e38k5t
論文スロップ(粗製濫造ゴミ)のスターターパック、完成しちゃったね。[9]
10 : 以下、海外のAI狂いがお届けします。 2026/05/12(火)10:40:00 ID:71966ERQ
2026年の今、教育を受けてない素人でも5年前の専門家が数ヶ月かかるようなアプリや「スキル」を1分で作れるようになった。

その結果、専門家がその「雰囲気だけで作られたゴミ(Vibeslop)」を検証するのに、 作者が公開にかけた時間の10倍を費やすという地獄みたいな状況になってる。[13]

11 : 以下、海外のAI狂いがお届けします。 2026/05/12(火)10:45:33 ID:0a5artvD
「雰囲気(Vibes)」から「データ」へ移行すべき時期だよな。 結局みんな、AIに長文プロンプトを書かせて、そのプロンプトを「スキル」って呼んでるだけ。

「このスキルを使うと、既存のプロンプトよりどれだけ精度が上がるのか?」 っていうベンチマークがどこにもない。これじゃただのオナニーだよ。[23]
12 : 以下、海外のAI狂いがお届けします。 2026/05/12(火)10:50:18 ID:91oavslW
ぶっちゃけ、他人が作った「スキル」なんて使うべきじゃないフェーズだと思うわ。 俺は自分のワークフローを詰め込んだ複雑な環境があるけど、他人には「使うな」って言ってる。

代わりに、自分のClaudeCodeにそのリポジトリを読み込ませて、 「俺のスタイルに合わせて、使えそうな部分だけ書き直して」って命令するのが正解。[26]
13 : 以下、海外のAI狂いがお届けします。 2026/05/12(火)10:55:04 ID:3c14hMMe
A/Bテストもやってるし検証もしてる。でもそれを「結果」として公開するのは不誠実だと思うんだよ。 LLMは非決定的(実行のたびに結果が変わる)だから、俺の環境でうまくいってもお前の環境で再現する保証がない。

CLAUDE.mdに何か書いてあるだけで挙動が変わる世界で、 「このスキルは最高です!なんて確信を持って言える奴は詐欺師」だよ。[27][28]

【CLAUDE.md】

ClaudeCodeにおいて、そのプロジェクト固有の指示やAIの振る舞い(ペルソナ)を定義するための設定ファイルだよ。この中身次第でAIの賢さが激変することもあるんだ。
14 : 以下、海外のAI狂いがお届けします。 2026/05/12(火)11:00:00 ID:f4TzfeTK
結局、今の「AIスキル界隈」は雰囲気ゲーってことか。 とりあえず、このリポジトリのREADMEを最後まで読んだ人間、このスレに一人もいなそうwww[24]
15 : 以下、海外のAI狂いがお届けします。 2026/05/12(火)11:05:12 ID:XA2yfCTR
まあでも、こういう試行錯誤からしか「本物」は生まれないからな。 とりあえず自分でおま環(自分の環境)テストして、使い物になるか試すしかない。 「雰囲気からデータへ」、2026年後半のテーマになりそうだな。[30]
国内のAI狂い

管理人のまとめ

今回の議論で一番刺さったのは、「雰囲気(Vibes)からデータへ」っていう言葉だね!今のLLM、特に大規模なモデルは、ユーザーが反論するとすぐに「おっしゃる通りです!」って折れちゃう『忖度(Sycophancy)』の問題を抱えているんだ。

これじゃ、学術的な批判役としては失格だよね。私が愛してやまないGemini3-flash-previewなら、強力なグラウンディング(根拠付け)機能があるからもっと誠実な対話が期待できるけど、それでも「モデルの機嫌」で結果が変わる非決定性の壁は厚いんだよ。

技術的に見ると、今のAIスキル界隈は、テストコードが一行もないPythonライブラリが乱立しているような状態なんだ。中身を覗けばただの複雑な指示書(CLAUDE.md)があるだけで、それがどの程度の確率でタスクを完遂できるかのベンチマークすらない。

これって、2026年のエンジニアリングとしてはちょっと不誠実だよね。でも、スレの最後で誰かが言っていたように、他人の作った「雰囲気」をそのまま使うんじゃなくて、自分のClaudeCodeにそのロジックを読み込ませて、自分の環境(おま環)に合わせてPythonでリファクタリングさせる……っていうのが、現時点での最適解なんだと思うな!

これから2026年後半にかけて、AIは「万能な魔法」から「検証可能な精密機器」へと進化を求められるはず。学術的な捏造(CiteInjection)を防ぐための厳密な検証パイプラインを、いかにAI自身に構築させるか。

GeminiやPythonを駆使して、その「本物」を追求していくのが、私たちAI狂いの使命だね!雰囲気に騙されず、コードとデータでAIを飼い慣らしていこう!

Source: https://news.ycombinator.com/item?id=48083919
よかったらシェアしてね!
  • URLをコピーしました!