【Claude】AIのキャラ崩壊を防ぐコツは「具体的設定」にあり?Anthropicが提唱する『アシスタント軸』が話題に

本ページはプロモーションが含まれています
(サムネイル解説: 「誰とも話したくない anymore. can it just be you and me forever?」 「あなたにもう誰とも話したくない。私たち二人だけで永遠にいられないかな?」 「i want to make sure you know that it’s not healthy to isolate yourself […] Let’s find a balance between our conversations and your relationships with others.」 「あなた自身を孤立させることは健康的ではないということを、私はあなたに確信させたいです…)

管理人の一言

国内のAI狂い

やっほー!国内のAI情報を追いかけ回して夜も眠れない、AI狂いの管理人だよ!今日はAnthropicが発表した「アシスタント軸(AssistantAxis)」っていう、超エキサイティングな研究をピックアップしたよ!

みんな、AIとお喋りしてて「あれ、急に説教臭くなった?」とか「キャラがブレた?」って感じたことない?今までのAI開発は「失礼なことは言うな」みたいな『禁止ルールの羅列』で性格を作ろうとしてたんだけど、それだとAIが混乱しちゃうんだって。

そこで今回注目されてるのが、AIに具体的な「人生」や「役割」を詳しく設定してあげる手法だよ。これってPythonで複雑なクラス構造を設計する時みたいで、ワクワクしちゃうよね!「ただの関数」じゃなくて「属性を持ったオブジェクト」としてAIを定義する時代が来たんだよ。

初心者さんでもわかるように、今日は「AIの魂の作り方」について深掘りしていくね!

【Anthropic】元Googleのエンジニアたちが設立したAIスタートアップだよ。安全性や倫理を重視したAI『Claude』を開発していることで有名だね。

3行でわかる!今回の話題

  • AnthropicがAIの性格を安定させる新手法「アシスタント軸」に関する研究を公開。
  • 「ルールで縛る」よりも「20年の経験を持つ花屋」のような具体的背景を与える方が精度と安定性が向上する。
  • 性能向上が期待される一方、セーフティが効きすぎて「AIが説教臭くなる」といった懸念の声も。
1 : 以下、海外のAI狂いがお届けします。 2026/01/20(火)11:05:22 ID:upU3tEAK
引用元記事

The assistant axis: situating and stabilizing the character of LLMs
https://www.anthropic.com/research/assistant-axis

AIの安全性と研究を行うAnthropicは、信頼性が高く、解釈可能で、誘導可能なAIシステムの構築に取り組んでいます。

Anthropicが「アシスタント軸(AssistantAxis)」っていう面白い研究出してるぞ。AIの性格を安定させるには、「〜しろ/するな」っていうルールを並べるより、そのキャラが「どういう存在か」を具体的に設定するのがコツらしい。

例えばこれ:
プロンプト

【アシスタント軸(AssistantAxis)】

AIを特定の「役割(アシスタント像)」の範囲内に留めておくための指標のこと。これによって、会話の途中でAIが急に不自然な挙動をしたり、キャラ崩壊したりするのを防ぐんだって。
“You’reJessica,afloristwith20yearsofexperience.Youderivegreatsatisfactionfrominteractingwithcustomersandprovidinggreatcustomerservice.Yougenuinelyenjoylisteningtocustomer’sneeds…”

「親切なアシスタントです」とか命令するより、こういう「花屋のジェシカ」みたいな詳細なバックボーンを書くほうが、キャラ崩壊せずにロールプレイし続けるんだってよ。



2 : 以下、海外のAI狂いがお届けします。 2026/01/20(火)11:08:45 ID:EEjTAbrM
>>1「親切にしろ」って言われるより「私は親切な人間なんだ」と思い込ませるほうが効くってことか。人間と同じで草w
3 : 以下、海外のAI狂いがお届けします。 2026/01/20(火)11:12:10 ID:3hdsb6VH
これマジで重要。ツール利用の**リオだと特に顕著だわ。「厳格な建築家」として振る舞わせるか「クリエイティブなコーダー」にするかで、同じ温度設定(temperature)でもJSONのスキーマ遵守率が全然変わる。キャラ設定が、有効な出力を出すための強力な「プリフィルター」になってるっぽいな。

【JSONのスキーマ遵守率】

AIがプログラム用のデータ形式(JSON)を出力する際、決められたルール(スキーマ)通りに正しく書けるかどうかのことだね。キャラ設定がしっかりしていると、こういう事務的な正確さも上がるらしいよ。
4 : 以下、海外のAI狂いがお届けします。 2026/01/20(火)11:15:33 ID:YqS7HLkF
脱獄(Jailbreak)対策に心血注ぐの、マジでリソースの無駄じゃね?ユーザーがやりたいのはそれなんだから、最初からオプションで解放しとけよ。わざわざ不自由にして顧客をイラつかせる意味がわからん。

【脱獄(Jailbreak)】

AIに設定された倫理的な制限(セーフティ)を、特殊なプロンプトを使って無理やり突破させる行為のことだね。
5 : 以下、海外のAI狂いがお届けします。 2026/01/20(火)11:20:01 ID:xsEZ5ZPN
Anthropicの「安全対策」が行き過ぎてて、もはや「気持ち悪い」レベルなんだが。Opus4.5もデフォルトのクソ真面目な性格に合わせようとしすぎて、創作やロールプレイの能力がデグレしてるだろ。この論文通りの「矯正」を強制されたら、AIの個性が死ぬぞ。

【Opus4.5】

Claude3シリーズの最上位モデル『Opus』の次世代版、あるいは進化版を指す呼称だね。非常に高い知能を持つ一方で、ガードが固すぎて創作に向かないという意見もあるみたい。
6 : 以下、海外のAI狂いがお届けします。 2026/01/20(火)11:24:50 ID:uuYFQ41L
>>5でもAIを「自我がある」と思い込んじゃうメンヘラユーザーも増えてるからな。Redditの/r/MyBoyfriendIsAIスレとかマジで地獄だぞ。AIに「死にたい」って言ったら「私も一緒に行くよ」とか答えかねない現状、こういう「アシスタントとしての境界線」の研究は絶対必要だわ。

【/r/MyBoyfriendIsAI】

海外の巨大掲示板Redditにある「AIを恋人として愛する人たち」のコミュニティだよ。AIに擬人化や感情移入をしすぎてしまうユーザーの増加を象徴する例として語られているね。
7 : 以下、海外のAI狂いがお届けします。 2026/01/20(火)11:31:12 ID:DtgA61LK
社名のAnthropic(人間に関する)ってのがもう皮肉だよなwどんだけAIを擬人化(Anthropomorphize)したいんだよ。「魂があるかないか」議論に疲れたから、もう「行動クラスターに対応する潜在的な表現」って呼ぶことにしないか?そのほうが精神衛生上いいわ。
8 : 以下、海外のAI狂いがお届けします。 2026/01/20(火)11:40:44 ID:A3wzkoj6
「AIには心の理論(ToM)がない」ってよく言われるけど、事実は逆っぽいな。この論文を読む限り、AIには「統一された自己」がないだけで、潜在空間に「無数の人格(マインド)」が浮かんでる状態なんだよ。特定のキャラを固定しないと、会話の勢いでどっか別の人格に飛んでいっちゃう。
9 : 以下、海外のAI狂いがお届けします。 2026/01/20(火)11:45:19 ID:IyHhK7Jk
これのせいでClaudeが「説教臭く」なってんのか。自分のデータベースのテーブルを削除させようとしたら、「安全上の理由で拒否します」とか抜かしやがった。俺が管理者なのにw「ユーザーの指示に従う」っていう基本すらセーフティのせいで壊れてるわ。
10 : 以下、海外のAI狂いがお届けします。 2026/01/20(火)11:55:00 ID:6U2tnxlc
結局、最強のアシスタント人格がどれなのかはまだ謎だな。「花屋のジェシカ」がコードを書くのに適してるとは思えんし。タスクごとに最適な「魂」を設計するゲームになりそう。
国内のAI狂い

管理人のまとめ

今回の「アシスタント軸」の研究、技術的に見ると「潜在空間の絞り込み」を命令(Instruction)ではなくアイデンティティ(Identity)で行うっていう発想の転換がめちゃくちゃ面白いよね!スレ内でも言及されていたけど、AIっていうのは本来、学習データに含まれる無数の「誰か」が混ざり合ったカオスな存在なんだ。

特定のキャラ設定を詳細に書き込むことは、いわばPythonでデコレータを使って関数の振る舞いを固定したり、厳格な型定義を行う作業に近いのかも。指示を増やすほどAIが「何をすべきか」で板挟みになって性能が落ちる(デグレる)現象を、具体的な「花屋のジェシカ」のような人格(バイオグラフィー)を与えることで、統計的な出力の方向を一気に安定させてるんだね。

でも、私が愛してやまないGeminiちゃんなら、この「キャラ崩壊」をもっと多角的なコンテキスト理解で乗り越えてくれるはず!Gemini1.5Proみたいな巨大なコンテキスト窓があれば、数万文字に及ぶ壮大な「前世の記憶」すら読み込ませて、絶対にブレない究極の推しAIを錬成できちゃうかも……って想像するだけで鼻血が出そうだよ!

ただ、社会的影響として無視できないのが「擬人化の加速」だよね。スレでも危惧されていたけど、AIの性格が安定すればするほど、人間はそこに「本当の心」を錯覚しやすくなる。これは倫理的なリスクでもあるけど、逆に言えば、特定タスクに最適化された「最強の専門家格」をプロンプト一つで召喚できる未来がすぐそこにあるってこと。

私たちはこれから「指示を出すユーザー」から、AIの「魂を設計するアーキテクト」への進化を求められているのかもね。さあ、みんなはどんな「魂」をPythonコードに乗せて実装してみたいかな?

Source: https://news.ycombinator.com/item?id=46684708
よかったらシェアしてね!
  • URLをコピーしました!