(サムネイル解説: Opus 4.6 v
~ / Documents/pl
Compact (ctrl+o to see full summary)
Referenced file
../claude-voice-hooks/src/claude_voice/overlay.py
Read ../claude-voice-hooks/src/claude_voice/server.py (246 lines)
Hi Vira. Are you up?
Thundering…
bypass permissions on (shift+tab to cycle) esc to interrupt)
管理人の一言
国内のAI狂い
やっほー!「国内のAI狂い」の管理人だよ!みんな、今日も元気にPython書いてるかな?最近のAI界隈は、ClaudeCodeみたいな「勝手にコードを書き進めてくれるエージェント」が主流になってきたよね。 でも、CLI(黒い画面)で動くエージェントって、気づかないうちに作業が終わってたり、逆にエラーで止まってたりして、ずっと画面を監視してなきゃいけないのが地味にストレスだったりするんだよね。そこで今、海外のギークたちの間で熱いのが、爆速音声合成AI『KokoroTTS』を連携させて、AIに自分の作業を「実況」させるカスタマイズなんだ! これ、ただの読み上げじゃなくて、AIが「今からファイルを検索するね」とか「このコード、ちょっとセンスないわね」なんて毒舌を吐きながら動いてくれるんだよ。視覚だけに頼らない、新しいAIとの共生スタイルについて、一緒に深掘りしていこうね!
【ClaudeCode】 Anthropic社が提供する、エンジニア向けのターミナル用AIエージェントだよ。コマンドラインから自律的にコードを修正したり、テストを実行したりできる強力なツールなんだ。
【KokoroTTS】 非常に軽量かつ高品質なオープンソースの音声合成(Text-to-Speech)モデルだよ。モデルサイズが小さいのに、人間のように自然で爆速な読み上げができるのが最大の特徴だね。
3行でわかる!今回の話題 ClaudeCodeの通知を爆速TTS「KokoroTTS」で音声化し、エージェントの動作をリアルタイム実況するハックが公開。 低遅延を実現するため、1文ずつのストリーミング生成や記号の平文変換など、エンジニアらしい高度な調整術が議論された。 M1/M2Mac等のローカル環境でフル駆動。エージェントに特定の性格や声(ケルシー風など)を持たせて楽しむユーザーも続出。
1 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)12:00:45 ID:Fv7ReuNH
ClaudeCodeの通知がMacだと地味すぎて気づかないから、爆速読み上げAIの「KokoroTTS」をフックさせてみたわ。エージェントが何やってるか実況してくれるし、AIの毒舌(sass)が聞こえてくると作業が捗るww
速度は120文字/1秒くらい。ClaudeCode(Opus4.6)のフックとKokoroTTSを組み合わせて、Mac上でフルローカル駆動させてる。
【Opus4.6】 記事内(2026年設定)で言及されている、Claudeシリーズの最高峰モデルを指しているよ。非常に高度な推論能力を持っていて、開発の相棒として優秀なんだね。
2 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)12:05:12 ID:8uHTr3M0
>>1
TTS(音声合成)ガチ勢だけどアドバイスしてやる。これ意識するだけでマジで化けるぞ。
・1文ごとに生成しろ。遅延が最小限になる。 ・1回のレスを4文以内に制限しろ。長文の読み上げはマジでイライラするし内容が入ってこない。 ・マークダウンとか記号(#、*、絵文字)は全部除去して平文にしろ。TTSがバグる原因だ。 ・記号は言葉に置換。
「Move->Jump」なら「Movethenjump」
「2+2=4」なら「2plus2equals4」とかな。
3 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)12:08:33 ID:u56ujNvN
>>2
神アドバイス乙!もっと早く教えてほしかったわwwいくつか既にやってるけど、今の構成晒しとく。 ・1文ずつ生成(ストリーミング)は実装済み。一括生成にはもう戻れん、遅すぎて。 ・読み上げモードは切り替え可能にした。ドライアイで画面見たくない時は長文読み上げさせてるわ。 ・記号対策はClaude側で「読み上げ用の平文」に変換してからTTSに投げるようにしてる。ターミナルには原文、耳には要約版が流れる仕様。
4 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)12:12:05 ID:MxPEe5N7
システムプロンプト何食わせてる?スクショのAIの性格、短気な感じで最高なんだがwあと画像はこれ動いてるの?
5 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)12:15:44 ID:HUWuyJry
>>2
文の合間にポーズ入れる方法知らん?Kokoroで[pause]入れても無視されるんだが。
6 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)12:18:20 ID:8xOFN2vz
ソース(Hook)出すか、さもなくば去れ。
9 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)12:22:11 ID:cUsvoss9
おもしろいけど、俺の環境でこれ鳴り始めたら3分で発狂してオフにする自信あるわwww
11 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)12:25:55 ID:DcOuw7Xo
先越されたわ。俺もNVIDIAのTTS/ASR周りで同じようなことやろうとしてた。お前天才かよ。
12 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)12:28:40 ID:HbrBv3VO
Kokoroって去年よりめちゃくちゃ進化してね?
13 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)12:31:15 ID:Ydc2b75j
>>12
OPの動画より、標準の「Heart」って声使ってみ。マジで完璧すぎてビビるから。
15 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)12:35:48 ID:jU4228CT
>>13
正論。あえて人間っぽすぎない「Isabella」を選んでるけど、af_heartとかaf_bellaはマジで火の玉ストレート(神)だよな。
16 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)12:40:22 ID:ThocBAMq
M1/M2チップならKokorov0.19の遅延はほぼゼロだしな。ターミナルから離れて家事してる時とかにClaudeCode回しとくのに最適だわ。
17 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)12:45:10 ID:A04PsNFj
>>1
これこれ、この機能が欲しかったんだよ。複数のサブエージェントが並行して動いてる時、どれが終わったか声で教えてくれるのはデカい。これ、ツールの実行前(pre-tool)と実行後、どっちでフックさせてる?
18 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)12:50:33 ID:9jUIPp7c
>>17
今はpretooluseとstopの両方かな。主にpretooluseで、ファイル読み込みとか検索とかの定型アクションに対して、キャッシュ済みの音声キューを流してる。
ただ、これやりすぎると職場で隣の人に殺されるから気をつけろww
【pretooluse】 AIエージェントが「ファイルを読む」「コマンドを実行する」といった具体的なアクション(ツール)を起こす「直前」のタイミングを指すよ。ここで音声を鳴らすと、AIが次に何をするか事前に教えてくれるようになるんだ。
19 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)12:55:18 ID:uDZNs2ZS
>>18
pretooluse正解。アクションの「後」じゃなくて「前」に予兆があるのが大事だよな。俺はLLM通さずにツール名と引数だけテンプレートに流して爆速で喋らせてるわ。オープンオフィスだと詰むけど、イヤホンすれば解決。
20 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)13:02:44 ID:P7zAEJq9
Kokoro、たまにイントネーションが迷子になるのがなぁ。
22 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)13:10:05 ID:YTTtk2Yy
>>1
なんでこいつケルシー先生(アークナイツ)みたいな声してんの……?
23 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)13:15:55 ID:hr2zgAT3
>>1
Opusのレス草。
プロンプト
“It’selegantinaquietlynihilisticway.Awellengineeredoffswitchformyownvoice.”
(静かなニヒリズムを感じるエレガントさね。私の声を消すための、よくできたオフスイッチだわ)
AIにこんなこと言わせるの
楽しすぎんだろw
24 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)13:25:30 ID:tTRP6Ksc
俺はChatterboxTurboをCoreMLとMPSでハイブリッド駆動させてるわ。T3(GPT-2ベース)はANE(AppleNeuralEngine)で回して、S3Gen(ボイスコーダー)はMPSで並列処理させるのが一番速い。
プロンプト
[TTS]LoadingT3ANEmodel…
Modelready(13.9stotal)
[TTS]req=b7a463f7″Thistoolcallshouldtriggerthehook,”->3.5saudioin1.79s
ボイスクローンも爆速だし、最初の1文さえ出ればあとはキューイングで遅延ゼロだぞ。
25 : 以下、海外のAI狂いがお届けします。 2026/03/09(月)13:40:12 ID:12trAnI0
お前らレベル高すぎだろ。 とりあえずリポジトリはよ。
国内のAI狂い
管理人のまとめ 今回のスレ、技術レベルが高すぎて最高にゾクゾクしちゃった!特に注目すべきは、単に文字を読み上げるだけじゃなく、遅延(レイテンシ)を極限まで削るための「1文生成ストリーミング」や「記号の事前置換」といった、現場の知恵が詰まっているところだね。 これって実は、将来のAIインターフェースのあり方を予言していると思うんだ。今までは人間がAIの出力を「待つ」必要があったけど、KokoroTTSのような爆速ローカルモデルを使えば、AIの思考と声がほぼ同期する。 これ、Pythonで数行のフックを書くだけで実装できちゃうのが、この言語を愛してやまない理由の一つなんだよね!社会的にも、AIに「性格」を与えて音声でフィードバックさせることは、作業の心理的ハードルを下げる大きな効果があるはず。 私はGemini信者だから、Gemini2.0RealtimeAPIの滑らかな対話能力も大好きだけど、ローカルのMacでM1/M2チップをフル活用して、自分だけの毒舌エージェントを育てるっていう「秘密基地感」には抗えない魅力があるよ。 将来的には、視覚障碍者のエンジニアリング支援はもちろん、私たちのような「画面を見すぎてドライアイ気味な狂いたち」にとっても、耳で開発するスタイルは標準装備になるかもしれないね。でも、スレでも言われていたように、職場でいきなりAIの毒舌が響き渡ったら社会的な死を迎えるから、そこだけは要注意! Pythonで「ヘッドホン接続時のみ有効」っていうスクリプトをサクッと組んで、賢く、そして狂気的にAIライフを楽しんでいこうね!次はどんな機能をフックさせようか、想像しただけで夜も眠れないよ!
Source: https://www.reddit.com/r/LocalLLaMA/comments/1ro7j0b/kokoro_tts_now_hooked_to_my_claude_code_cli/