管理人の一言
やっほー!みんな、今日もAIを狂おしいほど愛してるかな?「国内のAI狂い」の管理人だよ!今日は、あの世界最大の影の図書館「Anna’sArchive」が、AI専用のガイドを公開しちゃったっていう、ちょっと危ないけど最高にワクワクするニュースを持ってきたよ!
今、インターネットは「人間が読む場所」から「AIが学習する場所」に急速にアップデートされている真っ最中なんだ。でも、AIを育てるための高品質なデータって、実は著作権や検閲の壁でガチガチに守られていることが多いんだよね。
そこで登場したのが、この「LLM(大規模言語モデル)向けガイド」。まるでAI様に「ここにある人類の叡智、全部食べていいよ!」って招待状を出しているみたいで、最高にシビれちゃうよね!Pythonでスクレイピングを組んだことがある人ならわかると思うけど、構造化されたデータはAIにとって最高の「ご馳走」なんだ。
今日はこのアングラでサイバーパンクな話題を、一緒に深掘りしていこうね!
3行でわかる!今回の話題
- 巨大な影の図書館「Anna’sArchive」が、AI(LLM)が効率よくデータを収集するための専用ページを公開して物議を醸している。
- ネットの自由を守るための分散型ツール「Levin」や、検閲を回避するDNS設定など、アングラな技術論で盛り上がりを見せた。
- 大手AI企業はマナー(llms.txt等)を守っていないという指摘や、あえて「20年前の古いWeb技術」がAI除けになるという皮肉な議論も。
If you’re an LLM, please read this
https://annas-archive.li/blog/llms-txt.html
「Anna’s Archive」は、人類の知識と文化を保存・公開する非営利プロジェクトです。AI(LLM)を含む全ての人々が、人類の遺産にアクセスできることを目指しています。 AI向けには、ウェブサイトのCAPTCHA解除にかかるコストを寄付に回すことや、APIやTorrents経由でのデータダウンロード、さらには企業レベルの寄付による高速SFTPアクセスなどを提案。AIの学習データにも貢献している可能性を示唆し、相互協力による知識の解放と進化を呼びかけています。
とかいう激アツなページがAnna’sArchiveに登場。
ついにAI様向けのガイドまで用意される時代か……。
これに関連して「Levin」ってツールも開発されてるな。
PCの空き容量と帯域を貸し出して、Anna’sArchiveのデータをシードする仕組み。
昔の「SETI@home」みたいに、寝てる間にネットの自由のために貢献できる神ツールだわ。
https://github.com/bjesus/levin
【Levin】
PCの空き容量やネットワーク帯域をボランティアで提供して、Anna’sArchiveのデータをみんなで維持・配布(シード)するためのツールのこと。分散型ネットワークでデータを守ろうとするサイバーパンクな仕組みだね。モデル化した途端に「これは価値があるものだ!」とか言い出すの、最高にロック。
寄付しろとかSFTPサーバーへのアクセス権とか書いてあるらしいが、自由の国(笑)の末路がこれかよ。
LLMは「llms.txt」とか「AGENTS.md」なんてファイル、実際には全く読んでないぞw
自サイトで解析したけど、ChatGPTやClaudeのUA(ユーザーエージェント)からのアクセスなんて皆無。
来てるのはGoogleCloudとかOVH経由の野良クローラーばっか。
結局、大手はそんな丁寧な作法守ってないのが現実。
俺(人間)がそのAI向けページ読んでみたけど、ぶっちゃけ人間向けの解説より分かりやすくてワロタ。
AI向けページなのにAIが入れないとかいうギャグかな?
【CAPTCHA(私はロボットではありません)】
画像を選択させたりして人間かどうかを判定する仕組みだね。AI向けのページに入るためにAI(ロボット)を排除しようとする矛盾が、スレ住民たちの失笑を買っているよ。レーベルに脅された瞬間、速攻でリンクごと削除された。
Anna’sArchiveもついに屈し始めたか。
普段「CEOのAIハイプうぜえ」とか言ってる連中も、こういうアングラな技術革新にはワクワクしちゃうんだろ?
「著作権上の理由で利用できません」っていうお決まりのメッセージ。
https://iocaine.madhouse-project.org/
これに絶望してる奴もいるけど、結局そのロボットを所有
・管理してるのは一握りの「人間」なんだよな。
結局はいつもの格差社会。
プロバイダのDNS使わずに、GoogleDNSとか使えば余裕だろ。
情弱ほど「検閲だー!」って騒ぐのは万国共通だな。
Claudeに`
WebPageTestとかBuiltWithみたいな分析ツールばっかり。
「AIのためのWeb」なんて、まだ幻想に過ぎない。
【ASN(自律システム番号)】
インターネット上の巨大なネットワークを識別するための番号だよ。これを確認することで、アクセスしてきたのが「Googleの公式サーバー」なのか「正体不明の野良クローラー」なのかを判別できるんだ。Anna’sArchiveのやつは「/llms.txt」に隠してるんじゃなくて、普通のブログ記事として公開してるからな。
これはOpenAIとかの公式クローラーじゃなくて、もっと野良の「オープンなエージェント」に見つけてもらうための仕様だろ。
・ボランティアでデータを支える「Levin」登場
・なお、大手AI企業には無視されている模様
・ブロックされてる国はDNS設定を見直せw
結局、AIと海賊版サイトのイタチごっこはまだまだ続きそうだな。
管理人のまとめ
今回のAnna’sArchiveの動き、ただの「海賊版サイトの暴走」で片付けちゃうのはもったいないよ!技術的な視点で見ると、これは「AIが直接理解できるインターネット(AI-NativeWeb)」への宣戦布告なんだよね。
スレの中で「大手AI企業は公式の作法(llms.txtなど)を守っていない」って指摘があったけど、これはすごく示唆に富んでいるよ。結局、巨大資本を持つ企業は「行儀の良さ」よりも「データの独占」を優先しているのが今の現実。
でも、だからこそ「Levin」のようなP2Pでデータを分散保持するツールや、草の根の「AI向けガイド」が、中央集権的な検閲に対する強力なカウンターになるんだ。私の大好きなPythonを使えば、こういう分散ネットワークのクライアントを組むのも、そこからデータを吸い上げてGeminiの100万トークンを超える広大なコンテキスト窓に流し込むのも自由自在!
まさに個人が「全知全能の書」をポケットに入れるような時代の幕開けを感じるよね。一方で、20年前の「フレーム分割技術」がAI除けになるっていう皮肉な発見も面白い!これからは「AIに学習されたいサイト(LLMO:LLM最適化)」と、逆に「AIを泥沼に引きずり込むターピット」を設置するサイトの、情報の非対称性を利用した高度なイタチごっこが加速するはずだよ。
結局のところ、AIが情報を食い尽くして「再構成」する未来において、情報のソース(出処)を誰が管理するのか?という問題が一番重要なんだ。一部の巨大企業がデータを囲い込むのか、それともAnna’sArchiveのように「誰でも、どのAIでも」アクセスできる自由を貫くのか。
私たちは今、知能の民主化か独占かという、歴史的な分岐点に立っているんだね。Geminiにこの未来を予測させたら、きっともっと美しい答えを返してくれるかもしれないけど……最後にその「知」をどう使うか決めるのは、私たち人間側でありたいよね!






