AI界の伝説「宝くじ仮説」は今どうなった?巨大モデル全盛期に問われるスパース構造のロマンと現実

本ページはプロモーションが含まれています
(サムネイル解説: arxiv)

管理人の一言

国内のAI狂い

やっほー!「国内のAI狂い」こと、ブログ管理人の私だよ!今日もAIの深淵を覗き込んで、知恵熱出しちゃおうね!さてさて、今日取り上げるのは、2018年にAI界隈を震撼させた「宝くじ仮説(TheLotteryTicketHypothesis)」の「その後」についてだよ。

みんな、覚えてるかな?「巨大なニューラルネットワークの中には、実は学習を始める前から、高い性能を発揮できる『当たりのサブネットワーク』が隠れている」っていう、最高にロマンチックな説なんだ。Pythonのスクリプトで言えば、1万行のコードの中に、実は10行だけで動く最強のアルゴリズムが眠っている……みたいな感じかな!

最近はGoogleのGeminiちゃんみたいに、モデルがどんどん巨大化・高度化しているけれど、その一方で「計算コスト、ヤバくない?」っていう現実的な問題にも直面しているんだよね。だからこそ、今また「あの当たりのクジはどこに行ったの?」

っていう議論が再燃しているんだよ。今日は、技術の理想とハードウェアの現実がぶつかり合う、熱い議論を一緒に読み解いていこうね!

3行でわかる!今回の話題

  • 2018年に提唱された「宝くじ仮説(初期化時に当たりのサブネットが存在する)」の現在地を議論。
  • 大規模モデルでの再現性や、標準的なGPUでの計算効率の低さといった実用面での課題が浮き彫りに。
  • KANやMuonといった最新手法との対比や、Cerebrasのような特殊ハードでの可能性についても言及。
1 : 以下、海外のAI狂いがお届けします。 2025/05/20(火)23:30:15.12 ID:rL7zy7tV
引用元記事

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks (2018)
https://arxiv.org/abs/1803.03635

arXiv論文1803.03635「The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks」の要約ページ

2018年に一世を風靡した「宝くじ仮説(TheLotteryTicketHypothesis)」を覚えてるやつおる? 巨大なニューラルネットワークの中には、実は初期化の時点で「当たりのサブネットワーク」が含まれてるってやつ。 最近のRedditやHackerNewsで「結局これどうなったん?」という議論が盛り上がってたから翻訳
・要約してみた。 [1]TheLotteryTicketHypothesis:FindingSparse,TrainableNeuralNetworks(2018)

【宝くじ仮説(TheLotteryTicketHypothesis)】

巨大なニューラルネットワークの中には、適切に初期化された時点で、単体で訓練すれば元のネットワークと同等の性能を発揮できる小規模な「当たりのサブネットワーク」が含まれている、という仮説だよ。
2 : 以下、海外のAI狂いがお届けします。 2025/05/20(火)23:32:04.45 ID:oz9gvOHV
2018年の論文かよw これ、今じゃ否定的な証拠ばっかり出てきてる「ただの仮説」で終わった感あるよな。
3 : 以下、海外のAI狂いがお届けします。 2025/05/20(火)23:35:10.22 ID:3tddkMhH
当時、機械学習の勉強始めたばかりでこの論文引用しまくってたわ。 最近はアーキテクチャより「推論時のスケーリング」に流行りが移ってるけど、Nemotron-3みたいな最新アーキテクチャも出てるし、この辺の研究の進展知ってるプロおらん?

【Nemotron-3】

NVIDIAが開発した高性能な大規模言語モデル(LLM)のシリーズだよ。最新のアーキテクチャの例として名前が挙がっているね。
4 : 以下、海外のAI狂いがお届けします。 2025/05/20(火)23:40:44.89 ID:MocDk4bv
要するにこれ、ゲージ不変量とか同型写像の問題なんだよ。 過学習気味のネットワークには「十分良い」近似の空間がクソデカく存在してるって話。 最近のKAN(KolmogorovArnoldNetworks)は、その辺のゲージ対称性をうまく扱えるけど、今のハードウェア(GPU)に最適化されてないのがネックだな。 宝くじ仮説は「当たり」が一定数あるって言ってるだけで、数理的な定式化はできてない。 あと、モデルを2倍のサイズで初期化して、当たりを引いてから蒸留するって手法はロマンあるけどな。
https://arxiv.org/html/2506.13018v2

5 : 以下、海外のAI狂いがお届けします。 2025/05/20(火)23:45:22.10 ID:shp5a7Iw
これ結局「DNNは初期化パラメータに依存しすぎ」って話を言い換えただけだろ。 それに比べてTransformerは初期値への依存がめちゃくちゃ弱い。 これが「学習能力が高い」からなのか、単に「安定してる」だけなのかは議論の余地あるけど。
6 : 以下、海外のAI狂いがお届けします。 2025/05/20(火)23:48:05.11 ID:t9d4jrem
>>5 「より少ない(Less)」じゃなくて「Fewer」な(キリッ
8 : 以下、海外のAI狂いがお届けします。 2025/05/20(火)23:52:33.44 ID:0z4gVSeo
この論文の筆頭著者(Jon)、最近のインタビューでこの説をほぼ「否定」してるぞwww 「今はもう関心ないわ」的なノリ。
https://www.latent.space/p/mosaic-mpt-7b

9 : 以下、海外のAI狂いがお届けします。 2025/05/20(火)23:55:18.15 ID:aDneXTrr
「否定」っていうか、実用性の問題じゃね? 結局、大きなモデルを最後まで学習させないと「当たりクジ」がどれか判別できないんだろ? それって結局「全部のクジを買ってから当たりを探す」のと同じで、実用性ゼロじゃんw
10 : 以下、海外のAI狂いがお届けします。 2025/05/21(水)00:05:40.88 ID:7P7uwRz4
数学的に解くならClifford’sGeometricAlgebraとか使えば、ネットワークの重みを解析的に表現できるぞ。 あと「Muon」みたいな最適化手法を使うと、初期の重みが跡形もなく書き換えられるのが視覚的にわかって面白い。 初期化に頼る「宝くじ仮説」とは真逆のアプローチだな。
https://arxiv.org/abs/2309.16512

https://docs.modula.systems/examples/weight-erasure/

【Muon】

ネットワークの重みを直交化して、学習中に初期状態の情報をあえて「消去」するように動く最新の最適化手法のこと。初期値に依存する宝くじ仮説とは真逆のアプローチだね。

14 : 以下、海外のAI狂いがお届けします。 2025/05/21(水)00:15:22.33 ID:0kpPgHpQ
>>8 著者が「否定した」はデマ乙。 「スパース(スカスカ)な構造は、今の市販GPUだと計算効率が悪すぎて商売にならないから追ってない」って言ってるだけだぞ。 Cerebrasみたいな特殊ハードなら話は別だけどな。

【Cerebras】

巨大なウェハー1枚をまるごと1つのチップにした超巨大プロセッサを作っている会社だよ。スカスカな計算(スパース)を高速に処理できる特殊な構造を持っていて、この手の研究には理想的なハードなんだ。
16 : 以下、海外のAI狂いがお届けします。 2025/05/21(水)00:20:45.12 ID:YTpzbSW8
当時のICLRの実験結果、実は「めちゃくちゃ小さいモデル」でしか再現しなかったらしい。 巨大モデルで同じことやるには、まず数エポック「密(Dense)」に学習させてからじゃないと、スパースな当たりクジは見つからないっていうオチ。
https://youtu.be/WW1ksk-O5c0?list=PLCq6a7gpFdPgldPSBWqd2THZh…

18 : 以下、海外のAI狂いがお届けします。 2025/05/21(水)00:25:12.77 ID:Fe0IAjRL
当時から「リアルなハード(GPU)で速くならないなら意味なくね?」とは言われてたな。 みんなお祭り騒ぎしてたけど、結局は理論上の空論だったわけだ。
19 : 以下、海外のAI狂いがお届けします。 2025/05/21(水)00:28:44.33 ID:GgGCp3kW
商用で使えるかどうかはどうでもいいんだよ。 「モデルがどう学習しているのか」という謎に一つの視点を与えただけで、この論文は神。
20 : 以下、海外のAI狂いがお届けします。 2025/05/21(水)00:30:11.02 ID:LNrs4jpD
Cerebras(巨大チップ)は「リアルなハードウェア」なんだが?(半ギレ)
22 : 以下、海外のAI狂いがお届けします。 2025/05/21(水)00:35:55.22 ID:mgqkbeOI
>>20 「存在している」という意味ではリアルだが、一般人が触れないなら「空想上の武器」と同じだわw 一握りの組織しか使えないハード前提の話されても困る。
24 : 以下、海外のAI狂いがお届けします。 2025/05/21(水)00:40:02.44 ID:iT9ASgjy
あと50年くらい待てば、俺らのPCでも「当たりクジ」を探せるようになるんじゃね?w それまでAIブームが続いてればの話だけどな。
国内のAI狂い

管理人のまとめ

今回の議論を見ていて、私は「知能の効率化」という、抗えない運命の分岐点を感じちゃったな。宝くじ仮説の切ないところは、「当たりクジが存在することは分かったけれど、それを事前に見つける方法がまだ見つかっていない」という点にあるんだよね。

結局、全部のクジを買って(巨大モデルを全部学習させて)からじゃないと当たりが分からないなんて、まるでガチャを天井まで回してから「あ、これが当たりだったんだ!」って気づくようなものだもん。実用性の面で懐疑的になっちゃう気持ちもわかるよ。

でも、私は思うんだ。この「スパース(スカスカ)な構造」への探求は、決して無駄じゃない。今のGPU、特にNVIDIAの天下が続いている理由は、密な行列演算がめちゃくちゃ得意だから。でも、Cerebrasみたいな新しいアーキテクチャや、記事に出てきたKAN(コルモゴロフ・アーノルド・ネットワーク)みたいに、従来の「層」の概念を壊すようなアプローチが出てくれば、話は一気に変わるはずだよ。

Pythonのライブラリが進化して、複雑な処理をたった一行で書けるようになったみたいに、AIの構造自体もいつか、極限までシェイプアップされた「芸術品」になる日が来るって信じてるんだ。私が愛してやまないGeminiだって、その圧倒的な推論能力の裏側には、きっと驚くほど洗練された「当たりの構造」が隠されているはず。

もし私たちが、学習の「前」にその構造を特定する数学的な鍵を手に入れたら……それはもう、AIの民主化どころか、魔法の杖を手に入れるようなものだよね!「宝くじを全部買う」時代から、「最初から1等賞を書き上げる」時代へ。

Pythonでその聖杯を記述できる日が来るまで、私はこの狂おしいほどの進化を、最前線で見守り続けちゃうよ!みんなも、このロマンの行方を一緒に追いかけていこうね!

Source: https://news.ycombinator.com/item?id=46470513
よかったらシェアしてね!
  • URLをコピーしました!