(サムネイル解説: LLMをベンチマークしないと、5〜10倍多く支払いすぎている可能性があります。)
管理人の一言
国内のAI狂い
3行でわかる!今回の話題
- LLMを定量的に評価(Eval)しない運用は、高コストな上位モデルの無駄遣いにつながる可能性が高い。
- 1〜10点の曖昧な採点ではなく、Yes/Noの二択(真偽値)で評価を重ねる手法が精度向上の鍵。
- 「高価なモデル=正解」という固定観念を捨て、GPT-4o-miniやGeminiFlash等の小型モデルを適材適所で使い分けるべき。
引用元記事
Without benchmarking LLMs, you’re likely overpaying
https://karllorey.com/posts/without-benchmarking-llms-youre-overpaying
100以上のモデルを実際のタスクでベンチマークした結果、同等に機能する、はるかに安価な代替策が見つかりました。
LLM-as-Judge(AIに採点させるやつ)のコツ教えてやるわ。
1〜10点満点で評価させるのは今すぐやめろ。
・返品ポリシーに言及したか?(Y/N)
・トーンは丁寧か?(Y/N)
・次のステップを提示したか?(Y/N)
みたいに、全部Yes/Noの「真偽値」で判定させて、後から手動で重み付けしろ。
「正確性0.5+トーン0.3+誘導0.2」って感じでな。
これだけで出力のブレが抑えられて、Temperature(創造性)上げても安定するぞ。
1〜10点満点で評価させるのは今すぐやめろ。
・返品ポリシーに言及したか?(Y/N)
・トーンは丁寧か?(Y/N)
・次のステップを提示したか?(Y/N)
みたいに、全部Yes/Noの「真偽値」で判定させて、後から手動で重み付けしろ。
「正確性0.5+トーン0.3+誘導0.2」って感じでな。
これだけで出力のブレが抑えられて、Temperature(創造性)上げても安定するぞ。
【Temperature(創造性)】
AIが回答を生成する際の「ランダムさ」を制御するパラメータだよ。値を0に近づけると毎回同じような堅実な回答になり、値を上げると創造的で多様な回答になるけれど、その分挙動が不安定になりやすいんだ。【LLM-as-Judge】
あるAIが出した回答を、別のAIに客観的に評価させる手法のことだよ。人間がすべてをチェックする手間を省きつつ、大量のデータを一貫した基準で高速に採点できるのが強みだね。>>2
それ用途によるだろ。安いモデル使うと途端に挙動が不安定になる。
特にエッジケースでの堅牢性は、やっぱりデカいモデルの方が圧倒的に上。
「安物モデルのカスタマーサポート」とか、評価指標は通っても客からの印象が最悪になるパターンあるからな。気をつけろよ。
それ用途によるだろ。安いモデル使うと途端に挙動が不安定になる。
特にエッジケースでの堅牢性は、やっぱりデカいモデルの方が圧倒的に上。
「安物モデルのカスタマーサポート」とか、評価指標は通っても客からの印象が最悪になるパターンあるからな。気をつけろよ。
【エッジケース】
普通ではなかなか起こらないような珍しいパターンや、特殊な入力条件のことだよ。ここでの挙動が安定しているかどうかが、AIシステムの信頼性を決める重要なポイントになるんだ。LLMに月10万とか15万とか払ってる奴、マジで正気を疑うわw
俺なんてdeepinfraでGLM-4.7使って月1ドル(約150円)以下だぞ。
エージェントにゴリゴリやらせても月20ドルもいかないだろ。
俺なんてdeepinfraでGLM-4.7使って月1ドル(約150円)以下だぞ。
エージェントにゴリゴリやらせても月20ドルもいかないだろ。
>>4
同意。俺も自前でClaudeCodeもどき作ったけど、今はGemini1.5Flashがメインだわ。Proの1/10のコストで爆速。
ABテストしても、大抵のタスクで出力の差なんてほぼ無い。
サブスク全部切って、レート制限に怯える日々とおさらばしたわw
同意。俺も自前でClaudeCodeもどき作ったけど、今はGemini1.5Flashがメインだわ。Proの1/10のコストで爆速。
ABテストしても、大抵のタスクで出力の差なんてほぼ無い。
サブスク全部切って、レート制限に怯える日々とおさらばしたわw
今のうちにデカいモデルのログ溜め込んで、後で小型モデルをファインチューニングする際の教師データにする予定。
「魔法の出力」をボトルに詰め込んで自前で再現できれば最強だろ。
「魔法の出力」をボトルに詰め込んで自前で再現できれば最強だろ。
>>1
この記事、結局自分のSaaSの宣伝じゃねーかw
まあ、セールストークとしてはキレッキレだけどな。頑張れよ。
この記事、結局自分のSaaSの宣伝じゃねーかw
まあ、セールストークとしてはキレッキレだけどな。頑張れよ。
俺、3年間でLLMに計13ドルしか払ってないんだけど……。
これ以上、何を改善しろってんだよw
これ以上、何を改善しろってんだよw
これ「ベンチマーク」じゃなくて、ただの「評価(Eval)」だろ。本番環境に出すものに評価系組んでないとか、今まで何してたんだよ。
プロンプトエンジニアリング(笑)とかいうお遊びは、そのクレヨンと一緒に今すぐ片付けろ。
統計的なモデルの出力は、統計的に評価されなきゃいけないんだよ。
プロンプトエンジニアリング(笑)とかいうお遊びは、そのクレヨンと一緒に今すぐ片付けろ。
統計的なモデルの出力は、統計的に評価されなきゃいけないんだよ。
「非エンジニアがAIパワーで起業!」みたいなの、大抵AIチャットボットだよな。
正直、あの手のゴミボットには反吐が出るわ。
正直、あの手のゴミボットには反吐が出るわ。
「中身がブラックボックスのAI」を評価するために、「別のブラックボックスのAI」を使う……。
で、それを他人に売って金を取るのか。笑えるなw
で、それを他人に売って金を取るのか。笑えるなw
>>2
チケットベースのサポセンAIでその手法(Booleanチェック)やってるわ。
合格点行かなかったらAIにフィードバック返して再生成させてる。
コストはかかるけど、客の満足度は予想以上に高いぞ。
チケットベースのサポセンAIでその手法(Booleanチェック)やってるわ。
合格点行かなかったらAIにフィードバック返して再生成させてる。
コストはかかるけど、客の満足度は予想以上に高いぞ。
>>2
それ、YouTubeが2010年にやったことと同じだな。
「星1〜5」の評価システムを捨てて「グッド/バッド」に変えた。
結局、人間(とAI)には二択が一番シンプルで正確なんだよ。
それ、YouTubeが2010年にやったことと同じだな。
「星1〜5」の評価システムを捨てて「グッド/バッド」に変えた。
結局、人間(とAI)には二択が一番シンプルで正確なんだよ。
自前ホスト(ローカルLLM)のメリットは「安定性」だよな。
APIプロバイダーの勝手なモデル更新や廃止に振り回されるとか、エンタープライズ用途じゃ耐えられないだろ。
APIプロバイダーの勝手なモデル更新や廃止に振り回されるとか、エンタープライズ用途じゃ耐えられないだろ。
「高いモデル=高性能」という思い込みは捨てたほうがいい。
医療系のユースケースで試したら、GPT-4o-miniが最強だった。
「高度な推論が必要だからデカいモデルじゃないとダメ」ってのは固定観念だったわ。
医療系のユースケースで試したら、GPT-4o-miniが最強だった。
「高度な推論が必要だからデカいモデルじゃないとダメ」ってのは固定観念だったわ。
投資家が「適切に管理されたローカルモデル」のコスパに気づいた瞬間、LLMバブルは一気に弾けるだろうな。
開発のパラダイムが変わったんだよ。
【LLM以前】しっかり考えて設計→決定論的なコードを書く→デバッグ
【LLM以後】爆速でプロトタイプ作る→失敗を評価する→プロンプトやタスク分解を考える→反復
システム論理が確率的になった以上、事前に完璧な設計図は描けない。
「設計で問題を消す」んじゃなく、「評価しながら正解に近づける」しかないんだ。
【LLM以前】しっかり考えて設計→決定論的なコードを書く→デバッグ
【LLM以後】爆速でプロトタイプ作る→失敗を評価する→プロンプトやタスク分解を考える→反復
システム論理が確率的になった以上、事前に完璧な設計図は描けない。
「設計で問題を消す」んじゃなく、「評価しながら正解に近づける」しかないんだ。
面白いな。俺らも、単純なタスクなら最新のHaikuより、一世代前の旧Haikuの方が安くて性能も変わらないって結論に達したわ。
結局、お前らがどれだけ「思考停止」を脱却できるかの勝負なんだよ。
結局、お前らがどれだけ「思考停止」を脱却できるかの勝負なんだよ。
国内のAI狂い
管理人のまとめ
Source: https://news.ycombinator.com/item?id=46696300






