メインコンテンツへスキップ
AI・DX トレンド

「モデルを訓練しない」AI強化の新手法 — Training-Free GRPOが示すLLM活用の転換点

「モデルを訓練しない」AI強化の新手法 — Training-Free GRPOが示すLLM活用の転換点 - コラム - 補助金さがすAI

AIを自社の業務に特化させるには、膨大なコストをかけてモデルを「訓練」するしかない——。AI活用を検討する経営者の多くが、そう認識しているのではないでしょうか。2025年10月、Tencent傘下のYoutu Lab(復旦大学・厦門大学との共同研究)が発表した論文「Training-Free GRPO」は、その常識を根底から覆す手法を提案しました。モデルのパラメータを一切書き換えず、わずか約2,700円のコストで、100万円以上かけたファインチューニングを上回る性能を実現したのです。

LLMを特化させる「ファインチューニング」の壁

ChatGPTやClaude、Geminiといった大規模言語モデル(LLM)は汎用的に賢いですが、特定の業務——たとえば数学の証明や、Webからの情報検索——に特化させるには、追加の「訓練」が必要です。その代表的な手法がGRPO(Group Relative Policy Optimization)と呼ばれる強化学習です。

GRPOの仕組みはこうです。ある問題に対してLLMに複数の回答を生成させ、正解・不正解を比較し、「正解を出しやすくなるように」モデルの内部パラメータ(数百億個の数値)を書き換えます。これを繰り返すことで、特定タスクに強いモデルが出来上がります。

しかし、この方法には深刻な課題がありました。

  • 巨額のコスト — GPU時間で約150万円($10,000)。中小企業はもちろん、大企業でも気軽に試せる金額ではありません
  • 大量の学習データ — 数千件の高品質な正解付きデータが必要。業務固有のデータを用意するだけでも一苦労です
  • 過剰適合 — 数学に特化させると、Web検索など他の能力が大幅に落ちます。たとえばReTool(Qwen2.5-32Bをファインチューニングした手法)は、数学のAIME 2024で67.0%を達成しましたが、Web検索タスクでは18.3%まで急落しました
  • 小型モデルしか対象にできない — コストの制約から、320億パラメータ(32B)程度の小さなモデルしか調整できません。最先端の大型モデル(671Bなど)には手が出せないのが実情です

出典: Cai et al. (2025) Training-Free Group Relative Policy Optimization, arXiv:2510.08191 / ReTool: Reinforcement Learning for Strategic Tool Use in LLMs, arXiv:2504.11536

Training-Free GRPOの発想 — 「パラメータ」ではなく「文脈」を最適化する

Tencent Youtu Labの研究チームは、まったく異なるアプローチを取りました。「LLMのパラメータを書き換える代わりに、LLMに与える文脈(プロンプト)の中に"経験から学んだ知識"を埋め込めばいいのではないか」という発想です。

人間に置き換えると分かりやすいでしょう。従来のファインチューニングは「脳の神経回路そのものを書き換える」ようなもの。一方、Training-Free GRPOは「優秀な先輩が書いたノウハウ集を渡して、それを参照しながら仕事してもらう」イメージです。脳(モデル)は変えず、手元の資料(文脈)を充実させることで同じ効果を得ます。

仕組みの全体像

具体的な手順は以下の通りです。

  • Step 1 — 複数の回答を生成 — ある問題に対してLLMに5通りの回答を出させます
  • Step 2 — 成功と失敗を比較 — 正解と照合し、「成功した回答」と「失敗した回答」を分類します
  • Step 3 — 教訓を抽出 — LLM自身に「なぜ成功したのか、なぜ失敗したのか」を自然言語で考察させます
  • Step 4 — 経験ライブラリに蓄積 — 得られた教訓を「経験ライブラリ」として保存します
  • Step 5 — 次の問題で活用 — 似た問題を解くとき、この経験ライブラリを文脈として注入します

経験ライブラリは固定ではなく、「追加(Add)」「削除(Delete)」「修正(Modify)」「維持(Keep)」の4つの操作で随時更新されます。学習を重ねるごとに、より洗練された知見が蓄積されていく仕組みです。論文ではこの文脈に注入される経験知識を「トークン・プライアー(token prior)」と呼んでいます。

驚異的な結果 — 500分の1のコストで既存手法を超える

この手法をDeepSeek-V3.1-Terminus(6,710億パラメータのフラッグシップモデル)に適用した結果は、研究者たちの予想すら上回るものでした。

手法 モデルサイズ AIME 2024 AIME 2025 学習コスト
ReTool(ファインチューニング) 32B 67.0% 49.3% 約150万円
ベースライン(調整なし) 671B 80.0% 67.9% 0円
Training-Free GRPO 671B(凍結) 82.7% 73.3% 約2,700円

AIME(米国数学オリンピック予選)2025で、Training-Free GRPOは73.3%を達成。150万円かけて32BモデルをファインチューニングしたReToolの49.3%を大幅に上回りました。しかも必要な学習データはわずか100問、コストは約2,700円($18)です。

ポイントは、モデル自体は一切変更していないことです。DeepSeek-V3.1-Terminusはそのまま「凍結」した状態で、経験ライブラリという「参考資料」を添えただけ。それだけで、高額なファインチューニングを超える結果が出たのです。

出典: Cai et al. (2025) Training-Free GRPO, Table 1 & Table 3

汎用性の維持 — ファインチューニングの致命的弱点を克服

ファインチューニングにはもうひとつ厄介な問題があります。特定のタスクに強くなると、他のタスクの性能が激しく低下する「過剰適合」です。

数学用にファインチューニングされたReToolを、Web検索タスク(WebWalkerQA)で評価したところ、スコアは18.3%まで急落しました。数学に特化させた代償として、Web検索がほぼ使いものにならなくなったのです。

一方、Training-Free GRPOはモデルそのものを変えていないため、この問題が起きません。数学用の経験ライブラリを使えば数学に強くなり、Web検索用の経験ライブラリに差し替えればWeb検索に強くなります。実際、同じ凍結モデルで数学82.7%(AIME 2024)とWeb検索67.8%(WebWalkerQA)を同時に達成しています。

  • ファインチューニング型 — モデル自体が変わるため、領域Aに強くすると領域Bが弱くなる。領域ごとに別のモデルが必要
  • Training-Free GRPO型 — モデルは1つのまま、経験ライブラリを差し替えるだけ。複数領域に同時対応できる

これは実務上きわめて大きな違いです。企業がAIを導入する際、「経理用」「営業用」「カスタマーサポート用」とモデルを個別に訓練・管理する必要がなくなる可能性を示しています。

企業のAI活用に何をもたらすか

この研究が示す方向性は、企業のAI活用アーキテクチャに根本的な変化をもたらす可能性があります。

「モデルを育てる」から「経験を育てる」へ

これまでの常識は、「AIを自社の業務に合わせるには、モデルそのものを訓練(ファインチューニング)するしかない」というものでした。しかしTraining-Free GRPOは、「巨大な汎用モデルをそのまま使い、文脈に注入する"経験"を育てればいい」という別の道を示しています。

すでに企業のAI活用では、RAG(Retrieval-Augmented Generation:外部の知識ベースを検索して文脈に注入する手法)が主流になりつつあります。RAGの市場規模は2025年に約19.4億ドル、2030年には約98.6億ドルに達するとの予測もあります。RAGが「社内の知識」を文脈で管理するのに対し、Training-Free GRPOは「タスク遂行の経験」までを文脈で管理します。この流れが進めば、企業がAIを業務に組み込む際に「モデルを訓練する」工程はほぼ不要になるかもしれません。

API経由の大型モデルが「特化モデル」を凌駕する構図

API経由で使える大型モデル(DeepSeek、GPT、Claude、Geminiなど)は、提供者側で継続的に性能が向上し、料金もスケールメリットで低下し続けています。一方、自前でファインチューニングした小型モデルは、リリースした瞬間から陳腐化が始まり、保守コストも重くのしかかります。

Training-Free GRPOの結果は、この構造的な力学を数字で裏付けています。671Bの凍結モデル+経験ライブラリの組み合わせが、32Bのファインチューニング済みモデルを性能とコストの両面で圧倒しました。「特化モデルを自前で作る」という戦略が、経済合理性を失いつつあることを示唆するデータです。

中小企業にとっての意味

この研究は直接的には最先端のAI研究の話ですが、経営判断への示唆は明確です。「AIの導入=モデルの訓練」という高コストなアプローチを取る必要はなく、API経由の汎用モデルに自社の業務ノウハウを文脈として与える方が、コスト・性能・保守性のすべてで優れる可能性が高いということです。AI導入のハードルは、技術の進歩とともに確実に下がり続けています。

出典: MarketsandMarkets (2025) RAG Market Forecast to 2030

まとめ

Training-Free GRPOは、LLMの性能向上を「パラメータの書き換え」から「文脈の最適化」へと転換する手法です。

  • モデルのパラメータを一切変更せず、「経験ライブラリ」を文脈に注入するだけで性能を向上
  • AIME 2025で73.3%を達成——150万円のファインチューニング手法(49.3%)を約2,700円で超えた
  • 経験ライブラリを差し替えるだけで、数学でもWeb検索でもトップクラスの性能を発揮
  • 企業のAI活用は「モデルを訓練する」から「経験を育てる」時代へ移行する可能性

LLMの性能向上が続く限り、この「巨大な汎用モデルを文脈で動かす」流れは加速するでしょう。

参考資料

この記事を書いた人

松田信介
松田 信介 Shinsuke Matsuda

X-HACK Inc. 代表取締役 / PARKLoT CTO

Microsoft for Startups Founders Hub 採択

Claude・Cursor・Devin・Runway など 200 種類以上の AI ツールに年間 2,000 万円を投じ、自社の経営・開発・マーケティング全業務で使い倒している「AI ツールの実戦投入実験台」。AI 面接ツールおよび AI 動画編集ツール「GenVox」を開発。「補助金さがすAI」では、自分で試して効果があった AI 活用事例と、それに紐づく補助金制度をセットで解説しています。

AI・DX関連の補助金を活用して、自社のデジタル化を推進しませんか?

補助金を検索する

無料会員登録でAI検索が使えます

無料会員登録

この記事をシェア

X(旧Twitter) LINE Facebook