振り返れば、2025年末にAGIは達成されていた|Claude Opusと自律AIエージェントの衝撃
2025年11月24日、Anthropic社がリリースしたClaude Opus 4.5。AI評価機関METRはこのモデルを検証し、「人間のエンジニアが約5時間かけて解く課題を、50%の確率で自律的に完遂できる」と報告しました。そしてわずか3か月後の2026年2月、後継モデルOpus 4.6はその数字を14.5時間にまで伸ばしています。この記事では、何がどう変わったのか、AIのコーディング能力と自律実行能力の中身を具体的に掘り下げます。
「AIがコードを書ける」の本当の意味
「AIがプログラミングできる」と聞いても、多くの方はピンとこないかもしれません。実感を持っていただくために、具体的な話をします。
SWE-bench Verifiedというベンチマークがあります。これはGitHub上の実在するオープンソースプロジェクトから集めた「本物のバグ報告」を、AIに渡して修正させるテストです。人間のエンジニアが日常的に行っている作業そのものです。
このテストでの各モデルのスコア推移を見ると、進化の速度がわかります。
| Claude 3 Opus(2024年3月) | 22.0% — 5問に1問を正解 |
|---|---|
| Claude 3.5 Sonnet(2024年6月) | 49.0% — 約半数を正解。当時の最高記録 |
| Claude Opus 4.5(2025年11月) | 80.9% — 初の80%超え。GPT-5.1(76.3%)、Gemini 3 Pro(76.2%)を上回り最高記録 |
わずか1年半で22%から80.9%へ。しかも、このテストで解いているのは「Hello Worldを書いて」のような簡単な課題ではありません。数千行のコードベースの中からバグの原因を特定し、他の機能を壊さないように修正するという、経験豊富なエンジニアでも数時間かかる作業です。
さらに注目すべきは効率性です。Opus 4.5は前モデルのSonnet 4.5と同等の正答率を、76%少ないトークン(処理量)で達成。最高性能モードでもSonnet 4.5を4.3ポイント上回りながら、消費トークンは48%少ない。つまり「より賢く、より省エネに」なっています。
AIはどうやってバグを直すのか — エージェントループの中身
Claudeがバグを修正する過程は、人間のエンジニアの作業フローと驚くほど似ています。Anthropicが公開したSWE-benchの技術詳細から、その中身を見てみましょう。
Claudeには2つの「道具」が与えられています。Bashツール(Linuxコマンドの実行)とEditツール(ファイルの閲覧・編集)。これだけです。あとはAI自身が考えて動きます。
例えば、あるPythonライブラリで「RidgeClassifierCVにstore_cv_valuesパラメータを渡すとエラーになる」というバグ報告を受けたケースでは、Claudeは以下のように動きました。
- 再現スクリプトの作成 — まずバグを再現するPythonスクリプトを自分で書いて実行し、TypeErrorが出ることを確認
- 原因の特定 — ソースコードを読み、基底クラスにはパラメータがあるのにサブクラスの
__init__で渡されていないことを発見 - コードの修正 —
__init__のシグネチャを修正し、パラメータが正しく渡されるように変更 - 修正の検証 — 再現スクリプトを再実行してエラーが消えたことを確認
- エッジケースの考慮 — 他の機能に影響がないか、関連するテストを確認
これが「エージェントループ」と呼ばれるものの実態です。「考える→実行→結果を見る→修正する」のサイクルを、人間の介入なしに何度でも繰り返す。しかもClaude Opus 4.5は、ツール呼び出しのエラーやビルドエラーを前モデルから50〜75%削減しており、ループの精度自体が格段に上がっています。
重要なのは、これが1つのバグ修正で完結する話ではないということです。成功する1回の修正作業には、数百ターンのやりとりと10万トークン以上の処理が費やされることもあります。それを何時間も安定して続けられるようになったのが、2025年末のブレークスルーでした。
4分から14.5時間へ — 能力は「約130日で2倍」のペースで伸びている
AIの自律実行能力がどれだけ速く伸びているかを測る指標があります。METR(Model Evaluation & Threat Research)が開発した「50%タスク完了時間」です。
これは「人間の専門家がX時間かかる課題を、AIが50%の確率で正しく完遂できる」というXの値を測るもの。デバッグ、暗号解析、データ操作など100以上の多様なタスクで評価されます。
| GPT-4(2023年3月) | 50%時間: 約4分 |
|---|---|
| Claude 3.7 Sonnet(2025年2月) | 50%時間: 約1時間 |
| Claude Opus 4.5(2025年11月) | 50%時間: 約4時間49分 |
| Claude Opus 4.6(2026年2月) | 50%時間: 約14.5時間(95%信頼区間: 6〜98時間) |
GPT-4の4分からOpus 4.6の14.5時間まで、約3年で200倍以上。METRの分析によると、AIのタスク完了能力は約130日(約4か月)ごとに2倍になるペースで伸びています。2024〜2025年に限ればさらに加速しており、約4か月で2倍のペースです。
かつてムーアの法則が「半導体の性能は約2年で2倍」と言われましたが、AIエージェントの能力向上はそれよりはるかに速い。しかもこれはハードウェアではなくソフトウェアの進化なので、新モデルがリリースされた瞬間に世界中で同時に能力が上がります。
宇宙物理学のコードを「数日」で書いたAI
コーディング能力の進化を最も象徴する事例が、Anthropicが2026年に公開した科学計算プロジェクトです。
Claude Opus 4.6は、宇宙マイクロ波背景放射(ビッグバンの残光)の統計的性質を予測する「微分可能な宇宙論的ボルツマンソルバー」をJAXで実装しました。これは光子、バリオン、ニュートリノ、暗黒物質の連立方程式を宇宙の進化に沿って解く数値計算コードで、通常は研究者が数か月〜数年かけて開発するものです。
Claudeはこの作業を「数日」で完了しました。
- 参照実装(CLASS)との誤差 — サブパーセント(1%未満)の精度を達成
- 自己管理メカニズム —
CHANGELOG.mdにラボノートのように進捗・失敗したアプローチ・精度チェックポイントを記録しながら作業 - 品質保証 — 参照実装をテストオラクルとして使い、回帰テストを自動実行して精度が下がらないことを継続的に確認
- 作業単位ごとのGitコミット — 意味のある単位で作業を区切り、バージョン管理
注目すべきは、AIが単にコードを書いただけではなく、研究者のワークフローそのものを再現した点です。仮説を立て、実装し、テストで検証し、失敗を記録し、方針を修正する。このサイクルを数日間にわたって自律的に回し続けました。
ただし、完成したソルバーは「すべての計算領域で参照実装と一致するわけではない」とも報告されています。「人間の研究者を完全に置き換えた」のではなく、「数年分の作業を数日に圧縮し、研究者が仕上げに集中できる状態」を作ったというのが正確な評価です。
「コードを書く」から「組織を動かす」へ — Opus 4.6の質的変化
2026年2月にリリースされたClaude Opus 4.6は、単なるスコア向上ではなく、AIの役割そのものが変わったことを示すモデルです。
楽天のAI部門ゼネラルマネージャー加治悠介氏は、早期アクセスの結果を次のように報告しています。
「Opus 4.6は1日で13件のIssueを自律的にクローズし、12件を適切なチームメンバーにアサインしました。6つのリポジトリにまたがる約50人の組織を管理しています」
これは「AIがコードを書いた」のとは質的に異なります。バグ報告を読み、優先度を判断し、自分で修正できるものは修正し、他のチームに回すべきものは適切な人にアサインする。「AIプログラマー」から「AIエンジニアリングマネージャー」への転換です。
Opus 4.6の主な技術的進化は以下の通りです。
| Agent Teams | 複数のAIエージェントが並列で作業し、自律的に協調。コードベースレビューなど「読み込みが重い作業」を分担 |
|---|---|
| 100万トークンコンテキスト | Opusクラスで初の100万トークン対応。大規模コードベース全体を一度に読み込んでリファクタリング可能に |
| Context Compaction | 長時間作業でコンテキストが上限に近づくと自動的に要約・圧縮し、作業を継続 |
| GDPval-AA | 経済的に価値のある知識労働ベンチマークでGPT-5.2を144 Eloポイント上回る |
Anthropicの調査では、Claude Codeの最長セッション時間(99.9パーセンタイル)は2025年9月の25分未満から2026年1月には45分超に伸びています。ユーザーが実際にAIに任せる作業時間が倍増しているのです。経験豊富なユーザーほど操作の40%を自動承認し、5分、10分と手を離す時間が長くなっている。人間がAIを「信頼して任せる」フェーズに入ったことを示すデータです。
「経理AIエージェント」が示す未来 — SaaS自体がエージェントになる
AIエージェントの進化を、もっと身近な業務で想像してみましょう。たとえば経理です。
マネーフォワードのようなクラウド会計ソフトを操るAIエージェントが1体いたらどうなるか。領収書や請求書を共有ドライブにアップロードするだけで、エージェントが定期的に巡回し、仕訳の登録を自動でやってくれます。経理担当者は、チャットで「今月の経費精算お願い」と投げるだけ。あるいは、依頼すら不要かもしれません。
過渡期の先にあるもの — SaaS自体がエージェント化する
ただし、「AIエージェントが外からSaaSを操作する」というのは過渡期の姿です。本命は、SaaS自体がAIエージェントになる方向でしょう。マネーフォワードを操るAIエージェントが必要なのではなく、マネーフォワード自体がAIエージェントになればいい。SaaSベンダーが自社製品に直接AIを組み込む方が、APIの制約もなく、データへのアクセスも最適化されます。
実際、主要なSaaS企業はすでにこの方向に動いています。会計、人事、CRM — あらゆる業務ソフトが「指示を待つツール」から「自律的に動くエージェント」へと変わりつつあります。
本当に壊れるのは「判断」のレイヤー
経理の仕訳登録は、正直なところすでに自動化率が高い領域です。AIエージェントで本当に変わるのは、もう一段上のレイヤーです。
- 「今月のキャッシュフロー、来月どうなる?」 → 即答
- 「この投資、節税的に今期中にすべき?」 → 判断まで込みで回答
- 「補助金の申請書類、帳簿データから自動生成」 → 書類作成の自動化
単純な処理の代替ではなく、判断業務への侵食が本番です。経営判断に必要な情報を集め、分析し、選択肢を提示するところまでAIがやる。そのインパクトは、仕訳の自動化とは桁違いです。
消えるのは「職種」ではなく「定員」
24時間働き、退職せず、賃金が桁違いに安い。AIエージェントを「社員」に見立てれば、労働市場に大きな変化が起きるのは間違いありません。
ただし、正確に言えば消えるのは経理担当者という職種ではなく、経理担当者の定員です。10人いた経理部が2人になる。その2人の役割は明確です。
- 設計者 — AIに何をさせるかを設計し、業務フローを構築する人
- 責任者 — 例外処理を判断し、最終的な責任を取る人
これは経理に限った話ではありません。ほぼすべてのホワイトカラー職種で同じ構造の変化が起きるでしょう。「AIに置き換わる」のではなく、「AIを使いこなす少数精鋭に再編される」。それが、Opus 4.6が示す労働市場の未来像です。
Dario Amodeiが描いた「2026年」がやってきた
Anthropic CEOのDario Amodei氏は2024年10月のエッセイ「Machines of Loving Grace」で、「パワフルAI」をこう定義しています。
「ほとんどの関連分野でノーベル賞受賞者より賢いAIモデル。未解決の数学の定理を証明し、極めて優れた小説を書き、難しいコードベースをゼロから書ける。テキスト、音声、動画、マウス・キーボード操作、インターネットアクセスなど、人間がバーチャルで使えるすべてのインターフェースを持ち、数時間、数日、数週間かかるタスクを自律的にこなす」
そしてその到来時期について「2026年。ただし、もっと時間がかかる可能性もある」と書いていました。
2026年4月の現時点で、この予測のチェックリストを確認してみましょう。
- 難しいコードベースをゼロから書ける — 宇宙論的ボルツマンソルバーを数日で実装(達成)
- 数時間のタスクを自律的にこなす — METR 50%時間が14.5時間(達成)
- 多様なインターフェースを持つ — ファイル操作、コマンド実行、Web閲覧、コード実行(達成)
- ノーベル賞受賞者より賢い — 特定の分野では上回るが、全分野での汎用性はまだ発展途上
すべてが完全に達成されたわけではありません。しかし、2025年末の時点で条件のかなりの部分が満たされていたことは明らかです。AGIは「ある日突然やってくる」のではなく、気がついたら半分以上来ていた — というのが実態なのかもしれません。
中小企業経営者にとっての意味
ここまでの話は「テック企業の最前線」に聞こえるかもしれません。しかし、この変化の波はすでに中小企業に到達しています。
2026年4月8日にAnthropicがリリースしたClaude Managed Agentsは、セッション1時間あたり$0.08(約12円)+トークン料金で利用できるフルマネージドのAIエージェント実行基盤です。Notion、楽天、Sentryがすでに本番運用を開始しています。
また、国も後押ししています。2026年度から旧「IT導入補助金」は「デジタル化・AI導入補助金」に名称変更され、AIツールの導入費用が補助対象に含まれるようになりました。
| デジタル化・AI導入補助金 | AIツール・SaaSの導入費用を補助。通常枠・インボイス枠・セキュリティ対策推進枠あり。2026年3月下旬から申請受付中 |
|---|---|
| ものづくり補助金 | AI活用による生産性向上・新製品開発。設備投資を含む場合に適用 |
| 小規模事業者持続化補助金 | 販路開拓目的のAIツール導入に。最大250万円 |
AIの能力が130日で2倍になるペースで伸びている一方、補助金制度も追いつこうとしている。「もう少し様子を見よう」と言っているうちに、競合が先に動く — そういうスピード感の世界に、すでに入っています。
まとめ
- SWE-bench Verifiedで80.9%を達成。実在するオープンソースのバグを、コードを読み、再現し、修正し、検証するまでを自律的に実行
- AIの自律実行能力は約130日で2倍のペースで伸びており、GPT-4の4分からOpus 4.6の14.5時間まで3年で200倍以上に
- 宇宙物理学の数値計算コードを数日で実装するなど、「月〜年単位の研究作業を日単位に圧縮する」事例が登場
- Opus 4.6は「コードを書く」だけでなく、Issue管理・チームへのアサイン・優先度判断まで自律的にこなす段階に到達
- 「AIが外からSaaSを操作する」のは過渡期。本命はSaaS自体がエージェント化する方向で、判断業務への侵食が本番
- 消えるのは職種ではなく定員。「AIを設計する人」と「責任を取る人」の少数精鋭に再編される
- 中小企業向けにはデジタル化・AI導入補助金(旧IT導入補助金)が2026年3月から申請受付中。AIエージェント導入の費用を支援
参考資料
- Anthropic — Introducing Claude Opus 4.5
- Anthropic — Introducing Claude Opus 4.6
- Anthropic — Claude's SWE-bench Performance
- METR — Task-Completion Time Horizons of Frontier AI Models
- METR — Time Horizon 1.1 Updated Methodology
- Anthropic — Long-running Claude for Scientific Computing
- Anthropic — Measuring AI Agent Autonomy in Practice
- Dario Amodei — Machines of Loving Grace(2024年10月)
- デジタル化・AI導入補助金 制度概要(中小機構)
関連コンテンツ
関連コンテンツ
エネルギー価格が上がるとAIも高くなる?
電気代高騰とAIコストの関係を最新データで解説。AI API価格の急落トレンドや、中小企業が活用できる省エネ・AI導入補助金を紹介します。
詳しく見る →AI動画生成の2大ユニコーン|RunwayとSynthesiaが変える中小企業の映像活用
AI動画生成市場を牽引するRunway(評価額53億ドル)とSynthesia(評価額40億ドル)の最新動向を解説。中小企業が映像制作コストを大幅に削減できるAI動画ツールと、導入に使える補助金を紹介します。
詳しく見る →AI時代に経営者が押さえるべきキーワード15選
LLM、ハルシネーション、AIスロップ、バイブコーディング、AIエージェントなど、ニュースや商談で飛び交うAI用語を中小企業経営者向けにやさしく解説。知らないと損する最新キーワードを網羅します。
詳しく見る →経営者が今すぐ使えるAIサービス7選
LegalOn Cloud、マネーフォワード、Spirなど、経営者の業務を劇的に効率化するAIサービスを厳選紹介。導入コストの目安とIT導入補助金の活用法も解説します。
詳しく見る →AIエージェント導入を検討中の方へ。デジタル化・AI導入補助金をはじめ、あなたの事業に使える補助金を探してみませんか?
補助金を検索する無料会員登録でAI検索が使えます
無料会員登録この記事をシェア