2026年4月16日、Anthropicが Claude Opus 4.7 をリリースしました(Anthropic公式)。
SWE-bench Verified 87.6%(4.6の80.8%から+6.8pt)、SWE-bench Pro 64.3%(4.6の53.4%から+10.9pt)。GPT-5.4の57.7%、Gemini 3.1 Proの54.2%をいずれも上回り、公開モデルとしては最高性能です(The Next Web)。
数字だけ見れば「また性能が上がった」で終わりそうですが、私たちQurated Labが注目しているのは別の点です。この性能水準に達したAIを前にして、従来の開発プロセスが制約になり始めている。スクラムの儀式、ウォーターフォールの工程区分、プルリクエスト中心のレビューフロー── どれも「人間が手を動かすこと」を前提に設計されたものだからです。
この記事では、Claude 4.7の新機能がもたらす変化と、それを踏まえてQurated Labが設計・運用している開発モデル「RAPID」の考え方を紹介します。
Claude 4.7の新機能——3つの注目ポイント
性能向上の数字は既に多くのメディアで報じられています。ここでは開発プロセスに直接影響する3つの機能に絞って整理します。
1. xhigh推論レベル
従来のeffort設定(low / medium / high)に加えて、新たに xhigh が追加されました。Claude Codeではデフォルトで xhigh が適用されます(GitHub Changelog)。
xhighは速度を犠牲にして、より深い分析を行うモードです。具体的には、複雑なマルチステップタスクの解決率が4.6比で 14%向上し、ツールエラーが 1/3に削減されました(Vellum AI)。
これが開発プロセスに何を意味するかというと、「AIに一度で正しくやらせる」前提で計画が立てられるということです。従来は「AIが出したコードを人間が修正する」サイクルでしたが、xhighの精度なら計画段階を厚くし、実装はAIに委ねるスタイルが現実的になります。
2. タスクバジェット(ベータ)
長時間のエージェント実行で、トークン消費を事前に見積もり・制御する仕組みです。AIに大まかなトークン予算を与えると、残量カウントダウンを見ながら作業の優先順位を自律的に判断します。
これまで「AIに任せると、際限なくトークンを使って結局コスト爆発する」という懸念がありました。タスクバジェットは、人間が予算だけ決めて、配分はAIに任せるという「経営的な」委任モデルを可能にします。
3. /ultrareview
新しいマルチエージェントレビューコマンドです。通常のコードレビューよりも深い分析を行い、慎重な人間レビュアーが見つけるレベルの問題を検出します。
これは単なる品質向上ではなく、レビューフローの構造変化です。従来は「AIが書いたコードを人間がレビュー」でしたが、「AIが書いたコードをAIがレビューし、人間は最終承認に集中」するモデルが成り立つようになります。
従来の開発モデルが合わなくなっている
SWE-bench 87.6%の世界では、AIは「人間に提案してレビューしてもらう」存在から、「計画に沿って自律的にタスクを完遂する」存在に変わりつつあります。この変化に対して、既存の開発モデルはいくつかの構造的ミスマッチを抱えています。
ウォーターフォールは工程を一方通行で進む前提ですが、AIは設計→実装→テストを数分で1周できます。「手戻りコストが高いから事前に設計を固める」という前提自体が崩れています。
アジャイル / スクラムはチーム間コミュニケーションの改善が本質ですが、AIエージェントに対してデイリースタンドアップやスプリントレトロスペクティブは過剰な儀式です。2週間スプリントの計画を、AIは1日で実装し終えてしまう。
プロトタイピングは「試作→評価を繰り返す」前提ですが、xhigh推論の精度なら、初回から本番品質のコードを出力できる場面が増えています。
問題はAIの性能ではなく、「人間が手を動かす前提で設計された開発プロセス」をそのまま使い続けていることにあります。AIネイティブな開発プロセスの設計が、次のボトルネックです。
RAPIDモデルという考え方
こうした課題を受けて、Qurated Labでは RAPID という開発モデルを設計し、実際のプロジェクトで運用しています。まだ体系化の途上にありますが、考え方のエッセンスを共有します。
RAPIDとは
RAPID は「Recursive Analysis-Plan-Implement-Deploy」の頭文字で、Story単位の再帰的なミニサイクルを回す開発モデルです。
flowchart TD
A[要件定義] --> B[基本設計]
B --> C[Epic計画・Story分解]
C --> D{RAPIDループ}
subgraph RAPID ["RAPIDループ(Story単位で反復)"]
direction TB
R["R: Recursive — Story単位の反復"]
AN["A: Analysis — 影響分析"]
P["P: Plan — 計画・タスク分解"]
I["I: Implement — TDD実装 + 自動品質ゲート"]
R --> AN --> P --> I
end
D --> RAPID
I -->|次のStoryへ| D
I -->|全Story完了| E["D: Deploy — E2E・リリース"]
5つの設計原則
RAPIDモデルは、従来の開発モデルとは異なる5つの原則で設計されています。
1. 影響分析が全ての起点
既存コードへの変更は、必ず影響分析(Analysis)から始まります。変数のライフサイクル、呼び出し関係、暗黙の依存── Claude 4.7のxhigh推論は、この影響分析の精度と速度を劇的に引き上げます。人間が数時間かけていた調査を、AIが数分で構造的に完了させ、その結果を計画に反映する。AIの推論力が最も効くのは、コード生成ではなく影響分析だと私たちは考えています。
2. 設計と実装の境界がない
従来のモデルでは「設計書 → 実装」の引き継ぎが発生しますが、RAPIDでは計画書は判断の記録であり、詳細設計はコードそのものです。AIが計画を立て、その計画に沿って自らコードを書く以上、「設計と実装の翻訳コスト」は存在しません。
3. 品質ゲートが自動化されている
Hookとエージェントが品質を担保し、人間は承認に集中します。Claude 4.7の /ultrareview は、このゲートの精度をさらに一段上げるものです。「AIが書いたコードをAIがレビューする」のは品質低下ではなく、再現性のある品質基準の自動適用です。
4. 学習がフローに組み込まれている
タスクが完了するたびに、成功パターンと失敗パターンを自動で蓄積します。次のタスクでは過去の学びが参照され、プロジェクトが進むほどAIの判断精度が上がる設計です。
5. 人間は判断と承認に集中
AIが実行し、人間が意思決定する── この役割分担が、RAPIDの根幹です。Claude 4.7のタスクバジェットは、この「人間が方針だけ決め、実行はAIに委ねる」スタイルと直接噛み合います。
sequenceDiagram
participant H as 人間
participant O as オーケストレーター
participant A as 分析・設計Agent
participant I as 実装Agent
participant R as レビューAgent
H->>O: 要件・方針を提示
rect rgb(42, 82, 120)
Note over O,A: Analysis(影響分析)
O->>A: 影響分析を指示
activate A
A->>A: コードベース探索
A->>A: 変数ライフサイクル・依存関係の分析
A-->>O: 分析結果を返却
deactivate A
end
rect rgb(42, 82, 120)
Note over O,A: Plan(計画・タスク分解)
O->>A: 計画立案を指示
activate A
A->>A: タスク分解・FEAT計画書作成
A-->>O: 計画書を返却
deactivate A
end
O-->>H: 計画書を提出
H->>O: 計画を承認
rect rgb(30, 90, 50)
Note over O,I: Implement(TDD実装)
O->>I: 実装を指示(計画書を連携)
activate I
I->>I: RED — テスト作成(失敗確認)
I->>I: GREEN — 最小実装(テスト通過)
I->>I: REFACTOR — リファクタリング
I-->>O: 実装完了を報告
deactivate I
end
rect rgb(110, 60, 30)
Note over O,R: Review(品質検証)
O->>R: /ultrareview を実行
activate R
R->>R: コード品質・セキュリティ検証
R-->>O: レビュー結果を返却
deactivate R
end
O-->>H: レビュー結果を提出
H->>O: 最終承認
rect rgb(70, 50, 100)
Note over O: 学習サイクル
O->>O: 成功/失敗パターンを蓄積
end
Note over H,R: 人間は2回の判断。AIは4つの専門Agentが分業
Claude 4.7 × RAPID — 何が変わるか
Claude 4.7の各機能が、RAPIDモデルのどこに効くかを整理します。
| Claude 4.7の機能 | RAPIDでの効果 | 従来モデルでの限界 |
|---|---|---|
| xhigh推論 | 影響分析(A)の精度・速度が向上。計画の土台が強固に | 人間の調査力に依存、見落としリスク |
| タスクバジェット | 実装(I)のコスト予測可能に。予算内で自律判断 | コスト爆発の懸念でAI委任に踏み切れない |
| /ultrareview | 品質ゲートの自動化精度が上がり、人間レビューの負荷減 | AIレビューの信頼性不足で人間レビューが減らせない |
| 高解像度Vision(3.75MP) | UI仕様の読み取り・画面設計の精度向上 | スクリーンショットベースの指示が伝わりにくい |
| ツールエラー1/3削減 | 実装ループの中断が減り、自律実行の安定性向上 | エラー→手動介入→再実行のサイクル |
RAPIDモデルの詳細(各フェーズの具体的な手順、テンプレート、Agent構成など)は、今後Zennでの連載と書籍として体系的に公開予定です。
「AIに任せる」ための前提条件
ここまで読むと「なんでもAIに投げれば解決する」ように聞こえるかもしれませんが、現実はそう単純ではありません。AIネイティブな開発プロセスを機能させるには、人間側の設計力が不可欠です。
影響分析の前提を正しく設定できるか
AIは「調べて」と言われれば調べますが、「何を調べるべきか」の設定は人間の仕事です。変数のライフサイクルを追うのか、APIの後方互換性を確認するのか、データベースのマイグレーション影響を見るのか── 影響分析の「観点」を設計できないと、AIの分析も的外れになります。
計画書を「判断の記録」として書けるか
RAPIDの計画書は、手順書ではなく判断記録です。「なぜこの方針にしたか」「何を捨てたか」「どの条件で方針を変えるか」── この粒度で書かれた計画書があれば、AIは自律的に実装を進められます。逆に、曖昧な計画からは曖昧なコードしか出てきません。
品質基準を明示できるか
「ちゃんとテストして」では品質ゲートは機能しません。カバレッジ閾値、パフォーマンス基準、セキュリティチェック項目── 計測可能な品質基準を事前に定義し、それをHookやCIに組み込むことで初めて「AIが品質を担保する」状態が成立します。
セキュリティの最終責任は人間にある
AIが書いたコードのセキュリティ脆弱性は、最終的に人間の責任です。npm installが危険な時代で整理したサプライチェーンリスクや、WordPress 30プラグイン事件のような所有権移転型攻撃は、AIが自動でパッケージを追加する世界ではさらに深刻化します。自律実行の範囲設計とセキュリティガードレールは、人間が設計すべきレイヤーです。
まとめ——AIの性能向上に、開発プロセスが追いつく番
Claude Opus 4.7のSWE-bench 87.6%は、「AIがどこまでコードを書けるか」の到達点であると同時に、「人間がどこまでプロセスを再設計できるか」の問いでもあります。
AIの性能は毎月のように上がっています。しかし、開発プロセスが「人間が手を動かす前提」のままでは、その性能を活かしきれません。ウォーターフォールの工程分離、スクラムのスプリント儀式、プルリクエスト中心のレビューフロー── どれも悪い仕組みではありませんが、AIが自律的にタスクを完遂できる時代には、ボトルネックが「コードを書く速度」から「計画と判断の質」へ移動していることを認識する必要があります。
RAPIDモデルは、その認識から生まれた一つの回答です。影響分析を起点に、計画を判断記録として設計し、品質ゲートを自動化し、人間は意思決定に集中する── この骨格は、Claude 4.7に限らず、今後のAI性能向上に対しても適応できる設計を目指しています。
詳細は今後Zennでの連載、さらに書籍として体系化する予定です。まずは「AIに任せるために、人間は何を設計すべきか」── この問いを、チームで議論するところから始めてみてください。