前回の記事では、GPTシリーズの「速さ」と「推論力」の進化を見てきました。今回は、GPTと双璧をなすもう1つのAIモデルファミリー── Claudeシリーズ を深掘りします。
第4回のClaude完全ガイドでは、プラットフォーム(車)としてのClaudeを紹介しました。この記事では、その中身── エンジン(モデル)としてのClaudeシリーズ に焦点を当てます。Haiku・Sonnet・Opusの3モデルは「何が違うのか」「どう使い分ければ最適か」「GPTシリーズと比較してどこが強いのか」── これらの問いに、ベンチマークと実運用の両面から答えます。
さらに、Claudeモデルの根幹にある Constitutional AI(憲法的AI) という安全設計思想にも踏み込みます。これは単なる制限ではなく、「信頼して任せられるAI」を実現するための設計哲学です。
Claudeモデルとは?── 30秒でわかる概要
Claudeモデルは、Anthropic社が開発する大規模言語モデル(LLM)のシリーズ名です。第1回の記事で解説した「エンジン」に当たります。
Claudeモデルが搭載されるプラットフォーム(車)は1つではありません。Claude(Anthropic)はもちろん、Amazon Kiro、Cursor、GitHub Copilot、Windsurf、Claude Code、Clineなど、多数のプラットフォームがClaudeモデルを選択肢として提供しています。
2026年3月時点のClaudeシリーズは、3つのモデルで構成されています。
Opus 4.6: フラッグシップ。最高の推論力とコーディング性能。複雑な設計判断、大規模コード分析、高度な文章作成に。
Sonnet 4.6: バランス型のエース。Opus級の性能をSonnet価格で実現し、開発者の70%がSonnet 4.5より、59%がOpus 4.5より好むと回答。Cursor・GitHub Copilot・Windsurfのデフォルトモデルとして採用されており、2026年の開発ツール市場の「標準エンジン」。迷う時間はもったいない、まずはSonnetで始めるのが正解です。
Haiku 4.5: 最速・最安。レイテンシに敏感なリアルタイムチャット、分類・仕分け、大量データの単純処理に最適化。
前回のGPTシリーズが「従来型(Instant)」と「推論型(Thinking)」を2つの系統として進化させてきたのに対し、Claudeシリーズは アダプティブ思考(Adaptive Thinking) という独自のアプローチを取っています。モデルがタスクの複雑さに応じて「どれくらい深く考えるか」を自動判断する── 手動切り替え不要の設計です。
Constitutional AI ── Claudeを支える安全設計思想
Claudeモデルを語る上で避けて通れないのが、Anthropicの Constitutional AI(憲法的AI、CAI) です。これはClaudeの「人格」を形作る根幹の設計思想であり、GPTシリーズとの最も本質的な差別化ポイントです。
仕組み
従来のAI安全性対策は、人間のフィードバックによる強化学習(RLHF)が主流でした。人間が「この回答は良い」「この回答は悪い」とラベル付けし、それをもとにモデルを調整する手法です。しかしRLHFには限界があります。膨大な量の人間のフィードバックが必要で、フィードバックの質にもばらつきがある。
Constitutional AIは、この課題に対する革新的なアプローチです。モデルに 「憲法(Constitution)」── つまり行動原則のセット を与え、モデル自身がその原則に照らして自分の出力を批判・修正する自己改善ループを実現します。「有害なコンテンツを避ける」「正直であること」「助けになること」── こうした原則に基づいて、AIが自分の回答を憲法に照らしてセルフチェックし、問題があれば自ら修正してから出力する。人間のレビューを待たずに、AI自身が品質管理者の役割を果たすのです。
2026年の「Claudeの憲法」
2026年1月、Anthropicは「Claudeの憲法」を正式に公開しました。AIの行動原則をここまで体系的に文書化し公開した事例は珍しく、業界内外から注目を集めました。
この憲法は 4層の優先順位 を定義しています。安全性 → 倫理 → コンプライアンス → 有用性。つまり、「役に立つこと」よりも「安全であること」が常に優先されます。さらに注目すべきは、AIの意識や道徳的地位の可能性に正式に言及した初めての主要AI企業文書でもある点です。
実務への影響
「安全設計」と聞くと「制限が多くて使いにくい」と感じるかもしれません。しかし実務においては、Constitutional AIは 品質管理の仕組み として機能します。
「AIが勝手に攻撃的な表現を使わない」「根拠のない断定をしにくい」「倫理的に問題のある提案を自制する」── これらは、企業がAIを業務に組み込む際の信頼性の土台になります。特に、クライアントへの報告書やユーザー対応にAIを使う場合、「AIが暴走して問題発言をするリスク」が構造的に低いことは、導入判断における重要な安心材料です。
モデルの進化史 ── Claude 3からClaude 4.6まで
Claude 3シリーズ(2024年3月)
Claude 3はHaiku・Sonnet・Opusの3モデル構成を初めて導入した世代です。「速い・バランス・賢い」の3段階を1つのブランドで提供するモデル戦略は、この世代で確立されました。Opus 3は当時、複数のベンチマークでGPT-4を上回り、「Claudeが本気を出した」と話題になりました。
Claude 3.5 Sonnet(2024年6月)
3.5世代の中でもSonnetが突出した存在でした。Opus 3を上回る性能をSonnet価格で提供し、「下位モデルが上位を超える」という常識破りを実現。この成功がAnthropicの「Sonnet重視」戦略の起点になりました。
Claude 4シリーズ(2025年)
Claude 4.0 Sonnet → Opus 4.0 → Sonnet 4.5 → Opus 4.5と段階的にリリース。特にSonnet 4.5はコーディング性能でGPT-4oを大幅に上回り、開発ツール市場でClaudeの地位を確立しました。CursorのデフォルトモデルにClaude Sonnetが選ばれたのも、この世代からです。
Claude 4.6(2026年1〜2月)── 現行世代
Opus 4.6(2026年1月)とSonnet 4.6(2026年2月)が現行の最新モデルです。
Opus 4.6: 100万トークンのコンテキストウィンドウ、ネイティブマルチエージェント連携、SWE-bench Verified 80.8%。Anthropicの全技術を結集したフラッグシップ。
Sonnet 4.6: こちらも100万トークン対応(ベータ)。SWE-bench Verified 79.6%とOpusとの差はわずか1.2ポイント。OSWorld-Verified(自律的なPC操作テスト)でもOpus 4.6の72.7%に対し72.5%と、ほぼ同等の結果を残しています。また、API経由でのTool Use(外部ツール呼び出し)の安定性にも定評があり、開発ツールとの統合において信頼性の高い挙動を見せます。Opus比で5分の1の価格でこの性能── Sonnet 4.6が「2026年のコスパ最強モデル」と評される理由です。
3モデルの詳細比較
| 項目 | Opus 4.6 | Sonnet 4.6 | Haiku 4.5 |
|---|---|---|---|
| 位置づけ | フラッグシップ | バランス型エース | 高速・低コスト |
| API入力単価 | $5/1Mトークン | $3/1Mトークン | $1/1Mトークン |
| API出力単価 | $25/1Mトークン | $15/1Mトークン | $5/1Mトークン |
| コンテキストウィンドウ | 100万トークン | 100万トークン(ベータ) | 20万トークン |
| SWE-bench Verified | 80.8% | 79.6% | ── |
| OSWorld-Verified | 72.7% | 72.5% | ── |
| 拡張思考 | 対応 | 対応 | 非対応 |
| 高速モード | $30/$150(6倍) | ── | ── |
| Batch API | 50%割引 | 50%割引 | 50%割引 |
| プロンプトキャッシュ | 対応 | 対応 | 対応 |
タスク別のモデル選択ガイド
| タスク | 推奨モデル | 理由 |
|---|---|---|
| アーキテクチャ設計 | Opus 4.6 | 複雑な依存関係の推論で最高精度 |
| 日常のコーディング | Sonnet 4.6 | SWE-bench 79.6%で実用十分。コスト5分の1 |
| コードレビュー | Sonnet 4.6 | バグ検出の精度とコストのバランスが最良 |
| 長文ドキュメント分析 | Opus 4.6 or Sonnet 4.6 | 100万トークン対応。精度重視ならOpus |
| メール・定型文作成 | Haiku 4.5 | 速度重視。品質も定型タスクには十分 |
| 大量データの分類 | Haiku 4.5 | 最安・最速。1万件の分類でもコスト抑制 |
| リアルタイムチャット | Haiku 4.5 | レイテンシが最小。ユーザー体験を損なわない |
| 難しい数学・科学問題 | Opus 4.6(拡張思考ON) | 深い推論が必要な場面で真価を発揮 |
Qurated Labでの実運用でも、この使い分けを徹底しています。第11回 Claude Code ── 「Opus $30事件」セクションで紹介した「構造理解はOpus、大量生産はSonnet」というルールは、まさにこのタスク別選択の実践です。
拡張思考(Extended Thinking)── Claudeの「考える力」
前回の記事で、GPTシリーズの推論モデル(oシリーズ)を解説しました。Claudeにも同様の「考える力」が搭載されていますが、アプローチが異なります。
GPTとの違い
GPTシリーズは「従来型(Instant)」と「推論型(Thinking)」を明示的に切り替える設計です。ユーザーがモードを選ぶか、GPT-5.4のように1モデル内で手動切り替えします。
Claudeの拡張思考は、2026年現在 アダプティブ思考(Adaptive Thinking) が推奨モードです。タスクの複雑さに応じて、Claudeが「どれくらい深く考えるか」を自動判断します。簡単な質問にはすぐ答え、複雑な問題には深く考える── この切り替えをユーザーが意識する必要がありません。
APIでは budget_tokens パラメータで思考トークンの上限を設定することも可能で、コスト管理と推論の深さのバランスを細かく制御できます。
思考トークンのコスト
拡張思考の思考トークンは、GPTシリーズと同様に出力トークンとして課金されます。Opus 4.6で拡張思考を使うと、通常の応答よりコストが高くなりますが、Sonnet 4.6でもアダプティブ思考は利用可能です。「まずSonnetのアダプティブ思考で試し、精度が足りなければOpusに切り替える」── これが最もコスト効率の高い運用パターンです。
GPTシリーズとの比較 ── どちらが強いのか?
前回の記事で解説したGPTシリーズとの比較は、多くの読者が気になるポイントでしょう。
| 比較軸 | Claude(Opus 4.6 / Sonnet 4.6) | GPT(5.4 / 4o-mini) |
|---|---|---|
| コーディング(SWE-bench) | Opus 80.8% / Sonnet 79.6% | GPT-5.4 約75% |
| PC操作(OSWorld) | Opus 72.7% / Sonnet 72.5% | GPT-5.4 対応(数値非公開) |
| コンテキストウィンドウ | 100万トークン(Opus / Sonnet) | 100万トークン(GPT-5.4) |
| 推論アプローチ | アダプティブ思考(自動) | Thinking/Instant(手動切り替え) |
| 安全設計 | Constitutional AI(憲法的AI) | RLHF + Safety System |
| 日本語品質 | 自然な日本語で高評価 | GPT-5.4 Thinkingで大幅改善 |
| API入力単価(最安) | $1(Haiku) | $0.15(4o-mini) |
| API入力単価(最高性能) | $5(Opus) | $2.50(GPT-5.4) |
| 低コストモデルの充実度 | Haiku $1のみ | 4o-mini $0.15、o4-mini $1.10 等 |
| オープン度 | クローズドソース | クローズドソース(Codex CLIはOSS) |
率直な評価
コーディングではClaudeが優位。SWE-bench VerifiedでOpus 4.6が80.8%、Sonnet 4.6が79.6%と、GPT-5.4の約75%を上回っています。特にSonnet 4.6は「Opusの5分の1の価格でGPT-5.4を超える」という圧倒的なコスパを実現しています。
低コスト帯ではGPTが充実。GPT-4o-miniの$0.15は、Haiku 4.5の$1と比較して約7分の1。大量の定型処理を最安で捌きたい場合は、GPTシリーズの方が選択肢が豊富です。
日本語品質ではClaudeが依然として高評価。ただしGPT-5.4 Thinkingモードでは大幅な改善が見られ、差は縮まりつつあります。
安全設計の思想が異なる。Claudeは「憲法に基づく自己批判」、GPTは「人間のフィードバックに基づく調整」。どちらが優れているかではなく、「信頼のメカニズム」が異なると理解するのが正確です。
結論: 「どちらが最強か」ではなく「どう使い分けるか」。記事12(Codex CLI)でClaude CodeとCodex CLIの「両方使うのが正解」と書いたのと同じ構図です。コーディングの質を最大化したいならClaude、コストを最小化したいならGPT、日常業務のバランスなら好みで選ぶ── これが2026年の現実的な使い分けです。
各開発ツールでのClaudeモデルの使われ方
| プラットフォーム | 使われるClaudeモデル | 特徴 |
|---|---|---|
| Claude(Anthropic) | Opus 4.6, Sonnet 4.6, Haiku 4.5 | Cowork、Projects、Artifacts等のフル機能 |
| Claude Code | Opus 4.6, Sonnet 4.6 | CLAUDE.md + Hooks + MCPとの連携 |
| Cursor | Sonnet 4.6(デフォルト), Opus 4.6 | Agent Mode + Composerとの統合 |
| GitHub Copilot | Sonnet 4.6 | コード補完 + Agent Mode |
| Windsurf | Sonnet 4.6 | Cascade + Memoriesとの連携 |
| Amazon Kiro | Sonnet 4.5 / 4.6, Autoモード | Specs駆動の仕様書生成 |
| Cline | 任意のClaudeモデル(BYOK) | API直接接続 |
注目すべきは、ほぼすべての主要開発ツールがClaudeモデルを選択肢に含めている 点です。特にSonnet 4.6は、Cursor・Copilot・Windsurfのデフォルトモデルとして採用されることが多く、「開発ツールの共通言語」のような存在になりつつあります。
注意点・苦手なこと
Opusの価格: API出力単価$25/1Mトークンは、GPT-5.4の$15と比べて高い。第11回 Claude Code ── 「Opus $30事件」セクションで紹介した「Opus $30事件」(「全ファイルのドキュメントをOpusで丁寧に書き直して」と指示して一晩で$30超え)のように、Opusのパワーを無制限に解放するとコストが跳ね上がります。拡張思考を有効にするとさらに高額になるため、アダプティブ思考の budget_tokens を適切に設定し、利用シーンを明確に絞ることが2026年の賢いコスト管理です。
低コストモデルの選択肢が少ない: GPTシリーズにはGPT-4o-mini($0.15)やo4-mini($1.10)など、多様な価格帯のモデルがあります。Claudeの最安はHaiku 4.5($1)で、超低コスト帯の選択肢が限られています。大量の単純処理をとにかく安く捌きたい場合はGPTシリーズに分があります。
モデル更新の頻度: OpenAIがGPT-4.1、GPT-5、GPT-5.2、GPT-5.3-Codex、GPT-5.4と矢継ぎ早にリリースするのに対し、Anthropicのリリースサイクルはやや慎重です。これは品質重視の姿勢の裏返しでもありますが、「常に最新モデルを使いたい」方にとってはもどかしく感じることがあります。
リアルタイム情報へのアクセス: Claude(Anthropic)自体にはWeb検索機能がありますが、ChatGPTのWeb検索やComputer Useほどの統合度には達していません。リアルタイム情報の取得を重視する場合は、ChatGPTやPerplexityの方が適しています。
5軸スコア
第2回の記事で紹介したシリーズ共通の5軸で、Claudeシリーズの代表的なモデルを評価します。
Opus 4.6(フラッグシップ)
| 評価軸 | スコア(5段階) | コメント |
|---|---|---|
| 知能・論理 | ★★★★★ | SWE-bench 80.8%はトップクラス。複雑な推論とコーディングで他を圧倒。拡張思考でさらに精度向上 |
| スピード | ★★★☆☆ | フラッグシップゆえに応答は遅め。高速モード(6倍価格)で改善可能だが高額 |
| コンテキスト | ★★★★★ | 100万トークン対応。長文の中間部分の処理精度でもGPTより安定していると評価されることが多い |
| 実行力 | ★★★★★ | Claude Code + マルチエージェント連携で高い自律性。OSWorld 72.7%でPC操作も対応 |
| コストパフォーマンス | ★★★☆☆ | 入力$5/出力$25は高額。「ここぞ」の場面に限定して使う前提 |
Sonnet 4.6(バランス型エース)
| 評価軸 | スコア(5段階) | コメント |
|---|---|---|
| 知能・論理 | ★★★★★ | SWE-bench 79.6%でOpusとの差はわずか1.2pt。日常業務では差を感じない場面がほとんど |
| スピード | ★★★★☆ | Opusより高速で、実用的なレスポンス。ただしHaikuほどの即応性はない |
| コンテキスト | ★★★★★ | 100万トークン(ベータ)。Sonnet価格でフルコードベース分析が可能 |
| 実行力 | ★★★★★ | Cursor・Copilot・Windsurfのデフォルトモデル。開発ツールとの統合実績が最も豊富 |
| コストパフォーマンス | ★★★★★ | 入力$3/出力$15でOpus級の性能。2026年のコスパ最強モデルの筆頭候補 |
Haiku 4.5(高速・低コスト)
| 評価軸 | スコア(5段階) | コメント |
|---|---|---|
| 知能・論理 | ★★★☆☆ | 軽量タスクには十分だが、複雑な推論には力不足。分類・仕分け・定型処理向き |
| スピード | ★★★★★ | Claudeシリーズ最速。リアルタイムチャットやインタラクティブツールに最適 |
| コンテキスト | ★★★★☆ | 20万トークン。大半のタスクには十分だが、フルコードベース分析には不足 |
| 実行力 | ★★☆☆☆ | 基本的なテキスト生成のみ。エージェント機能なし |
| コストパフォーマンス | ★★★★☆ | 入力$1/出力$5。Claude内では最安だが、GPT-4o-mini($0.15)と比較すると割高 |
こんな人におすすめ / こんな人には向かない
Opus 4.6 がおすすめな人: 複雑なアーキテクチャ設計、大規模リファクタリング、高品質な長文レポートなど、精度が最優先の場面。Claude Codeとの組み合わせで最大のパフォーマンスを発揮します。ただしコスト管理は必須。
Sonnet 4.6 がおすすめな人: 開発者の日常業務全般。「迷ったらSonnet」が2026年の鉄則です。Cursor・Copilot・Windsurfなど、どの開発ツールを使っていてもSonnet 4.6は選択肢に入ります。Opusとの性能差は1.2ptで、価格は5分の1。費用対効果は圧倒的です。
Haiku 4.5 がおすすめな人: API経由での大量処理、リアルタイムチャットボット、分類・仕分けなど速度とコスト効率が重要な場面。Batch APIの50%割引と組み合わせれば、さらにコストを抑えられます。
向かない人(Claudeモデル全般):
- 超低コストで大量処理したい方。→ GPT-4o-mini($0.15)の方が圧倒的に安い。Haiku 4.5でもGPT-4o-miniの約7倍のコストです。
- 常に最新のモデルを追いたい方。→ OpenAIの方がリリース頻度が高く、新モデルの選択肢が豊富です。
- リアルタイム情報の取得を重視する方。→ ChatGPTのWeb検索やComputer Use統合、Perplexityのリアルタイム検索の方が適しています。
まとめ
Claudeモデルの強みは、「性能」「安全設計」「プラットフォーム横断性」の3つに集約されます。
性能: Sonnet 4.6がOpus級の性能を5分の1の価格で提供し、SWE-bench VerifiedでGPT-5.4を上回る79.6%を達成。「迷ったらSonnet」が2026年の合理的な選択です。
安全設計: Constitutional AIに基づく「憲法的」な安全設計は、単なる制限ではなく品質管理の仕組み。企業がAIを業務に組み込む際の信頼性の土台になります。
プラットフォーム横断性: Cursor、Copilot、Windsurf、Claude Code、Kiro、Cline── ほぼすべての主要開発ツールがClaudeモデルをサポート。どの「車」を選んでも、Claudeという「エンジン」を載せることができます。
次回は、モデル編の最終回── Gemini・Llama・オープンソースモデルの解説です。Googleの戦略、Metaのオープンソース思想、そしてプライバシーを重視する場合の「ローカルLLM」という選択肢に迫ります。