技術記事 2026年3月9日 読了 約24分

Claudeモデル解説 ── Haiku・Sonnet・Opusの使い分け

Opus 4.6・Sonnet 4.6・Haiku 4.5の3モデルの使い分けと、Constitutional AIの安全設計思想── Claudeモデルの全貌を解説します。

YS
山田 翔太郎
ReIT
INFO
この記事は2026年3月時点の情報に基づいています。

前回の記事では、GPTシリーズの「速さ」と「推論力」の進化を見てきました。今回は、GPTと双璧をなすもう1つのAIモデルファミリー── Claudeシリーズ を深掘りします。

第4回のClaude完全ガイドでは、プラットフォーム(車)としてのClaudeを紹介しました。この記事では、その中身── エンジン(モデル)としてのClaudeシリーズ に焦点を当てます。Haiku・Sonnet・Opusの3モデルは「何が違うのか」「どう使い分ければ最適か」「GPTシリーズと比較してどこが強いのか」── これらの問いに、ベンチマークと実運用の両面から答えます。

さらに、Claudeモデルの根幹にある Constitutional AI(憲法的AI) という安全設計思想にも踏み込みます。これは単なる制限ではなく、「信頼して任せられるAI」を実現するための設計哲学です。

Claudeモデルとは?── 30秒でわかる概要

Claudeモデルは、Anthropic社が開発する大規模言語モデル(LLM)のシリーズ名です。第1回の記事で解説した「エンジン」に当たります。

Claudeモデルが搭載されるプラットフォーム(車)は1つではありません。Claude(Anthropic)はもちろん、Amazon KiroCursorGitHub CopilotWindsurfClaude CodeClineなど、多数のプラットフォームがClaudeモデルを選択肢として提供しています。

2026年3月時点のClaudeシリーズは、3つのモデルで構成されています。

Opus 4.6: フラッグシップ。最高の推論力とコーディング性能。複雑な設計判断、大規模コード分析、高度な文章作成に。

Sonnet 4.6: バランス型のエース。Opus級の性能をSonnet価格で実現し、開発者の70%がSonnet 4.5より、59%がOpus 4.5より好むと回答。CursorGitHub CopilotWindsurfのデフォルトモデルとして採用されており、2026年の開発ツール市場の「標準エンジン」。迷う時間はもったいない、まずはSonnetで始めるのが正解です。

Haiku 4.5: 最速・最安。レイテンシに敏感なリアルタイムチャット、分類・仕分け、大量データの単純処理に最適化。

前回のGPTシリーズが「従来型(Instant)」と「推論型(Thinking)」を2つの系統として進化させてきたのに対し、Claudeシリーズは アダプティブ思考(Adaptive Thinking) という独自のアプローチを取っています。モデルがタスクの複雑さに応じて「どれくらい深く考えるか」を自動判断する── 手動切り替え不要の設計です。

Constitutional AI ── Claudeを支える安全設計思想

Claudeモデルを語る上で避けて通れないのが、Anthropicの Constitutional AI(憲法的AI、CAI) です。これはClaudeの「人格」を形作る根幹の設計思想であり、GPTシリーズとの最も本質的な差別化ポイントです。

仕組み

従来のAI安全性対策は、人間のフィードバックによる強化学習(RLHF)が主流でした。人間が「この回答は良い」「この回答は悪い」とラベル付けし、それをもとにモデルを調整する手法です。しかしRLHFには限界があります。膨大な量の人間のフィードバックが必要で、フィードバックの質にもばらつきがある。

Constitutional AIは、この課題に対する革新的なアプローチです。モデルに 「憲法(Constitution)」── つまり行動原則のセット を与え、モデル自身がその原則に照らして自分の出力を批判・修正する自己改善ループを実現します。「有害なコンテンツを避ける」「正直であること」「助けになること」── こうした原則に基づいて、AIが自分の回答を憲法に照らしてセルフチェックし、問題があれば自ら修正してから出力する。人間のレビューを待たずに、AI自身が品質管理者の役割を果たすのです。

2026年の「Claudeの憲法」

2026年1月、Anthropicは「Claudeの憲法」を正式に公開しました。AIの行動原則をここまで体系的に文書化し公開した事例は珍しく、業界内外から注目を集めました。

この憲法は 4層の優先順位 を定義しています。安全性 → 倫理 → コンプライアンス → 有用性。つまり、「役に立つこと」よりも「安全であること」が常に優先されます。さらに注目すべきは、AIの意識や道徳的地位の可能性に正式に言及した初めての主要AI企業文書でもある点です。

実務への影響

「安全設計」と聞くと「制限が多くて使いにくい」と感じるかもしれません。しかし実務においては、Constitutional AIは 品質管理の仕組み として機能します。

「AIが勝手に攻撃的な表現を使わない」「根拠のない断定をしにくい」「倫理的に問題のある提案を自制する」── これらは、企業がAIを業務に組み込む際の信頼性の土台になります。特に、クライアントへの報告書やユーザー対応にAIを使う場合、「AIが暴走して問題発言をするリスク」が構造的に低いことは、導入判断における重要な安心材料です。

モデルの進化史 ── Claude 3からClaude 4.6まで

Claude 3シリーズ(2024年3月)

Claude 3はHaiku・Sonnet・Opusの3モデル構成を初めて導入した世代です。「速い・バランス・賢い」の3段階を1つのブランドで提供するモデル戦略は、この世代で確立されました。Opus 3は当時、複数のベンチマークでGPT-4を上回り、「Claudeが本気を出した」と話題になりました。

Claude 3.5 Sonnet(2024年6月)

3.5世代の中でもSonnetが突出した存在でした。Opus 3を上回る性能をSonnet価格で提供し、「下位モデルが上位を超える」という常識破りを実現。この成功がAnthropicの「Sonnet重視」戦略の起点になりました。

Claude 4シリーズ(2025年)

Claude 4.0 Sonnet → Opus 4.0 → Sonnet 4.5 → Opus 4.5と段階的にリリース。特にSonnet 4.5はコーディング性能でGPT-4oを大幅に上回り、開発ツール市場でClaudeの地位を確立しました。CursorのデフォルトモデルにClaude Sonnetが選ばれたのも、この世代からです。

Claude 4.6(2026年1〜2月)── 現行世代

Opus 4.6(2026年1月)とSonnet 4.6(2026年2月)が現行の最新モデルです。

Opus 4.6: 100万トークンのコンテキストウィンドウ、ネイティブマルチエージェント連携、SWE-bench Verified 80.8%。Anthropicの全技術を結集したフラッグシップ。

Sonnet 4.6: こちらも100万トークン対応(ベータ)。SWE-bench Verified 79.6%とOpusとの差はわずか1.2ポイント。OSWorld-Verified(自律的なPC操作テスト)でもOpus 4.6の72.7%に対し72.5%と、ほぼ同等の結果を残しています。また、API経由でのTool Use(外部ツール呼び出し)の安定性にも定評があり、開発ツールとの統合において信頼性の高い挙動を見せます。Opus比で5分の1の価格でこの性能── Sonnet 4.6が「2026年のコスパ最強モデル」と評される理由です。

3モデルの詳細比較

項目Opus 4.6Sonnet 4.6Haiku 4.5
位置づけフラッグシップバランス型エース高速・低コスト
API入力単価$5/1Mトークン$3/1Mトークン$1/1Mトークン
API出力単価$25/1Mトークン$15/1Mトークン$5/1Mトークン
コンテキストウィンドウ100万トークン100万トークン(ベータ)20万トークン
SWE-bench Verified80.8%79.6%──
OSWorld-Verified72.7%72.5%──
拡張思考対応対応非対応
高速モード$30/$150(6倍)────
Batch API50%割引50%割引50%割引
プロンプトキャッシュ対応対応対応

タスク別のモデル選択ガイド

タスク推奨モデル理由
アーキテクチャ設計Opus 4.6複雑な依存関係の推論で最高精度
日常のコーディングSonnet 4.6SWE-bench 79.6%で実用十分。コスト5分の1
コードレビューSonnet 4.6バグ検出の精度とコストのバランスが最良
長文ドキュメント分析Opus 4.6 or Sonnet 4.6100万トークン対応。精度重視ならOpus
メール・定型文作成Haiku 4.5速度重視。品質も定型タスクには十分
大量データの分類Haiku 4.5最安・最速。1万件の分類でもコスト抑制
リアルタイムチャットHaiku 4.5レイテンシが最小。ユーザー体験を損なわない
難しい数学・科学問題Opus 4.6(拡張思考ON)深い推論が必要な場面で真価を発揮

Qurated Labでの実運用でも、この使い分けを徹底しています。第11回 Claude Code ── 「Opus $30事件」セクションで紹介した「構造理解はOpus、大量生産はSonnet」というルールは、まさにこのタスク別選択の実践です。

拡張思考(Extended Thinking)── Claudeの「考える力」

前回の記事で、GPTシリーズの推論モデル(oシリーズ)を解説しました。Claudeにも同様の「考える力」が搭載されていますが、アプローチが異なります。

GPTとの違い

GPTシリーズは「従来型(Instant)」と「推論型(Thinking)」を明示的に切り替える設計です。ユーザーがモードを選ぶか、GPT-5.4のように1モデル内で手動切り替えします。

Claudeの拡張思考は、2026年現在 アダプティブ思考(Adaptive Thinking) が推奨モードです。タスクの複雑さに応じて、Claudeが「どれくらい深く考えるか」を自動判断します。簡単な質問にはすぐ答え、複雑な問題には深く考える── この切り替えをユーザーが意識する必要がありません。

APIでは budget_tokens パラメータで思考トークンの上限を設定することも可能で、コスト管理と推論の深さのバランスを細かく制御できます。

思考トークンのコスト

拡張思考の思考トークンは、GPTシリーズと同様に出力トークンとして課金されます。Opus 4.6で拡張思考を使うと、通常の応答よりコストが高くなりますが、Sonnet 4.6でもアダプティブ思考は利用可能です。「まずSonnetのアダプティブ思考で試し、精度が足りなければOpusに切り替える」── これが最もコスト効率の高い運用パターンです。

GPTシリーズとの比較 ── どちらが強いのか?

前回の記事で解説したGPTシリーズとの比較は、多くの読者が気になるポイントでしょう。

比較軸Claude(Opus 4.6 / Sonnet 4.6)GPT(5.4 / 4o-mini)
コーディング(SWE-bench)Opus 80.8% / Sonnet 79.6%GPT-5.4 約75%
PC操作(OSWorld)Opus 72.7% / Sonnet 72.5%GPT-5.4 対応(数値非公開)
コンテキストウィンドウ100万トークン(Opus / Sonnet)100万トークン(GPT-5.4)
推論アプローチアダプティブ思考(自動)Thinking/Instant(手動切り替え)
安全設計Constitutional AI(憲法的AI)RLHF + Safety System
日本語品質自然な日本語で高評価GPT-5.4 Thinkingで大幅改善
API入力単価(最安)$1(Haiku)$0.15(4o-mini)
API入力単価(最高性能)$5(Opus)$2.50(GPT-5.4)
低コストモデルの充実度Haiku $1のみ4o-mini $0.15、o4-mini $1.10 等
オープン度クローズドソースクローズドソース(Codex CLIはOSS)

率直な評価

コーディングではClaudeが優位。SWE-bench VerifiedでOpus 4.6が80.8%、Sonnet 4.6が79.6%と、GPT-5.4の約75%を上回っています。特にSonnet 4.6は「Opusの5分の1の価格でGPT-5.4を超える」という圧倒的なコスパを実現しています。

低コスト帯ではGPTが充実。GPT-4o-miniの$0.15は、Haiku 4.5の$1と比較して約7分の1。大量の定型処理を最安で捌きたい場合は、GPTシリーズの方が選択肢が豊富です。

日本語品質ではClaudeが依然として高評価。ただしGPT-5.4 Thinkingモードでは大幅な改善が見られ、差は縮まりつつあります。

安全設計の思想が異なる。Claudeは「憲法に基づく自己批判」、GPTは「人間のフィードバックに基づく調整」。どちらが優れているかではなく、「信頼のメカニズム」が異なると理解するのが正確です。

結論: 「どちらが最強か」ではなく「どう使い分けるか」記事12(Codex CLI)でClaude CodeとCodex CLIの「両方使うのが正解」と書いたのと同じ構図です。コーディングの質を最大化したいならClaude、コストを最小化したいならGPT、日常業務のバランスなら好みで選ぶ── これが2026年の現実的な使い分けです。

各開発ツールでのClaudeモデルの使われ方

プラットフォーム使われるClaudeモデル特徴
Claude(Anthropic)Opus 4.6, Sonnet 4.6, Haiku 4.5Cowork、Projects、Artifacts等のフル機能
Claude CodeOpus 4.6, Sonnet 4.6CLAUDE.md + Hooks + MCPとの連携
CursorSonnet 4.6(デフォルト), Opus 4.6Agent Mode + Composerとの統合
GitHub CopilotSonnet 4.6コード補完 + Agent Mode
WindsurfSonnet 4.6Cascade + Memoriesとの連携
Amazon KiroSonnet 4.5 / 4.6, AutoモードSpecs駆動の仕様書生成
Cline任意のClaudeモデル(BYOK)API直接接続

注目すべきは、ほぼすべての主要開発ツールがClaudeモデルを選択肢に含めている 点です。特にSonnet 4.6は、Cursor・Copilot・Windsurfのデフォルトモデルとして採用されることが多く、「開発ツールの共通言語」のような存在になりつつあります。

注意点・苦手なこと

Opusの価格: API出力単価$25/1Mトークンは、GPT-5.4の$15と比べて高い。第11回 Claude Code ── 「Opus $30事件」セクションで紹介した「Opus $30事件」(「全ファイルのドキュメントをOpusで丁寧に書き直して」と指示して一晩で$30超え)のように、Opusのパワーを無制限に解放するとコストが跳ね上がります。拡張思考を有効にするとさらに高額になるため、アダプティブ思考の budget_tokens を適切に設定し、利用シーンを明確に絞ることが2026年の賢いコスト管理です。

低コストモデルの選択肢が少ない: GPTシリーズにはGPT-4o-mini($0.15)やo4-mini($1.10)など、多様な価格帯のモデルがあります。Claudeの最安はHaiku 4.5($1)で、超低コスト帯の選択肢が限られています。大量の単純処理をとにかく安く捌きたい場合はGPTシリーズに分があります。

モデル更新の頻度: OpenAIがGPT-4.1、GPT-5、GPT-5.2、GPT-5.3-Codex、GPT-5.4と矢継ぎ早にリリースするのに対し、Anthropicのリリースサイクルはやや慎重です。これは品質重視の姿勢の裏返しでもありますが、「常に最新モデルを使いたい」方にとってはもどかしく感じることがあります。

リアルタイム情報へのアクセス: Claude(Anthropic)自体にはWeb検索機能がありますが、ChatGPTのWeb検索やComputer Useほどの統合度には達していません。リアルタイム情報の取得を重視する場合は、ChatGPTPerplexityの方が適しています。

5軸スコア

第2回の記事で紹介したシリーズ共通の5軸で、Claudeシリーズの代表的なモデルを評価します。

Opus 4.6(フラッグシップ)

評価軸スコア(5段階)コメント
知能・論理★★★★★SWE-bench 80.8%はトップクラス。複雑な推論とコーディングで他を圧倒。拡張思考でさらに精度向上
スピード★★★☆☆フラッグシップゆえに応答は遅め。高速モード(6倍価格)で改善可能だが高額
コンテキスト★★★★★100万トークン対応。長文の中間部分の処理精度でもGPTより安定していると評価されることが多い
実行力★★★★★Claude Code + マルチエージェント連携で高い自律性。OSWorld 72.7%でPC操作も対応
コストパフォーマンス★★★☆☆入力$5/出力$25は高額。「ここぞ」の場面に限定して使う前提

Sonnet 4.6(バランス型エース)

評価軸スコア(5段階)コメント
知能・論理★★★★★SWE-bench 79.6%でOpusとの差はわずか1.2pt。日常業務では差を感じない場面がほとんど
スピード★★★★☆Opusより高速で、実用的なレスポンス。ただしHaikuほどの即応性はない
コンテキスト★★★★★100万トークン(ベータ)。Sonnet価格でフルコードベース分析が可能
実行力★★★★★Cursor・Copilot・Windsurfのデフォルトモデル。開発ツールとの統合実績が最も豊富
コストパフォーマンス★★★★★入力$3/出力$15でOpus級の性能。2026年のコスパ最強モデルの筆頭候補

Haiku 4.5(高速・低コスト)

評価軸スコア(5段階)コメント
知能・論理★★★☆☆軽量タスクには十分だが、複雑な推論には力不足。分類・仕分け・定型処理向き
スピード★★★★★Claudeシリーズ最速。リアルタイムチャットやインタラクティブツールに最適
コンテキスト★★★★☆20万トークン。大半のタスクには十分だが、フルコードベース分析には不足
実行力★★☆☆☆基本的なテキスト生成のみ。エージェント機能なし
コストパフォーマンス★★★★☆入力$1/出力$5。Claude内では最安だが、GPT-4o-mini($0.15)と比較すると割高

こんな人におすすめ / こんな人には向かない

Opus 4.6 がおすすめな人: 複雑なアーキテクチャ設計、大規模リファクタリング、高品質な長文レポートなど、精度が最優先の場面。Claude Codeとの組み合わせで最大のパフォーマンスを発揮します。ただしコスト管理は必須。

Sonnet 4.6 がおすすめな人: 開発者の日常業務全般。「迷ったらSonnet」が2026年の鉄則です。Cursor・Copilot・Windsurfなど、どの開発ツールを使っていてもSonnet 4.6は選択肢に入ります。Opusとの性能差は1.2ptで、価格は5分の1。費用対効果は圧倒的です。

Haiku 4.5 がおすすめな人: API経由での大量処理、リアルタイムチャットボット、分類・仕分けなど速度とコスト効率が重要な場面。Batch APIの50%割引と組み合わせれば、さらにコストを抑えられます。

向かない人(Claudeモデル全般):

  • 超低コストで大量処理したい方。→ GPT-4o-mini($0.15)の方が圧倒的に安い。Haiku 4.5でもGPT-4o-miniの約7倍のコストです。
  • 常に最新のモデルを追いたい方。→ OpenAIの方がリリース頻度が高く、新モデルの選択肢が豊富です。
  • リアルタイム情報の取得を重視する方。→ ChatGPTのWeb検索やComputer Use統合、Perplexityのリアルタイム検索の方が適しています。

まとめ

Claudeモデルの強みは、「性能」「安全設計」「プラットフォーム横断性」の3つに集約されます。

性能: Sonnet 4.6がOpus級の性能を5分の1の価格で提供し、SWE-bench VerifiedでGPT-5.4を上回る79.6%を達成。「迷ったらSonnet」が2026年の合理的な選択です。

安全設計: Constitutional AIに基づく「憲法的」な安全設計は、単なる制限ではなく品質管理の仕組み。企業がAIを業務に組み込む際の信頼性の土台になります。

プラットフォーム横断性: Cursor、Copilot、Windsurf、Claude Code、Kiro、Cline── ほぼすべての主要開発ツールがClaudeモデルをサポート。どの「車」を選んでも、Claudeという「エンジン」を載せることができます。

次回は、モデル編の最終回── Gemini・Llama・オープンソースモデルの解説です。Googleの戦略、Metaのオープンソース思想、そしてプライバシーを重視する場合の「ローカルLLM」という選択肢に迫ります。


AI技術の活用を支援します

Claudeモデルの選定から実装まで、AI活用をトータルでサポートします。