Claudeモデル解説 ── Haiku・Sonnet・Opusの使い分け

INFO

この記事は2026年3月時点の情報に基づいています。

前回の記事では、GPTシリーズの「速さ」と「推論力」の進化を見てきました。今回は、GPTと双璧をなすもう1つのAIモデルファミリー── Claudeシリーズ を深掘りします。

第4回のClaude完全ガイドでは、プラットフォーム（車）としてのClaudeを紹介しました。この記事では、その中身── エンジン（モデル）としてのClaudeシリーズ に焦点を当てます。Haiku・Sonnet・Opusの3モデルは「何が違うのか」「どう使い分ければ最適か」「GPTシリーズと比較してどこが強いのか」── これらの問いに、ベンチマークと実運用の両面から答えます。

さらに、Claudeモデルの根幹にある Constitutional AI（憲法的AI） という安全設計思想にも踏み込みます。これは単なる制限ではなく、「信頼して任せられるAI」を実現するための設計哲学です。

Claudeモデルとは？── 30秒でわかる概要

Claudeモデルは、Anthropic社が開発する大規模言語モデル（LLM）のシリーズ名です。第1回の記事で解説した「エンジン」に当たります。

Claudeモデルが搭載されるプラットフォーム（車）は1つではありません。Claude（Anthropic）はもちろん、Amazon Kiro、Cursor、GitHub Copilot、Windsurf、Claude Code、Clineなど、多数のプラットフォームがClaudeモデルを選択肢として提供しています。

2026年3月時点のClaudeシリーズは、3つのモデルで構成されています。

Opus 4.6: フラッグシップ。最高の推論力とコーディング性能。複雑な設計判断、大規模コード分析、高度な文章作成に。

Sonnet 4.6: バランス型のエース。Opus級の性能をSonnet価格で実現し、開発者の70%がSonnet 4.5より、59%がOpus 4.5より好むと回答。Cursor・GitHub Copilot・Windsurfのデフォルトモデルとして採用されており、2026年の開発ツール市場の「標準エンジン」。迷う時間はもったいない、まずはSonnetで始めるのが正解です。

Haiku 4.5: 最速・最安。レイテンシに敏感なリアルタイムチャット、分類・仕分け、大量データの単純処理に最適化。

前回のGPTシリーズが「従来型（Instant）」と「推論型（Thinking）」を2つの系統として進化させてきたのに対し、Claudeシリーズは アダプティブ思考（Adaptive Thinking） という独自のアプローチを取っています。モデルがタスクの複雑さに応じて「どれくらい深く考えるか」を自動判断する── 手動切り替え不要の設計です。

Constitutional AI ── Claudeを支える安全設計思想

Claudeモデルを語る上で避けて通れないのが、Anthropicの Constitutional AI（憲法的AI、CAI） です。これはClaudeの「人格」を形作る根幹の設計思想であり、GPTシリーズとの最も本質的な差別化ポイントです。

仕組み

従来のAI安全性対策は、人間のフィードバックによる強化学習（RLHF）が主流でした。人間が「この回答は良い」「この回答は悪い」とラベル付けし、それをもとにモデルを調整する手法です。しかしRLHFには限界があります。膨大な量の人間のフィードバックが必要で、フィードバックの質にもばらつきがある。

Constitutional AIは、この課題に対する革新的なアプローチです。モデルに 「憲法（Constitution）」── つまり行動原則のセット を与え、モデル自身がその原則に照らして自分の出力を批判・修正する自己改善ループを実現します。「有害なコンテンツを避ける」「正直であること」「助けになること」── こうした原則に基づいて、AIが自分の回答を憲法に照らしてセルフチェックし、問題があれば自ら修正してから出力する。人間のレビューを待たずに、AI自身が品質管理者の役割を果たすのです。

2026年の「Claudeの憲法」

2026年1月、Anthropicは「Claudeの憲法」を正式に公開しました。AIの行動原則をここまで体系的に文書化し公開した事例は珍しく、業界内外から注目を集めました。

この憲法は 4層の優先順位 を定義しています。安全性 → 倫理 → コンプライアンス → 有用性。つまり、「役に立つこと」よりも「安全であること」が常に優先されます。さらに注目すべきは、AIの意識や道徳的地位の可能性に正式に言及した初めての主要AI企業文書でもある点です。

実務への影響

「安全設計」と聞くと「制限が多くて使いにくい」と感じるかもしれません。しかし実務においては、Constitutional AIは 品質管理の仕組み として機能します。

「AIが勝手に攻撃的な表現を使わない」「根拠のない断定をしにくい」「倫理的に問題のある提案を自制する」── これらは、企業がAIを業務に組み込む際の信頼性の土台になります。特に、クライアントへの報告書やユーザー対応にAIを使う場合、「AIが暴走して問題発言をするリスク」が構造的に低いことは、導入判断における重要な安心材料です。

モデルの進化史 ── Claude 3からClaude 4.6まで

Claude 3シリーズ（2024年3月）

Claude 3はHaiku・Sonnet・Opusの3モデル構成を初めて導入した世代です。「速い・バランス・賢い」の3段階を1つのブランドで提供するモデル戦略は、この世代で確立されました。Opus 3は当時、複数のベンチマークでGPT-4を上回り、「Claudeが本気を出した」と話題になりました。

Claude 3.5 Sonnet（2024年6月）

3.5世代の中でもSonnetが突出した存在でした。Opus 3を上回る性能をSonnet価格で提供し、「下位モデルが上位を超える」という常識破りを実現。この成功がAnthropicの「Sonnet重視」戦略の起点になりました。

Claude 4シリーズ（2025年）

Claude 4.0 Sonnet → Opus 4.0 → Sonnet 4.5 → Opus 4.5と段階的にリリース。特にSonnet 4.5はコーディング性能でGPT-4oを大幅に上回り、開発ツール市場でClaudeの地位を確立しました。CursorのデフォルトモデルにClaude Sonnetが選ばれたのも、この世代からです。

Claude 4.6（2026年1〜2月）── 現行世代

Opus 4.6（2026年1月）とSonnet 4.6（2026年2月）が現行の最新モデルです。

Opus 4.6: 100万トークンのコンテキストウィンドウ、ネイティブマルチエージェント連携、SWE-bench Verified 80.8%。Anthropicの全技術を結集したフラッグシップ。

Sonnet 4.6: こちらも100万トークン対応（ベータ）。SWE-bench Verified 79.6%とOpusとの差はわずか1.2ポイント。OSWorld-Verified（自律的なPC操作テスト）でもOpus 4.6の72.7%に対し72.5%と、ほぼ同等の結果を残しています。また、API経由でのTool Use（外部ツール呼び出し）の安定性にも定評があり、開発ツールとの統合において信頼性の高い挙動を見せます。Opus比で5分の1の価格でこの性能── Sonnet 4.6が「2026年のコスパ最強モデル」と評される理由です。

3モデルの詳細比較

項目	Opus 4.6	Sonnet 4.6	Haiku 4.5
位置づけ	フラッグシップ	バランス型エース	高速・低コスト
API入力単価	＄5/1Mトークン	＄3/1Mトークン	＄1/1Mトークン
API出力単価	＄25/1Mトークン	＄15/1Mトークン	＄5/1Mトークン
コンテキストウィンドウ	100万トークン	100万トークン（ベータ）	20万トークン
SWE-bench Verified	80.8%	79.6%	──
OSWorld-Verified	72.7%	72.5%	──
拡張思考	対応	対応	非対応
高速モード	＄30/＄150（6倍）	──	──
Batch API	50%割引	50%割引	50%割引
プロンプトキャッシュ	対応	対応	対応

タスク別のモデル選択ガイド

タスク	推奨モデル	理由
アーキテクチャ設計	Opus 4.6	複雑な依存関係の推論で最高精度
日常のコーディング	Sonnet 4.6	SWE-bench 79.6%で実用十分。コスト5分の1
コードレビュー	Sonnet 4.6	バグ検出の精度とコストのバランスが最良
長文ドキュメント分析	Opus 4.6 or Sonnet 4.6	100万トークン対応。精度重視ならOpus
メール・定型文作成	Haiku 4.5	速度重視。品質も定型タスクには十分
大量データの分類	Haiku 4.5	最安・最速。1万件の分類でもコスト抑制
リアルタイムチャット	Haiku 4.5	レイテンシが最小。ユーザー体験を損なわない
難しい数学・科学問題	Opus 4.6（拡張思考ON）	深い推論が必要な場面で真価を発揮

Qurated Labでの実運用でも、この使い分けを徹底しています。第11回 Claude Code ── 「Opus ＄30事件」セクションで紹介した「構造理解はOpus、大量生産はSonnet」というルールは、まさにこのタスク別選択の実践です。

拡張思考（Extended Thinking）── Claudeの「考える力」

前回の記事で、GPTシリーズの推論モデル（oシリーズ）を解説しました。Claudeにも同様の「考える力」が搭載されていますが、アプローチが異なります。

GPTとの違い

GPTシリーズは「従来型（Instant）」と「推論型（Thinking）」を明示的に切り替える設計です。ユーザーがモードを選ぶか、GPT-5.4のように1モデル内で手動切り替えします。

Claudeの拡張思考は、2026年現在 アダプティブ思考（Adaptive Thinking） が推奨モードです。タスクの複雑さに応じて、Claudeが「どれくらい深く考えるか」を自動判断します。簡単な質問にはすぐ答え、複雑な問題には深く考える── この切り替えをユーザーが意識する必要がありません。

APIでは budget_tokens パラメータで思考トークンの上限を設定することも可能で、コスト管理と推論の深さのバランスを細かく制御できます。

思考トークンのコスト

拡張思考の思考トークンは、GPTシリーズと同様に出力トークンとして課金されます。Opus 4.6で拡張思考を使うと、通常の応答よりコストが高くなりますが、Sonnet 4.6でもアダプティブ思考は利用可能です。「まずSonnetのアダプティブ思考で試し、精度が足りなければOpusに切り替える」── これが最もコスト効率の高い運用パターンです。

GPTシリーズとの比較 ── どちらが強いのか？

前回の記事で解説したGPTシリーズとの比較は、多くの読者が気になるポイントでしょう。

比較軸	Claude（Opus 4.6 / Sonnet 4.6）	GPT（5.4 / 4o-mini）
コーディング（SWE-bench）	Opus 80.8% / Sonnet 79.6%	GPT-5.4 約75%
PC操作（OSWorld）	Opus 72.7% / Sonnet 72.5%	GPT-5.4 対応（数値非公開）
コンテキストウィンドウ	100万トークン（Opus / Sonnet）	100万トークン（GPT-5.4）
推論アプローチ	アダプティブ思考（自動）	Thinking/Instant（手動切り替え）
安全設計	Constitutional AI（憲法的AI）	RLHF + Safety System
日本語品質	自然な日本語で高評価	GPT-5.4 Thinkingで大幅改善
API入力単価（最安）	＄1（Haiku）	＄0.15（4o-mini）
API入力単価（最高性能）	＄5（Opus）	＄2.50（GPT-5.4）
低コストモデルの充実度	Haiku ＄1のみ	4o-mini ＄0.15、o4-mini ＄1.10 等
オープン度	クローズドソース	クローズドソース（Codex CLIはOSS）

率直な評価

コーディングではClaudeが優位。SWE-bench VerifiedでOpus 4.6が80.8%、Sonnet 4.6が79.6%と、GPT-5.4の約75%を上回っています。特にSonnet 4.6は「Opusの5分の1の価格でGPT-5.4を超える」という圧倒的なコスパを実現しています。

低コスト帯ではGPTが充実。GPT-4o-miniの＄0.15は、Haiku 4.5の＄1と比較して約7分の1。大量の定型処理を最安で捌きたい場合は、GPTシリーズの方が選択肢が豊富です。

日本語品質ではClaudeが依然として高評価。ただしGPT-5.4 Thinkingモードでは大幅な改善が見られ、差は縮まりつつあります。

安全設計の思想が異なる。Claudeは「憲法に基づく自己批判」、GPTは「人間のフィードバックに基づく調整」。どちらが優れているかではなく、「信頼のメカニズム」が異なると理解するのが正確です。

結論: 「どちらが最強か」ではなく「どう使い分けるか」。記事12（Codex CLI）でClaude CodeとCodex CLIの「両方使うのが正解」と書いたのと同じ構図です。コーディングの質を最大化したいならClaude、コストを最小化したいならGPT、日常業務のバランスなら好みで選ぶ── これが2026年の現実的な使い分けです。

各開発ツールでのClaudeモデルの使われ方

プラットフォーム	使われるClaudeモデル	特徴
Claude（Anthropic）	Opus 4.6, Sonnet 4.6, Haiku 4.5	Cowork、Projects、Artifacts等のフル機能
Claude Code	Opus 4.6, Sonnet 4.6	CLAUDE.md + Hooks + MCPとの連携
Cursor	Sonnet 4.6（デフォルト）, Opus 4.6	Agent Mode + Composerとの統合
GitHub Copilot	Sonnet 4.6	コード補完 + Agent Mode
Windsurf	Sonnet 4.6	Cascade + Memoriesとの連携
Amazon Kiro	Sonnet 4.5 / 4.6, Autoモード	Specs駆動の仕様書生成
Cline	任意のClaudeモデル（BYOK）	API直接接続

注目すべきは、ほぼすべての主要開発ツールがClaudeモデルを選択肢に含めている 点です。特にSonnet 4.6は、Cursor・Copilot・Windsurfのデフォルトモデルとして採用されることが多く、「開発ツールの共通言語」のような存在になりつつあります。

注意点・苦手なこと

Opusの価格: API出力単価＄25/1Mトークンは、GPT-5.4の＄15と比べて高い。第11回 Claude Code ── 「Opus ＄30事件」セクションで紹介した「Opus ＄30事件」（「全ファイルのドキュメントをOpusで丁寧に書き直して」と指示して一晩で＄30超え）のように、Opusのパワーを無制限に解放するとコストが跳ね上がります。拡張思考を有効にするとさらに高額になるため、アダプティブ思考の budget_tokens を適切に設定し、利用シーンを明確に絞ることが2026年の賢いコスト管理です。

低コストモデルの選択肢が少ない: GPTシリーズにはGPT-4o-mini（＄0.15）やo4-mini（＄1.10）など、多様な価格帯のモデルがあります。Claudeの最安はHaiku 4.5（＄1）で、超低コスト帯の選択肢が限られています。大量の単純処理をとにかく安く捌きたい場合はGPTシリーズに分があります。

モデル更新の頻度: OpenAIがGPT-4.1、GPT-5、GPT-5.2、GPT-5.3-Codex、GPT-5.4と矢継ぎ早にリリースするのに対し、Anthropicのリリースサイクルはやや慎重です。これは品質重視の姿勢の裏返しでもありますが、「常に最新モデルを使いたい」方にとってはもどかしく感じることがあります。

リアルタイム情報へのアクセス: Claude（Anthropic）自体にはWeb検索機能がありますが、ChatGPTのWeb検索やComputer Useほどの統合度には達していません。リアルタイム情報の取得を重視する場合は、ChatGPTやPerplexityの方が適しています。

5軸スコア

第2回の記事で紹介したシリーズ共通の5軸で、Claudeシリーズの代表的なモデルを評価します。

Opus 4.6（フラッグシップ）

評価軸	スコア（5段階）	コメント
知能・論理	★★★★★	SWE-bench 80.8%はトップクラス。複雑な推論とコーディングで他を圧倒。拡張思考でさらに精度向上
スピード	★★★☆☆	フラッグシップゆえに応答は遅め。高速モード（6倍価格）で改善可能だが高額
コンテキスト	★★★★★	100万トークン対応。長文の中間部分の処理精度でもGPTより安定していると評価されることが多い
実行力	★★★★★	Claude Code + マルチエージェント連携で高い自律性。OSWorld 72.7%でPC操作も対応
コストパフォーマンス	★★★☆☆	入力＄5/出力＄25は高額。「ここぞ」の場面に限定して使う前提

Sonnet 4.6（バランス型エース）

評価軸	スコア（5段階）	コメント
知能・論理	★★★★★	SWE-bench 79.6%でOpusとの差はわずか1.2pt。日常業務では差を感じない場面がほとんど
スピード	★★★★☆	Opusより高速で、実用的なレスポンス。ただしHaikuほどの即応性はない
コンテキスト	★★★★★	100万トークン（ベータ）。Sonnet価格でフルコードベース分析が可能
実行力	★★★★★	Cursor・Copilot・Windsurfのデフォルトモデル。開発ツールとの統合実績が最も豊富
コストパフォーマンス	★★★★★	入力＄3/出力＄15でOpus級の性能。2026年のコスパ最強モデルの筆頭候補

Haiku 4.5（高速・低コスト）

評価軸	スコア（5段階）	コメント
知能・論理	★★★☆☆	軽量タスクには十分だが、複雑な推論には力不足。分類・仕分け・定型処理向き
スピード	★★★★★	Claudeシリーズ最速。リアルタイムチャットやインタラクティブツールに最適
コンテキスト	★★★★☆	20万トークン。大半のタスクには十分だが、フルコードベース分析には不足
実行力	★★☆☆☆	基本的なテキスト生成のみ。エージェント機能なし
コストパフォーマンス	★★★★☆	入力＄1/出力＄5。Claude内では最安だが、GPT-4o-mini（＄0.15）と比較すると割高

こんな人におすすめ / こんな人には向かない

Opus 4.6 がおすすめな人: 複雑なアーキテクチャ設計、大規模リファクタリング、高品質な長文レポートなど、精度が最優先の場面。Claude Codeとの組み合わせで最大のパフォーマンスを発揮します。ただしコスト管理は必須。

Sonnet 4.6 がおすすめな人: 開発者の日常業務全般。「迷ったらSonnet」が2026年の鉄則です。Cursor・Copilot・Windsurfなど、どの開発ツールを使っていてもSonnet 4.6は選択肢に入ります。Opusとの性能差は1.2ptで、価格は5分の1。費用対効果は圧倒的です。

Haiku 4.5 がおすすめな人: API経由での大量処理、リアルタイムチャットボット、分類・仕分けなど速度とコスト効率が重要な場面。Batch APIの50%割引と組み合わせれば、さらにコストを抑えられます。

向かない人（Claudeモデル全般）:

超低コストで大量処理したい方。→ GPT-4o-mini（＄0.15）の方が圧倒的に安い。Haiku 4.5でもGPT-4o-miniの約7倍のコストです。
常に最新のモデルを追いたい方。→ OpenAIの方がリリース頻度が高く、新モデルの選択肢が豊富です。
リアルタイム情報の取得を重視する方。→ ChatGPTのWeb検索やComputer Use統合、Perplexityのリアルタイム検索の方が適しています。

まとめ

Claudeモデルの強みは、「性能」「安全設計」「プラットフォーム横断性」の3つに集約されます。

性能: Sonnet 4.6がOpus級の性能を5分の1の価格で提供し、SWE-bench VerifiedでGPT-5.4を上回る79.6%を達成。「迷ったらSonnet」が2026年の合理的な選択です。

安全設計: Constitutional AIに基づく「憲法的」な安全設計は、単なる制限ではなく品質管理の仕組み。企業がAIを業務に組み込む際の信頼性の土台になります。

プラットフォーム横断性: Cursor、Copilot、Windsurf、Claude Code、Kiro、Cline── ほぼすべての主要開発ツールがClaudeモデルをサポート。どの「車」を選んでも、Claudeという「エンジン」を載せることができます。

次回は、モデル編の最終回── Gemini・Llama・オープンソースモデルの解説です。Googleの戦略、Metaのオープンソース思想、そしてプライバシーを重視する場合の「ローカルLLM」という選択肢に迫ります。

Claudeモデル解説 ── Haiku・Sonnet・Opusの使い分け

Claudeモデルとは？── 30秒でわかる概要

Constitutional AI ── Claudeを支える安全設計思想

仕組み

2026年の「Claudeの憲法」

実務への影響

モデルの進化史 ── Claude 3からClaude 4.6まで

Claude 3シリーズ（2024年3月）

Claude 3.5 Sonnet（2024年6月）

Claude 4シリーズ（2025年）

Claude 4.6（2026年1〜2月）── 現行世代

3モデルの詳細比較

タスク別のモデル選択ガイド

拡張思考（Extended Thinking）── Claudeの「考える力」

GPTとの違い

思考トークンのコスト

GPTシリーズとの比較 ── どちらが強いのか？

率直な評価

各開発ツールでのClaudeモデルの使われ方

注意点・苦手なこと

5軸スコア

Opus 4.6（フラッグシップ）

Sonnet 4.6（バランス型エース）

Haiku 4.5（高速・低コスト）

こんな人におすすめ / こんな人には向かない

まとめ

AI技術の活用を支援します