GPTシリーズ解説 ── GPT-4からGPT-5.4まで、何が変わったのか

INFO

この記事は2026年3月時点の情報に基づいています。

前回まで（記事08〜13）では、Cursor・Copilot・Windsurf・Claude Code・Codex・Kiro・Clineといった「車（プラットフォーム）」を紹介してきました。ここからのフェーズ4では、それらを動かす「エンジン（モデル）」自体を深掘りします。

今回は、世界で最も広く使われているAIモデルファミリーである GPTシリーズ です。GPT-4で世界を変え、oシリーズで「考えるAI」を生み出し、GPT-5.4で統合を果たした── この進化の流れを理解すれば、「なぜCursorやCopilotで『モデルを切り替える』必要があるのか」の答えが見えてきます。

この記事を読めば、GPTシリーズの進化のポイント、従来型モデルと推論モデルの根本的な違い、そしてどのモデルをどの場面で使うべきかがクリアになります。

GPTシリーズとは？── 30秒でわかる概要

GPT（Generative Pre-trained Transformer）は、OpenAI社が開発する大規模言語モデル（LLM）のシリーズ名です。第1回の記事で解説した「エンジン」に当たります。

GPTシリーズが搭載されるプラットフォーム（車）は1つではありません。ChatGPTはもちろん、GitHub Copilot、Cursor、Windsurf、Codex CLI、さらにはClineなど、多くのプラットフォームがGPTモデルを選択肢として提供しています。同じ「GPT-5.4」でも、載せる車によって使い勝手が変わる── だからこそ、モデル自体の特性を理解しておくことが重要です。

2026年3月時点のGPTシリーズは、大きく 2つの系統 に分かれます。

GPTシリーズ（従来型）: GPT-4o → GPT-4.1 → GPT-5 → GPT-5.2 → GPT-5.4。入力を受けて即座に回答を生成する「直感型」。速度とコストのバランスに優れます。

oシリーズ（推論型）: o1 → o3-mini → o3 → o4-mini。回答する前に「思考トークン」を生成して段階的に推論する「熟考型」。数学、コーディング、科学など複雑なタスクで精度が飛躍的に向上します。

そして2026年、GPT-5.4がこの2つの系統を統合しました。Thinkingモード（推論型の深い思考）とInstantモード（従来型の即答）を1つのモデル内で切り替えられるようになったのです。

GPTモデルの進化史 ── 何がどう変わったのか

GPT-4o ── マルチモーダルの始まり（2024年5月）

GPT-4oの「o」は「omni（全方位）」。テキスト、画像、音声を1つのモデルで処理できるマルチモーダル対応が最大の革新でした。それまでは画像理解に別モデル（GPT-4V）が必要でしたが、GPT-4oで統合。APIの入力単価も大幅に下がり、「GPT-4クラスの知能を低コストで」を実現した転換点です。

o1 ── 「考えるAI」の誕生（2024年9月）

OpenAIは、GPT-4oの次世代モデルではなく、まったく新しい系統として oシリーズ を発表しました。最大の違いは 思考トークン（reasoning tokens） の導入です。

従来のGPTモデルは、入力を受け取ったらすぐに出力を生成します。人間で言えば「直感で答える」スタイル。一方、oシリーズは回答する前にモデル内部で長い「思考の連鎖（chain of thought）」を展開します。「うーん、この問題はまずこの角度から考えて……いやこっちのアプローチの方が……」と、段階的に推論を進めてから最終回答を出す。人間で言えば「じっくり考えてから答える」スタイルです。

この思考トークンはAPIでは非表示ですが、コンテキストウィンドウを消費し、出力トークンとして課金されます。つまり「考える時間が長いほど、コストも高くなる」のが推論モデルの特徴です。しかしその分、数学の米国招待競試（AIME）で89%の正答率を達成するなど、複雑な推論タスクでの精度が飛躍的に向上しました。なお、かつてのo1では数千語に及ぶ思考プロセスがそのまま流れてきましたが、GPT-5.4では「思考の要約」が表示される形に改善されています。AIが何について悩み、どの方針を採用したかのエッセンスだけを確認できるため、人間がAIの推論を監督しやすくなりました。

GPT-4.1 ── コーディング特化の中間世代（2025年4月）

GPT-4.1はGPT-4oの後継で、特にコーディング性能を強化したモデルです。100万トークンの入力コンテキストに対応し、指示追従性が大幅に改善されました。API単価は入力＄2/出力＄8（1Mトークンあたり）と、GPT-4oより安価。コストパフォーマンスに優れた「実務向きモデル」として、多くの開発ツールに採用されました。

o3 / o4-mini ── 推論モデルの成熟（2025年4〜7月）

o3はoシリーズの第3世代（o2はO2ブランドとの商標問題で欠番）。AIMEで96.7%、SWE-bench Verifiedで71.7%という圧倒的なスコアを記録し、推論モデルの実力を証明しました。

o4-miniは、o3の推論能力を維持しつつコストを劇的に抑えた軽量版です。入力＄1.10/出力＄4.40と手頃で、STEMタスクのコストパフォーマンスが際立ちます。「推論の精度は欲しいが、o3ほどのコストはかけられない」── そんな場面で重宝するモデルです。

GPT-5 → GPT-5.2 ── 2つの系統の融合が始まる（2025年〜）

GPT-5は、GPTシリーズとoシリーズの 融合の第一歩 でした。1つのモデル内で「Thinking（思考モード）」と「Instant（即答モード）」を切り替え可能に。思考モードを有効にすると、o3と比較して50〜80%少ない出力トークンで同等以上の精度を達成しました。

GPT-5.2はGPT-5の改良版で、3つのバリアント（Instant / Thinking / Pro）を提供。40万トークンのコンテキストウィンドウと12.8万トークンの出力に対応し、ChatGPTの主力モデルとなりました。

GPT-5.3-Codex ── コーディング最適化モデル（2025年）

GPT-5.3-Codexは、コーディングタスクに特化したモデルです。Terminal-Bench 2.0で77.3%を達成し、コーディングベンチマークのトップに立ちました。Codex CLIのデフォルトモデルとして採用されており、大量のコード修正やバッチ処理に最適化されています。

GPT-5.4 ── 「全部入り」の統合モデル（2026年）

GPT-5.4は、2026年3月時点でのOpenAI最新モデルです。GPT-5.3-Codexのコーディング能力と、GPT-5.2の汎用推論能力を統合し、さらにComputer Use（コンピュータ操作）機能を追加。「考える力」「コードを書く力」「PCを操作する力」を1つのモデルに凝縮しました。

指標	GPT-5.4	o3	GPT-5.2
SWE-bench Verified（バグ修正）	約75%	約69%	約68%
事実誤り（Web検索あり）	GPT-4oの45%減	──	──
事実誤り（Thinking時）	o3の80%減	──	──
コンテキストウィンドウ	100万トークン	20万トークン	40万トークン
API入力単価	＄2.50/1Mトークン	＄10/1Mトークン	＄1.75/1Mトークン
API出力単価	＄15/1Mトークン	高（推論トークン含む）	＄14/1Mトークン

GPT-5.4の登場により、oシリーズ（o3等）を個別に使う必要性は薄れつつあります。GPT-5.4のThinkingモードがo3相当の推論力を持ち、かつトークン効率が大幅に改善されているためです。OpenAIは、GPT-5.2 Thinkingを2026年6月5日に廃止予定と発表しており、モデルの統合・集約が進んでいます。

従来型と推論型 ── 根本的な違い

GPTシリーズを理解する上で最も重要な概念が、「従来型モデル」と「推論モデル」の違いです。

処理の流れの違い

従来型（GPT-4o、GPT-4.1、GPT-5.2 Instant等）: 入力 → 即座に出力。内部で1パスの処理を行い、最も確率の高いトークンを順に生成します。人間で言えば「反射的に答える」。速いが、複雑な問題では正確性に限界があります。

推論型（o1、o3、o4-mini、GPT-5.4 Thinking等）: 入力 → 思考トークンを生成 → 思考を踏まえて出力。「まずこう考えて……いや、別のアプローチで……」と試行錯誤してから答えを出す。人間で言えば「紙に書きながら考える」。遅くて高いが、複雑な推論で精度が飛躍的に向上します。

思考トークンの仕組み

推論モデルの内部で生成される思考トークンには、いくつかの重要な特性があります。

APIでは非表示（ユーザーには見えない）ですが、モデルのコンテキストウィンドウを消費します。課金は出力トークンとして計算されるため、「考える時間が長い＝コストが高い」という関係になります。また、思考トークンはステップ間で破棄されるため、会話の次のターンには引き継がれません。

どちらを使うべきか？

特性	従来型（Instant）	推論型（Thinking）
速度	速い	遅い
コスト	安い	高い（思考トークン分）
単純なタスク	最適	過剰品質（もったいない）
複雑な推論	精度が落ちる	飛躍的に向上
コーディング	基本的なコード生成なら十分	バグ修正・アーキテクチャ設計に強い
数学・科学	苦手	得意（AIME 96.7%等）

実務的な使い分けのルール: 「1分以上考える必要がありそうな問いにだけThinkingを使う」── ChatGPTの記事でも触れたこの指針が、2026年現在も最も実用的な判断基準です。メールの下書きにThinkingは不要ですが、複雑なバグの原因特定やアーキテクチャの設計判断にはThinkingの精度が効きます。

トークン単価のデフレ ── なぜ「知能の価格」が下がり続けるのか

GPTシリーズの進化を語る上で避けて通れないのが、トークン単価の劇的な下落 です。

モデル	リリース時期	API入力単価（/1Mトークン）	性能レベル
GPT-4（8K）	2023年3月	＄30	当時最高
GPT-4o	2024年5月	＄5	GPT-4以上
GPT-4o-mini	2024年7月	＄0.15	GPT-4水準
GPT-4.1	2025年4月	＄2	GPT-4o以上
GPT-5.2	2025年12月	＄1.75	GPT-5以上
GPT-5.4	2026年3月	＄2.50	全統合

注目すべきは、GPT-4o-miniの＄0.15です。2023年にGPT-4が＄30だったことを考えると、わずか1年で GPT-4相当の知能が200分の1の価格 で利用可能になりました。この「知能のデフレ」は、AIツールのビジネスモデルに根本的な影響を与えています。

ClineのようなBYOK（自分のAPIキー）ツールが台頭した背景も、このデフレにあります。月額＄20のサブスクリプションを払わなくても、安価なモデルのAPI直叩きで十分な品質が得られる── そんな状況が現実になりつつあるのです。

さらに2026年は、一度入力した長文コンテキストを再利用する際のコストを大幅に削減する コンテキストキャッシュ（Prompt Caching） が標準化されました。OpenAIのプロンプトキャッシュは最大75%の割引を提供しており、巨大なリポジトリを毎日AIに読み込ませるような運用でも、実質コストを劇的に抑えられます。Codex CLIの記事で紹介した75%キャッシュ割引も、この仕組みによるものです。

一方で、最高性能を求めると依然として高コストです。o3やGPT-5.2 Proは思考トークンの消費が多く、複雑なタスク1回で数＄かかることも珍しくありません。「安いモデルで量を捌き、高いモデルで質を追う」── この使い分けが、2026年のコスト最適化の基本戦略です。

5軸スコアとまとめ

第2回の記事で紹介したシリーズ共通の5軸で、GPTシリーズの代表的なモデルを評価します。

GPT-5.4（統合フラッグシップ）

評価軸	スコア（5段階）	コメント
知能・論理	★★★★★	Thinking時の推論力はトップクラス。SWE-bench 75%、事実誤り大幅削減
スピード	★★★★☆	Instantモードは高速。Thinkingモードは思考時間分遅くなるが、トークン効率はo3より大幅改善
コンテキスト	★★★★★	100万トークン対応。ただし27.2万トークン超は料金2倍
実行力	★★★★★	テキスト生成を超え、ブラウザやアプリを実際に操作してタスクを完遂するComputer Use能力を搭載。コード実行、Web検索も統合し、エージェントとしての実用性は現時点で最高水準
コストパフォーマンス	★★★★☆	入力＄2.50/出力＄15は統合モデルとしては妥当。ただしThinking時の思考トークン消費に注意

GPT-4o-mini（コスト最適モデル）

評価軸	スコア（5段階）	コメント
知能・論理	★★★☆☆	GPT-4水準。単純なタスクには十分だが、複雑な推論には力不足
スピード	★★★★★	応答速度が非常に速い。リアルタイムアプリケーションに最適
コンテキスト	★★★★☆	12.8万トークン。大半のタスクには十分
実行力	★★☆☆☆	基本的なテキスト生成のみ。エージェント機能なし
コストパフォーマンス	★★★★★	入力＄0.15/出力＄0.60。GPT-4の200分の1。量が必要なタスクの最適解

o4-mini（推論コスパモデル）

評価軸	スコア（5段階）	コメント
知能・論理	★★★★☆	推論型の高い精度をコスパ良く利用できる。STEMタスクに強い
スピード	★★★★☆	o3より高速だが、思考トークン生成分は従来型より遅い
コンテキスト	★★★★☆	20万トークン。推論モデルとしては十分
実行力	★★★☆☆	推論に特化。エージェント機能は限定的
コストパフォーマンス	★★★★★	入力＄1.10/出力＄4.40。推論モデルの中で圧倒的なコスパ

各開発ツールでのGPTモデルの使われ方

GPTモデルは、さまざまな開発ツール（車）に搭載されています。同じモデルでも、プラットフォームによって体験が異なる点が重要です。

プラットフォーム	使われるGPTモデル	特徴
ChatGPT	GPT-5.4（メイン）、GPT-5.2	Thinking/Instant切り替え、Computer Use
GitHub Copilot	GPT-4o、GPT-5.2 等	コード補完に最適化されたチューニング
Cursor	GPT-4o、GPT-5.4 等	Agent Mode + Composerとの連携
Codex CLI	GPT-5.3-Codex、codex-mini	サンドボックス内での自律実行
Cline	任意のGPTモデル（BYOK）	モデルの自由選択

同じGPT-5.4でも、ChatGPTで使うのとCursorで使うのでは体験が異なります。 ChatGPTはComputer UseやWeb検索との統合が強み。Cursorはエディタのコンテキスト（開いているファイル、プロジェクト構造）との統合が強み。モデルの性能だけでなく、プラットフォームとの組み合わせで最適解が変わるのが、2026年のAI開発環境です。

注意点・苦手なこと

ハルシネーション（もっともらしい嘘）: GPT-5.4は事実誤りを大幅に削減しましたが、ゼロにはなっていません。特に日本語の固有名詞やニッチな専門知識では依然として注意が必要です。Web検索を有効にしたGPT-5.4でも、必ず原典で裏取りしてください。

推論モデルのコスト予測が難しい: 思考トークンの消費量はタスクの複雑さに依存し、事前に正確な見積もりが困難です。API利用時は使用量のモニタリングと上限設定を推奨します。

コンテキストウィンドウの「理論値と実用値」: GPT-5.4は100万トークンのコンテキストに対応していますが、27.2万トークンを超える入力は料金が2倍になります。また、長大なコンテキストでは「中間部分の情報を見落とす」傾向（Lost in the Middle）が報告されています。

モデルの廃止サイクルが速い: GPT-5.2 Thinkingは2026年6月に廃止予定。APIでGPTモデルを利用する場合、モデルの廃止スケジュールを常に把握し、マイグレーション計画を立てておく必要があります。

日本語の品質: 英語と比較すると、日本語での出力品質にばらつきが見られる場合があります。特にo4-miniなど軽量モデルでは、日本語の表現が不自然になることがあります。

こんな人におすすめ / こんな人には向かない

GPT-5.4 がおすすめな人: 最新・最高性能のモデルを使いたい方。特にChatGPT Plus（＄20/月）で利用する場合、Thinking/Instant切り替え + Computer Use + Web検索という統合体験は他に類を見ません。開発ツール経由でも、コーディング品質を最大化したい場面で威力を発揮します。

GPT-4o-mini がおすすめな人: APIでの大量処理や、コストを最小化したい方。チャットボット、メール生成、定型タスクの自動化など、「量を安く捌く」用途に最適です。

o4-mini がおすすめな人: 数学、科学、複雑なコーディングなど推論力が必要だが、o3ほどのコストはかけられない方。学生や研究者のSTEMタスク向けの選択肢として優れています。

向かない人（GPTシリーズ全般）:

長文分析を最優先する方。→ Claudeの200Kトークンの方が安定しています。コンテキストウィンドウのサイズではGPT-5.4が上回りますが、長文の中間部分の処理精度ではClaudeの方が安定する場面もあります。

安全性思想を重視する方。→ 次回の記事で解説しますが、AnthropicのClaudeモデルはConstitutional AIに基づく安全性設計が差別化ポイントです。

日本語の品質を最重視する方。→ o4-miniなど軽量モデルでは日本語の不自然さが残ります。GPT-5.4 Thinkingモードでは論理的な一貫性と語彙力が大幅に改善されていますが、日本語の自然さではClaudeが依然として高い評価を得ています。

まとめ

GPTシリーズの進化は、3つのフェーズで捉えられます。

フェーズ1（2023〜2024）: マルチモーダル化 ── GPT-4→GPT-4oで、テキスト・画像・音声を1つのモデルに統合。「何でも入力できるAI」が生まれました。

フェーズ2（2024〜2025）: 推論モデルの登場 ── oシリーズで「考える力」を獲得。思考トークンという革新により、複雑な問題への正答率が飛躍的に向上しました。ただし、従来型と推論型は別系統のモデルとして併存していました。

フェーズ3（2025〜2026）: 統合と民主化 ── GPT-5→GPT-5.4で2つの系統が統合。1つのモデル内でThinking/Instantを切り替え可能に。同時に、GPT-4o-miniの登場で「知能の価格」が200分の1に。かつては高嶺の花だったGPT-4クラスの知能が、ほぼ無料で使える時代が到来しました。

次回は、GPTシリーズと双璧をなす Claudeモデル の解説です。Haiku・Sonnet・Opusの使い分け、Constitutional AIの安全思想、そしてコーディング性能でGPTと拮抗する実力── Claudeモデル解説で詳しく見ていきます。

GPTシリーズ解説 ── GPT-4からGPT-5.4まで、何が変わったのか

GPTシリーズとは？── 30秒でわかる概要

GPTモデルの進化史 ── 何がどう変わったのか

GPT-4o ── マルチモーダルの始まり（2024年5月）

o1 ── 「考えるAI」の誕生（2024年9月）

GPT-4.1 ── コーディング特化の中間世代（2025年4月）

o3 / o4-mini ── 推論モデルの成熟（2025年4〜7月）

GPT-5 → GPT-5.2 ── 2つの系統の融合が始まる（2025年〜）

GPT-5.3-Codex ── コーディング最適化モデル（2025年）

GPT-5.4 ── 「全部入り」の統合モデル（2026年）

従来型と推論型 ── 根本的な違い

処理の流れの違い

思考トークンの仕組み

どちらを使うべきか？

トークン単価のデフレ ── なぜ「知能の価格」が下がり続けるのか

5軸スコアとまとめ

GPT-5.4（統合フラッグシップ）

GPT-4o-mini（コスト最適モデル）

o4-mini（推論コスパモデル）

各開発ツールでのGPTモデルの使われ方

注意点・苦手なこと

こんな人におすすめ / こんな人には向かない

まとめ

AI技術の活用を支援します