技術記事 2026年3月9日 読了 約22分

Gemini・Llama・オープンソースモデル ── 選択肢を広げる

GPTとClaude以外にどんな選択肢があるのか── Gemini、Llama、Mistral、DeepSeekの強みと使い分けを解説します。

YS
山田 翔太郎
ReIT
INFO

この記事は2026年3月時点の情報に基づいています。

この記事を読めばわかること

前回まで(記事14〜15)で、GPTシリーズとClaudeシリーズという「2大エンジン」を深掘りしました。今回はモデル編の最終回── GPTとClaude 以外 のモデルファミリーに焦点を当てます。

Gemini(Google): Google Workspaceとの統合と100万トークン超のコンテキスト。Llama(Meta): オープンウェイトの巨人。ローカル実行で「データを一切外に出さない」を実現。Mistral(欧州): Apache 2.0のオープンソースで、EU規制に準拠。DeepSeek(中国): 圧倒的なコストパフォーマンスで市場をかき乱す存在。

この記事を読めば、「GPTとClaude以外にどんな選択肢があるのか」「どんな場面でそれらを選ぶべきか」「オープンソースモデルが企業にとってなぜ重要なのか」がクリアになります。

なぜGPTとClaude以外を知るべきか?

記事14記事15で解説したGPTとClaudeは、2026年のAI市場で最も広く使われているモデルです。しかし、3つの理由でそれ以外のモデルを知っておく価値があります。

コスト構造の多様性: Gemini 3.1 Flash-Liteは入力$0.25/1Mトークンと、GPT-4o-miniの$0.15に匹敵する低コスト。DeepSeekはさらに安価で、同等性能のモデルをGPT-4の95%引きで提供。「知能のデフレ」が最も進んでいるのは、実はGPT/Claude以外の市場です。

Mixture of Experts(MoE)アーキテクチャの台頭: 今回紹介するモデルの多くは、MoEという設計を採用しています。MoEは「100人の専門家(エキスパート)がいるが、1つの質問に対して呼ばれるのは最適な数人だけ」という仕組みです。これにより、モデル全体の知能(総パラメータ数)を巨大に保ちつつ、推論時のコスト(電気代と待ち時間)を劇的に抑えています。Llama 4 Scoutが「総パラメータは巨大なのに17Bアクティブで高速」なのも、Mistral Large 3が「675Bなのに$0.50」なのも、すべてMoEの恩恵です。

データ主権とプライバシー: Llama 4やMistral Large 3はオープンウェイト(モデルの重みが公開)のため、自社サーバーでローカル実行できます。「コードもプロンプトも、一切クラウドに出さない」── 記事13でTabnineのエアギャップ対応を紹介しましたが、そのエアギャップ環境で動くエンジンがLlamaやMistralです。

エコシステムの広がり: GeminiモデルはGoogle Workspaceとの統合が最大の武器。Gmail・Googleドキュメント・スプレッドシートとAIが直結する体験は、OpenAIやAnthropicのエコシステムでは再現できません。

Gemini(Google)── Google連携と長大コンテキストの雄

モデルラインナップ

第5回のGemini完全ガイドではプラットフォーム(車)としてのGeminiを紹介しました。ここではエンジン(モデル)としてのGeminiシリーズを深掘りします。

Gemini 3.1 Pro: 2026年3月時点の最新フラッグシップ。1Mトークンのコンテキスト、テキスト・画像・音声・動画・PDFのマルチモーダル対応、高度な推論力。API単価は入力$2/出力$18。複雑な問題解決やデータ統合に最適化されています。

Gemini 2.5 Pro: 思考モデル(Thinking)搭載の推論特化モデル。GPTのoシリーズClaudeの拡張思考と同様に、回答前に内部で推論を展開します。API単価は入力$4/出力$20。

Gemini 3.1 Flash-Lite: 速度とコスト効率に最適化された軽量モデル。2.5 Flashと比較して応答生成速度が45%向上、初回トークンまでの待ち時間は2.5倍短縮。API単価は入力$0.25/出力$1.50と、大量処理向けの低コスト設計。

モデルAPI入力単価API出力単価コンテキスト特徴
Gemini 3.1 Pro$2$18100万トークン最新フラッグシップ。マルチモーダル
Gemini 2.5 Pro$4$20100万トークン思考モデル(Thinking)
Gemini 3.1 Flash-Lite$0.25$1.50──最速・最安。大量処理向き

Geminiモデルの強み

Google Workspaceとの深い統合: Gemini完全ガイドで詳述した通り、Gmail・Googleドキュメント・スプレッドシート・Googleドライブとの連携はGeminiモデルの最大の差別化ポイントです。「受信トレイの全メールをAIに要約させる」「スプレッドシートのデータをAIに分析させる」── こうした業務フローはGeminiエコシステムでのみ実現します。

マルチモーダルの広さ: テキスト、画像、音声、動画、PDFを1つのモデルで処理できます。特に動画理解は、GPTやClaudeが対応を進めている分野で、Geminiが先行しています。

コスト競争力: Gemini 3.1 Flash-Liteの$0.25は、GPT-4o-mini($0.15)に迫る低コスト。大量の翻訳、分類、定型処理ではGeminiの選択肢が有力です。

注意点

Geminiモデルのベンチマーク結果は、GPT-5.4やClaude Opus 4.6と比較すると一段下に位置することが多いです。特にコーディング性能(SWE-bench等)では差があります。「最高性能」ではなく「Google連携 + コスト効率 + マルチモーダルの広さ」がGeminiを選ぶ理由です。

Llama(Meta)── オープンウェイトの巨人

なぜMetaは「オープン」にこだわるのか

Llama(Large Language Model Meta AI)は、Meta社が開発し オープンウェイトで公開 しているLLMファミリーです。「オープンウェイト」とは、モデルの重み(学習済みパラメータ)を公開し、誰でもダウンロード・実行・カスタマイズできることを意味します。

Metaがモデルを無料公開する理由は、ビジネスモデルの違いにあります。OpenAIやAnthropicはAPI課金でモデルを収益化しますが、Metaの収益源はSNS広告です。AIモデルの収益化は不要── むしろ、オープンにすることでAIエコシステムの中心に座り、開発者コミュニティの支持を得る戦略です。

モデルラインナップ

Llama 4 Scout: Mixture-of-Experts(MoE)アーキテクチャで、総パラメータ数から17Bのみをアクティブに使用。1,000万トークンのコンテキストウィンドウ はオープンソースモデルで最大です。1,000万トークンがあれば、「数年分の社内議事録と全マニュアルを一度に読み込ませて、情報の矛盾や抜け漏れを探す」といった、従来は分割処理が必須だったタスクが一発で完結します。単一のNVIDIA H100 GPUに収まるサイズで、ローカル実行のハードルが低い。Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1を上回るベンチマーク結果を記録しています。

Llama 4 Maverick: 400B総パラメータ、128エキスパート、アクティブ17B。GPT-5.3レベルの推論・コード生成性能を、Scoutと同等の推論コストで実現。GPT-4oやGemini 2.0 Flashを幅広いベンチマークで上回っています。

モデル総パラメータアクティブコンテキスト特徴
Llama 4 ScoutMoE 16エキスパート17B1,000万トークン単一H100で動作。最大コンテキスト
Llama 4 MaverickMoE 128エキスパート17B──GPT-5.3レベル。研究・大規模推論向き

ローカル実行 ── 「データを外に出さない」という選択

Llamaの最大の実務的価値は、自社サーバーでのローカル実行 が可能な点です。

クラウドAPIを使う場合、プロンプトとコードがインターネットを経由してOpenAIやAnthropicのサーバーに送信されます。これは多くの場面で問題ありませんが、金融・防衛・医療など「データを一切外部に出せない」組織にとっては致命的な制約です。

Llamaをローカル実行すれば、データは自社サーバーの中で完結します。記事13で紹介したTabnineのエアギャップ環境や、WindsurfのSelf-Hosted環境で動くエンジンとして、Llamaは最有力候補です。

ただし、ローカル実行は「無料」ではありません。Llama 4 Scoutは単一H100で動作しますが、Maverickはより大きなインフラが必要です。「クラウドのAPIコストがゼロになる代わりに、GPUサーバーの調達・運用コストがかかる」── このトレードオフを理解した上で導入を判断する必要があります。小規模なチームであれば、GPUサーバーを維持するよりも、あえてAPI課金を選ぶ方がトータルコストで勝る場面も多いです。

注意点

Llamaは「オープンウェイト」であり、厳密には「オープンソース」とは異なります。モデルの重みは公開されていますが、学習データやトレーニングコードは完全には公開されていません。また、Llama Community License Agreementにより、商用利用には一部制約がある場合があります。大規模な商用デプロイの前にライセンス条件の確認が必要です。

Mistral・DeepSeek

Mistral(欧州)── EU発のオープンソースフロンティア

Mistral AIは、フランス・パリを拠点とするAI企業です。第7回の記事でプラットフォームとしてのMistralを紹介しましたが、ここではモデルとしてのMistral Large 3を深掘りします。

Mistral Large 3: 675B総パラメータ、41Bアクティブの粒度の細かいMoEモデル。25.6万トークンのコンテキストウィンドウ。テキスト・画像のマルチモーダル、多言語対応。そして何より、Apache 2.0ライセンスで完全オープンソース です。

項目Mistral Large 3
総パラメータ675B
アクティブパラメータ41B
コンテキスト25.6万トークン
ライセンスApache 2.0(完全オープンソース)
API入力単価$0.50/1Mトークン
API出力単価$1.50/1Mトークン

Apache 2.0の完全オープンソース: LlamaのCommunity Licenseと異なり、Mistral Large 3は Apache 2.0 ── 商用利用の制約がない、最も自由なオープンソースライセンスです。自社プロダクトへの組み込み、改変、再配布が自由にできます。

EU規制への準拠: 欧州発のAIとして、GDPRやEU AI Actへの準拠が設計段階から考慮されています。ヨーロッパ市場で事業を展開する企業にとって、データ主権を確保できるAIは重要な選択肢です。

コストパフォーマンス: API入力$0.50/出力$1.50は、Claude Haiku 4.5($1/$5)やGPT-4o-mini($0.15/$0.60)と比較しても競争力のある価格帯です。41Bアクティブパラメータによる推論品質は、軽量モデルの中ではトップクラスです。

最高性能ではGPT-5.4やClaude Opus 4.6に及びません。Mistralは「最強のモデル」ではなく、「オープンソース × EU準拠 × コスト効率」という独自のポジションで勝負しています。

DeepSeek(中国)── 価格破壊のオープンウェイト

DeepSeekは、中国発のAI企業です。第7回の記事でプラットフォームとして紹介しましたが、ここではモデルの進化に焦点を当てます。

2024年末にリリースされたDeepSeek-V3とDeepSeek-R1は、GPT-4クラスの性能をAPI価格で最大95%安く提供し、AI市場に衝撃を与えました。2026年3月時点では、次世代の DeepSeek V4(1兆パラメータ、100万トークンコンテキスト)のリリースが待たれています。

圧倒的なコストパフォーマンス: DeepSeek-V3のAPI価格は、GPT-4oと同等の性能を提供しつつ大幅に安価です。記事13で紹介したClineのBYOK戦略で「コスト重視ならDeepSeek」と書いたのは、このコスト優位性によるものです。

オープンウェイト(Apache 2.0): V3、R1ともにApache 2.0ライセンスで公開されており、ローカル実行やファインチューニングが自由にできます。

推論モデル(R1)の強力さ: DeepSeek-R1は、GPTのoシリーズと同様の思考トークンベースの推論モデルです。数学やコーディングの推論力はo1に匹敵し、オープンウェイトの推論モデルとしては最高峰です。

WARN

データ主権のリスク: DeepSeekの最大の懸念は データの取り扱い です。中国の法規制(サイバーセキュリティ法、データセキュリティ法)の下では、政府がデータへのアクセスを要求する可能性があります。API経由で利用する場合、プロンプトとレスポンスが中国のサーバーを経由することを意味します。

この懸念を回避する方法は2つあります。ローカル実行: オープンウェイトであるため、自社サーバーでDeepSeekモデルを動かせば、データは中国に渡りません。サードパーティ経由の利用: AWS BedrockやAzure経由でDeepSeekモデルを呼び出す場合、データの経路はAWS/Azureの管理下に入ります。つまり「知能は中国製だが、データの箱(インフラ)は米国製」というハイブリッドな信頼関係が成立し、多くのグローバル企業にとって現実的な妥協点になっています。

「性能とコストは使いたいが、データは中国に渡したくない」── この場合は、ローカル実行またはサードパーティ経由の利用を検討してください。


オープンソース / オープンウェイトモデル比較

モデル開発元ライセンス総パラメータコンテキストローカル実行
Llama 4 ScoutMetaCommunity LicenseMoE 16E1,000万単一H100
Llama 4 MaverickMetaCommunity LicenseMoE 128E(400B)──複数GPU必要
Mistral Large 3MistralApache 2.0MoE 256E(675B)25.6万複数GPU必要
DeepSeek-V3DeepSeekApache 2.0MoE(671B)──複数GPU必要
DeepSeek-R1DeepSeekApache 2.0MoE(671B)──複数GPU必要

「ローカル実行」が企業にとって意味すること: クラウドAPIのコストがゼロになる代わりに、GPUサーバーの調達・運用コストがかかります。しかし、データが自社インフラの中で完結する── この「プライバシーの絶対保証」は、金融・防衛・医療セクターにとって金銭では測れない価値があります。

5軸スコアとまとめ

第2回の記事で紹介したシリーズ共通の5軸で、各モデルファミリーの代表モデルを評価します。

Gemini 3.1 Pro

評価軸スコア(5段階)コメント
知能・論理★★★★☆高い推論力だが、SWE-benchなどコーディングベンチマークではGPT-5.4・Claude Opus 4.6に一段劣る
スピード★★★★☆Flash-Liteは最速クラス。Proは標準的な速度
コンテキスト★★★★★100万トークン。動画・音声を含むマルチモーダル入力に対応し、特に1時間超の動画をネイティブに解析できる能力は他モデルにない強み
実行力★★★★☆Google Workspace連携、Function Calling対応。ただしClaude CodeやChatGPTほどのエージェント自律性はまだ
コストパフォーマンス★★★★★Flash-Lite $0.25は大量処理の最適解。Google Workspaceユーザーには追加コスト不要の機能も多い

Llama 4 Scout

評価軸スコア(5段階)コメント
知能・論理★★★★☆17Bアクティブでありながら、Gemma 3・Gemini 2.0 Flash-Liteを上回る。軽量モデルとしては最強クラス
スピード★★★★★17Bアクティブ + MoEにより高速推論。ローカル実行時のレスポンスも実用的
コンテキスト★★★★★1,000万トークンはオープンソースモデルで最大。全コードベース + 全ドキュメントを一度に投入可能
実行力★★★☆☆モデル単体としての実行力。エージェント機能はプラットフォーム(Cline等)に依存
コストパフォーマンス★★★★★オープンウェイトでAPIコスト$0(ローカル実行時)。GPUコストとのトレードオフだが、大量利用時は圧倒的に安い

Mistral Large 3

評価軸スコア(5段階)コメント
知能・論理★★★★☆41Bアクティブで高い推論力。Apache 2.0オープンソースのフロンティアモデルとしてはトップ
スピード★★★★☆MoEによる効率的な推論。41Bアクティブは重すぎず軽すぎないバランス
コンテキスト★★★★☆25.6万トークン。Gemini 3.1 ProやLlama 4 Scoutには及ばないが、大半のタスクには十分
実行力★★★☆☆Function Calling対応。エージェント機能はプラットフォーム依存
コストパフォーマンス★★★★★API $0.50/$1.50は性能対比で圧倒的。Apache 2.0でローカル実行も自由

こんな人におすすめ / こんな人には向かない

Gemini がおすすめな人: Google Workspaceを業務の中心に据えている方。Gmail・Googleドキュメント・スプレッドシートとAIを直接連携させたい場面では、Geminiが唯一の選択肢です。動画・音声を含むマルチモーダル処理が必要な方にも。

Llama がおすすめな人: データを一切クラウドに出せない組織。ローカル実行で完全なプライバシーを確保したい方。特にLlama 4 Scoutは単一H100で動作し、導入ハードルが比較的低いです。1,000万トークンのコンテキストで全コードベースを一度に分析したい方にも。

Mistral がおすすめな人: EU圏で事業を展開し、GDPR/EU AI Act準拠を重視する方。Apache 2.0ライセンスで商用利用に制約がないため、自社プロダクトへのモデル組み込みを検討している方にも最適です。

DeepSeek がおすすめな人: コストパフォーマンスを最優先する方。ただし、ローカル実行またはサードパーティ経由でのデータ主権確保を前提に。

向かない人(これらのモデル全般):

最高性能のコーディングを求める方。→ Claude Sonnet 4.6(SWE-bench 79.6%)またはGPT-5.4(SWE-bench 約75%)が優位です。

エージェント的な自律実行を求める方。→ モデル単体のエージェント能力ではChatGPT(Computer Use)やClaude Codeのエコシステムが成熟しています。

設定の手間を最小にしたい方。→ ローカルLLMの運用にはGPUインフラの管理が伴います。API経由の利用でも、GPT/Claudeほどのドキュメント・コミュニティの充実度はまだこれからです。

まとめ

モデル編3記事を通じて見えてきたのは、「1つのモデルですべてを賄う時代は終わった」 という事実です。

GPT-5.4は統合力とComputer Useで、Claude Opus/Sonnetはコーディング品質と安全設計で、GeminiはマルチモーダルとGoogle連携で、LlamaとMistralはオープンソースとプライバシーで、DeepSeekはコストパフォーマンスで── それぞれが異なる「最適解」を提供しています。

第1回の記事で「プラットフォーム(車)」と「モデル(エンジン)」の関係を解説しましたが、2026年の現実は 「車もエンジンも、場面ごとに選び分ける」 時代です。CursorでClaude Sonnet 4.6を使い、ClineでDeepSeekに切り替え、機密データの分析にはローカルのLlama 4を使う── こうした柔軟な使い分けが、AI活用の成熟を示しています。

次の記事からはフェーズ5「実践・まとめ編」に入ります。AIプロンプト実践集では、ここまで紹介したツールとモデルを使いこなすための、場面別プロンプトテンプレートを紹介します。


AI技術の活用を支援します

オープンソースモデルの導入からクラウドAPI活用まで、最適なAI戦略をサポートします。