Gemini 3 完全ガイド：Pro vs Flash の使い分けと Deep Think・Antigravity の実力

2025-12-18 （更新: 2026-05-27） by ZeroZawa

2025年11月18日にGoogleが「Gemini 3」を発表し、続く12月にはPro/Flashの2モデルが出揃いました。さらに新IDE「Antigravity」やDeep Thinkモードなど、モデル単体にとどまらないエコシステム全体のアップデートが同時に進んでいます。

本記事は、断片的に語られがちなGemini 3の情報を1本に集約したガイドです。「ProとFlashのどちらを使うか」という実務判断から、競合フラグシップとの立ち位置、そして開発体験を変えるDeep Think・Antigravityまで、開発者視点で整理します。

Gemini 3のエコシステム：モデル単体ではなく「開発の景色」が変わる

Gemini 3の本質は、単にモデルが「賢くなった」ことではありません。同時に発表された機能群が、開発のワークフローそのものを書き換えにきています。

「なんとなく」を理解する：Vibe Coding

最も話題を呼んだのが「Vibe Coding」です。ユーザーの抽象的な指示（Vibe＝雰囲気、ノリ）から、その背後にある意図を汲み取る機能です。

例えば「ヘッダーはもっとポップに、でも子供っぽくしないで。Appleっぽいミニマリズムで」といった曖昧な指示を出したとします。従来のAIなら「具体的になにを変更しますか？」と聞き返すか、極端なデザインを出力しがちでした。Gemini 3は文脈から「余白を広げ、フォントウェイトを調整し、彩度は抑えつつアクセントカラーを使う」といった具体的な実装へ自律的に落とし込みます。開発者が言語化できていない暗黙知をコードへ変換する能力が上がり、プロトタイピングの速度が加速します。

思考するAI：Deep Think モード

感覚的なVibe Codingに対し、論理の極致が「Deep Think」モードです。このモードでAIは即答せず、内部で複数の仮説を立て、検証（Self-Reflection）を経てから出力します。

複雑なデバッグ: エラーログだけでなく、コードベース全体から依存関係を読み解き、バグの根本原因を特定する
アーキテクチャ設計: 「A案とB案どちらがいい？」に対し、スケーラビリティや保守性の観点からシニアエンジニア相当の洞察を返す

数学的推論を測る「MathArena Apex」では正答率23.4%という、競合を引き離すスコアを記録しています。

AIネイティブIDE：Google Antigravity

これらを統合する舞台が、新しいIDE「Google Antigravity」です。既存エディタにAIを「足した」ものではなく、最初からAIを中心に設計されています。プロジェクト全体のコードを広大なコンテキストに常駐させ、ファイル間の依存関係を把握。「リファクタリングしておいて」と投げれば、バックグラウンドで自律的に作業し、プルリクエストのような形で提案してくれます。Web開発タスクのベンチマーク「WebDev Arena」では**ELOスコア1,420（世界1位）**を記録しました。

Pro vs Flash：ベンチマークの「逆転現象」

ここからが実務上の最重要トピック、ProとFlashの使い分けです。驚くべきことに、軽量モデルであるはずのFlashが一部ベンチマークでProを上回る「逆転現象」が起きています。

ベンチマーク	Gemini 3 Pro	Gemini 3 Flash	優勢
SWE-bench Verified（コーディング）	76.2%	78.0%	Flash
GPQA Diamond（博士レベル推論）	93.8%	90.4%	Pro
MMMU-Pro（マルチモーダル）	81.0%	81.2%	引き分け
Humanity’s Last Exam（総合難問）	37.5%	33.7%	Pro
SimpleQA Verified（事実正確性）	72.1%	68.7%	Pro
Video-MMMU（動画理解）	87.6%	86.9%	引き分け

コーディング：FlashがProを逆転

最も注目すべきは SWE-bench Verified です。実際のGitHubイシューを解決する能力を測る、開発者にとって関心の高い指標で、Flash（78.0%）がPro（76.2%）を約2ポイント上回り、Google史上最高のコーディングモデルとなりました。

学術的推論：Proの強み

一方、博士レベルの科学問題を扱う GPQA Diamond ではProが93.8%と圧倒的で、Flashの90.4%を3.4ポイント上回ります。複雑な論理的思考が求められるタスクでは依然としてProが優位です。

競合フラグシップとの比較：Flashはどこに立つのか

Gemini 3 Flashの真の衝撃は、「軽量モデル」の枠を超え、他社のフラグシップと肩を並べる点にあります。

モデル	SWE-bench Verified	GPQA Diamond	MMMU-Pro	Humanity’s Last Exam
Gemini 3 Flash	78.0%	90.4%	81.2%	33.7%
GPT-5.2 (Thinking/Pro)	80.0%	93.2%	86.5%	36.6%
Claude Opus 4.5	80.9%	-	-	-
Gemini 3 Pro	76.2%	93.8%	81.0%	37.5%

コーディング（SWE-bench）ではFlashが上位のProを上回り、マルチモーダル（MMMU-Pro）ではGPT-5.2に肉薄する81.2%を記録。フラグシップ級の知能を、軽量モデルの価格と速度で提供しているのが分かります。

コストと速度：Flashの圧倒的経済性

性能だけでなく、運用コストでもFlashは大きな優位を持ちます。

項目	Gemini 3 Pro	Gemini 3 Flash	差
入力コスト（100万トークン）	$2.00	$0.50	4倍安い
出力コスト（100万トークン）	$18.00+	$3.00	6倍安い
レスポンス速度	基準	約3倍高速	—
コンテキストウィンドウ	最大2M	1M	Pro優位

Flashは入力で4倍、出力で6倍のコスト削減を実現。Gemini 2.5 Proとの比較でも、コストを60〜70%削減しつつ精度を約15%向上させています。高頻度でAPIを呼び出すエージェントシステムでは、この差が運用コストを決定づけます。

最適なユースケースの使い分け

具体的に、どのシーンでどちらを選ぶべきかを整理します。

Flashを選ぶべきシーン

自律型コーディングエージェント: SWE-benchでトップスコア。高速イテレーションが可能で、開発者がリアルタイムで待つ必要がない
リアルタイム・マルチモーダル処理: 動画のライブ分析やコンテンツモデレーション。3倍の高速レスポンスが活きる
大量のRAG/バッチ処理: 数千件のドキュメント処理など、コスト効率が最重要な場面

Proを選ぶべきシーン

高度な科学・数学の研究: GPQA 93.8%。複雑な論理的推論が必要なタスク
超長文コンテキスト（1M+トークン）: 最大2Mトークンで大規模コードベース全体を分析
高精度なファクトチェック: SimpleQAで優位。誤情報を許容できないユースケース
長期的なエージェントタスク: 複雑なツールチェーン呼び出しと長期計画

まとめ：「Flash First」という新戦略

Gemini 3 Flashの登場で、「Pro = 高性能、Flash = 軽量版」という従来の図式は崩れました。最高峰の推論能力をFlashのスピードとコストで使える今、AIは「ツール」から自律的に動き続ける「エージェント」へと進化を加速させています。

推奨戦略：Flash First

まずFlashで試す
深い推論や最高精度（GPQA・長文）が必要な場合のみProへエスカレート
コストと速度のメリットを最大限に活用

そして忘れてはいけないのが、Gemini 3はモデル単体の話ではないという点です。Deep Thinkの深い推論、Vibe Codingの意図理解、Antigravityによる自律開発——これらを組み合わせて初めて、Gemini 3エコシステムの真価が見えてきます。開発者の役割は「コードの細部を実装する人」から「どんな体験を届けるかを決めるディレクター」へと、静かに移りつつあります。