3つの巨人の夜の集団行動、空の競争、良いですが素晴らしいです。
8月5日、人工知能の世界は劇的な“スーパー火曜日”を迎えましたOpen AIは夜遅くに突然、オープンソースの2つの大きなモデルgpt-oss-120 bとgpt-oss-20 bを発表し、6年間のクローズドソース戦略を終了しました。ほぼ同時に、Google DeepMindは第3世代の世界モデルGenie 3を立ち上げ、“AGIにつながる重要な機能”を持っていると主張しました。xAIのGork 4は注目を集め、ムスクは彼のIQが博士号レベルに達したと述べました。
3つの巨人の夜の集団行動、空の競争、良いですが素晴らしいです。
Open AI:深夜オープンソースモデルgpt-ossパフォーマンスがo 4-miniに達する
Open AIの2つのモデルの具体的なパラメータと性能は以下の通りです。
GPT-OSS-120 B(合計パラメータ117億、アクティベーション51億)は、単一のH 100 GPU(80 GBのメモリ)上で動作し、Code forcesプログラミングコンテストでは2,622ポイントを獲得し、クローズドソースモデルのo 3-miniを上回り、o 4-miniを横ばいにしました。健康診断ベンチマークHealthBenchと数学コンテストAIMEでもo 4-miniを上回り、オープンソースモデルのパフォーマンスの天井を打ち破りました。
GPT-OS-20 B (総パラメータ21億、アクティベーション36億)は、わずか16GBのメモリを必要とし、M 3 ProチップMac Book上で23.72トークン/秒のコード生成速度を実現し、o 3-miniと同等のパフォーマンスを発揮します。そのコンシューマグレードのハードウェア適応性は、従来のコンピューティングパワー独占を完全に覆し、携帯電話側でのハイエンドAIの展開を可能にします。

API内のOpen AI oシリーズ推論モデルと同様に、両方のOpen Weightモデルは低、中、高レベルの推論強度設定をサポートしており、開発者は特定のユースケースやレイテンシ要件に基づいてパフォーマンスと応答性をトレードオフすることができます。

モデルのリリース後、Open AI CEOのSam Altmanはソーシャルメディアで“gpt-ossがリリースされました。私たちはオープンモデルを作り、O 4-miniレベルの性能を持ち、ハイエンドのラップトップで動作します。チームをとても誇りに思っています。技術的に大きな勝利です。

Open AIのオープンソース戦略の転換の背後には、激しい市場競争圧力と顧客需要の逆転があります。
DeepSeekのようなオープンソースモデルが業界を揺るがしてから数ヶ月後、Sam Altmanはオープンソース問題について“歴史の間違った側にいる”ことを公に認めました。しかし、より直接的な圧力はビジネスの現実から来ています。エンタープライズ顧客はすでにオープンソースモデルをさまざまなタスクに広く使用しており、Open AIの顧客基盤に深刻な影響を与えています。
このような状況では、閉じた庭に固執するのではなく、積極的にエコロジーを受け入れるべきです。モデル展開のしきい値をコンシューマハードウェアレベルに下げることで、より広い開発者基盤を構築し、テクノロジースタックを取り巻くエコシステムを育成します。
GPT-5は今後リリースされる予定です。
GPT-5は8月上旬に正式に発表される可能性がある。
7月19日、サム·アルトマンはXプラットフォームに“我々はGPT-5をリリースしようとしている。その数日後の7月24日、彼はポッドキャストでGPT-5の内部テストについて初めて言及し、“衝撃的”と呼び、“すぐにリリースする”と述べた。

GPT-5は、手動で“基本”または“深い思考”モードを切り替えることなく、問題の複雑さに応じて推論の深さを自動的に調整することができる。o 3推論エンジンは、目に見えない“推論トークン”を介して内部に思考チェーンを構築するチェーン思考メカニズムを使用します。複雑な問題を扱うとき、システムはタスクを分解し、推論のサブチェーンを生成し、論理的整合性を検証し、最終的には答えを合成し、GPT-4のベンチマーク性能をはるかに上回る35/42の金メダルレベルにモデルを達成する。
GPT-4の128Kトークン制限と比較して、GPT-5標準モードは256Kをサポートし、拡張モードは最大1Mトークンをサポートします。これは、大きな小説全体のテキスト量を消化したり、大きなソフトウェアプロジェクトの完全なコードベースを分析したりすることを意味します。出力能力は4 Kトークンから100Kに拡張され、技術文書や法的契約書などの長いプロフェッショナルコンテンツを生成することができます。
マイクロソフトの内部文書によると、GPT-5はエンタープライズクラスの複雑なタスク用の完全なフラッグシップGPT-5、リアルタイムインタラクションに最適化されたGPT-5 mini、エッジデバイス用のGPT-5 nanoの3つのバージョンを提供する。一般ユーザーはChatGPT経由でベーシックバージョンに無料でアクセスでき、Plus/Proサブスクリプション契約者はプレミアムバージョンのロックを解除できます。
Google DeepMind:Genie 3が仮想世界を再発明
昨日、Googleの第3世代ユニバーサルワールドモデルGenie 3が発表されました。
Genie 3は、シンプルなテキストコマンドだけで、720p解像度、24フレーム/秒のインタラクティブな3 Dワールドをリアルタイムで生成し、数分間環境の一貫性を維持します。さらに印象的なのは、“プロンプト可能なワールドイベント”機能です。ダイナミックなワールドを探索する際に、ユーザーが新しいコマンド(“ブリザードを追加”や“恐竜の群れを追加”など)を入力するだけで、仮想環境はリアルタイムで物理的なルールや生態系を再構築し、ユーザーが世界を支配するように見えます。

Genie 3は3つのブレークスルーをもたらす。
1つ目は、リアルタイムストリーミングアーキテクチャの質的変化です。入力と出力を完全に処理する必要がある従来の生成モデルとは異なり、Genie 3は自己回帰フレーム生成技術を使用しており、フレームあたりわずか41.7ミリ秒の計算時間を必要とし、真に“プロンプトは世界”の瞬時応答を実現します。物理エンジンの自己進化:400万時間のYouTube動画の分析を通じてモデルは、重力、流体力学およびその他の複雑な法則を自律的に学習し、事前のプログラミングルールなしで、正確にスプラッシュ、衣服の揺れなどの物理現象をシミュレートすることができます。3つ目は画期的な記憶メカニズムです。システムは最大1分間の視覚履歴を追跡し、ユーザーがシーンに戻っても壁の落書きや動く物体はそのまま残ります。開発者を驚かせた記憶の出現です。

DeepMindのリサーチディレクターであるShlomi Fruchter氏は、“これは、子供が転倒して歩くことを学ぶように、AIエージェントが安全な環境で因果推論を学習できる最初のリアルタイムインタラクティブなユニバーサルワールドモデルです”と述べています。Genie 3が生成した倉庫環境に汎用エージェントSIMAを導入したところ、AIは貨物の仕分けや障害物回避ナビゲーションなどのタスクを完了し、トレーニング効率は実世界の10倍に向上しました。Genie 3は、崖の上のヘリコプターが安全な距離を保つ必要があること、小川の石が流れの方向を変えることなどを自律的に認識する“機械の直感”によってもたらされた技術進歩は特に貴重です。

xAI Gork 4:世界で最も高価な最初の“博士号AI”
8月4日、Elon Muskの人工知能企業xAIは、単一エージェント版のGrok 4とマルチエージェント協調版のGrok 4 Heavyを含む第4世代の大規模言語モデルGrok 4シリーズを正式に発表した。
ライブストリームでは、ムスクはそれを“世界で最も強力なAIモデル”と位置づけ、その学術能力がすべての分野で人間の博士号を上回っていると主張しました。
アーキテクチャ設計の観点からは、Grok 4 Heavyは4つのエージェントの並列協調メカニズムを採用しており、各エージェントは異なるサブタスク(検索、推論、生成など)に焦点を当て、分散コンピューティングを通じて結果を統合することで、複雑なタスクの解決効率を10倍近く向上させます。ハードウェアレベルでは、Grok 4は100,000以上のNvidia H 100 GPUクラスタリソースを呼び出し、トレーニング量は前世代のGrok 2の100倍に達し、強化学習は最大60%を占め、低レベルの事前トレーニングは後のプラグインに依存するのではなく、ツール呼び出し機能を直接統合します。

性能に関しては、Grok 4はいくつかの権威あるテストで記録を更新した。“人間の最後の試験”と呼ばれるHLEベンチマーク(2,500問の博士課程問題をカバー)では、基本版の精度はツールなしで25.4%、ツールを有効にすると38.6%に上昇しました。Grok 4 Heavyはマルチエージェント協調により44.4%に上昇し、Google Gemini 2.5 Proの26.9%、Open AI o 3モデルの20.3%を大きく上回り、このテストで“正解よりも正解”を達成した最初のAIモデルとなりました。

数学と工学の分野では、Grok 4はAIME25で満点を獲得し、Harvard-MIT Mathematics Competition(HMMT)で96.7%の精度を達成し、ソフトウェア工学のベンチマークであるSWE-Benchでは75%の精度を達成し、Copilotのようなプロフェッショナルツールを大幅に上回った。さらに注目すべきは、ビジネスシナリオの検証です。自動販売機の運用シミュレーションでは、Grok 4は2位モデルの2倍の純資産を作成し、4時間以内に完全なFPSゲームプロトタイプを作成し、自動資産購入を可能にしました。

xAIの公式ウェブサイトによると、Grok 4の基本版はOpen AIの20ドルのProメンバーシップに対して月額30ドルであり、SuperGrok Heavyのサブスクリプションは月額300ドル(年間3,000ドル)であり、世界で最も高価なAIサービスとなっている。API価格もハイエンドのポジショニングを反映しています。入力料金は100万トークンあたり3ドル、出力料金は15ドルで、業界平均を大幅に上回ります。高価格の背後にはxAIの高い計算コストがあります。Grok 4は自社開発のColossusスーパーコンピューティングクラスタトレーニングに基づいており、Grok 3トレーニングだけで20万台のGPUを使用しており、Grok 4トレーニング量は天文学的です。

8月以降、アメリカの大規模なモデル乱闘が本格化している。
Open AIはGPT-5のリリースを準備しており、業界のベンチマークを再定義しようとしています。
GoogleのGeminiシリーズも進化しており、検索とクラウドコンピューティングの両方で深い知識を持ち、AI機能を隅々まで浸透させようとしています。
AnthropicのClaudeシリーズは、セキュリティと制御性で知られ、多くのエンタープライズユーザーに支持されています。
同時に、MetaはトップAIラボを設立しており、最近ではOpen AIやTeslaなどの企業で人材を発掘して追いつこうとしている。
この文脈では、Grok 4のリリースは、x AIの単独ショーであるだけでなく、AI軍拡競争の新たなラウンドの突入でもあります。
最後の戦いの結果は?見てみましょう