HawkInsight

  • 联系我们
  • App
  • 中文

疯狂星期二!GPT-5、Genie 3、 Gork 4轮番上阵 AI巨头混战引爆生态重构

三大巨头同夜集体行动,隔空较劲,好是精彩。

85日,人工智能领域迎来戏剧性的超级星期二OpenAI在深夜突然宣布开源两款大模型gpt-oss-120bgpt-oss-20b,结束了长达六年的闭源策略;几乎同时,谷歌DeepMind推出第三代世界模型Genie 3,宣称其具备通向AGI的关键能力xAI Gork 4则高调面世,马斯克称其智商已达到博士水平。

三大巨头同夜集体行动,隔空较劲,好是精彩。

OpenAI:深夜开源模型gpt-oss 性能达到o4-mini

OpenAI本次发布的两款模型具体参数及性能如下:

GPT-OSS-120B1170亿总参数,激活51亿)在单张H100 GPU80GB显存)上运行,Codeforces编程竞赛得分2622分,超越闭源模型o3-mini,持平o4-mini;在健康诊断基准HealthBench与数学竞赛AIME中甚至超越o4-mini,打破开源模型性能天花板。

GPT-OSS-20B210亿总参数,激活36亿)仅需16GB内存,在M3 Pro芯片MacBook上生成代码速度达23.72 token/秒,性能匹配o3-mini。其消费级硬件适配性彻底颠覆传统算力垄断,使手机端部署高阶AI成为可能。

GPT-5、Genie 3、 Gork 4轮番上阵 AI巨头混战引爆生态重构 大模型竞赛进入临界点

API 中的 OpenAI o 系列推理模型类似,两个开放权重模型都支持低、中、高三种推理强度设置,允许开发者根据具体使用场景和延迟需求在性能与响应速度之间进行权衡。

GPT-5、Genie 3、 Gork 4轮番上阵 AI巨头混战引爆生态重构 大模型竞赛进入临界点

模型发布后,OpenAI CEO Sam Altman在社交媒体上的兴奋溢于言表:gpt-oss 发布了!我们做了一个开放模型,性能达到o4-mini水平,并且能在高端笔记本上运行。为团队感到超级自豪,这是技术上的重大胜利。

GPT-5、Genie 3、 Gork 4轮番上阵 AI巨头混战引爆生态重构 大模型竞赛进入临界点

本次OpenAI的开源战略转向背后,是激烈的市场竞争压力与客户需求的倒逼。

DeepSeek等开源模型引发行业震动数月后,Sam Altman曾公开承认在开源问题上站在了历史的错误一边。但更直接的压力来自商业现实:企业客户已在广泛使用开源模型完成各类任务,严重影响OpenAI的客户基础。

在这种情形下,与其固守封闭花园,不如主动拥抱生态。通过将模型部署门槛降至消费硬件层级,建立更广泛的开发者基础,进而培育围绕其技术栈的生态系统。

从现在开始 GPT-5随时可能发布

种种迹象表明,GPT-5或将于8月上旬正式亮相。

719日,Sam AltmanX平台上发文:我们即将发布GPT-5没过几天,724日,他在一档播客节目中首次提及GPT-5的内部测试体验,称其令人震惊,并表示我们很快就会发布它

GPT-5、Genie 3、 Gork 4轮番上阵 AI巨头混战引爆生态重构 大模型竞赛进入临界点

消息称,GPT-5能根据问题复杂度自动调节推理深度,无需手动切换基础版深度思考模式。o3推理引擎采用链式思考机制,通过不可见的推理token”在内部构建思维链条。当处理复杂问题时,系统会分解任务、生成子推理链、验证逻辑一致性,最终合成答案,使模型在国际数学奥林匹克竞赛中达到35/42的金牌水平,远超GPT-4的基准表现。

相较于GPT-4128K token限制,GPT-5标准模式支持256K,扩展模式高达1M token。这意味着它能消化整部大型小说的文本量,或分析大型软件项目的完整代码库。输出能力同步跃升,从4K token扩展到100K,使其可生成技术文档、法律合同等长篇专业内容。

微软内部文档披露,GPT-5将推出三重版本架构:完整旗舰版GPT-5针对企业级复杂任务;GPT-5 mini优化实时交互;GPT-5 nano适配边缘设备。普通用户可通过ChatGPT免费访问基础版,而Plus/Pro订阅者可以解锁高级版本。

谷歌DeepMindGenie 3重塑虚拟世界

昨夜,谷歌第三代通用世界模型Genie 3正式问世。

仅凭简单文本指令,Genie 3即可实时生成720p分辨率、24/秒的交互式3D世界,并维持数分钟的环境一致性。更引人注目的是其可提示世界事件功能:用户在探索动态世界时,只需输入新指令(如增加暴风雪添加恐龙群),虚拟环境便实时重构物理规则与生态系统,用户仿佛世界主宰。

GPT-5、Genie 3、 Gork 4轮番上阵 AI巨头混战引爆生态重构 大模型竞赛进入临界点

Genie 3带来三重突破。

首先是实时流式架构的质变:不同于传统生成模型需完整处理输入再输出,Genie 3采用自回归帧生成技术,每帧仅需41.7毫秒计算时间,真正实现提示即世界的瞬时响应。其次是物理引擎的自我进化:模型通过分析400万小时YouTube视频,自主习得重力、流体动力学等复杂规律,无需预设编程规则便能精确模拟水花飞溅、衣物飘动等物理现象。第三是突破性的记忆机制:系统可回溯长达一分钟的视觉历史,当用户重返场景时,墙壁涂鸦、移动物体仍保持原状——这种涌现的记忆能力甚至令开发者感到意外。

GPT-5、Genie 3、 Gork 4轮番上阵 AI巨头混战引爆生态重构 大模型竞赛进入临界点

DeepMind研究总监Shlomi Fruchter在技术简报中强调:这是首个实时交互通用世界模型,它让AI代理在安全环境中学习因果推理,就像儿童通过跌倒学会行走。当团队将通用智能体SIMA投入Genie 3生成的仓库环境,AI成功完成货物分拣、避障导航等任务,训练效率较真实世界提升10倍。Genie 3能自主领悟到悬崖边的直升机需保持安全距离,溪流中的石块会改变水流方向等,这种“机器直觉”带来的技术进步尤为可贵。

GPT-5、Genie 3、 Gork 4轮番上阵 AI巨头混战引爆生态重构 大模型竞赛进入临界点

xAI Gork 4:首个博士级AI”  收费全球最贵!

84日,Elon Musk旗下人工智能公司xAI正式发布第四代大语言模型Grok 4系列,包括单智能体版本的Grok 4和多智能体协作版本的Grok 4 Heavy

在直播发布会上,马斯克将其定位为全球最强AI模型,并宣称其学术能力已在所有学科领域超越人类博士水平。

从架构设计来看,Grok 4 Heavy采用四智能体并行协同机制,每个智能体专注不同子任务(如检索、推理、生成),再通过分布式计算融合结果,这种架构使复杂任务的解决效率提升近十倍。在硬件层面,Grok 4调用超过10万块英伟达H100 GPU集群资源,训练量达到前代Grok 2100倍,强化学习占比高达60%,底层预训练直接整合工具调用能力而非依赖后期插件。

GPT-5、Genie 3、 Gork 4轮番上阵 AI巨头混战引爆生态重构 大模型竞赛进入临界点

性能表现上,Grok 4在多项权威测试中刷新纪录。在被誉为人类最后考试HLE基准测试中(涵盖2500道闭卷博士级题目),基础版未使用工具时准确率达25.4%,启用工具后跃升至38.6%;而Grok 4 Heavy凭借多智能体协同,分数飙升至44.4%,远超谷歌Gemini 2.5 Pro26.9%OpenAI o3模型的20.3%,成为首个在该测试中答对多于答错AI模型。

GPT-5、Genie 3、 Gork 4轮番上阵 AI巨头混战引爆生态重构 大模型竞赛进入临界点

在数学与工程领域,Grok 4同样展现出统治级表现:AIME25数学竞赛满分、哈佛-麻省理工数学竞赛(HMMT96.7%准确率,软件工程基准SWE-Bench中,其专用编程变体Grok 4 Code达到75%的准确率,显著超越Copilot等专业工具。更令人瞩目的是商业场景验证——在自动售货机运营模拟测试中,Grok 4创造的净资产达到第二名模型的2倍,并在4小时内生成完整FPS游戏原型,实现自动化资产采购。

GPT-5、Genie 3、 Gork 4轮番上阵 AI巨头混战引爆生态重构 大模型竞赛进入临界点

根据xAI官网,基础版Grok 4定价30美元/月,对标OpenAI20美元Pro会员;而解锁全部能力的SuperGrok Heavy订阅费高达300美元/月(年费3000美元),成为全球最贵AI服务。API定价同样体现高端定位:每百万token输入收费3美元、输出15美元,显著高于行业均价。高价背后是xAI高昂的算力成本——Grok 4基于自研Colossus超算集群训练,仅Grok 3训练就动用20万块GPUGrok 4训练量更是天文数字。

GPT-5、Genie 3、 Gork 4轮番上阵 AI巨头混战引爆生态重构 大模型竞赛进入临界点

8月开始,美国的大模型混战已经全面开打。

OpenAI正紧锣密鼓地筹备GPT-5的发布,试图再次定义行业标杆;

谷歌的Gemini系列也在不断进化,凭借其在搜索和云计算领域的深厚积累,试图将AI能力渗透到每一个角落;

AnthropicClaude系列则以安全性和可控性著称,赢得了不少企业用户的青睐。

与此同时,Meta也在大手笔组建顶级AI实验室,近期在OpenAI、特斯拉等多个企业内部挖人,试图迎头赶上。

在这样的背景下,Grok 4的发布,不仅是xAI的独角戏,更是新一轮AI军备竞赛的冲锋号。

最终这场神仙打架的结果如何?我们拭目以待。

·原创文章

免责声明:本文观点来自原作者,不代表Hawk Insight的观点和立场。文章内容仅供参考、交流、学习,不构成投资建议。如涉及版权问题,请联系我们删除。