中国电子：推理力跃升10倍，理论性能对标GPT-5与Claude 4 Opus

来源：海通国际

2025-07-11 18:50:00

（以下内容从海通国际《中国电子：推理力跃升10倍，理论性能对标GPT-5与Claude 4 Opus》研报附件原文摘录）
事件：
2025年7月9日，xAI正式发布其最新旗舰大模型Grok4，并于北京时间7月10日上午11点举行全球直播发布会。该模型在xAI自研的Colossus超级计算机上训练，跳过3.5版本，直接命名为Grok4。相较前代，Grok4在推理性能、多模态能力和上下文处理能力上均实现跃升。Grok4现已开放API访问，月费定价为30美元，重载多智能体版本Grok4Heavy定价300美元；未来将于8月推出编程模型、9月上线多模态智能体版本，并于10月支持视频生成模型。
点评：
训练强度大幅跃升，工具融合显著提升智能边界。Grok4的训练规模远超前代模型，计算资源投入为Grok-2的100倍、Grok-3的10倍，核心依托xAI自建的20万张GPU超算集群。训练过程中广泛引入RL技术，特别是在“人类最后考试”（HLE）基准中，工具融入训练显著提升了模型在复杂推理任务中的表现，不仅推理准确率高于不使用工具的版本，其scaling曲线也更具效率——即单位算力带来的智能提升更大。在实际测试阶段，模型得分可较训练期进一步提升10个百分点，显示出极强的泛化与工具适应能力。
专业能力全面开花，Grok-4向真实世界任务稳步迈进。除了通用能力，Grok4在垂直专业场景中也展现出强劲实力。在LiveCodingBench编程测试中几乎实现满分，xAI亦宣布将于8月推出更快、更强的专用代码模型Grok4Code。在药物研发领域，Grok4是当前唯一在RKG基准中突破10%准确率的模型，显现出其在复杂结构推理与分子生成方面的潜力。此外，在自动化零售（AutoRetailBench）等真实世界任务中，Grok4亦取得第一名成绩，表明其不仅在实验环境中具备领先性，更有望在工业级落地中实现实际价值。
关键技术全面升级，推理、多模态与上下文处理能力跃升。Grok4在多个核心维度上实现显著突破，特别是在上下文理解、推理能力和多模态交互方面展现领先性能。其上下文窗口扩展至25.6万tokens，远超GPT-4-turbo与Claude3Opus，显著提升长文档处理与连续推理能力。推理性能提升达10倍，在GRE测试中接近满分，并以26.9%HLE自主推理准确率刷新业内记录，展示出高度数学与逻辑推理能力。与此同时，模型具备全面的多模态扩展性，支持文本、图像，未来将拓展至视频任务，构建统一的理解-生成系统，为AI-Agent的演进奠定基础。
系统性能与交互体验优化，模型进入“在线思维”时代。除核心模型升级外，Grok4在系统交互与信息检索方面也完成关键增强。依托DeepSearch功能，模型可实时联网检索X平台和网页内容，具备更强的时事感知与网络文化理解能力，特别适用于meme、俚语、社会话题等高语境任务。新版本UI支持更快响应、多线程Agent并发，以及未来本地部署可能性，提升整体用户体验与多轮交互效率。此外，Grok4还强化了代码能力，通过即将上线的GroK4Code版本切入开发者生态，为智能写作、调试与程序理解等高频场景提供底层能力支撑。
我们认为：
模型维度正式进入256k时代，多模态能力全线对标Claude、Gemini。Grok4的Token窗口和视频能力预示AI将从单轮问答迈向长链对话与交互推理，Agent化落地基础逐步完备。相比Claude专注文本推理、Gemini主打多模态，Grok更聚焦互联网原生性+AI应用性融合，形成差异化。
推理能力大幅提升，抢占AGI推理性测试高地。Grok4在GRE、MMLU-Pro和Humanity'sLastExam等测试中跑分领先，但在AGI-ARC-2上的表现显示其仍未突破具备“通用智能”的范式。整体来看，该模型具备极高的“功能智能”而非“理论智能”。
面向开发者与技术极客的商业模式清晰，可望复制CopilotforAI+X路径。Grok4Code版本将于8月上线，未来结合多模态与实时搜索能力，有望切入AI代码生成、智能协助领域，成为高频专业场景下的竞争者。订阅定价策略亦指向超级用户和AI开发者群体，形成与GPT-4、Claude的差异化定位。
Grok4延续xAI强调自由言论、无内容审查的路线，支持用户获取未经精过滤的结果，强化其超级用户助手定位。然而，这一策略也导致模型此前曾输出争议性言论，发布前后x平台CEOLindaYaccarino辞职，加剧对其稳定性的担忧。
风险提示：1）AI需求不及预期；2）地缘政治环境干扰供应链；3）AI数据中心建造放缓

特别推荐

沃森生物易主背后：股权长期分散，营收三连下降

证券之星资讯

2026-03-20

社保基金最新持仓出炉！新进这些股

证券之星资讯

2026-03-20

午后，又跳水！三大原因

证券之星资讯

2026-03-20

首页股票财经基金导航

举报专区联系我们

中国电子：推理力跃升10倍，理论性能对标GPT-5与Claude 4 Opus

相关个股

相关阅读

特别推荐