日前,OpenAI方面发布新一代智能体编程模型GPT-5.1-Codex-Max,并表示其“专为长时间、精细化的工作而构建”。据了解,该模型在长远推理、工作效率及实时交互能力上,均实现了显著提升。
值得一提的是,GPT-5.1-Codex-Max的核心亮点之一在于首次引入“压缩”(Compaction)机制进行原生训练。据悉,该机制允许模型在接近其上下文窗口限制时,智能地保留关键上下文信息并丢弃无关细节,从而实现跨越数百万token的连续工作而不会出现性能下降。
依托这一机制,GPT-5.1-Codex-Max在OpenAI内部测试中成功完成了持续超过24小时的复杂任务,其中包括多步骤代码重构和自主调试,同时token效率提升约30%,有效降低了开发成本与响应延迟。对此OpenAI方面表示,“能够长时间持续高效地完成任务是构建更通用、更可靠的AI系统的基础能力”。

OpenAI方面公布的相关信息显示,GPT-5.1-Codex-Max在多项关键编程基准测试中表现亮眼。例如在衡量解决实际软件问题的SWE-Bench Verified测试中,GPT-5.1-Codex-Max以 77.9% 的准确率小幅领先于Gemini 3 Pro的76.2%,在Terminal-Bench 2.0测试中以58.1%的准确率优于Gemini 3 Pro的54.2%。
据了解,目前GPT-5.1-Codex-Max已集成到OpenAI旗下多个Codex开发环境,并涵盖官方命令行工具(Codex CLI)、内部代码审查工具及各类交互式编程环境。同时OpenAI方面透露,“我们计划很快在API中提供GPT‑5.1-Codex-Max”。
自即日起,GPT-5.1-Codex-Max还将取代GPT-5.1-Codex,成为Codex界面中的默认模型。对此OpenAI方面强调,“与通用模型GPT-5.1不同,我们建议仅在Codex或类似Codex的环境中,将GPT-5.1-Codex-Max和Codex系列模型用于智能体编码任务”。
据OpenAI方面透露,其内部95%的工程师每周都会使用Codex系列工具,并且自采用以来,工程师平均拉取请求(Pull Requests)提交量提升约70%,开发效率显著提高。
【本文图片来自网络】
