OpenAI推出GPT-5.2-Codex最先进编码模型,SWE-Bench Pro准确率56.4%,网安能力大幅跃升

2025/12/19 10:11来源:第三方供稿

GPT-5.2-Codex正式推出

根据 www.Todayusstock.com 报道,美东时间12月18日周四,OpenAI在发布GPT-5.2系列仅一周后,再次推出新一代智能体编码模型GPT-5.2-Codex,号称当前最先进的编码模型。该模型基于GPT-5.2优化,专注专业软件工程、长周期任务处理以及防御性网络安全领域,已面向付费ChatGPT用户开放Codex界面访问,API接入正在推进。

新模型在上下文压缩、工具调用可靠性、长上下文理解以及视觉性能等方面实现突破,进一步巩固OpenAI在AI编程工具领域的领先优势。

编码基准测试刷新纪录

GPT-5.2-Codex在多项关键基准测试中创下新高。SWE-Bench Pro准确率达到56.4%,高于GPT-5.2的55.6%;Terminal-Bench 2.0准确率达64.0%,高于GPT-5.2的62.2%。这些测试分别评估模型在真实代码库中生成补丁以及在终端环境中完成复杂任务的能力。

模型特别优化了大规模实战场景,支持长时间编码任务、项目级重构、代码迁移以及Windows环境表现。更强的视觉能力使其能准确解读屏幕截图、技术图表与用户界面,快速将设计稿转化为功能原型。

模型版本 SWE-Bench Pro准确率 Terminal-Bench 2.0准确率
GPT-5.2-Codex 56.4% 64.0%
GPT-5.2 55.6% 62.2%
GPT-5.1 50.8% 58.1%

网络安全能力显著提升

OpenAI强调,GPT-5.2-Codex在网络安全领域实现第三次跳跃式进步。在专业夺旗赛评估中,已能解决需要专业级技能的多步骤真实挑战。尽管尚未达到“高”级别,公司正按未来模型可能跨越此门槛的标准进行规划与评估。

真实案例显示,上代模型GPT-5.1-Codex-Max协助安全研究人员发现并负责任披露React中可能导致源代码暴露的漏洞。Sam Altman近期表示:“我相信这些模型对网络安全将产生净收益,我们正处于‘真实影响阶段’。”

可信访问计划与防御性应用

为平衡能力提升与潜在风险,OpenAI在模型与产品层面增加多重保护,包括针对有害任务的专门安全训练、智能体沙箱以及可配置网络访问。同时启动仅限邀请的可信访问计划试点,向经过审查的安全专业人员与组织开放更强大模型权限,用于合法防御性工作,如漏洞研究与红队测试。

OpenAI承诺通过逐步推出、部署保护措施以及与安全社区合作,最大化防御影响、最小化滥用风险。

编辑总结

OpenAI以一周双发布节奏推出GPT-5.2-Codex,进一步强化其在智能体编码领域的领先地位。新模型在SWE-Bench Pro等基准测试中刷新纪录,长周期任务与视觉处理能力显著提升,尤其在防御性网络安全领域实现突破。尽管尚未达到“高”级别网安能力,但真实案例已证明其发现严重漏洞的潜力。公司启动可信访问计划,体现对安全风险的审慎态度。中长期看,随着模型持续迭代,AI在专业软件工程与网络安全防御中的作用将日益凸显,OpenAI通过技术与治理并重策略,有望在实现净正向影响的同时维持竞争优势。

常见问题解答

问:GPT-5.2-Codex与GPT-5.2有何主要区别?GPT-5.2-Codex是基于GPT-5.2的专项优化版本,专注智能体编码场景,在上下文压缩、长周期任务、重构迁移、Windows环境以及视觉性能上实现针对性提升。基准测试显示其在SWE-Bench Pro和Terminal-Bench 2.0中均小幅领先GPT-5.2。

问:新模型网络安全能力提升体现在哪里?从GPT-5系列开始,网安能力出现多次跳跃式进步。GPT-5.2-Codex能在专业夺旗赛中解决高级多步骤挑战,上代模型已协助发现React严重漏洞。公司预计未来模型可能达到“高”级别,正按此标准规划评估与防护。

问:可信访问计划的具体内容是什么?仅限邀请试点,向经过严格审查的安全专业人员与组织开放最强大模型权限,用于合法防御性工作,如漏洞研究、红队测试等。参与者可模拟威胁行为、分析恶意软件而无过多限制,同时公司通过多层保护降低滥用风险。

问:GPT-5.2-Codex当前可用性如何?发布当天已面向付费ChatGPT用户在Codex界面开放,API用户接入预计未来几周内逐步启用。公司强调将通过安全部署与社区合作,确保能力提升的同时控制潜在风险。

问:OpenAI为何频繁发布编码模型?为回应谷歌Gemini等竞争对手在编码与推理领域的进步,OpenAI加速迭代。上周GPT-5.2已创编码测试历史最高分,本周GPT-5.2-Codex进一步专注专业场景,体现公司在AI编程工具领域的进攻态势。

来源:今日美股网

编辑:第三方供稿