OpenAI发布视觉推理模型o3和o4

内容摘要【TechWeb】4月17日消息,OpenAI发布两大视觉推理模型OpenAI o3和o4-mini,这也是OpenAI o系列中首次可以使用图像进行思维链推理的模型。OpenAI还开源了轻量级编程Agent——Codex CLI。Open

【TechWeb】4月17日消息,OpenAI发布两大视觉推理模型OpenAI o3和o4-mini,这也是OpenAI o系列中首次可以使用图像进行思维链推理的模型。OpenAI还开源了轻量级编程Agent——Codex CLI。

OpenAI o3是最强大的推理模型,它非常适合需要多方面分析的复杂查询,它在分析图像、图表和图形等视觉任务上表现尤其出色。o3在解决困难的现实世界任务中比OpenAI o1犯的主要错误少20%,尤其是在编程、商业/咨询和创造性思维等领域表现出色。

OpenAI o4-mini是一个针对快速、成本效益推理进行优化的较小模型。它在大小和成本方面取得了显著的性能,特别是在数学、编码和视觉任务方面。它在非STEM任务以及数据科学等领域的表现也优于其前身o3-mini。

值得注意的是,OpenAI特别强调,o3和o4-mini可以通过API中的函数调用完全访问ChatGPT中的工具,以及用户自己的自定义工具。这些模型经过训练,能够推理如何解决问题,选择何时以及如何使用工具,以正确的输出详细而周到的答案。

OpenAI举例称,例如,用户可能会问:“与去年相比,加利福尼亚州的夏季能源使用情况如何?”该模型可以在网络上搜索公用事业数据,编写Python代码来构建预测,生成图表或图像,并解释预测背后的关键因素,将多个工具调用链接在一起。推理允许模型根据需要对遇到的信息做出反应和调整。例如,他们可以在搜索提供商的帮助下多次搜索网络,查看结果,并在需要更多信息时尝试新的搜索。这种灵活的战略方法使模型能够处理需要访问模型内置知识之外的最新信息、扩展推理、综合和跨模式输出生成的任务。

目前,ChatGPT Plus、Pro和Team用户可以使用o3、o4-mini和o4-mini-high,这些模型会取代o1、o3-mini和o3-mini-high。o3和o4-mini通过Chat Completions API和Responses API向开发者开放。

OpenAI预计在几周内发布OpenAI o3-pro,并配备完整工具支持。

同时,OpenAI还宣布开源编程Agent Codex CLI,目前Codex CLI已在github上完全开源。

Codex CLI是一个可以在端侧运行的轻量级编码Agent,它直接在用户的计算机上工作,旨在最大限度地提高o3和o4-mini等模型的推理能力,并将支持GPT‑4.1等其他API模型⁠。(宜月)

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备16017970号-3