让AI像人类一样思考:如何用数据喂养出OpenAI o3 & o4-mini 的视觉大脑?

基本介绍

北京时间2025年4月17日,OpenAI 发布了 o3o4-mini 两个模型,再度引发强烈关注。

o3 是 OpenAI 目前最强推理模型,在编码、数学、科学、视觉感知等方面都有明显进步。o3 在 Codeforces、SWE-bench 等基准测试中表现优异,适合复杂查询任务,在视觉任务中表现尤其出色。此外,与 o1 相比,o3 在完成现实任务中的错误率降低20%,能够在编程、商业/咨询和创意构思等领域提供重要帮助。

o4-mini 是一款体型更小的模型,专为快速、经济高效的推理做出了优化,同时保证了卓越的性能。o4-mini 是在 AIME 2024 和 2025 基准测试中表现最佳的模型,在非 STEM 任务以及数据科学等领域的表现也优于其前身 o3-mini 。成本和性能共同使 o4-mini 成为解决推理问题的强大解决方案。

以下是 OpenAI o3OpenAI o4-mini 在各类测试集上的表现(部分):

多模态基准测试

多模态基准测试

编程基准测试

编程基准测试

遵循指令并让智能体工具使用任务测试

遵循指令并让智能体工具使用任务测试

更多详细评测结果请参考:https://openai.com/index/introducing-o3-and-o4-mini/

技术原理:强化学习拓展模型多模态推理能力边界

在 o3 的开发过程中,OpenAI 观察到大规模强化学习呈现出与 GPT 系列预训练中相同的 “计算量越大,性能越好” 的趋势。据此,OpenAI 提高了强化学习中的训练计算量和推理时间,研究团队在训练计算量和推理时间方面都提升了一个数量级,并看到了明显的模型性能提升,这证明了模型的性能会随着思考时间的增加而持续提升。

此外,OpenAI 还发现可以通过 强化学习 训练模型 多模态推理能力 。模型通过强化学习,不仅学会了 如何使用工具 ,还学会了 推理何时使用工具 。o3 和 o4-mini 能够根据期望结果部署工具,这使得它们在多模态推理场景中表现更佳,尤其是在涉及视觉推理和多步骤工作流程的情况下。根据早期测试人员的报告,这种进步在学术基准测试和实际任务中均有体现。

关键进展:工具调用和视觉推理能力大幅提升

工具调用

OpenAI o3 和 o4-mini 可以访问 ChatGPT 中的工具,并能通过 API 中的函数调用访问用户自定义的工具。这些模型经过训练,能够推理解决问题的方法,自行决定何时及如何使用工具,并以正确的输出格式快速生成详细周到的答案,通常在不到一分钟内完成。

例如,对于“加州夏季的能源使用量与去年相比如何”的问题,o3 模型可搜索网络公共事业数据,编写 Python 代码预测,生成图表或图像,并解释预测的关键因素,还能在需要时多次搜索网络,尝试新搜索以获取更多信息。

视觉推理

OpenAI o3 模型首次将图像直接整合到思维链中,不仅能看图,还能用图思考,开启了融合视觉和文本推理的全新问题解决方式,在多模态基准测试中表现顶尖。

视觉推理能力的基础是强大的自主工具调用能力。例如,用户上传的白板照片、教科书图表或手绘草图,即使模糊、反转或质量低下,模型也能解读并借助工具动态操作图像,如旋转、缩放或变换等,实现了视觉感知任务的一流准确率。

OpenAI 官网的视觉推理效果展示

OpenAI 官网的视觉推理效果展示

应用价值

o3/o4-mini 通过 工具调用 与以此为基础诞生的 视觉推理 两大能力,展示了多模态推理在各类应用场景中的价值,激活了从技术探索到规模化落地的需求拐点。

  • 教育领域 :学生上传手写解题步骤照片→模型识别笔迹→调用符号计算工具验证推导过程→生成讲解
  • 金融领域 :输入财报图表→模型提取关键指标→调用经济预测模型→生成投资建议
  • 科研领域 :实验观测图像→关联论文数据库→调用数值模拟工具→输出假设验证结论

整数洞察:多模态推理类数据助力模型性能提升,整数智能打造数据解决方案

多模态推理数据如何提升模型性能

本次 o3 与 o4-mini 的发布,让人深刻感受到强化学习在多模态推理方面的巨大探索空间。

强化学习通过智能体在环境中的试错学习最优策略以最大化累积奖励。高质量的多模态推理数据是强化学习在该领域取得成功的关键。

为此,整数智能提供了庞大的 多模态推理成品数据集 ,能够最大程度上解决多模态推理数据不足的痛点;不仅如此,整数智能还拥有 完善的数据采集体系 , 极致效率的智能数据工程平台和大量高质量数据标注员,能够快速满足客户各类个性化数据需求;此外,由整数智能发起并资助的 2077AI 基金会 制作并开源了多个高质量推理类数据集,为前沿学术研究和模型训练做出贡献。

整数智能提供多模态推理数据库

多模态语义标注数据

通过对多模态数据施加更高层次的语义注释,包括详尽的 describe 描述与深入的 thought 思考,可以更全面地挖掘图像中丰富的特征与纹理信息,从而显著增强跨模态模型的理解能力和任务性能。 整数智能拥有百万量级的图片和视频等多模态高质量数据集,这些数据集包含丰富的语义标注信息,可用于多模态语义推理、视觉推理等任务

视频样例

{"question": "橙子在最终画面中的位置最接近哪个位置?\nA. 画面左侧\nB. 画面中央\nC. 画面右侧\nD. 画面下方\n", "answer": "A", "category": "对象定位", "diffculty": "简单"}
{"question": "画面的水果总共有几个?\nA. 1个\nB. 3个\nC. 4个\nD. 2个\n", "answer": "B", "category": "对象计数", "diffculty": "普通"}
{"question": "画面中苹果的相对位置在哪里?(最终画面)\nA. 橙子的左侧\nB. 梨的右侧\nC. 橙子和梨之间\nD. 橙子的上方\n", "answer": "C", "category": "空间关系", "diffculty": "普通"}

Agent相关数据

记录用户指令、多模态输入、工具调用决策及输出结果的全流程数据,对于训练Agent动态选择工具并验证结果合理性至关重要,极大助力其发展。整数智能自主研发的采集工具,可以高效记录用户指令,环境状态,任务轨迹等关键信息,并输出为 JSON 格式的数据,全面满足您的 Agent 数据集需求。 具体样例即将在后续的 Agent 数据专题中进行展示。

  • 高质量:自研 Agent 数据集构造采集工具,可直接接入整数智能的 Molardata 智能数据工程平台,实现涵盖标注、审核等一体化流程,确保数据的高质量交付。
  • 高效率:整数智能配备了专业的 Agent 相关生产标注团队,团队全员由海内外名校硕博研究人员组成,实现数据生产从源头提效。

多模态知识推理数据

多模态知识推理数据主要以带图长链推理习题为表现形式,其构建和应用常结合论文、教材、课件等专业领域知识,将这些知识与图片内容深度融合,驱动模型在科研、教育等场景完成知识密集型推理。整数智能拥有 各教育阶段(k12、本科、研究生、公考、资格考),各难度级别(校内、竞赛),各类学科(数学、计算机、物理、化学)的多模态习题,总数超过千万量级;此外,整数智能还拥有代码(coding)类题目 ,字段包含完整的题干,答案和 Test Cases 等;整数智能所有习题数据均经过人工和模型双重校验和清洗,重复率低于1%,准确率达到95%以上。

{
  "id": 317489, 
  "analysis": "Improper Integrals:\nAn improper integral is like a definite integral, except that one (or both) of the bounds of integration could be infinite, or the integrated could be undefined for some value in the interval. In all cases, an improper integral must be rewritten with a limit in order to hide the infinite bound of integration or the infinite discontinuity. For example, {eq}\\displaystyle\\int_a^\\infty f(x) dx = \\lim_{t\\to \\infty}\\int_a^t f(x)dx {/eq}. Then the definite integral is evaluated using standard antiderivative techniques, and then the limit is evaluated. If the limit exists as a finite number, we say the integral converges. Otherwise, it diverges.",
  "answer": "In general, to find the area of a shaded region on a graph, we would need to evaluate a definite integral. This shaded region starts at {eq}x = 2 {/eq} but extends infinitely to the right. This means we need to evaluate the improper integral {eq}\\displaystyle\\int_2^\\infty \\dfrac{3}{(x-1)^{3/2}} \\ dx {/eq}.\nFirst, rewrite the improper integral with a limit. It may also help to rewrite with a negative exponent.\n{eq}\\begin{align} \\int_2^\\infty \\dfrac{3}{(x-1)^{3/2}} \\ dx {} & = \\lim_{t\\to\\infty}\\int_2^t\\dfrac{3}{(x-1)^{3/2}} \\ dx\\\\ \\\\ & = \\lim_{t\\to\\infty}\\int_2^t 3(x-1)^{-3/2}\\ dx \\end{align} {/eq}\nThis antiderivative can be evaluated using u-substitution with {eq}u = x - 1 {/eq} and {eq}du = dx {/eq}.\nEvaluating just the antiderivative {eq}\\displaystyle\\int 3(x-1)^{-3/2} \\ dx = \\int_3u^{-3/2} \\ du {/eq} using the power rule, we have:\n{eq}\\begin{align} \\int_3u^{-3/2}du {}& = \\dfrac{3}{-1/2} u^{-1/2} + C\\\\ \\\\ & = -6u^{-1/2} + C\\\\ \\\\ & = -\\dfrac{6}{u^{1/2}} + C\\\\ \\\\ & = -\\dfrac{6}{(x-1)^{1/2}} + C \\end{align} {/eq}\nThen, going back to our improper integral and using this antiderivative, we have:\n{eq}\\begin{align} \\lim_{t\\to\\infty}\\int_2^t 3(x-1)^{-3/2}\\ dx {}& = \\lim_{t\\to\\infty} - \\dfrac{6}{(x-1)^{1/2}} \\bigg|_2^t\\\\ \\\\ & = \\lim_{t\\to\\infty}\\left( -\\dfrac{6}{(t-1)^{1/2}} + \\dfrac{6}{(2-1)^{1/2}}\\right)\\\\ \\\\ & = \\lim_{t\\to\\infty}\\left(-\\dfrac{6}{(t-1)^{1/2}} + 6\\right)\\\\ \\\\ & = 0 + 6\\\\ \\\\ & = 6 \\end{align} {/eq}\nTherefore, the area of the shaded region is {eq}6 {/eq}.",
  "subject": "Math",
  "grade": "college",
  "qtype": "Short Answer", 
  "imgs": "{\"img0000\": \"imgs/317489_img0000.png\"}", 
  "question": "Compute the size of the highlighted portion, if relevant. (If a solution is unavailable, reply with DNE.)"
}
Json 样例配图

Json 样例配图

多模态逻辑推理数据

多模态逻辑推理通常指模型以逻辑思维能力为核心,在较少依赖真实世界的专业学科知识的情况下,完成图片类的逻辑推理任务。这类数据以公务员行测考试,数独,智力评估题为代表。 整数智能拥有总量超过五百万的图片推理类数据,拥有完整的题干,图片,答案,解析等信息,以 JSON 格式储存;可根据具体需求进行格式调整或定制化采集服务。

    {
        "id": 44991638,
        "contents": "<p>请从四个选项中选出最恰当的一项填入问号处,使题干图形呈现一定的规律性。<br/><img src=\"0b41135ade85418b2f952c3b79e9f058.png\"></p>",
        "grade_class": "\"对称性\",\"轴对称\",\"整体轴对称\",\"轴对称图形\"",
        "type_text": "单选题",
        "answer": "D",
        "parse": "<p>第一步,观察特征。<br/>组成元素不同,优先考虑数量类或属性类,图形对称特征明显,优先考虑对称性。<br/>第二步,九宫格,横向规律较为常见,优先考虑。<br/>第一行找规律,图一为只有一条对称轴的轴对称图形,图二为中心对称图形,图三既是轴对称图形又是中心对称图形,有两条对称轴;第二行验证规律,符合;第三行应用规律,只有D项符合。<br/>因此,选择D选项。</p>",
        "images": ["0b41135ade85418b2f952c3b79e9f058.png"],      
    }
Json 题目样例配图

Json 题目样例配图

极致效率的整数智能数据工程平台

数据构建的极致提效

数据构建的极致提效

智能数据工程平台集成了 N+ 大模型,辅以高效的编辑工具,无需特定模型或训练,轻松完成任何场景、任何数据的智能标注。

未来大模型的产品竞争里,算法是一方面,构建高效的数据闭环,是大模型产品研发的核心竞争力。构建这样的系统,就能加速产品的升级和迭代速度。

整数助力 2077AI 推出多个高质量开源数据集

2077AI Community是一个致力于推动人工智能数据行业规范开源发展的非营利组织,其核心目标是提供高质量、关键性的数据集,以支持人工智能前沿领域的研究与开发,加速整个人工智能时代的新发展。

  • 开源资源为开发者提供三重助力:中小模型训练「启动燃料」→ 算法优化「基准坐标系」→ 学术研究「共享知识池」
  • 当前生态仍受限于▸数据规模阈值 ▸领域穿透深度
  • 我们构建智能数据工程平台闭环服务,通过多模态架构重组与认知密度优化,为高阶模型进化提供原子级赋能

COIG-P:高质量大规模中文偏好数据集,与人类价值观对齐

下载链接:http://huggingface.co/papers/2504.05535

在将大模型与人类偏好对齐方面已取得显著进展,然而现有的中文偏好数据集仍面临规模较小、领域覆盖狭窄以及缺乏严谨数据验证的问题。我们严格筛选了 9.2 万条高质量中文查询,随后选用 15 款主流 LLM 生成并评分“选中—拒绝”回答对。在此基础上,推出了 COIG‑P(Chinese Open Instruction Generalist – Preference),这是一个高质量、大规模的中文偏好数据集,共包含 100.9 万条偏好对,覆盖聊天(Chat)、代码(Code)、数学(Math)、逻辑(Logic)、小说(Novel)和角色扮演(Role)六大领域。

SuperGPQA:在 285 个研究生学科中扩展LLM评估

下载链接:https://huggingface.co/papers/2502.14739

大模型在数学、物理和计算机科学等主流学科中表现出色。然而,人类知识涵盖超过200个专业学科,远远超出了现有基准测试的范围。LLMs在许多专业领域(尤其是在轻工业、农业和服务导向学科)的能力尚未得到充分评估。为了填补这一空白,我们提出了 SuperGPQA ,这是一个涵盖285个学科的研究生水平知识和推理能力的综合基准测试。

PIN:一对多和交错多模态文档的知识密集型数据集

下载链接:https://huggingface.co/papers/2406.13923

PIN 格式基于三个基本原则:知识密集性、可扩展性和对多样化训练模态的支持。这种创新格式结合了 Markdown 文件和丰富的图像,通过密集的知识结构和灵活的训练策略丰富了训练数据。我们推出了 PIN-14M ,这是一个包含1,400万样本的开源数据集,涵盖了多种中文和英文来源,专门包括复杂的网络和科学内容。

结语

o3 与 o4-mini 的发布,不仅展示了多模态推理的技术高度,更揭示了数据生态的关键作用。未来,工具交互、3D场景、垂直领域知识等多模态推理类数据将成为 AI 进化的新燃料。企业与研究机构需提前布局高价值数据资源的采集与标注,以抢占多模态智能时代的先机。

整数智能作为 AI 领域的数据合伙人,愿意与大模型公司共同推动下一代多模态推理模型的到来。

参考链接:

https://openai.com/index/introducing-o3-and-o4-mini/

https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

https://arxiv.org/abs/2503.14504

https://www.2077ai.com/resources/paper

整数智能信息技术(杭州)有限责任公司,起源自浙江大学计算机创新技术研究院,致力于成为AI行业的数据合伙人。整数智能也是中国人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术联盟成员,其提供的智能数据工程平台(MooreData Platform)与数据集构建服务(ACE Service),满足了智能驾驶、AIGC等数十个人工智能应用场景对于先进的智能标注工具以及高质量数据的需求。

目前公司已合作海内外顶级科技公司与科研机构客户1000余家,拥有知识产权数十项,通过ISO9001、ISO27001等国际认证,也多次参与人工智能领域的标准与白皮书撰写,也受到《CCTV财经频道》《新锐杭商》《浙江卫视》《苏州卫视》等多家新闻媒体报道。

Your Data Partner In The AI Industry
整数智能©2025