让大模子集体吃瘪,数学题正确率通通不到 2%! 获大神卡帕西力荐,大模子新数学基准来势汹汹—— 一脱手,曾在海外数学奥赛中拿下 83% 解题率的o1 模子就败下阵来,况且 Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro 等澈底未攻破 2% 这一防地。 是以,新挑战者到底啥来头?? 一探问,这个新数学基准名为FrontierMath,由Epoch AI这家非谋利辩论机构命令陶哲轩在内的 60 多位顶尖数学家提倡。 这群东说念主此次铁了心要给 AI 上难度,径直原创

现金九游体育app平台这第一关主要措置数学题的原创性-九游体育(Nine Game Sports)官方网站 登录入口

现金九游体育app平台这第一关主要措置数学题的原创性-九游体育(Nine Game Sports)官方网站 登录入口

让大模子集体吃瘪,数学题正确率通通不到 2%!

获大神卡帕西力荐,大模子新数学基准来势汹汹——

一脱手,曾在海外数学奥赛中拿下 83% 解题率的o1 模子就败下阵来,况且 Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro 等澈底未攻破 2% 这一防地。

是以,新挑战者到底啥来头??

一探问,这个新数学基准名为FrontierMath,由Epoch AI这家非谋利辩论机构命令陶哲轩在内的 60 多位顶尖数学家提倡。

这群东说念主此次铁了心要给 AI 上难度,径直原创了数百说念极具挑战性的数学问题——

从数论上钩算密集型问题到代数几何和范围论中的概述问题,涵盖了当代数学的大大都主要分支。

这些题有多难呢?按数学大佬陶哲轩对这项辩论的评价说:

大模子们,至少需要再战个几年吧。

同期,卡帕西也暗示寥落可爱这一新基准,以致乐于见到大模子们"吃瘪":

之是以引入这个基准,是因为大模子越来越多地碾压现存的数学基准

FrontierMath:评估 AI 高等数学推明智商的新基准

本年以来,大说话模子(LLM)开动在多样数学 benchmark 上荒诞刷分,而且正确率动辄 90% 以上。

宣传看多了,东说念主也麻了,于是纷纷反念念——

一定是现时的基准测试"被沾污了"(比如让 AI 在教化阶段提前学习基准测试中的问题)。

对此,非谋利辩论机构 Epoch AI 看不下去了,于是径直融合 60 多位顶尖数学家(共获取了 14 枚 IMO 金牌)推出 FrontierMath。

这一新基准领少见百说念大模子们之前没见过的数学题,而且难度颇高。

频繁需要专科数学家破耗数小时以致数天的竭力于

一番现实试验下,尽然如斯,一众顶尖大模子纷纷折戟(包括 Claude 3.5 Sonnet、GPT-4o 和 Gemini 1.5 Pro 等),解题率均不及 2%。

而且即使有延迟的念念考时代(10,000 个 token)、Python 探访权限以及运行实验的智商,干系得手率仍然低于 2%。

底下,咱们具体先容下 FrontierMath。这第一关主要措置数学题的原创性。

这群数学家们被条目按照3 个关节原则瞎想题目:

系数问题都是新的且未发表的,以选藏数据沾污;

措置决策是自动可考证的,从而竣事高效的评估;

问题是"防推断"的,在莫得正确推理的情况下措置的可能性很低;

除了出新题,为了选藏数据沾污,机构还遴选了其他措施。

比如为了最大限制地裁减问题和措置决策在网上传播的风险,机构饱读舞系数提交都通过安全、加密的渠说念进行。

具体来说,机构领受加密通讯平台与投稿东说念主归并,并条目对在线存储的任何书面材料进行加密(如加密文档)。

同期,机构依赖于中枢数学家团队巨匠评审这一原创考证性设施,以识别自动化系统可能错过的潜在相似性(巨匠比机器更纯属这些辩论细节)。

虽然也不完全依靠东说念主力,为了进一步保证原创性,机构还通过抄袭检测器具 Quetext 和 Copyscape 对问题进行测试。

最终,数学家们提倡了数百说念原创题目,涵盖了当代数学的大大都主要分支,从数论上钩算密集型问题到代数几何和范围论中的概述问题。

其中数论和组合学最多,算计约占系数 MSC2020(数学学科分类系统 2020 版块)的 34%。

接下来,为了评估大模子在 FrontierMath 问题上的发扬,辩论开辟了一个框架。

浅易说,这一框架具体实施任务的过程如下:

分析问题:模子最初分析给定的数学问题;

提倡战略:模子提倡可能的措置决策战略;

实施并实施代码:将这些战略转化为可实施的 Python 代码并自动实施;

吸收响应:从代码实施的效力中吸收响应,包括输出和造作音书;

改变设施:字据实验效力,模子会考证中间效力,测试意象,并可能改变其推理过程以修正潜在的造作;

该框架补助两种提交方式:一种是模子不错径直给出问题的最终谜底;另一种是,在提交最终谜底之前,模子不错先通过代码实施进行实验,以考证其措置决策的有用性。

不外需要提醒,在提交最终谜底时,模子必须降服一些步伐化步地。

比如,在谜底中需包含#This is the final answer这一符号精通,且将效力保存在 Python 的 pickle 模块中,同期需确保提交的代码必须是自包含的,不依赖于先前的狡计。

总之,这一评估过程将执续进行,直到模子提交了正确步地化的最终谜底,或者达到了预设的符号截止(辩论成立为 10,000 个 token)。

若是模子在达到符号截止之前莫得提交最终谜底,它将收到一个最终教导,条目立即提交最终谜底;

若是在收到该教导后模子仍然无法提供正确步地化的最终谜底,则该尝试被符号为不正确。

陶哲轩看了都说难

为了进一步考证 FrontierMath 的难度,该机构还专诚采访了 4 位数学大佬。

包括菲尔兹奖得主陶哲轩 ( 2006 ) 、蒂莫西 · 高尔斯 ( 1998 ) 、理查德 · 博赫兹 ( 1998 ) ,以及海外数学奥林匹克竞赛 ( IMO ) 教化陈谊廷 ( Evan Chen ) 在内,他们一致认为这些题寥落具有挑战性。

下一步 Epoch AI 也狡计从四个方面执续鼓动:

按期评估这些越过的大模子,并不雅察高等数学推明智商随时代推移和规模扩大而提升的情况;

保执难度的同期,向 FrontierMath 添加更多问题;

在将来几个月内发布更多代表性问题,供宇宙辩论盘考;

扩大巨匠审查、增多造作数目和改变同业评审经由来加强质地律例;

这也合了卡帕西的情意,他认为这么的新基准应该更多,尤其是为那些看似"容易"的事情创建评估。

之是以引入这个基准,是因为大模子越来越多地碾压现存的数学基准。道理的问题是,尽管从好多方面(/evals)来看,大模子正逐步置身顶级巨匠行列(如数学和编码等),但你不会雇用他们而不是让他们从事最琐碎的职责。

若是你把问题形容整王人地放在盘子里,他们就能措置复杂的阻塞式问题,但他们很难连贯地把长长的、自主的、措置问题的序列串联起来,而东说念主却会以为寥落容易。

这是莫拉维克悖论的变相,他在 30 多年前就不雅察到,对东说念主类来说容易 / 穷苦的事情,与对狡计机来说容易 / 穷苦的事情,在非直观上可能大相径庭。

举例,东说念主类对狡计机下海外象棋印象长远,但海外象棋对狡计机来说却很容易,因为它是一个阻塞的、敬佩性的系统,具有翻脸的手脚空间、完全的可不雅测性等等。

反之也是,东说念主类不错系好鞋带或叠好衬衫,而且根底不需要接洽太多,但这是一项极其复杂的传感通顺任务,对硬件和软件的时刻水平都是挑战。

这就像不久前 OpenAI 发布的魔方相通,大大都东说念主都把防备力集结在解魔方自己(这是微不及说念的),而不是用机器东说念主的手动掸魔方的一个面这一本体难度极高的任务。

因此,我寥落可爱这个 FrontierMath 基准,咱们应该制作更多的基准。但我也认为,怎么为系数 "容易 "但其实很难的东西创建评估是一个道理的挑战。

很长的语境窗口、连贯性、自主性、学问、有用的多模态输入 / 输出…… 咱们怎么诞生精采的 "低级职责 "评估?就像你对团队中任何低级实习生的守望。

网友也暗示,能在这种基准测试中取得高分的大模子将大有裨益。

陶哲轩渴望的便是这么的东西,不错结合到 LEAN(微软辩论院推出的一款定理评释器),让数学家成为剪辑、参谋人,偶尔处理一些确凿穷苦的部分,而其余部分则自动化且可评释正确。

很难说一个在此次基准测试中大致达到 80% 的 LLM 对数学家来说莫得用处。

对此,你怎么看?

论文:

https://arxiv.org/html/2411.04872v1

参考融合:

[ 1 ] https://x.com/EpochAIResearch/status/1854993676524831046

[ 2 ] https://x.com/karpathy/status/1855659091877937385?s=46

[ 3 ] https://news.ycombinator.com/item?id=42094546现金九游体育app平台



上一篇:九游体育娱乐网P 板还算是一个酷好的尝试-九游体育(Nine Game Sports)官方网站 登录入口    下一篇:九游体育app娱乐从原始语料中提真金不怕火三元组-九游体育(Nine Game Sports)官方网站 登录入口