AI初创公司在关键推理测试中表现优于Gemini 3
自从它出现以来 双子座3 他首次成功保住了自己在榜首的位置。 LMArena排行榜该榜单是一个综合排名,由数千名真实用户对不同型号进行比较得出。 人工智能 它们在各种任务上进行正面较量,并投票选出最佳答案。但说到达到最严苛的推理标准,一颗冉冉升起的新星出现了,它已经超越了谷歌——而且它并没有训练自己的模型。
一家名为 Poetiq 的六人创业公司声称其排名第一 ARC-AGI-2 半特殊测试套件这是人工智能研究员弗朗索瓦·肖莱(François Chollet)设计的一项难度极高的推理挑战。这家初创公司的系统得分54%,超过了谷歌此前公布的Gemini 3 Deep Think系统约45%的得分。

换个角度来看,就在六个月前,大多数人工智能模型在这个基准测试中的准确率还不到5%。研究人员普遍认为,突破50%的准确率需要数年时间。
最令人惊讶的是:Poetiq 的突破并非源于一种全新的前沿模式,而是源于一种更巧妙地组织现有模式的方式。
Poetiq是如何实现这一壮举的?

Poetiq并没有从零开始构建一个庞大的转换器,而是开发了一种名为“元系统”的机制;本质上,它是一个人工智能控制器,可以监控、评估并改进任何连接到它的模型的输出。在他们的ARC-AGI-2项目中,该团队使用了Gemini 3 Pro作为基础模型。
Poetiq 将该系统描述为一个严格控制的优化循环: 创建 > 批评 > 改进 > 检查。
它之所以特别,是因为它:
- 无需再培训: 该系统可在数小时内适应新模型。
- 它完全基于大型的、现成的语言模型构建: 暂无自定义编辑功能
- 更低的价格或更便宜: 据报道,谷歌的 Deep Think 每次任务收费 77 美元;Poetiq 的系统收费接近 30 美元。
- 开源: 该解决方案已公开,且可验证。
- 自我审计: 系统会先评估自身的答案,然后再返回最终结果。
على 网站 Poetiq 团队表示,对于该公司而言,这种方法的原理是利用现有大型语言模型的推理能力来提取 Plus,而不是通过蛮力扩展计算能力。
为什么 ARC-AGI-2 测试很重要?

虽然大多数标准化测试衡量的是编程或数学等有限的技能,但 ARC-AGI-2 的设计目的是测试更深层次的东西:模式识别、测量、抽象推理以及人类在幼儿时期学习到的那种概括能力。
它故意设置得非常困难,而且对现有的大型语言模型(LLM)极其不友好。即使是许多复杂的模型,在这种环境下也会惨败。
因此,半年内成功率从个位数跃升至54%令人惊讶。这表明推理方法取得了进步,而不仅仅是原始模型规模的扩大。
然而,Poetiq 的测试结果仅适用于半私有的测试组,并未完全向公众开放。该公司网站称,该结果已由基准测试机构验证,但独立的第三方复现测试仍在进行中,这对于此类影响的基准测试而言至关重要。
下一个突破可能并非来自更大的模型,Poetiq 的工作凸显了人工智能领域一个日益增长的趋势:进步并不总是需要数十亿美元的基础设施或庞大的研究实验室。
如果这类系统能够超越标准参数,涵盖规划、编程、研究,甚至现实世界的决策,它们将重塑人工智能的开发方式。企业或许不再需要等待下一代超级计算机,而是可以专注于构建复合智能,使现有模型更智能、更经济、更稳定。
结论
Poetiq 发布了 ARC-AGI 的开源解决方案,以便研究人员可以测试、扩展甚至质疑其结果。该标准包含一个隐藏的测试集,历史经验表明,一旦大量人员进行独立评估,结果可能会发生变化。
如果 Poetiq 的数据最终得以证实,这可能代表着人工智能推理研究的一个转折点。一个仅有六人的团队或许已经证明,模型组织可以媲美甚至超越训练规模更大的模型。Poetiq 刚刚证明,你不需要庞大的实验室也能取得成功。
评论被关闭。