推荐新闻
座机:0531-83313150
手机: 13964033677
联系人:
Q Q: 1302842311
邮箱: 1302842311@qq.com
地址: 山东省济南市章丘区双山街道丰年大道666号
智力无处不在,但其衡量标准却显得主观。我们最多只可以通过测试和基准来粗略地衡量它。想想大学入学考试:每年都有无数学生报上自己的姓名去参加,熟记备考技巧,有时还能拿到满分。一个数字,比如100%,是否意味着获得这一个数字的人拥有相同的智力——或者他们已达到了智力的极限?当然并非是。基准只是近似值,而不是对某人(或某物)真实能力的精确衡量。
生成式人工智能社区长期以来一直依赖诸如MMLU(大规模多任务语言理解)之类的基准测试,通过跨学科的多项选择题来评估模型能力。这种形式虽能直接作比较,但没办法真正捕捉智能能力。
例如,Claude 3.5 Sonnet 和 GPT-4.5 在该基准测试中的得分相近。理论上,这表明它们拥有同等的性能。然而,使用这一些模型的人都知道,它们在实际性能上存在非常明显差异。
ARC-AGI基准测试旨在推动模型向通用推理和创造性解决实际问题的方向发展,而随着新发布的发布,关于如何衡量人工智能的“智能”的争论再度升温。虽然并非所有公司都测试过 ARC-AGI 基准测试,但业界对此以及其他旨在改进测试框架的努力表示欢迎。每个基准测试都有其优点,而 ARC-AGI 是这场更广泛讨论中值得期待的一步。
人工智能评估领域近期另一个需要我们来关注的进展是“人类的最后考试”,这是一项涵盖3000道同行评审、涵盖多个学科的多步骤问题的完整基准测试。虽然这项测试代表着一项雄心勃勃的尝试,旨在挑战AI系统达到专家级推理能力,但早期结果为其进展迅速——据报道,OpenAI在其发布后的一个月内就取得了26.6%的得分。然而,与其他传统基准测试一样,它主要孤立地评估知识和推理能力,而没有测试对现实世界的AI应用日益重要的实用工具使用能力。
在一个例子中,多个最先进的模型都无法正确计算单词“strawberry”中“r”的数量。在另一个例子中,它们错误地将3.8识别为小于3.1111。这类失败——即使是小孩子或使用普通计算器就能解决的任务——暴露了基准驱动的进步与现实世界的稳健性之间的不匹配,这提醒我们,智能不仅仅是通过考试,还在于可靠地驾驭日常逻辑。
随着模型的进步,这些传统的基准测试已经显示出它们的局限性——尽管在多项选择题测试中取得了令人印象非常深刻的成绩,但在GAIA 基准测试中,带有工具的 GPT-4 在更复杂的现实任务上仅取得了约 15% 的成绩。
随着AI系统从研究环境转向商业应用,基准性能与实际能力之间的脱节问题日渐严重。传统的基准测试侧重于知识回忆,但却忽略了智能的关键要素:收集信息、执行代码、分析数据及跨领域综合解决方案的能力。
GAIA 是人工智能评估方法论的必要变革。该基准测试由 Meta-FAIR、Meta-GenAI、HuggingFace 和 AutoGPT 团队合作创建,包含 466 个精心设计的问题,涵盖三个难度级别。这样一些问题测试网页浏览、多模态理解、代码执行、文件处理和复杂推理——这些能力对于现实世界的AI应用至关重要。
一级问题是需要大约 5 个步骤和一种工具才能人工解决。二级问题是需要 5 到 10 个步骤和多种工具,而三级问题则在大多数情况下要多达 50 个步骤和任意数量的工具。这种结构反映了业务问题的实际复杂性,解决方案很少来自单一的操作或工具。
通过第一先考虑灵活性而非复杂性,一个人工智能模型在 GAIA 上的准确率达到了 75%,超越了行业巨头微软的 Magnetic-1(38%)和谷歌的 Langfun Agent(49%)。他们的成功源于其结合了多种专门用于视听理解和推理的模型,其中以 Anthropic 的 Sonnet 3.5 为主要模型。
AI 评估的演变反映了行业更广泛的转变:我们正在从独立的 SaaS 应用程序转向能够协调多种工具和工作流程的 AI Agent。随企业越来越依赖 AI 系统来处理复杂、多步骤的任务,像 GAIA 这样的基准测试比传统的多项选择题测试更能有效地衡量企业的能力。
人工智能评估的未来并非在于孤立的知识测试,而是在于对问题解决能力的全面评估。GAIA 为衡量人工智能能力设立了新的标准,使其能够更好地反映现实世界人工智能部署的挑战和机遇。
本文所发布的内容和图片旨在传播行业信息,版权属于原本的作者所有,非商业用途。 如有侵权,请与我们联系。 所有信息仅供参考和分享,不构成任何投资建议。投资者应基于自身判断和谨慎评估做出决策。 投资有风险,入市需谨慎。
国家图书馆馆长一职已空缺两年?工作人员:如官网名单所示,馆长职责由副馆长代为负责
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
澳大利亚三分26投15中 36分大胜韩国 李贤重16投3中&三分12中2
2K 210Hz 超频,技嘉预热“M27Q2 QD”27英寸显示器即将上市
揭秘!北京超八成本科生被28所市属高校“承包”!关键数据对比图来了——