阿里通义千问 Qwen 推 CodeElo，o1-mini 夺冠超 90%人类程序员

数码芝华士 · 发表于 2025-1-5 00:18:18

爱科技、爱创意、爱折腾、爱极致，我们都是技术控

您需要登录才可以下载或查看，没有账号？立即注册

x

IT之家 1 月 4 日消息，阿里通义千问 Qwen 最新推出 CodeElo 基准测试，通过和人类程序员对比的 Elo 评级系统，来评估大语言模型（LLM）的编程水平。

项目背景

大语言模型的 AI 场景应用之一，就是生成、补全代码，只是现阶段评估编程真实能力方面存在诸多挑战。

包括 LiveCodeBench 和 USACO 在内的现有基准测试均存在局限性，缺乏健壮的私有测试用例，不支持专门的判断系统，并且经常使用不一致的执行环境。

CodeElo：借力 CodeForces，打造更精准的 LLM 评估体系

IT之家注：Qwen 研究团队为了解决这些挑战，推出了 CodeElo 基准测试，旨在利用与人类程序员比较的 Elo 评级系统，来评估 LLM 的编程竞赛水平。

CodeElo 的题目来自 CodeForces 平台，该平台以其严格的编程竞赛而闻名，通过直接向 CodeForces 平台提交解决方案，CodeElo 确保了评估的准确性，解决了误报等问题，并支持需要特殊评判机制的题目。此外，Elo 评级系统反映了人类的排名，可以有效比较 LLM 和人类参赛者的表现。

CodeElo 三大核心要素：全面、稳健、标准化