Open LLM Leaderboard

Open LLM Leaderboard

开源大模型性能排行榜

Open LLM Leaderboard 是 Hugging Face 上的一个标准化评估平台，用于跟踪、排名和比较各类开源大语言模型与聊天机器人的性能。它通过统一的基准测试（如MMLU、HellaSwag）提供透明、可重现的评估结果，服务于研究人员、开发者和社区用户。平台支持模型提交、数据公开访问与社区讨论，虽然已于2025年3月正式退役，但其历史数据与评估方法仍具参考价值。

浏览 364 收藏 0 外链点击 0 更新 2026年4月15日

本站检测该网站直连不通，需科学上网或代理后再试。

直达官网

暂无人评分

登录后可参与评分（每人一次）

适用地区

全球

适用平台

以官网说明为准

是否免费

以官网与标签为准

标签

Hugging Face · Open LLM Leaderboard · 大模型评测 · 开源大语言模型 · 性能排行榜 · 模型评估

快速了解：Open LLM Leaderboard

是什么：开源大模型性能排行榜

适合

关注大模型、大模型评测相关场景的用户；主要在全球用户下使用 AI 工具的用户

注意

若你期望完全离线、私有化部署且不接受任何联网服务，请优先评估企业版或自建方案。

同类备选

AI Ping AI智能评测与推荐平台
K2-上海交通大学上海交大开源语音识别工具
通义万相阿里AI创意生成平台

分类：大模型、大模型评测 · 本站页面更新于 2026年4月15日

想在一堆开源大语言模型里挑个厉害的，又怕宣传有水分？Hugging Face上的Open LLM Leaderboard（开放大语言模型排行榜）就是干这个的。它像个公正的裁判，用一套标准化的考题（比如MMLU、HellaSwag这些基准测试），给各路模型打分排名，让你能一眼看出谁是真学霸。

主要用途

这个排行榜的核心目标很简单：让模型比较变得公平、透明。不同团队自说自话的测试结果在这里被统一规整，所有模型都在相同的条件下答题。这为机器学习社区的研究者、开发者和好奇用户提供了一个可靠的参考系。

核心功能

模型排名与评估

网站最显眼的就是那个排行榜，上面列着各种开源模型的性能得分。每个模型都要经历同样的“期末考试”，成绩单上会清楚显示它在不同科目（比如多选题、推理题）上的表现。

可重现性支持

它不只给结果，还把“阅卷”过程公开了。如果你不信服，完全可以按照它提供的代码和工具（比如Eleuther AI的LM Evaluation Harness），自己动手把分数再算一遍。

模型详情与社区

点击模型旁边的图标，你能看到更详细的信息，比如规模、具体的输入输出例子。如果某个模型被社区打了“小报告”（Flagged），也能看到相关讨论。你甚至可以把自己的模型送来“参赛”，提交后会自动加入测试队列。

数据与历史

所有的评估结果都作为公开数据集存放在Hugging Face上，供任何人下载分析。这个排行榜自推出以来，已经记录了超过13,000个模型的“成绩档案”，见证了开源LLM领域的飞速发展。

现状与遗产

需要注意的是，这个功勋卓著的排行榜已于2025年3月28日正式退役。团队认为，随着模型能力重点转向多模态、长上下文推理等新领域，旧的测试标准已经有些跟不上时代了，为了避免误导大家继续“刷旧题”，他们选择了让榜单退休。不过，所有的历史数据依然开放访问，它推动评估标准化的努力，也为后来的接任者打下了坚实的基础。

常见问题

Open LLM Leaderboard 是什么？

开源大模型性能排行榜

Open LLM Leaderboard 适合哪些人？

关注大模型、大模型评测相关场景的用户；主要在全球用户下使用 AI 工具的用户

Open LLM Leaderboard 免费吗？

是否免费需以官网定价与标签信息为准；建议访问官网查看最新方案。

有哪些与 Open LLM Leaderboard 类似的工具？

同类资源包括：AI Ping、K2-上海交通大学、通义万相。可在本站对比功能与适用场景。

发表评论取消回复

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.