在Papers with Code网站上，有一个专门追踪MMLU基准测试最新进展的页面。这个页面就像语言模型界的“成绩单排行榜”，实时展示哪些模型在应对多学科知识问答时表现最出色。

MMLU数据集：考考AI的“通识”

MMLU的全称是“大规模多任务语言理解”。它的任务很简单：做选择题。但题目范围极广，覆盖57个不同领域，从高中数理化到大学的人文社科，甚至法律、医学等专业内容都有涉及。目的就是检验一个语言模型的知识广度和理解深度，最终以准确率来评分。

排行榜上看什么？

打开这个排行榜页面，你主要能看到以下几块内容：

核心排名：所有模型按总准确率从高到低排列。排在前面的，比如可能是GPT-4、LLaMA等知名模型。

详细信息：点击每个模型，通常能看到它的总得分、关键子领域的得分、对应的研究论文链接，以及如果开源的话，其代码仓库地址。

动态更新：这个榜单是活的。只要有新模型发布或新论文出炉，榜单就会更新，确保你看到的是最前沿的战况。

研究人员用它来快速了解领域现状，寻找下一个研究方向。开发者可以在这里发现优秀的开源模型，直接获取代码。学生或爱好者也能通过它直观感受当前AI的语言理解能力到底到了什么水平。

总之，如果你想快速知道“现在哪个语言模型最博学”，这个MMLU排行榜是个很直接的参考。访问链接就能看到这份不断更新的成绩单，对比各模型长短，并直达背后的论文和代码。