语言模型排行榜

多任务语言理解基准评测

Papers with Code平台上的MMLU基准测试页面，实时追踪大规模多任务语言理解领域的最新模型性能排名。页面展示GPT、LLaMA等模型在57个学科任务上的准确率，提供论文与代码链接，是研究人员和开发者跟踪AI语言理解前沿进展的核心工具。

2026年4月15日 558 0

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.