MMLU
多任务语言理解基准评测
Papers with Code平台上的MMLU基准测试页面,实时追踪大规模多任务语言理解领域的最新模型性能排名。页面展示GPT、LLaMA等模型在57个学科任务上的准确率,提供论文与代码链接,是研究人员和开发者跟踪AI语言理解前沿进展的核心工具。
多任务语言理解基准评测
Papers with Code平台上的MMLU基准测试页面,实时追踪大规模多任务语言理解领域的最新模型性能排名。页面展示GPT、LLaMA等模型在57个学科任务上的准确率,提供论文与代码链接,是研究人员和开发者跟踪AI语言理解前沿进展的核心工具。
本地偏好 · 配色仅保存在当前浏览器
点此注册,收藏与评论更方便
Welcome! This site is in Chinese. Tap EN in the top bar to read in English.