大模型评测 - 芝麻派AI

「大模型评测」是 芝麻派AI 下的 AI 资源专题分类，收录 11 款相关工具。你可以在本页按热度与更新时间浏览，并进入详情页查看功能说明、适用场景与同类对比。 热门包括：MMLU、HELM、AGI-Eval评测社区。

大模型评测选型指南

「大模型评测」是芝麻派AI 下的 AI 资源专题分类，收录 11 款相关工具。你可以在本页按热度与更新时间浏览，并进入详情页查看功能说明、适用场景与同类对比。热门包括：MMLU、HELM、AGI-Eval评测社区。

选型建议：挑选「大模型评测」工具时，先明确使用场景（个人 / 团队 / 企业），再对比免费额度、中文支持与国内访问；芝麻派AI 各资源详情页提供「同类备选」便于横向对比。

大模型评测类 AI 工具有哪些？

大模型评测分类有哪些推荐？

本站热门推荐：MMLU（多任务语言理解基准评测）；HELM（斯坦福大模型标准化评测平台）；AGI-Eval评测社区（AGI模型能力公正评测平台）；C-Eval 排行榜（评估中文AI模型能力排行榜）；OpenCompass司南 – 评测榜单（大模型性能权威评测榜单）。

如何挑选合适的大模型评测工具？

挑选「大模型评测」工具时，先明确使用场景（个人 / 团队 / 企业），再对比免费额度、中文支持与国内访问；芝麻派AI 各资源详情页提供「同类备选」便于横向对比。

评估中文AI模型能力排行榜

主要用于展示不同大语言模型（LLMs）在多层次、多学科中文任务中的综合能力排名。

2026年4月15日 502 0