LMArena
LMArena是加州大学伯克利分校SkyLab团队开发的开源平台,专注于大型语言模型评估。用户可与70多种AI模型互动,通过匿名对战或直接比较进行投票,平台基于Elo评级系统生成实时排行榜。该平台已收集超过280万次社区投票,为研究人员、开发者和普通用户提供透明中立的模型性能参考。
LMArena是加州大学伯克利分校SkyLab团队开发的开源平台,专注于大型语言模型评估。用户可与70多种AI模型互动,通过匿名对战或直接比较进行投票,平台基于Elo评级系统生成实时排行榜。该平台已收集超过280万次社区投票,为研究人员、开发者和普通用户提供透明中立的模型性能参考。
Open LLM Leaderboard 是 Hugging Face 上的一个标准化评估平台,用于跟踪、排名和比较各类开源大语言模型与聊天机器人的性能。它通过统一的基准测试(如MMLU、HellaSwag)提供透明、可重现的评估结果,服务于研究人员、开发者和社区用户。平台支持模型提交、数据公开访问与社区讨论,虽然已于2025年3月正式退役,但其历史数据与评估方法仍具参考价值。
Papers with Code平台上的MMLU基准测试页面,实时追踪大规模多任务语言理解领域的最新模型性能排名。页面展示GPT、LLaMA等模型在57个学科任务上的准确率,提供论文与代码链接,是研究人员和开发者跟踪AI语言理解前沿进展的核心工具。
Anyscale是由Ray框架开发者创建的AI平台,专注于运行和扩展机器学习与人工智能工作负载。它提供从数据处理、模型训练到生产推理的全托管服务,帮助开发者和企业团队无缝地从笔记本电脑扩展到数千节点的分布式计算。平台集成了云端IDE、性能优化和成本治理工具,适用于金融、科技、媒体等多个行业的大规模AI应用部署。
OpenCompass LLM排行榜是一个开源的大语言模型评估平台,提供超过100个数据集的基准测试,涵盖知识、逻辑、数学、代码等维度。榜单实时更新,展示GPT-4、Claude、Qwen等开源与商业模型的综合性能排名,为研究者和开发者提供客观的模型选择参考。
Prompt Llama是一个专注于文本到图像(AI绘画)提示词生成与模型性能测试的在线工具。它允许用户创建高质量提示词,并用同一提示词测试比较不同AI绘画模型(如AlbedoBase XL、AuraFlow)的生成效果。该平台适合艺术家、设计师、开发者及研究人员用于创意灵感、模型评估和提示词优化。网站位于伦敦,提供直观界面和联系方式。
Ai-Ceping是同济大学王昊奋教授发起的大语言模型评测平台,由多所高校教授指导,致力于提供权威、公正、透明的评测数据收集与分析服务。
主要用于展示不同大语言模型(LLMs)在多层次、多学科中文任务中的综合能力排名。
MMBench 的官方排行榜页面,由 OpenCompass 社区维护。
HELM是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。