大模型评测 - 芝麻派AI

LMArena

LMArena是加州大学伯克利分校SkyLab团队开发的开源平台，专注于大型语言模型评估。用户可与70多种AI模型互动，通过匿名对战或直接比较进行投票，平台基于Elo评级系统生成实时排行榜。该平台已收集超过280万次社区投票，为研究人员、开发者和普通用户提供透明中立的模型性能参考。

AI模型评估 Elo排行榜 LMArena 大型语言模型

2026年4月15日 409 0

Open LLM Leaderboard

Open LLM Leaderboard 是 Hugging Face 上的一个标准化评估平台，用于跟踪、排名和比较各类开源大语言模型与聊天机器人的性能。它通过统一的基准测试（如MMLU、HellaSwag）提供透明、可重现的评估结果，服务于研究人员、开发者和社区用户。平台支持模型提交、数据公开访问与社区讨论，虽然已于2025年3月正式退役，但其历史数据与评估方法仍具参考价值。

Hugging Face Open LLM Leaderboard 大模型评测开源大语言模型

2026年4月15日 319 0

MMLU

Papers with Code平台上的MMLU基准测试页面，实时追踪大规模多任务语言理解领域的最新模型性能排名。页面展示GPT、LLaMA等模型在57个学科任务上的准确率，提供论文与代码链接，是研究人员和开发者跟踪AI语言理解前沿进展的核心工具。

MMLU基准测试 Papers with Code SOTA模型多任务语言理解

2026年4月15日 487 0

Anyscale

Anyscale是由Ray框架开发者创建的AI平台，专注于运行和扩展机器学习与人工智能工作负载。它提供从数据处理、模型训练到生产推理的全托管服务，帮助开发者和企业团队无缝地从笔记本电脑扩展到数千节点的分布式计算。平台集成了云端IDE、性能优化和成本治理工具，适用于金融、科技、媒体等多个行业的大规模AI应用部署。

AI计算平台 Anyscale Ray框架分布式机器学习

2026年4月15日 335 0

OpenCompass司南 - 评测榜单

OpenCompass LLM排行榜是一个开源的大语言模型评估平台，提供超过100个数据集的基准测试，涵盖知识、逻辑、数学、代码等维度。榜单实时更新，展示GPT-4、Claude、Qwen等开源与商业模型的综合性能排名，为研究者和开发者提供客观的模型选择参考。

LLM评估 OpenCompass 基准测试大模型评测

2026年4月15日 420 0

Prompt Llama

Prompt Llama是一个专注于文本到图像（AI绘画）提示词生成与模型性能测试的在线工具。它允许用户创建高质量提示词，并用同一提示词测试比较不同AI绘画模型（如AlbedoBase XL、AuraFlow）的生成效果。该平台适合艺术家、设计师、开发者及研究人员用于创意灵感、模型评估和提示词优化。网站位于伦敦，提供直观界面和联系方式。

AI绘画提示词 Prompt Llama 大模型评测提示词优化

2026年4月15日 380 0