LMArena

AI模型竞技场，实时对比评测

LMArena是加州大学伯克利分校SkyLab团队开发的开源平台，专注于大型语言模型评估。用户可与70多种AI模型互动，通过匿名对战或直接比较进行投票，平台基于Elo评级系统生成实时排行榜。该平台已收集超过280万次社区投票，为研究人员、开发者和普通用户提供透明中立的模型性能参考。

浏览 450 收藏 0 外链点击 0 更新 2026年4月15日

本站检测该网站直连不通，需科学上网或代理后再试。

直达官网

暂无人评分

登录后可参与评分（每人一次）

适用地区

全球

适用平台

以官网说明为准

是否免费

以官网与标签为准

标签

AI模型评估 · Elo排行榜 · LMArena · 大型语言模型 · 大模型评测 · 开源平台 · 聊天问答

快速了解：LMArena

是什么：AI模型竞技场，实时对比评测

适合

关注大模型、大模型评测相关场景的用户；主要在全球用户下使用 AI 工具的用户

注意

若你期望完全离线、私有化部署且不接受任何联网服务，请优先评估企业版或自建方案。

同类备选

AI Ping AI智能评测与推荐平台
K2-上海交通大学上海交大开源语音识别工具
通义万相阿里AI创意生成平台

分类：大模型、大模型评测 · 本站页面更新于 2026年4月15日

想知道哪个AI聊天机器人更聪明？LMArena.ai给你答案。这个由加州大学伯克利分校SkyLab团队在2023年创建的开源平台，就像一个AI模型的“比武擂台”，让用户通过实际对话来给模型打分排名。

平台怎么玩

访问LMArena.ai，你会看到几种不同的玩法。

匿名对战 (Arena Battle)

最刺激的模式。你输入一个问题，系统会随机派两个匿名AI模型来回答。看完它们的答案后，你投票选出更好的那个——就像裁判给拳击手打分。投票后才会揭晓模型的名字，确保你不会因为品牌偏见而影响判断。

手动比较 (Arena)

如果你就想对比特定的两个模型，比如ChatGPT和Claude，可以用这个模式。从下拉菜单里选好对手，让它们回答同一个问题，然后仔细对比哪个回答更让你满意。

直接聊天 (Direct Chat)

想单独测试某个模型？选这个就行。一对一对话，没有对比压力，适合深度了解某个AI的能力。

新版平台还支持登录账号，保存你的聊天记录，甚至创建个人专属的排行榜。

模型评估与排行榜

你每次投票都不是白投的。平台采用国际象棋的Elo评级系统，根据胜负关系动态计算每个模型的分数，生成实时更新的排行榜。

除了人工投票，平台还有自动评估工具Arena-Hard-Auto，用GPT-4.1、Gemini-2.5这些“AI裁判”来快速测试模型在500个挑战性问题上的表现。

如果你关心编程能力，可以看看WebDev Arena——这是AI模型的编程比赛，看谁写的网页代码更好用。

为什么值得试试

LMArena目前集成了70多个模型，从OpenAI、Google、Anthropic的商业模型，到Vicuna、Llama等开源模型都有涵盖。所有功能完全免费，全球用户已经贡献了超过280万次投票，形成了庞大的真实使用数据。

研究人员可以在这里获取标准化的评估数据，开发者能通过用户反馈优化自己的模型，普通用户则能直观地了解不同AI的强弱项——比如哪个更擅长创意写作，哪个逻辑推理更强。

需要注意的地方

投票毕竟带点主观性，你的偏好可能和别人不一样。平台主要测试语言和部分编程能力，不涉及图像生成等其他AI领域。高峰期访问时，响应可能会慢一些。

想提交自己的AI模型来参赛？平台代码开源在GitHub上，欢迎贡献。你也可以通过Discord、Twitter和开发团队直接交流。

下次有人争论哪个AI更厉害时，你可以说：“上LMArena比比看就知道了。”

常见问题

LMArena 是什么？

AI模型竞技场，实时对比评测

LMArena 适合哪些人？

关注大模型、大模型评测相关场景的用户；主要在全球用户下使用 AI 工具的用户

LMArena 免费吗？

是否免费需以官网定价与标签信息为准；建议访问官网查看最新方案。

有哪些与 LMArena 类似的工具？

同类资源包括：AI Ping、K2-上海交通大学、通义万相。可在本站对比功能与适用场景。

发表评论取消回复

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.