跳到内容

晚上好,辛苦一天了,放松一下吧。

LMArena

LMArena

LMArena是加州大学伯克利分校SkyLab团队开发的开源平台,专注于大型语言模型评估。用户可与70多种AI模型互动,通过匿名对战或直接比较进行投票,平台基于Elo评级系统生成实时排行榜。该平台已收集超过280万次社区投票,为研究人员、开发者和普通用户提供透明中立的模型性能参考。

浏览 406 收藏 0 外链点击 0 更新 2026年4月15日
适用地区
全球
适用平台
以官网说明为准
是否免费
以官网与标签为准

想知道哪个AI聊天机器人更聪明?LMArena.ai给你答案。这个由加州大学伯克利分校SkyLab团队在2023年创建的开源平台,就像一个AI模型的“比武擂台”,让用户通过实际对话来给模型打分排名。

平台怎么玩

访问LMArena.ai,你会看到几种不同的玩法。

匿名对战 (Arena Battle)

最刺激的模式。你输入一个问题,系统会随机派两个匿名AI模型来回答。看完它们的答案后,你投票选出更好的那个——就像裁判给拳击手打分。投票后才会揭晓模型的名字,确保你不会因为品牌偏见而影响判断。

手动比较 (Arena)

如果你就想对比特定的两个模型,比如ChatGPT和Claude,可以用这个模式。从下拉菜单里选好对手,让它们回答同一个问题,然后仔细对比哪个回答更让你满意。

直接聊天 (Direct Chat)

想单独测试某个模型?选这个就行。一对一对话,没有对比压力,适合深度了解某个AI的能力。

新版平台还支持登录账号,保存你的聊天记录,甚至创建个人专属的排行榜。

模型评估与排行榜

你每次投票都不是白投的。平台采用国际象棋的Elo评级系统,根据胜负关系动态计算每个模型的分数,生成实时更新的排行榜。

除了人工投票,平台还有自动评估工具Arena-Hard-Auto,用GPT-4.1、Gemini-2.5这些“AI裁判”来快速测试模型在500个挑战性问题上的表现。

如果你关心编程能力,可以看看WebDev Arena——这是AI模型的编程比赛,看谁写的网页代码更好用。

为什么值得试试

LMArena目前集成了70多个模型,从OpenAI、Google、Anthropic的商业模型,到Vicuna、Llama等开源模型都有涵盖。所有功能完全免费,全球用户已经贡献了超过280万次投票,形成了庞大的真实使用数据。

研究人员可以在这里获取标准化的评估数据,开发者能通过用户反馈优化自己的模型,普通用户则能直观地了解不同AI的强弱项——比如哪个更擅长创意写作,哪个逻辑推理更强。

需要注意的地方

投票毕竟带点主观性,你的偏好可能和别人不一样。平台主要测试语言和部分编程能力,不涉及图像生成等其他AI领域。高峰期访问时,响应可能会慢一些。

想提交自己的AI模型来参赛?平台代码开源在GitHub上,欢迎贡献。你也可以通过Discord、Twitter和开发团队直接交流。

下次有人争论哪个AI更厉害时,你可以说:“上LMArena比比看就知道了。”

发表评论

正文
强调色