想知道哪个AI聊天机器人更聪明？LMArena.ai给你答案。这个由加州大学伯克利分校SkyLab团队在2023年创建的开源平台，就像一个AI模型的“比武擂台”，让用户通过实际对话来给模型打分排名。

平台怎么玩

访问LMArena.ai，你会看到几种不同的玩法。

最刺激的模式。你输入一个问题，系统会随机派两个匿名AI模型来回答。看完它们的答案后，你投票选出更好的那个——就像裁判给拳击手打分。投票后才会揭晓模型的名字，确保你不会因为品牌偏见而影响判断。

如果你就想对比特定的两个模型，比如ChatGPT和Claude，可以用这个模式。从下拉菜单里选好对手，让它们回答同一个问题，然后仔细对比哪个回答更让你满意。

想单独测试某个模型？选这个就行。一对一对话，没有对比压力，适合深度了解某个AI的能力。

新版平台还支持登录账号，保存你的聊天记录，甚至创建个人专属的排行榜。

模型评估与排行榜

你每次投票都不是白投的。平台采用国际象棋的Elo评级系统，根据胜负关系动态计算每个模型的分数，生成实时更新的排行榜。

除了人工投票，平台还有自动评估工具Arena-Hard-Auto，用GPT-4.1、Gemini-2.5这些“AI裁判”来快速测试模型在500个挑战性问题上的表现。

如果你关心编程能力，可以看看WebDev Arena——这是AI模型的编程比赛，看谁写的网页代码更好用。

LMArena目前集成了70多个模型，从OpenAI、Google、Anthropic的商业模型，到Vicuna、Llama等开源模型都有涵盖。所有功能完全免费，全球用户已经贡献了超过280万次投票，形成了庞大的真实使用数据。

研究人员可以在这里获取标准化的评估数据，开发者能通过用户反馈优化自己的模型，普通用户则能直观地了解不同AI的强弱项——比如哪个更擅长创意写作，哪个逻辑推理更强。

投票毕竟带点主观性，你的偏好可能和别人不一样。平台主要测试语言和部分编程能力，不涉及图像生成等其他AI领域。高峰期访问时，响应可能会慢一些。

想提交自己的AI模型来参赛？平台代码开源在GitHub上，欢迎贡献。你也可以通过Discord、Twitter和开发团队直接交流。

下次有人争论哪个AI更厉害时，你可以说：“上LMArena比比看就知道了。”