跳到内容

早上好,祝你今天高效顺利。

大模型评测

LMArena

AI模型竞技场,实时对比评测

LMArena是加州大学伯克利分校SkyLab团队开发的开源平台,专注于大型语言模型评估。用户可与70多种AI模型互动,通过匿名对战或直接比较进行投票,平台基于Elo评级系统生成实时排行榜。该平台已收集超过280万次社区投票,为研究人员、开发者和普通用户提供透明中立的模型性能参考。

2026年4月15日 452 0 浏览 452,收藏 0

arize.com

AI可观测性与监控平台

Arize AI 平台专注于人工智能与机器学习的可观测性,帮助团队监控、调试和优化生产环境中的 AI 模型及大型语言模型。它提供实时监控、性能追踪、LLM评估等功能,支持多种模型类型和主流提供商,适用于金融、电商、自动驾驶等多个行业。

2026年4月15日 417 0 浏览 417,收藏 0

Open LLM Leaderboard

开源大模型性能排行榜

Open LLM Leaderboard 是 Hugging Face 上的一个标准化评估平台,用于跟踪、排名和比较各类开源大语言模型与聊天机器人的性能。它通过统一的基准测试(如MMLU、HellaSwag)提供透明、可重现的评估结果,服务于研究人员、开发者和社区用户。平台支持模型提交、数据公开访问与社区讨论,虽然已于2025年3月正式退役,但其历史数据与评估方法仍具参考价值。

2026年4月15日 364 0 浏览 364,收藏 0

MMLU

多任务语言理解基准评测

Papers with Code平台上的MMLU基准测试页面,实时追踪大规模多任务语言理解领域的最新模型性能排名。页面展示GPT、LLaMA等模型在57个学科任务上的准确率,提供论文与代码链接,是研究人员和开发者跟踪AI语言理解前沿进展的核心工具。

2026年4月15日 535 0 浏览 535,收藏 0

Anyscale

分布式AI计算平台

Anyscale是由Ray框架开发者创建的AI平台,专注于运行和扩展机器学习与人工智能工作负载。它提供从数据处理、模型训练到生产推理的全托管服务,帮助开发者和企业团队无缝地从笔记本电脑扩展到数千节点的分布式计算。平台集成了云端IDE、性能优化和成本治理工具,适用于金融、科技、媒体等多个行业的大规模AI应用部署。

2026年4月15日 374 0 浏览 374,收藏 0

AI Ping

AI智能评测与推荐平台

AI Ping是专注于AI大模型服务性能评测的平台,提供实时、客观的API性能数据,包括首token延时、整体延迟、吞吐量等关键指标。平台覆盖国内外主流模型服务商与模型,支持排行榜对比、数据可视化与历史追踪,帮助开发者、企业团队及研究人员进行模型选型、性能监控与成本优化决策。

2026年4月15日 560 0 浏览 560,收藏 0

AGI-Eval评测社区

AGI模型能力公正评测平台

AGI-Eval是由上海交大、同济大学、华东师大及DataWhale联合推出的大模型评测社区。平台提供权威模型能力榜单、丰富的评测数据集、人机协同比赛及Data Studio数据工坊,旨在通过科学、透明的评估体系,衡量AI模型在理解、推理、知识等维度的综合表现,为研究者和开发者提供评测支持。

2026年4月15日 481 0 浏览 481,收藏 0

OpenCompass司南 - 评测榜单

大模型性能权威评测榜单

OpenCompass LLM排行榜是一个开源的大语言模型评估平台,提供超过100个数据集的基准测试,涵盖知识、逻辑、数学、代码等维度。榜单实时更新,展示GPT-4、Claude、Qwen等开源与商业模型的综合性能排名,为研究者和开发者提供客观的模型选择参考。

2026年4月15日 459 0 浏览 459,收藏 0
?>

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.