Open LLM Leaderboard
开源大模型性能排行榜
Open LLM Leaderboard 是 Hugging Face 上的一个标准化评估平台,用于跟踪、排名和比较各类开源大语言模型与聊天机器人的性能。它通过统一的基准测试(如MMLU、HellaSwag)提供透明、可重现的评估结果,服务于研究人员、开发者和社区用户。平台支持模型提交、数据公开访问与社区讨论,虽然已于2025年3月正式退役,但其历史数据与评估方法仍具参考价值。
开源大模型性能排行榜
Open LLM Leaderboard 是 Hugging Face 上的一个标准化评估平台,用于跟踪、排名和比较各类开源大语言模型与聊天机器人的性能。它通过统一的基准测试(如MMLU、HellaSwag)提供透明、可重现的评估结果,服务于研究人员、开发者和社区用户。平台支持模型提交、数据公开访问与社区讨论,虽然已于2025年3月正式退役,但其历史数据与评估方法仍具参考价值。
一站式AI模型规格速查与对比
Countless.dev 是一个专注于 AI 模型对比与规格查询的网站,帮助用户快速了解不同模型(如 GPT、Llama、Claude 等)的参数、性能与应用场景。本文介绍其功能、适用人群及使用建议。
基于数据的预测建模分析工具
Three Sigma 是一款专注于预测建模的数据分析工具,提供统计方法支持。适用于数据科学家、分析师进行模型构建与评估。本文介绍其功能、适用场景与使用建议,帮助用户快速了解工具特点。
本地偏好 · 配色仅保存在当前浏览器
点此注册,收藏与评论更方便
Welcome! This site is in Chinese. Tap EN in the top bar to read in English.