模型评估 - 芝麻派AI

Open LLM Leaderboard

Open LLM Leaderboard

开源大模型性能排行榜

Open LLM Leaderboard 是 Hugging Face 上的一个标准化评估平台，用于跟踪、排名和比较各类开源大语言模型与聊天机器人的性能。它通过统一的基准测试（如MMLU、HellaSwag）提供透明、可重现的评估结果，服务于研究人员、开发者和社区用户。平台支持模型提交、数据公开访问与社区讨论，虽然已于2025年3月正式退役，但其历史数据与评估方法仍具参考价值。

大模型大模型评测 Hugging Face Open LLM Leaderboard

2026年4月15日 386 0

Countless.dev：AI模型对比与规格查询平台

一站式AI模型规格速查与对比

Countless.dev 是一个专注于 AI 模型对比与规格查询的网站，帮助用户快速了解不同模型（如 GPT、Llama、Claude 等）的参数、性能与应用场景。本文介绍其功能、适用人群及使用建议。

语音识别音频 AI模型对比 Countless.dev

2026年4月15日 504 0

Three Sigma 三西格玛：预测建模与分析工具

基于数据的预测建模分析工具

Three Sigma 是一款专注于预测建模的数据分析工具，提供统计方法支持。适用于数据科学家、分析师进行模型构建与评估。本文介绍其功能、适用场景与使用建议，帮助用户快速了解工具特点。

搜索引擎热门领域 Three Sigma 三西格玛

2026年4月15日 579 0

?>

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.