C-Eval 排行榜

Q: C-Eval 排行榜 是什么？

评估中文AI模型能力排行榜

Q: C-Eval 排行榜 适合哪些人？

关注 大模型、大模型评测 相关场景的用户；主要在 全球用户 下使用 AI 工具的用户

快速了解：C-Eval 排行榜

是什么：评估中文AI模型能力排行榜

适合

关注大模型、大模型评测相关场景的用户；主要在全球用户下使用 AI 工具的用户

注意

若你期望完全离线、私有化部署且不接受任何联网服务，请优先评估企业版或自建方案。

一、核心功能

模型能力排名
提供实时更新的中文大模型性能排行榜，涵盖国内外主流模型（如 GPT-4、GLM、ChatGPT 等），通过标准化分数直观对比模型在复杂任务中的表现。
多层次评估体系
- 学科覆盖：包含 52 个学科，覆盖初中、高中、大学、专业四大难度级别，例如数学、物理、化学、法学、医学等。
- 题目类型：13,948 道选择题，题目来源包括 PDF/Word 解析和人工标注，避免训练数据污染。
- 挑战性子集（C-Eval Hard）：从评估集中筛选 8 个高难度科目（如高等数学、离散数学），测试模型的深度推理能力。
评估模式支持
- Answer-Only（AO）：直接输出答案。
- Chain-of-Thought（CoT）：要求模型生成推理过程后再回答，部分科目中 CoT 可显著提升性能（如 GPT-4 在概率统计科目上提升 8.4%）。
开发者工具
- 测试集提交：用户可将模型预测结果提交至网站，系统自动生成分数并更新排名，测试集标签保密以保证公平性。
- 数据防污染设计：采用非结构化数据格式（如 LaTeX）和人工审核，减少预训练数据泄露风险。
相关资源

腾讯混元腾讯混元是腾讯全链路自研的大模型平台，提供文本、图像、视频、3D资产生成及逻辑推理等AI服务。平台通过腾讯云API面向企业，支持内容创作、企业服务、智能助手等多场景应用，在中文语义理解和多模态交互方面表现突出。文心一言文心一言是百度基于文心大模型技术开发的生成式对话产品，具备跨模态功能。它依托百度智能云，为企业提供API服务，支持文学创作、商业文案等多种应用场景。该模型通过海量数据训练，能回答问题、协助创作，帮助用户高效获取信息与灵感。