arize.com
Arize AI 平台专注于人工智能与机器学习的可观测性,帮助团队监控、调试和优化生产环境中的 AI 模型及大型语言模型。它提供实时监控、性能追踪、LLM评估等功能,支持多种模型类型和主流提供商,适用于金融、电商、自动驾驶等多个行业。
Arize AI 平台专注于人工智能与机器学习的可观测性,帮助团队监控、调试和优化生产环境中的 AI 模型及大型语言模型。它提供实时监控、性能追踪、LLM评估等功能,支持多种模型类型和主流提供商,适用于金融、电商、自动驾驶等多个行业。
OpenCompass LLM排行榜是一个开源的大语言模型评估平台,提供超过100个数据集的基准测试,涵盖知识、逻辑、数学、代码等维度。榜单实时更新,展示GPT-4、Claude、Qwen等开源与商业模型的综合性能排名,为研究者和开发者提供客观的模型选择参考。