💼

生产力分类

AI模型评测

共找到 4 个AI工具

个工具

主分类: 生产力

子分类: AI模型评测

找到 4 个匹配工具

相关AI工具

点击任意工具查看详细信息

MLE-bench

MLE-bench是由OpenAI推出的一个基准测试，旨在衡量AI代理在机器学习工程方面的表现。该基准测试汇集了75个来自Kaggle的机器学习工程相关竞赛，形成了一套多样化的挑战性任务，测试了训练模型、准备数据集和运行实验等现实世界中的机器学习工程技能。通过Kaggle公开的排行榜数据，为每项竞赛建立了人类基准。使用开源代理框架评估了多个前沿语言模型在该基准上的表现，发现表现最佳的设置——OpenAI的o1-preview配合AIDE框架——在16.9%的竞赛中至少达到了Kaggle铜牌的水平。此外，还研究了AI代理的各种资源扩展形式以及预训练污染的影响。MLE-bench的基准代码已经开源，以促进未来对AI代理机器学习工程能力的理解。

开源机器学习 AI代理 +2

生产力访问

SFR-Judge

SFR-Judge 是 Salesforce AI Research 推出的一系列评估模型，旨在通过人工智能技术加速大型语言模型（LLMs）的评估和微调过程。这些模型能够执行多种评估任务，包括成对比较、单项评分和二元分类，同时提供解释，避免黑箱问题。SFR-Judge 在多个基准测试中表现优异，证明了其在评估模型输出和指导微调方面的有效性。

人工智能语言模型模型微调 +1

生产力访问

OpenCompass 2.0 Large Language Model Leaderboard

OpenCompass 2.0是一个专注于大型语言模型性能评估的平台。它使用多个闭源数据集进行多维度评估，为模型提供整体平均分和专业技能分数。该平台通过实时更新排行榜，帮助开发者和研究人员了解不同模型在语言、知识、推理、数学和编程等方面的性能表现。

语言模型评估排行榜 +1

生产力访问

RULER

RULER 是一种新的合成基准，为长文本语言模型提供了更全面的评估。它扩展了普通检索测试，涵盖了不同类型和数量的信息点。此外，RULER 引入了新的任务类别，如多跳跟踪和聚合，以测试超出检索从上下文中的行为。在 RULER 上评估了 10 个长文本语言模型，并在 13 个代表性任务中获得了表现。尽管这些模型在普通检索测试中取得了几乎完美的准确性，但在上下文长度增加时，它们表现得非常差。只有四个模型（GPT-4、Command-R、Yi-34B 和 Mixtral）在长度为 32K 时表现得相当不错。我们公开源 RULER，以促进对长文本语言模型的全面评估。

语言模型评估长文本

生产力访问

探索更多生产力工具

AI模型评测是生产力分类下的热门子分类，包含 4 个优质AI工具

浏览生产力分类分类

AI模型评测

相关AI工具

MLE-bench

SFR-Judge

OpenCompass 2.0 Large Language Model Leaderboard

RULER

相关子分类

开发与工具

效率工具

个人助理

AI模型

写作助手

知识管理

聊天机器人

AI设计工具

探索更多生产力工具

AI模型评测

相关AI工具

MLE-bench

SFR-Judge

OpenCompass 2.0 Large Language Model Leaderboard

RULER

相关子分类

开发与工具

效率工具

个人助理

AI模型

写作助手

知识管理

聊天机器人

AI设计工具

探索更多 生产力 工具

探索更多生产力工具