AI研究机构

共找到 2 个AI工具

个工具

主分类: 生产力

子分类: AI研究机构

找到 2 个匹配工具

相关AI工具

点击任意工具查看详细信息

MLE-bench

MLE-bench是由OpenAI推出的一个基准测试，旨在衡量AI代理在机器学习工程方面的表现。该基准测试汇集了75个来自Kaggle的机器学习工程相关竞赛，形成了一套多样化的挑战性任务，测试了训练模型、准备数据集和运行实验等现实世界中的机器学习工程技能。通过Kaggle公开的排行榜数据，为每项竞赛建立了人类基准。使用开源代理框架评估了多个前沿语言模型在该基准上的表现，发现表现最佳的设置——OpenAI的o1-preview配合AIDE框架——在16.9%的竞赛中至少达到了Kaggle铜牌的水平。此外，还研究了AI代理的各种资源扩展形式以及预训练污染的影响。MLE-bench的基准代码已经开源，以促进未来对AI代理机器学习工程能力的理解。

开源机器学习 AI代理 +2

生产力访问

The Prompt Report

The Prompt Report 是一份系统性调研报告，专注于生成式人工智能（GenAI）的提示技术。它通过结合人类和机器的努力，从多个数据库中处理了4797条记录，提取出1565篇相关论文。报告提供了58种基于文本的技术，并补充了多模态和多语言技术的广泛集合。其目标是提供一个易于理解和实施的提示技术目录，并回顾了作为提示扩展的代理，包括评估输出和设计有助于安全性和安全性的提示的方法。此外，报告还应用提示技术在两个案例研究中进行了实践。

大型语言模型生成式AI 提示技术 +1

生产力访问

探索更多生产力工具

AI研究机构是生产力分类下的热门子分类，包含 2 个优质AI工具

浏览生产力分类分类

AI研究机构

相关AI工具

MLE-bench

The Prompt Report

相关子分类

开发与工具

效率工具

个人助理

AI模型

写作助手

知识管理

聊天机器人

AI设计工具

探索更多生产力工具

AI研究机构

相关AI工具

MLE-bench

The Prompt Report

相关子分类

开发与工具

效率工具

个人助理

AI模型

写作助手

知识管理

聊天机器人

AI设计工具

探索更多 生产力 工具

探索更多生产力工具