-->
共找到 2 个AI工具
点击任意工具查看详细信息
MLE-bench是由OpenAI推出的一个基准测试,旨在衡量AI代理在机器学习工程方面的表现。该基准测试汇集了75个来自Kaggle的机器学习工程相关竞赛,形成了一套多样化的挑战性任务,测试了训练模型、准备数据集和运行实验等现实世界中的机器学习工程技能。通过Kaggle公开的排行榜数据,为每项竞赛建立了人类基准。使用开源代理框架评估了多个前沿语言模型在该基准上的表现,发现表现最佳的设置——OpenAI的o1-preview配合AIDE框架——在16.9%的竞赛中至少达到了Kaggle铜牌的水平。此外,还研究了AI代理的各种资源扩展形式以及预训练污染的影响。MLE-bench的基准代码已经开源,以促进未来对AI代理机器学习工程能力的理解。
The Prompt Report 是一份系统性调研报告,专注于生成式人工智能(GenAI)的提示技术。它通过结合人类和机器的努力,从多个数据库中处理了4797条记录,提取出1565篇相关论文。报告提供了58种基于文本的技术,并补充了多模态和多语言技术的广泛集合。其目标是提供一个易于理解和实施的提示技术目录,并回顾了作为提示扩展的代理,包括评估输出和设计有助于安全性和安全性的提示的方法。此外,报告还应用提示技术在两个案例研究中进行了实践。
探索 生产力 分类下的其他子分类
1361 个工具
904 个工具
767 个工具
619 个工具
607 个工具
431 个工具
406 个工具
398 个工具
AI研究机构 是 生产力 分类下的热门子分类,包含 2 个优质AI工具