-->
共找到 14 个AI工具
点击任意工具查看详细信息
SWE-bench Verified是OpenAI发布的一个经过人工验证的SWE-bench子集,旨在更可靠地评估AI模型解决现实世界软件问题的能力。它通过提供代码库和问题描述,挑战AI生成解决所描述问题的补丁。这个工具的开发是为了提高模型自主完成软件工程任务的能力评估的准确性,是OpenAI准备框架中中等风险级别的关键组成部分。
Turtle Benchmark是一款基于'Turtle Soup'游戏的新型、无法作弊的基准测试,专注于评估大型语言模型(LLMs)的逻辑推理和上下文理解能力。它通过消除对背景知识的需求,提供了客观和无偏见的测试结果,具有可量化的结果,并且通过使用真实用户生成的问题,使得模型无法被'游戏化'。
MoA(Mixture of Agents)是一种新颖的方法,它利用多个大型语言模型(LLMs)的集体优势来提升性能,实现了最先进的结果。MoA采用分层架构,每层包含多个LLM代理,显著超越了GPT-4 Omni在AlpacaEval 2.0上的57.5%得分,达到了65.1%的得分,使用的是仅开源模型。
GraphRAG (Graphs + Retrieval Augmented Generation) 是一种通过结合文本提取、网络分析以及大型语言模型(LLM)的提示和总结,来丰富理解文本数据集的技术。该技术即将在GitHub上开源,是微软研究项目的一部分,旨在通过先进的算法提升文本数据的处理和分析能力。
MuKoe是一个完全开源的MuZero实现,使用Ray作为分布式编排器在GKE上运行。它提供了Atari游戏的示例,并通过Google Next 2024的演讲提供了代码库的概览。MuKoe支持在CPU和TPU上运行,具有特定的硬件要求,适合需要大规模分布式计算资源的AI研究和开发。
Intel NPU Acceleration Library是英特尔为神经处理单元(NPU)开发的加速库,旨在提高深度学习和机器学习应用的性能。该库提供了针对英特尔硬件优化的算法和工具,支持多种深度学习框架,能够显著提升模型的推理速度和效率。
Patchscope是一个用于检查大型语言模型(LLM)隐藏表示的统一框架。它能解释模型行为,验证其与人类价值观的一致性。通过利用模型本身生成人类可理解的文本,我们提出利用模型本身来解释其自然语言内部表示。我们展示了Patchscopes框架如何用于回答关于LLM计算的广泛研究问题。我们发现,基于将表示投影到词汇空间和干预LLM计算的先前可解释性方法,可以被视为此框架的特殊实例。此外,Patchscope还开辟了新的可能性,例如使用更强大的模型来解释较小模型的表示,并解锁了自我纠正等新应用,如多跳推理。
Google AI Studio是一个基于Vertex AI在Google Cloud上构建和部署AI应用程序的平台。它提供了一个无代码界面,使开发人员、数据科学家和业务分析师能够快速构建、部署和管理AI模型。
Deepmark AI 是一款用于评估大型语言模型(LLM)的基准工具,可在自己的数据上对各种任务特定指标进行评估。它与 GPT-4、Anthropic、GPT-3.5 Turbo、Cohere、AI21 等领先的生成式 AI API 进行预集成。
LLM Spark是一个开发平台,可用于构建基于LLM的应用程序。它提供多个LLM的快速测试、版本控制、可观察性、协作、多个LLM支持等功能。LLM Spark可轻松构建AI聊天机器人、虚拟助手等智能应用程序,并通过与提供商密钥集成,实现卓越性能。它还提供了GPT驱动的模板,加速了各种AI应用程序的创建,同时支持从零开始定制项目。LLM Spark还支持无缝上传数据集,以增强AI应用程序的功能。通过LLM Spark的全面日志和分析,可以比较GPT结果、迭代和部署智能AI应用程序。它还支持多个模型同时测试,保存提示版本和历史记录,轻松协作,以及基于意义而不仅仅是关键字的强大搜索功能。此外,LLM Spark还支持将外部数据集集成到LLM中,并符合GDPR合规要求,确保数据安全和隐私保护。
The Microsoft Cognitive Toolkit(CNTK)是一个开源的商业级分布式深度学习工具。它通过有向图描述神经网络的计算步骤,支持常见的模型类型,并实现了自动微分和并行计算。CNTK支持64位Linux和Windows操作系统,可以作为Python、C或C++程序的库使用,也可以通过其自身的模型描述语言BrainScript作为独立的机器学习工具使用。
Vertex AI提供了构建和部署机器学习模型所需的一体化平台和工具。它具有强大的功能,可以加速自定义模型的训练和部署,并提供预构建的AI API和应用。关键功能包括:集成的工作空间、模型部署与管理、MLOps支持等。可显著提高数据科学家和ML工程师的工作效率。
DeepEval提供了不同方面的度量来评估LLM对问题的回答,以确保答案是相关的、一致的、无偏见的、非有毒的。这些可以很好地与CI/CD管道集成在一起,允许机器学习工程师快速评估并检查他们改进LLM应用程序时,LLM应用程序的性能是否良好。DeepEval提供了一种Python友好的离线评估方法,确保您的管道准备好投入生产。它就像是“针对您的管道的Pytest”,使生产和评估管道的过程与通过所有测试一样简单直接。
Teachable Machine是一个基于网页的工具,使用户可以快速轻松地创建机器学习模型,无需专业知识或编码能力。用户只需收集并整理样本数据,Teachable Machine将自动训练模型,然后用户可以测试模型准确性,最后将模型导出使用。
探索 编程 分类下的其他子分类
768 个工具
465 个工具
368 个工具
294 个工具
140 个工具
85 个工具
66 个工具
61 个工具
AI开发平台 是 编程 分类下的热门子分类,包含 14 个优质AI工具