💻

编程分类

AI模型推理训练

共找到 53 个AI工具

53

个工具

主分类: 编程

子分类: AI模型推理训练

找到 53 个匹配工具

相关AI工具

点击任意工具查看详细信息

GPTACG

GPTACG

GPTACG中转API提供OpenAI官方api转发服务，主打稳定性，适合对稳定性有高要求的应用场景。产品背景是为用户提供解除地区限制、超高并发支持、高性价比的企业级稳定服务，承诺不收集用户请求与返回信息。价格方面，提供不同购买额度的优惠，例如单次购买小于$500和大于等于$500的不同费率。

隐私保护企业级 API服务 +2

Ministral-8B-Instruct-2410

Ministral-8B-Instruct-2410

Ministral-8B-Instruct-2410是由Mistral AI团队开发的一款大型语言模型，专为本地智能、设备端计算和边缘使用场景设计。该模型在类似的大小模型中表现优异，支持128k上下文窗口和交错滑动窗口注意力机制，能够在多语言和代码数据上进行训练，支持函数调用，词汇量达到131k。Ministral-8B-Instruct-2410模型在各种基准测试中表现出色，包括知识与常识、代码与数学以及多语言支持等方面。该模型在聊天/竞技场（gpt-4o判断）中的性能尤为突出，能够处理复杂的对话和任务。

多语言支持大型语言模型高性能 +4

Aria

Aria

Aria是一个多模态原生混合专家模型，具有强大的多模态、语言和编码任务性能。它在视频和文档理解方面表现出色，支持长达64K的多模态输入，能够在10秒内描述一个256帧的视频。Aria模型的参数量为25.3B，能够在单个A100（80GB）GPU上使用bfloat16精度进行加载。Aria的开发背景是满足对多模态数据理解的需求，特别是在视频和文档处理方面。它是一个开源模型，旨在推动多模态人工智能的发展。

多模态文档处理开源模型 +2

Open-O1

Open-O1

Open O1是一个开源项目，旨在通过开源创新，匹配专有的强大O1模型能力。该项目通过策划一组O1风格的思考数据，用于训练LLaMA和Qwen模型，赋予了这些较小模型更强大的长期推理和解决问题的能力。随着Open O1项目的推进，我们将继续推动大型语言模型的可能性，我们的愿景是创建一个不仅能够实现类似O1的性能，而且在测试时扩展性方面也处于领先地位的模型，使高级AI能力为所有人所用。通过社区驱动的开发和对道德实践的承诺，Open O1将成为AI进步的基石，确保技术的未来发展是开放的，并对所有人有益。

AI 开源推理 +2

GRIN-MoE

GRIN-MoE

GRIN-MoE是由微软开发的混合专家(Mixture of Experts, MoE)模型，专注于提高模型在资源受限环境下的性能。该模型通过使用SparseMixer-v2来估计专家路由的梯度，与传统的MoE训练方法相比，GRIN-MoE在不依赖专家并行处理和令牌丢弃的情况下，实现了模型训练的扩展。它在编码和数学任务上表现尤为出色，适用于需要强推理能力的场景。

人工智能自然语言处理机器学习 +1

OneGen

OneGen

OneGen是一个为大型语言模型（LLMs）设计的高效单遍生成和检索框架，用于微调生成、检索或混合任务。它的核心思想是将生成和检索任务整合到同一上下文中，通过将检索任务分配给以自回归方式生成的检索令牌，使得LLM能够在单次前向传递中执行两种任务。这种方法不仅降低了部署成本，还显著减少了推理成本，因为它避免了对查询进行两次前向传递计算的需求。

自然语言处理大型语言模型生成任务 +2

Mistral-Small-Instruct-2409

Mistral-Small-Instruct-2409

Mistral-Small-Instruct-2409是由Mistral AI Team开发的一个具有22B参数的指令式微调AI模型，支持多种语言，并能够支持高达128k的序列长度。该模型特别适用于需要长文本处理和复杂指令理解的场景，如自然语言处理、机器学习等领域。

人工智能自然语言处理机器学习 +1

g1

g1是一个实验性的项目，旨在通过使用Llama-3.1 70b模型在Groq硬件上创建类似于OpenAI的o1模型的推理链。这个项目展示了仅通过提示技术，就可以显著提高现有开源模型在逻辑问题解决上的能力，而无需进行复杂的训练。g1通过可视化的推理步骤，帮助模型在逻辑问题上实现更准确的推理，这对于提高人工智能的逻辑推理能力具有重要意义。

人工智能开源模型逻辑推理 +2

Skywork-Reward-Llama-3.1-8B

Skywork-Reward-Llama-3.1-8B

Skywork-Reward-Llama-3.1-8B是一个基于Meta-Llama-3.1-8B-Instruct架构的先进奖励模型，使用Skywork Reward Data Collection进行训练，该数据集包含80K高质量的偏好对。模型在处理复杂场景中的偏好，包括具有挑战性的偏好对方面表现出色，覆盖数学、编程和安全性等多个领域。截至2024年9月，该模型在RewardBench排行榜上位列第三。

自然语言处理机器学习文本分类 +2

Flux Gym

Flux Gym

Flux Gym是一个为FLUX LoRA模型训练设计的简洁Web UI，特别适合只有12GB、16GB或20GB VRAM的设备使用。它结合了AI-Toolkit项目的易用性和Kohya Scripts的灵活性，使得用户无需复杂的终端操作即可进行模型训练。Flux Gym支持用户通过简单的界面上传图片和添加描述，然后启动训练过程。

机器学习模型训练 AI训练 +2

How Much VRAM

How Much VRAM

How Much VRAM 是一个开源项目，旨在帮助用户估算其模型在训练或推理过程中所需的显存量。通过这个项目，用户能够决定所需的硬件配置，而无需尝试多种配置。该项目对于需要进行深度学习模型训练的开发者和研究人员来说非常重要，因为它可以减少硬件选择的试错成本，提高效率。项目采用 MPL-2.0 许可协议，免费提供。

深度学习开源项目显存估算 +1

Phi-3.5-vision

Phi-3.5-vision

Phi-3.5-vision是微软开发的轻量级、最新一代的多模态模型，基于包括合成数据和经过筛选的公开可用网站在内的数据集构建，专注于文本和视觉的高质量、密集推理数据。该模型属于Phi-3模型家族，经过严格的增强过程，结合了监督微调和直接偏好优化，以确保精确的指令遵循和强大的安全措施。

机器学习文本生成多模态 +2

Phi-3.5-MoE-instruct

Phi-3.5-MoE-instruct

Phi-3.5-MoE-instruct是由微软开发的轻量级、多语言的AI模型，基于高质量、推理密集型数据构建，支持128K的上下文长度。该模型经过严格的增强过程，包括监督式微调、近端策略优化和直接偏好优化，以确保精确的指令遵循和强大的安全措施。它旨在加速语言和多模态模型的研究，作为生成性AI功能的构建模块。

AI 文本生成多语言 +2

T-MAC

T-MAC

T-MAC是一个内核库，通过使用查找表直接支持混合精度矩阵乘法，无需去量化操作，旨在加速CPU上的低比特大型语言模型推理。它支持多种低比特模型，包括GPTQ/gguf的W4A16、BitDistiller/EfficientQAT的W2A16以及OSX/Linux/Windows上的ARM/Intel CPU的BitNet W1(.58)A8。T-MAC在Surface Laptop 7上实现了3B BitNet的令牌生成吞吐量，单核每秒20个，四核每秒48个，比现有最先进的CPU低比特框架（llama.cpp）快4~5倍。

CPU优化低比特推理查找表 +1

Falcon Mamba

Falcon Mamba

Falcon Mamba是由阿布扎比技术创新研究所（TII）发布的首个无需注意力机制的7B大规模模型。该模型在处理大型序列时，不受序列长度增加导致的计算和存储成本增加的限制，同时保持了与现有最先进模型相当的性能。

高性能 Hugging Face 大型模型 +1

Gemma Scope

Gemma Scope

Gemma Scope是一套为Gemma 2的9B和2B模型设计的稀疏自编码器，它像显微镜一样帮助我们分析模型内部的激活，从而理解其背后的概念。这些自编码器可以用于研究模型的内部激活，类似于生物学家用显微镜研究植物和动物的细胞。

深度学习自编码器模型分析 +1

Meta-Llama-3.1-405B-Instruct-FP8

Meta-Llama-3.1-405B-Instruct-FP8

Meta Llama 3.1系列模型是一套预训练和指令调整的多语言大型语言模型（LLMs），包含8B、70B和405B三种规模的模型，专为多语言对话使用案例优化，性能优于许多开源和闭源聊天模型。

AI 多语言大型语言模型 +2

Mistral-Large-Instruct-2407

Mistral-Large-Instruct-2407

Mistral-Large-Instruct-2407是一个拥有123B参数的先进大型语言模型(LLM)，具备最新的推理、知识和编程能力。它支持多语言，包括中文、英语、法语等十种语言，并且在80多种编程语言上受过训练，如Python、Java等。此外，它还具备代理中心能力和先进的数学及推理能力。

多语言编程大型语言模型 +1

Aphrodite-engine

Aphrodite-engine

Aphrodite是PygmalionAI的官方后端引擎，旨在为PygmalionAI网站提供推理端点，并允许以极快的速度为大量用户提供Pygmalion模型服务。Aphrodite利用vLLM的分页注意力技术，实现了连续批处理、高效的键值管理、优化的CUDA内核等特性，支持多种量化方案，以提高推理性能。

语言模型分布式计算量化技术 +2

DCLM-baseline

DCLM-baseline

DCLM-baseline是一个用于语言模型基准测试的预训练数据集，包含4T个token和3B个文档。它通过精心策划的数据清洗、过滤和去重步骤，从Common Crawl数据集中提取，旨在展示数据策划在训练高效语言模型中的重要性。该数据集仅供研究使用，不适用于生产环境或特定领域的模型训练，如代码和数学。

自然语言处理语言模型数据集 +1

DCLM

DCLM

DataComp-LM (DCLM) 是一个为构建和训练大型语言模型（LLMs）而设计的综合性框架，提供了标准化的语料库、基于open_lm框架的高效预训练配方，以及超过50种评估方法。DCLM 支持研究人员在不同的计算规模上实验不同的数据集构建策略，从411M到7B参数模型。DCLM 通过优化的数据集设计显著提高了模型性能，并且已经促成了多个高质量数据集的创建，这些数据集在不同规模上表现优异，超越了所有开放数据集。

大型语言模型模型训练性能评估 +1

Mistral-Nemo-Instruct-2407

Mistral-Nemo-Instruct-2407

Mistral-Nemo-Instruct-2407是由Mistral AI和NVIDIA联合训练的大型语言模型（LLM），是Mistral-Nemo-Base-2407的指导微调版本。该模型在多语言和代码数据上进行了训练，显著优于大小相似或更小的现有模型。其主要特点包括：支持多语言和代码数据训练、128k上下文窗口、可替代Mistral 7B。模型架构包括40层、5120维、128头维、1436隐藏维、32个头、8个kv头（GQA）、2^17词汇量（约128k）、旋转嵌入（theta=1M）。该模型在多种基准测试中表现出色，如HellaSwag（0-shot）、Winogrande（0-shot）、OpenBookQA（0-shot）等。

自然语言处理多语言支持大型语言模型 +1

Mistral-Nemo-Base-2407

Mistral-Nemo-Base-2407

Mistral-Nemo-Base-2407是由Mistral AI和NVIDIA联合训练的12B参数大型预训练生成文本模型。该模型在多语言和代码数据上进行了训练，显著优于相同或更小规模的现有模型。其主要特点包括：Apache 2.0许可证发布，支持预训练和指令版本，128k上下文窗口训练，支持多种语言和代码数据，是Mistral 7B的替代品。模型架构包括40层、5120维、128头维、14364隐藏维、32头数、8个kv头（GQA）、词汇量约128k、旋转嵌入（theta=1M）。该模型在多个基准测试中表现出色，如HellaSwag、Winogrande、OpenBookQA等。

多语言支持文本生成代码生成 +1

Llama-3-70B-Tool-Use

Llama-3-70B-Tool-Use

Llama-3-70B-Tool-Use是一种70B参数量的大型语言模型，专为高级工具使用和功能调用任务设计。该模型在Berkeley功能调用排行榜（BFCL）上的总体准确率达到90.76%，表现优于所有开源的70B语言模型。该模型优化了变换器架构，并通过完整的微调和直接偏好优化（DPO）在Llama 3 70B基础模型上进行了训练。输入为文本，输出为文本，增强了工具使用和功能调用的能力。尽管其主要用途是工具使用和功能调用，但在一般知识或开放式任务中，可能更适用通用语言模型。该模型可能在某些情况下产生不准确或有偏见的内容，用户应注意实现适合其特定用例的适当安全措施。该模型对温度和top_p采样配置非常敏感。

大型语言模型微调工具使用 +3

Google Gemma 2

Google Gemma 2

Gemma 2是谷歌DeepMind推出的下一代开源AI模型，提供9亿和27亿参数版本，具有卓越的性能和推理效率，支持在不同硬件上以全精度高效运行，大幅降低部署成本。Gemma 2在27亿参数版本中，提供了两倍于其大小模型的竞争力，并且可以在单个NVIDIA H100 Tensor Core GPU或TPU主机上实现，显著降低部署成本。

开源深度学习 AI模型 +1

Tele-FLM

Tele-FLM

Tele-FLM（亦称FLM-2）是一个52亿参数的开源多语言大型语言模型，具有稳定高效的预训练范式和增强的事实判断能力。基于解码器仅变换器架构，已在大约2T的token上进行训练。Tele-FLM在同等规模上展现出优越的性能，有时甚至超越了更大的模型。除了分享模型权重外，我们还提供了核心设计、工程实践和训练细节，期待它们对学术界和工业界社区都有所裨益。

自然语言处理开源多语言支持 +1

Llama3-70B-SteerLM-RM

Llama3-70B-SteerLM-RM

Llama3-70B-SteerLM-RM是一个70亿参数的语言模型，用作属性预测模型，一个多方面的奖励模型，它在多个方面对模型响应进行评分，而不是传统奖励模型中的单一分数。该模型使用HelpSteer2数据集训练，并通过NVIDIA NeMo-Aligner进行训练，这是一个可扩展的工具包，用于高效和高效的模型对齐。

AI 语言模型 NVIDIA +2

MathBlackBox

MathBlackBox

MathBlackBox是一个深度学习模型，旨在探索数学问题解决的黑箱方法。它使用VLLM或其他OpenAI兼容的方法，通过Huggingface工具包和OpenAI进行推理，支持在Slurm环境下运行，并能够处理多种数据集。该项目目前处于早期阶段，需要充分测试后才能部署到实际产品中。

深度学习 OpenAI 数学模型 +1

ARC-AGI

ARC-AGI

ARC-AGI是一个旨在测试人工智能系统是否具备类似人类一般流体智力的抽象和推理能力的数据集。它由400个训练任务和400个评估任务组成，每个任务都以JSON格式存储，包括输入输出对。该数据集可以作为人工智能基准测试、程序合成基准测试或心理测量智力测试。

人工智能程序合成智力测试 +1

HippoRAG

HippoRAG

HippoRAG是一个启发自人类长期记忆的新型检索增强生成(RAG)框架，它使得大型语言模型(LLMs)能够持续地整合跨外部文档的知识。该框架通过实验表明，HippoRAG能够以更低的计算成本提供通常需要昂贵且高延迟迭代LLM流水线的RAG系统能力。

自然语言处理语言模型检索增强生成 +1

Aya-23-8B

Aya-23-8B

Aya-23-8B是由Cohere For AI开发的指令微调模型，具有23种语言的强大多语言能力，专注于将高性能预训练模型与Aya Collection结合，为研究人员提供高性能的多语言模型。

自然语言处理机器学习多语言

mistral-finetune

mistral-finetune

mistral-finetune是一个轻量级的代码库，它基于LoRA训练范式，允许在冻结大部分权重的情况下，只训练1-2%的额外权重，以低秩矩阵微扰的形式进行微调。它被优化用于多GPU单节点训练设置，对于较小模型，例如7B模型，单个GPU就足够了。该代码库旨在提供简单、有指导意义的微调入口，特别是在数据格式化方面，并不旨在涵盖多种模型架构或硬件类型。

微调模型优化 LoRA +1

Dolphin 2.9.1 Mixtral 1x22b

Dolphin 2.9.1 Mixtral 1x22b

Dolphin 2.9.1 Mixtral 1x22b是由Cognitive Computations团队精心训练和策划的AI模型，基于Dolphin-2.9-Mixtral-8x22b版本，拥有Apache-2.0许可。该模型具备64k上下文容量，通过16k序列长度的全权重微调，经过27小时在8个H100 GPU上的训练完成。Dolphin 2.9.1具有多样的指令、对话和编码技能，还具备初步的代理能力和支持函数调用。该模型未进行审查，数据集已过滤去除对齐和偏见，使其更加合规。建议在作为服务公开之前，实施自己的对齐层。

文本生成 AI模型编程辅助 +1

llama3-from-scratch

llama3-from-scratch

这是一个开源项目，作者naklecha从零开始实现了Llama3模型，这是一个大型语言模型。项目提供了详细的代码实现，包括模型的各个组成部分，如注意力机制、前馈网络等。通过这个项目，开发者可以深入理解大型语言模型的工作原理，同时也可以在此基础上进行自己的实验和改进。

自然语言处理深度学习模型实现

Gemma-2B-10M

Gemma-2B-10M

Gemma 2B - 10M Context是一个大规模的语言模型，它通过创新的注意力机制优化，能够在内存使用低于32GB的情况下处理长达10M的序列。该模型采用了循环局部注意力技术，灵感来源于Transformer-XL论文，是处理大规模语言任务的强大工具。

文本生成语言模型注意力机制 +2

phi3-Chinese

phi3-Chinese

phi3-Chinese是一个公共的GitHub仓库，专注于收集和整理开源社区中关于phi3模型的各种训练变体版本。它不仅提供了不同版本的phi3模型下载链接，还包含了训练、推理、部署的相关教程，旨在帮助开发者更好地理解和使用phi3模型。

人工智能自然语言处理机器学习 +1

LLaVA++

LLaVA++

LLaVA++是一个开源项目，旨在通过集成Phi-3和LLaMA-3模型来扩展LLaVA模型的视觉能力。该项目由Mohamed bin Zayed University of AI (MBZUAI)的研究人员开发，通过结合最新的大型语言模型，增强了模型在遵循指令和学术任务导向数据集上的表现。

人工智能自然语言处理机器学习 +2

Bunny

Bunny

Bunny 是一系列轻量级但功能强大的多模态模型，提供多种即插即用的视图编码器和语言主干网络。通过从更广泛的数据源进行精选选择，构建更丰富的训练数据，以补偿模型尺寸的减小。Bunny-v1.0-3B 模型在性能上超越了同类大小甚至更大的 MLLMs（7B）模型，并与 13B 模型性能相当。

人工智能机器学习深度学习 +1

Phi-3-mini-128k-instruct-onnx

Phi-3-mini-128k-instruct-onnx

Phi-3 Mini是一个轻量级的顶尖开源模型,建立在Phi-2使用的合成数据和过滤网站之上,专注于高质量的推理密集型数据。这个模型属于Phi-3系列,mini版本有两个变体支持4K和128K上下文长度。该模型经过了严格的增强过程,包括监督式微调和直接偏好优化,以确保精准遵循指令和强大的安全措施。这些经过ONNX优化的Phi-3 Mini模型可在CPU、GPU和移动设备上高效运行。微软还推出了ONNX Runtime Generate() API,简化了Phi-3的使用。

自然语言处理大型语言模型 ONNX +3

Phi-3-mini-4k-instruct-onnx

Phi-3-mini-4k-instruct-onnx

Phi-3 Mini是一款轻量级的最先进的开源大模型,构建于用于Phi-2的合成数据和过滤网站数据之上,致力于提供极高质量、推理密集型的数据。该模型经过了严格的增强过程,结合了监督式微调和直接偏好优化,以确保精确遵循指令和强大的安全措施。该仓库提供了Phi-3 Mini的优化ONNX版本,可通过ONNX Runtime在CPU和GPU上进行加速推理,支持服务器、Windows、Linux、Mac等多种平台,并针对每个平台提供最佳精度配置。ONNX Runtime的DirectML支持还可让开发人员在AMD、英特尔和NVIDIA GPU驱动的Windows设备上实现大规模硬件加速。

自然语言处理大模型 ONNX +3

Intel NPU Acceleration Library

Intel NPU Acceleration Library

Intel NPU Acceleration Library是英特尔为神经处理单元（NPU）开发的加速库，旨在提高深度学习和机器学习应用的性能。该库提供了针对英特尔硬件优化的算法和工具，支持多种深度学习框架，能够显著提升模型的推理速度和效率。

机器学习深度学习硬件加速 +1

C3PO

C3PO

C3PO 是一种基于用户反馈的 LLM 模型对齐技术，可以从单个反馈句子中对 LLM 进行调整，避免过度概括化。该技术提供了参考实现、相关基准线和必要组件，方便研究论文中提出的技术。

用户反馈微调技术 LLM 模型

OpenDiT

OpenDiT

OpenDiT是一个开源项目，提供了一个基于Colossal-AI的Diffusion Transformer(DiT)的高性能实现，专为增强DiT应用（包括文本到视频生成和文本到图像生成）的训练和推理效率而设计。OpenDiT通过以下技术提升性能：在GPU上高达80%的加速和50%的内存减少；包括FlashAttention、Fused AdaLN和Fused layernorm核心优化；包括ZeRO、Gemini和DDP的混合并行方法，还有对ema模型进行分片进一步降低内存成本；FastSeq：一种新颖的序列并行方法，特别适用于DiT等工作负载，其中激活大小较大但参数大小较小；单节点序列并行可以节省高达48%的通信成本；突破单个GPU的内存限制，减少整体训练和推理时间；通过少量代码修改获得巨大性能改进；用户无需了解分布式训练的实现细节；完整的文本到图像和文本到视频生成流程；研究人员和工程师可以轻松使用和调整我们的流程到实际应用中，无需修改并行部分；在ImageNet上进行文本到图像训练并发布检查点。

文本到图像推理文本到视频 +2

MobiLlama

MobiLlama

MobiLlama是一个为资源受限设备设计的小型语言模型（SLM），它旨在提供准确且轻量级的解决方案，以满足设备上的处理需求、能效、低内存占用和响应效率。MobiLlama从更大的模型出发，通过精心设计的参数共享方案来降低预训练和部署成本。

资源优化小型语言模型边缘设备

Learning Universal Predictors

Learning Universal Predictors

通用预测学习器是一种利用元学习的强大方法，能够快速从有限数据中学习新任务。通过广泛接触不同的任务，可以获得通用的表示，从而实现通用问题解决。本产品探索了将最强大的通用预测器——Solomonoff归纳（SI）——通过元学习的方式进行摊销的潜力。我们利用通用图灵机（UTM）生成训练数据，让网络接触到广泛的模式。我们提供了UTM数据生成过程和元训练协议的理论分析。我们使用不同复杂度和普适性的算法数据生成器对神经架构（如LSTM、Transformer）进行了全面的实验。我们的结果表明，UTM数据是元学习的宝贵资源，可以用来训练能够学习通用预测策略的神经网络。

神经网络元学习通用预测 +1

FP6-LLM

FP6-LLM

FP6-LLM是一种用于大型语言模型的全新支持方案，通过六位量化（FP6）有效地减小了模型大小，并在各种应用中始终保持模型质量。我们提出了TC-FPx，这是第一个完整的GPU内核设计方案，统一支持各种量化位宽的浮点权重。我们将TC-FPx内核集成到现有推理系统中，为量化的LLM推理提供了全新的端到端支持（称为FP6-LLM），实现了推理成本和模型质量之间更好的权衡。实验证明，FP6-LLM使得使用单个GPU进行LLaMA-70b推理成为可能，实现的规范化推理吞吐量比FP16基准高1.69倍至2.65倍。

大型语言模型量化模型 GPU推理

SpacTor-T5

SpacTor-T5

SpacTor是一种新的训练程序，包括（1）结合了段落破坏（SC）和标记替换检测（RTD）的混合目标，以及（2）一个两阶段课程，该课程在初始tau次迭代中优化混合目标，然后过渡到标准的SC损失。我们在多种NLP任务上进行了实验，使用编码器-解码器架构（T5），SpacTor-T5在下游性能方面与标准的SC预训练相当，同时减少了50%的预训练迭代次数和40%的总FLOPs。另外，在相同的计算预算下，我们发现SpacTor能够显著提高下游基准性能。

预训练模型 NLP 编码器-解码器

Zero Bubble Pipeline Parallelism

Zero Bubble Pipeline Parallelism

Zero Bubble Pipeline Parallelism是大规模分布式训练的关键组成部分之一，其效率受到管道泡沫的影响。我们引入了一种调度策略，成功实现了在同步训练语义下零管道泡沫。这一改进的关键思想是将反向计算分为两部分，一部分计算输入的梯度，另一部分计算参数的梯度。基于这一思想，我们手工设计了新颖的管道调度，明显优于基准方法。我们进一步开发了一种算法，根据特定模型配置和内存限制自动找到最佳调度。此外，为了真正实现零泡泡，我们引入了一种新颖的技术，在优化器步骤期间绕过同步。实验评估表明，我们的方法在类似内存限制下的吞吐量比1F1B调度高出了最多23%。当内存约束放宽时，这一数字可以进一步提高至31%。我们相信我们的结果标志着在发挥管道并行潜力方面迈出了重要的一步。

分布式训练管道并行调度策略

SwiftInfer

SwiftInfer

SwiftInfer是一个基于Nvidia TensorRT框架的大规模语言模型(LLM)推理加速库,通过GPU加速,极大提升LLM在生产环境中的推理性能。该项目针对流式语言模型提出的Attention Sink机制进行了实现,支持无限长度的文本生成。代码简洁,运行方便,支持主流的大规模语言模型。

聊天机器人开发编程智能聊天 +1

promptbench

promptbench

PromptBench是一个基于Pytorch的Python包,用于评估大型语言模型(LLM)。它为研究人员提供了用户友好的API,以便对LLM进行评估。主要功能包括:快速模型性能评估、提示工程、对抗提示评估以及动态评估等。优势是使用简单,可以快速上手评估已有数据集和模型,也可以轻松定制自己的数据集和模型。定位为LLM评估的统一开源库。

ChatGPT 大型语言模型评估 +5

Eureka

Eureka

Eureka是一种人类级奖励设计算法，通过编码大型语言模型实现。它利用最先进的语言模型（如GPT-4）的零样本生成、编写代码和上下文改进能力，对奖励代码进行进化优化。生成的奖励可以用于通过强化学习获得复杂的技能。Eureka生成的奖励函数在29个开源强化学习环境中，包括10种不同的机器人形态，优于人类专家设计的奖励函数。Eureka还能够灵活地改进奖励函数，以提高生成奖励的质量和安全性。通过与课程学习相结合，使用Eureka奖励函数，我们首次展示了一个模拟的Shadow Hand能够进行旋转笔的技巧，熟练地以快速的速度在圆圈中操纵笔。

语言模型强化学习奖励设计

Flash-Decoding

Flash-Decoding

Flash-Decoding是一种针对长上下文推理的技术，可以显著加速推理中的注意力机制，从而使生成速度提高8倍。该技术通过并行加载键和值，然后分别重新缩放和组合结果来维护正确的注意力输出，从而实现了更快的推理速度。Flash-Decoding适用于大型语言模型，可以处理长文档、长对话或整个代码库等长上下文。Flash-Decoding已经在FlashAttention包和xFormers中提供，可以自动选择Flash-Decoding或FlashAttention方法，也可以使用高效的Triton内核。

语言模型推理注意力机制 +2

Teachable Machine

Teachable Machine

Teachable Machine是一个基于网页的工具,使用户可以快速轻松地创建机器学习模型,无需专业知识或编码能力。用户只需收集并整理样本数据,Teachable Machine将自动训练模型,然后用户可以测试模型准确性,最后将模型导出使用。

机器学习开发编程训练 +2

相关子分类

探索编程分类下的其他子分类

开发与工具

768 个工具

AI模型

465 个工具

代码助手

368 个工具

AI开发助手

294 个工具

模型训练与部署

140 个工具

AI代码助手

85 个工具

开发平台

66 个工具

研究工具

61 个工具

💻

探索更多编程工具

AI模型推理训练是编程分类下的热门子分类，包含 53 个优质AI工具

浏览编程分类分类