Name: Google Vision Transformer
Brand: Google Vision Transformer
Availability: InStock

产品详情

Google Vision Transformer 是一款基于 Transformer 编码器的图像识别模型，使用大规模图像数据进行预训练，可用于图像分类等任务。该模型在 ImageNet-21k 数据集上进行了预训练，并在 ImageNet 数据集上进行了微调，具备良好的图像特征提取能力。该模型通过将图像切分为固定大小的图像块，并线性嵌入这些图像块来处理图像数据。同时，模型在输入序列前添加了位置编码，以便在 Transformer 编码器中处理序列数据。用户可以通过在预训练的编码器之上添加线性层进行图像分类等任务。Google Vision Transformer 的优势在于其强大的图像特征学习能力和广泛的适用性。该模型免费提供使用。

主要功能

1

基于 Transformer 的图像特征提取

2

支持图像分类等任务

3

预训练模型可用于迁移学习

4

适用于大规模图像数据

适用人群

适用于图像分类、目标检测和图像分割等场景

Google Vision Transformer

产品详情

主要功能

适用人群

快速访问

所属分类