📁 人工智能 / 图像识别

Google Vision Transformer

Google Vision Transformer 是一款基于 Transformer 编码器的图像识别模型,使用大规模图像数据进行预训练,可用于图像分类等任务。该模型在 ImageNet-21k 数据集上进行了预训练,并在 ImageNet 数据集上进行了微调,具备良好的图像特征提取能力。该模型通过将图像切分为固定大小的图像块,并线性嵌入这些图像块来处理图像数据。同时,模型在输入序列前添加了位置编码,以便在 Transformer 编码器中处理序列数据。用户可以通过在预训练的编码器之上添加线性层进行图像分类等任务。Google Vision Transformer 的优势在于其强大的图像特征学习能力和广泛的适用性。该模型免费提供使用。

#人工智能
#深度学习
#图像识别
#预训练模型
#Transformer
定价: 免费试用
Google Vision Transformer

产品详情

基于 Transformer 的图像识别模型

主要功能

1
基于 Transformer 的图像特征提取
2
支持图像分类等任务
3
预训练模型可用于迁移学习
4
适用于大规模图像数据

快速访问

访问官网 →

所属分类

📁 人工智能 / 图像识别
› AI模型
› AI图像检测识别