-->
共找到 4 个AI工具
点击任意工具查看详细信息
SA-V Dataset是一个专为训练通用目标分割模型设计的开放世界视频数据集,包含51K个多样化视频和643K个时空分割掩模(masklets)。该数据集用于计算机视觉研究,允许在CC BY 4.0许可下使用。视频内容多样,包括地点、对象和场景等主题,掩模从建筑物等大规模对象到室内装饰等细节不等。
emo-visual-data 是一个公开的表情包视觉标注数据集,它通过使用 glm-4v 和 step-free-api 项目完成的视觉标注,收集了5329个表情包。这个数据集可以用于训练和测试多模态大模型,对于理解图像内容和文本描述之间的关系具有重要意义。
ImageInWords (IIW) 是一个由人类参与的循环注释框架,用于策划超详细的图像描述,并生成一个新的数据集。该数据集通过评估自动化和人类并行(SxS)指标来实现最先进的结果。IIW 数据集在生成描述时,比以往的数据集和GPT-4V输出在多个维度上有了显著提升,包括可读性、全面性、特异性、幻觉和人类相似度。此外,使用IIW数据微调的模型在文本到图像生成和视觉语言推理方面表现出色,能够生成更接近原始图像的描述。
CelebV-Text是一个大规模、高质量、多样化的人脸文本-视频数据集,旨在促进人脸文本-视频生成任务的研究。数据集包含70,000个野外人脸视频剪辑,每个视频剪辑都配有20个文本,涵盖40种一般外观、5种详细外观、6种光照条件、37种动作、8种情绪和6种光线方向。CelebV-Text通过全面的统计分析验证了其在视频、文本和文本-视频相关性方面的优越性,并构建了一个基准来标准化人脸文本-视频生成任务的评估。
探索 图像 分类下的其他子分类
832 个工具
771 个工具
543 个工具
522 个工具
352 个工具
196 个工具
95 个工具
68 个工具
AI数据集 是 图像 分类下的热门子分类,包含 4 个优质AI工具