-->
共找到 7 个AI工具
点击任意工具查看详细信息
EAGLE是一个面向视觉中心的高分辨率多模态大型语言模型(LLM)系列,通过混合视觉编码器和不同输入分辨率来加强多模态LLM的感知能力。该模型包含基于通道连接的'CLIP+X'融合,适用于具有不同架构(ViT/ConvNets)和知识(检测/分割/OCR/SSL)的视觉专家。EAGLE模型家族支持超过1K的输入分辨率,并在多模态LLM基准测试中取得了优异的成绩,特别是在对分辨率敏感的任务上,如光学字符识别和文档理解。
labelU-Kit 是一个开源的前端标注组件库,提供图片、视频和音频的标注功能,支持2D框、点、线、多边形、立体框等多种标注方式。它以NPM包的形式提供,方便开发者集成到自己的标注平台中,提高数据标注的效率和灵活性。
OnnxOCR是基于PaddleOCR重构的轻量级OCR模型,它脱离了PaddlePaddle深度学习训练框架,实现了快速的推理速度。该模型支持超过80种语言的推理,并在转换为ONNX模型后,推理速度比使用PaddlePaddle框架快5倍。OnnxOCR独立于深度学习训练框架,可以直接部署,适用于计算能力有限但需要保持准确性的场景,并且可以在ARM和x86架构的计算机上部署。
JavaVision是一个基于Java开发的全能视觉智能识别项目,它不仅实现了PaddleOCR-V4、YoloV8物体识别、人脸识别、以图搜图等核心功能,还可以轻松扩展到其他领域,如语音识别、动物识别、安防检查等。项目特点包括使用SpringBoot框架、多功能性、高性能、可靠稳定、易于集成和灵活可拓展。JavaVision旨在为Java开发者提供一个全面的视觉智能识别解决方案,让他们能够以熟悉且喜爱的编程语言构建出先进、可靠且易于集成的AI应用。
PetThoughts是一个基于Gemini API构建的图像识别应用程序。用户可以上传宠物的照片,应用程序会通过智能分析宠物的面部表情和环境,推测它可能在想些什么。该应用程序具有图像识别、面部分析、环境分析等功能,能准确识别宠物的面部表情,分析其可能的情绪状态,同时结合环境推断宠物的活动,最后通过自然语言处理技术,将识别结果转换成可读的文本描述。该应用提供简洁直观的用户界面,使用户可以轻松上传照片并获得宠物分析结果。它可以帮助用户更深入地理解宠物的情感和偏好。
Surya是一个多语言文档OCR工具包,具有准确的逐行文本检测功能。它在一系列文档和语言上都有效(参见使用和基准测试以获取更多细节)。Surya的命名源自印度太阳神,象征着具有普遍视野。Surya通过Python 3.9+和PyTorch实现,支持多种语言的高效OCR处理,包括图像动画和个性化T2I模型。Surya的特点是其高效性和多语言支持能力。
MakeML是一个无需编写任何代码就可以搭建图像目标检测神经网络的开发工具。它提供了一个简单易用的图形界面,用户只需上传训练集图片,绘制bounding box,设置参数,就可以训练出一个高效的目标检测模型,并导出成CoreML格式在iOS App中使用。MakeML解决了神经网络开发门槛高的痛点,不需要任何机器学习或编程知识,就可以获得强大的深度学习能力。
探索 编程 分类下的其他子分类
768 个工具
465 个工具
368 个工具
294 个工具
140 个工具
85 个工具
66 个工具
61 个工具
AI图像检测识别 是 编程 分类下的热门子分类,包含 7 个优质AI工具