💻 编程

gmft

gmft是一个用于将PDF中的表格转换为多种格式的工具包。它轻量级、模块化且性能优越。gmft依赖于微软的Table Transformers,这是众多替代方案中性能最好、最可靠的。gmft无需GPU即可运行,具有高吞吐量,并且安装简便,仅需一行代码即可完成安装。它使用PyPDFium2,因其高吞吐量和宽松的许可证而受到青睐。gmft使用的训练模型TATR在多样化的数据集PubTables-1M上训练,具有高可靠性。

#机器学习
#数据转换
#PDF处理
#表格提取
定价: 免费
gmft

产品详情

轻量级、高性能的深度PDF表格提取工具

主要功能

1
支持将PDF表格转换为Pandas DataFrame等多种格式
2
能够输出表格的文本和位置列表
3
支持输出表格的裁剪图像
4
支持表格标题的提取
5
无需OCR即可快速提取表格,适用于图像和扫描PDF
6
通过PyPDFium2实现高吞吐量的PDF处理
7
可配置性强,支持自定义模型和提取方法

使用教程

1
安装gmft:在命令行中输入`pip install gmft`进行安装
2
导入必要的模块:在Python脚本中导入`CroppedTable, TableDetector, AutoTableFormatter`等
3
创建PyPDFium2Document对象:使用待提取表格的PDF文件路径创建文档对象
4
使用TableDetector进行表格检测:遍历文档的每一页,使用detector提取表格
5
使用AutoTableFormatter格式化表格:将检测到的表格进行格式化处理
6
将提取的表格数据转换为所需格式:例如转换为Pandas DataFrame或其他支持的格式
7
关闭文档对象:完成提取后,调用文档对象的close方法释放资源

使用示例

数据分析师使用gmft从研究报告中提取数据进行进一步分析

研究人员利用gmft从学术论文中提取实验数据

企业用户通过gmft自动化从合同文档中提取表格数据的过程

快速访问

访问官网 →

所属分类

💻 编程
› AI工具网址目录
› AI PDF

相关推荐

发现更多类似的优质AI工具

query-key

query-key

QAbot-zh/query-key是一个纯前端API检测工具,它支持多种API格式的测活,如oneapi/newapi等,并且能够检测openai格式的API。这个工具的主要优点在于它的纯前端实现,用户无需担心网关超时问题,同时保证了数据的安全性。它还提供了测活数据的完整展示,包括响应时间和模型一致性,使得用户可以直观地了解API的性能。此外,它支持本地一键运行和pages在线托管,方便用户快速部署和使用。

数据安全 API检测
💻 编程
ComfyUI-Nexus

ComfyUI-Nexus

ComfyUI-Nexus 是一个为 ComfyUI 定制的节点,旨在实现多人协作工作流的无缝集成。它允许多个用户同时在同一工作流上工作,支持本地和远程访问,并通过实时聊天功能加强团队协作。该插件还具备管理员权限控制、工作流备份等功能,确保团队工作流程的顺畅和高效。

协作 工作流
💻 编程
SaltAI Language Toolkit

SaltAI Language Toolkit

SaltAI Language Toolkit 是一个集成了检索增强生成(RAG)工具 Llama-Index、微软的 AutoGen 和 LlaVA-Next 的项目,通过 ComfyUI 的可适应节点接口,增强了平台的功能和用户体验。该项目于2024年5月9日增加了代理功能。

语言模型 ComfyUI
💻 编程
Praison AI

Praison AI

Praison AI 是一个低代码的集中式框架,旨在简化各种大型语言模型(LLM)应用的多代理系统的创建和编排。它强调易用性、可定制性和人机交互。Praison AI 利用 AutoGen 和 CrewAI 或其他代理框架,通过预定义的角色和任务来实现复杂的自动化任务。用户可以通过命令行界面或用户界面与代理进行交互,创建自定义工具,并通过多种方式扩展其功能。

自动化 大型语言模型
💻 编程
AskAITools Community Edition

AskAITools Community Edition

AskAITools是一个为AI产品领域量身定制的前沿搜索引擎项目,旨在通过提供最准确、全面、快速和智能的搜索体验,彻底改变用户发现AI产品的方式。该项目包含商业版和社区版,社区版提供了基本的前端界面和搜索功能,并且代码完全开源。AskAITools采用混合搜索引擎架构,结合了关键词搜索和语义搜索能力,通过统计数据和加权融合技术,实现了相关性和流行度的平衡。

AI 工具
💻 编程
Awesome-Cluade-Artifacts

Awesome-Cluade-Artifacts

Awesome-Cluade-Artifacts 是一个GitHub仓库,致力于收集和展示由Anthropic的AI助手Claude在对话中生成的有趣、实质性的内容。这些内容可以是代码片段、Markdown文档、HTML页面、SVG图像、Mermaid图表或React组件等。这个平台鼓励社区成员分享他们认为有趣、有用或有创意的Claude Artifacts,并提供了详细的贡献指南。

设计 创意
💻 编程
Xterminal

Xterminal

Xterminal是一款集成了SSH、本地控制台、AI赋能命令提示等功能的高效开发工具,旨在为开发者提供更便捷的开发环境。它支持多种操作系统,包括Windows、macOS和Linux,拥有免安装版本和兼容旧版系统的版本,满足不同用户的需求。

AI 开发工具
💻 编程
Awesome-ChatTTS

Awesome-ChatTTS

Awesome-ChatTTS是一个开源项目,旨在为ChatTTS项目提供常见问题解答和相关资源汇总,帮助用户快速入门并解决在使用过程中可能遇到的问题。该项目不仅整理了详细的安装指南和参数说明,还提供了多种音色种子的示例,以及视频教程等辅助材料。

语音合成 开源项目
💻 编程
transformers.js

transformers.js

transformers.js 是一个JavaScript库,旨在为网页提供先进的机器学习能力。它允许用户在浏览器中直接运行预训练的Transformers模型,无需服务器支持。该库使用ONNX Runtime作为后端,支持将PyTorch、TensorFlow或JAX模型转换为ONNX格式。transformers.js 与 Hugging Face 的 transformers Python 库功能等价,提供相似的API,使得开发者能够轻松地将现有代码迁移到网页端。

机器学习 Transformers
💻 编程
ShellGPT

ShellGPT

shell_gpt利用AI大型语言模型的强大能力,通过命令行界面提供辅助,使用户能够通过自然语言指令来执行任务,提高工作效率和效率。

开发编程 GPT-4
💻 编程
Awesome-gptlike-shellsite

Awesome-gptlike-shellsite

本指南涵盖从选择套壳站、部署流程、订阅API、运营策略等全方位内容,助您快速部署属于自己的GPT服务,实现平台商业化。

ChatGPT API
💻 编程
GeminiProChat

GeminiProChat

GeminiProChat是GeminiPro的最小化Web界面,提供简洁有效的聊天体验。它支持通过环境变量来控制网站,允许使用者通过Docker部署,并提供易于部署的Vercel和Railway选项。GeminiProChat是一个灵活的工具,适用于需要简单、高效聊天界面的用户。

开发编程 Web界面
💻 编程
Prompt Joy

Prompt Joy

Prompt Joy是一个用于帮助理解和调试LLM(大语言模型)提示的工具。主要功能包括日志记录和分割测试。日志记录可以记录LLM的请求与响应,便于检查输出结果。分割测试可以轻松进行A/B测试,找出效果最佳的提示。它与具体的LLM解耦,可以配合OpenAI、Anthropic等LLM使用。它提供了日志和分割测试的API。采用Node.js+PostgreSQL构建。

AI LLM
💻 编程
英特尔AI工具

英特尔AI工具

Intel Developer Zone是一个面向开发者的平台,提供各种软件工具、开发产品、解决方案等。开发者可以探索各种工具和技术,连接其他开发者,管理自己的产品等。平台覆盖人工智能、云计算、边缘计算、游戏开发、图形媒体处理等多个领域,提供代码示例、文档、论坛等资源。

开发编程 Ai开放平台
💻 编程