如何自动将pdf表单字段导出到xml

 静-静-静距离 发布于 2023-02-05 06:06

我有一个pdf包含表单字段的文件,需要将数据导出到AUTOMATICALLYxml文件中.这是我为测试创建的示例表单的屏幕:

在此输入图像描述

注意:通过单击手动使用Acrobat Professional 手动导出它Tools > Form > Export Form Data,最后选择xml扩展名进行文件输出.这是我手动导出时得到的结果:



    John
    Doe

但是,我需要自动化它,例如使用python脚本,Java实现或一些命令行工具.我可以使用哪些库或工具将表单字段数据导出到xml?该工具或库应该是开源的,我可以将它集成到我的工作流程中.

我已经尝试过python pdfminer库,它帮助我导出pdf文件的静态部分(比如Static form header,First name:Last name:):但是如何导出表单字段数据(在我的情况下是表单字段的内容first_namelast_name)?

编辑:随意下载sample.pdf文件在这里.

1 个回答
  • 怎么样的Apache PDFBox的?它是开源的,可以满足您的需求,因为该网站说"从PDF表单中提取表单数据或预填充PDF表单".

    编辑:查看PrintFields示例.

    2023-02-05 06:39 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有