常州机器视觉培训

常州上位机软件开发

常州工业机器人编程设计培训

常州PLC培训

常州PLC

常州PLC编程培训

常州电工培训

常州和讯plc培训中心欢迎您!
热门课程
联系方式
  • 常州和讯自动化培训中心
  • 常州市新北区府琛商务广场2号楼1409室
  • 电话:0519-85602926
  • 手机:15861139266 13401342299
当前位置:网站首页 > 新闻中心 新闻中心
只需2行代码,轻松将PDF转换成Word-常州上位机培训,常州机器视觉培训
日期:2024-3-1 16:39:18人气:  标签:常州上位机培训 常州机器视觉培训

可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文件。


pdf2docx功能

- 解析和创建页面布局

  - 页边距

  - 章节和分栏 (目前最多支持两栏布局)

  - 页眉和页脚 [TODO]


- 解析和创建段落

  - OCR 文本 [TODO] 

  - 水平(从左到右)或竖直(自底向上)方向文本

  - 字体样式例如字体、字号、粗/斜体、颜色

  - 文本样式例如高亮、下划线和删除线

  - 列表样式 [TODO]

  - 外部超链接

  - 段落水平对齐方式 (左/右/居中/分散对齐)及前后间距


- 解析和创建图片

  - 内联图片

    - 灰度/RGB/CMYK等颜色空间图片

    - 带有透明通道图片

    - 浮动图片(衬于文字下方)


- 解析和创建表格

  - 边框样式例如宽度和颜色

  - 单元格背景色

  - 合并单元格

  - 单元格垂直文本

  - 隐藏部分边框线的表格

  - 嵌套表格


- 支持多进程转换

pdf2docx同时解析出了表格内容和样式,因此也可以作为一个表格内容提取工具。


限制

- 目前暂不支持扫描PDF文字识别

- 仅支持从左向右书写的语言(因此不支持阿拉伯语)

- 不支持旋转的文字

- 基于规则的解析无法保证100%还原PDF样式


安装

pip install pdf2docx


案例

from pdf2docx import parse


pdf_file = '/path/to/sample.pdf'

docx_file = 'path/to/sample.docx'


# convert pdf to docx

parse(pdf_file, docx_file)

Run

1709103180.png

本文网址:
下一篇:没有资料

相关信息:
版权所有 CopyRight 2006-2017 江苏和讯自动化设备有限公司 常州自动化培训中心 电话:0519-85602926 地址:常州市新北区府琛商务广场2号楼1409室
苏ICP备14016686号-2 技术支持:常州山水网络
本站关键词:常州PLC培训 常州PLC编程培训 常州PLC编程 常州PLC培训班 网站地图 网站标签
在线与我们取得联系