日常工作中,会有从docx文件或者pdf文件中提取信息的需求。一般的,在提取docx时,我是用的是python-docx库;而提取pdf时,使用的是PyPDF2。
新的工具Docling,号称可以支持读取多种流行的文档格式(PDF、DOCX、PPTX、图像、HTML、AsciiDoc、Markdown),并支持导出为Markdown和JSON格式。还支持OCR识别扫描件的pdf(需额外安装EasyOCR等OCR引擎)。
Docling的安装
pip install docling
docx提取
import json
from docling.document_converter import DocumentConverter
source = "test.docx"
converter = DocumentConverter()
result = converter.convert(source)
with open("output.json", "w", encoding="utf-8") as f:
f.write(json.dumps(result.document.export_to_dict()))
总结
1,项目仍在起步阶段,文档非常简陋,不清晰;
2,当前是在安装了MsOffice的Windows电脑下测试的,不清楚对于docx的提取是否必须要安装了MsOffice;
3,Pdf提取调用的好像是pypdfium2;
4,目前来说没有将docx提取迁移到这个项目的欲望。