Docling简单使用

日常工作中,会有从docx文件或者pdf文件中提取信息的需求。一般的,在提取docx时,我是用的是python-docx库;而提取pdf时,使用的是PyPDF2

新的工具Docling,号称可以支持读取多种流行的文档格式(PDF、DOCX、PPTX、图像、HTML、AsciiDoc、Markdown),并支持导出为Markdown和JSON格式。还支持OCR识别扫描件的pdf(需额外安装EasyOCR等OCR引擎)。

Docling的安装

pip install docling

docx提取

import json
from docling.document_converter import DocumentConverter

source = "test.docx"
converter = DocumentConverter()
result = converter.convert(source)
with open("output.json", "w", encoding="utf-8") as f:
    f.write(json.dumps(result.document.export_to_dict()))

总结

1,项目仍在起步阶段,文档非常简陋,不清晰;

2,当前是在安装了MsOffice的Windows电脑下测试的,不清楚对于docx的提取是否必须要安装了MsOffice;

3,Pdf提取调用的好像是pypdfium2

4,目前来说没有将docx提取迁移到这个项目的欲望。