Docling简单使用

日常工作中，会有从docx文件或者pdf文件中提取信息的需求。一般的，在提取docx时，我是用的是python-docx库；而提取pdf时，使用的是PyPDF2。

新的工具Docling，号称可以支持读取多种流行的文档格式（PDF、DOCX、PPTX、图像、HTML、AsciiDoc、Markdown），并支持导出为Markdown和JSON格式。还支持OCR识别扫描件的pdf（需额外安装EasyOCR等OCR引擎）。

Docling的安装

pip install docling

docx提取

import json
from docling.document_converter import DocumentConverter

source = "test.docx"
converter = DocumentConverter()
result = converter.convert(source)
with open("output.json", "w", encoding="utf-8") as f:
    f.write(json.dumps(result.document.export_to_dict()))

总结

1，项目仍在起步阶段，文档非常简陋，不清晰；

2，当前是在安装了MsOffice的Windows电脑下测试的，不清楚对于docx的提取是否必须要安装了MsOffice；

3，Pdf提取调用的好像是pypdfium2；

4，目前来说没有将docx提取迁移到这个项目的欲望。

上篇MNV/MNP合并

下篇部署FLUX和Forge