KI-Dokumentanalyse: Arbeiten mit der Python-Bibliothek Deepdoctection

Wer Deep Learning zur automatisierten Dokumentenanayse einsetzt, braucht Zugriff auf verschiedene Techniken und KI-Modelle. Deepdoctection vereinheitlicht das.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
Lesezeit: 5 Min.
Von
  • Dr. Janis Meyer
Inhaltsverzeichnis

Document AI ist KI für Papierkram. Dabei geht es also mal nicht um aufregende Bildgeneratoren und neunmalkluge Chatbots, sondern darum, PDF-Anhänge in E-Mails zu klassifizieren, Dokumentenstapel in Einzeldokumente zu zerlegen oder in Rechnungen zu erkennen, wo die Artikelpositionen zu finden sind. Auch das Parsen von Dokumenten, Tabellenextraktion und optische Zeichenerkennung (OCR) gehören in dieses Umfeld. Damit deutet sich schon an, dass sich Document AI aus einem Sammelsurium aller möglichen Techniken bedient. Und hier kommt Deepdoctection ins Spiel, eine Python-Bibliothek unter der Apache-2-Lizenz, die bei der Extraktion von Informationen aus Dokumenten – PDFs oder Scans – unterstützt und Struktur in die Arbeitsabläufe bringt.

In konkreten Anwendungen zur Analyse von Dokumenten geht es darum, mehrere Modelle in einer bestimmten Abfolge aufzurufen. So parsen Objektdetektoren ein Dokument und grenzen Elemente wie Titel, Tabellenrahmen oder Fließtext voneinander ab. Ein OCR-Modell extrahiert den Text. Anschließend müssen überlappende Wort- und Layoutregionen in ein Dokumentensegment wie eine Tabelle überführt werden. Zu guter Letzt entsteht eine JSON-Datei mit der ermittelten Struktur.

Python-Bibliotheken
Dr. Janis Meyer

Dr. Janis Meyer ist seit 2017 selbstständiger Berater für KI im Back-Office-Bereich. Er nutzt dort proprietäre und Open-Source-Lösungen. Er hat 2021 das Deepdoctection-Projekt initiiert und ist seitdem dessen Maintainer.

Deepdoctection orchestriert den Aufruf von Deep-Learning-Modellen für Document AI und ermöglicht es, eigene Pipelines zu erstellen, um PDFs oder Scans zu prozessieren. Eine fertige Pipeline für das Parsen stellt die Bibliothek ebenfalls bereit. Welche Modelle in den Pipelines zu verwenden sind, hängt vom Anwendungsfall ab: Bei Gesetzestexten spielen Tabellen eine geringere Rolle als bei Finanzberichten. Umfangreiche Konfigurationsmöglichkeiten erlauben es deshalb, die Pipeline anzupassen und das Ergebnis zu optimieren.