KI-Dokumentanalyse: Arbeiten mit der Python-Bibliothek Deepdoctection

Wer Deep Learning zur automatisierten Dokumentenanayse einsetzt, braucht Zugriff auf verschiedene Techniken und KI-Modelle. Deepdoctection vereinheitlicht das.

Artikel verschenken

08.11.2023, 15:00 Uhr

Lesezeit: 5 Min.

iX Magazin

Von

Dr. Janis Meyer

KI-Dokumentanalyse: Arbeiten mit der Python-Bibliothek Deepdoctection
- Pipelinebau leicht gemacht
Features und Feintuning

Artikel in iX 12/2023 lesen

Document AI ist KI für Papierkram. Dabei geht es also mal nicht um aufregende Bildgeneratoren und neunmalkluge Chatbots, sondern darum, PDF-Anhänge in E-Mails zu klassifizieren, Dokumentenstapel in Einzeldokumente zu zerlegen oder in Rechnungen zu erkennen, wo die Artikelpositionen zu finden sind. Auch das Parsen von Dokumenten, Tabellenextraktion und optische Zeichenerkennung (OCR) gehören in dieses Umfeld. Damit deutet sich schon an, dass sich Document AI aus einem Sammelsurium aller möglichen Techniken bedient. Und hier kommt Deepdoctection ins Spiel, eine Python-Bibliothek unter der Apache-2-Lizenz, die bei der Extraktion von Informationen aus Dokumenten – PDFs oder Scans – unterstützt und Struktur in die Arbeitsabläufe bringt.

In konkreten Anwendungen zur Analyse von Dokumenten geht es darum, mehrere Modelle in einer bestimmten Abfolge aufzurufen. So parsen Objektdetektoren ein Dokument und grenzen Elemente wie Titel, Tabellenrahmen oder Fließtext voneinander ab. Ein OCR-Modell extrahiert den Text. Anschließend müssen überlappende Wort- und Layoutregionen in ein Dokumentensegment wie eine Tabelle überführt werden. Zu guter Letzt entsteht eine JSON-Datei mit der ermittelten Struktur.

Dr. Janis Meyer ist seit 2017 selbstständiger Berater für KI im Back-Office-Bereich. Er nutzt dort proprietäre und Open-Source-Lösungen. Er hat 2021 das Deepdoctection-Projekt initiiert und ist seitdem dessen Maintainer.

Deepdoctection orchestriert den Aufruf von Deep-Learning-Modellen für Document AI und ermöglicht es, eigene Pipelines zu erstellen, um PDFs oder Scans zu prozessieren. Eine fertige Pipeline für das Parsen stellt die Bibliothek ebenfalls bereit. Welche Modelle in den Pipelines zu verwenden sind, hängt vom Anwendungsfall ab: Bei Gesetzestexten spielen Tabellen eine geringere Rolle als bei Finanzberichten. Umfangreiche Konfigurationsmöglichkeiten erlauben es deshalb, die Pipeline anzupassen und das Ergebnis zu optimieren.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

iPad Pro 2024 mit Magic Keyboard und Apple Pencil Pro

Apple iPad Pro 2024 im Test: Mit M4 und OLED

Apples Pro-Tablets überspringen eine Chip-Generation und setzen erstmals auf OLED – sowie neues Zubehör. Wir haben das iPad Pro 11" und den Pencil Pro getestet.

iPadOS 17: Praxistipps

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Aus dem ollen Drahtesel wird ein modernes E-Bike: Das ist das Versprechen von Umrüst-Kits, die Fahrrad und E-Motor zusammenbringen.

Tandem auf E-Antrieb umrüsten

Mini-PC-Barebone für AMD Ryzen 7000/8000G im Test

Der DeskMini X600 erlaubt es, einen kompakten Rechner mit aktuellen AM5-Prozessoren zu bauen. Weil Asrock den Chipsatz weglässt, sinkt der Energiebedarf enorm.

Gebrauchter Sophos-Hardware neues Leben einhauchen

Wir zeigen am Beispiel dreier Sophos-Modelle, wie Sie gebrauchte Firewalls wieder in Lohn und Brot bringen und wofür die Hardware sich noch lohnt.

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

Die Fedora Workstation erinnert kaum an den Windows-Desktop. Im Vergleich zu anderen Distributionen schreitet Fedora vorneweg und integriert Techniken früh.

BMW iX2 im Test: Elektroauto mit hohem Reifegrad

Der BMW iX2 ist ein Elektroauto, das an vielen Stellen eine sehr überzeugende Vorstellung abliefert. Nur bei der DC-Ladeleistung muss BMW nachlegen.

BMW iX1 im Test

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Apple iPad Pro 2024 im Test: Mit M4 und OLED

Apples Pro-Tablets überspringen eine Chip-Generation und setzen erstmals auf OLED – sowie neues Zubehör. Wir haben das iPad Pro 11" und den Pencil Pro getestet.

iPadOS 17: Praxistipps

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Aus dem ollen Drahtesel wird ein modernes E-Bike: Das ist das Versprechen von Umrüst-Kits, die Fahrrad und E-Motor zusammenbringen.

Tandem auf E-Antrieb umrüsten

Mini-PC-Barebone für AMD Ryzen 7000/8000G im Test

Der DeskMini X600 erlaubt es, einen kompakten Rechner mit aktuellen AM5-Prozessoren zu bauen. Weil Asrock den Chipsatz weglässt, sinkt der Energiebedarf enorm.

Gebrauchter Sophos-Hardware neues Leben einhauchen

Wir zeigen am Beispiel dreier Sophos-Modelle, wie Sie gebrauchte Firewalls wieder in Lohn und Brot bringen und wofür die Hardware sich noch lohnt.

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

Die Fedora Workstation erinnert kaum an den Windows-Desktop. Im Vergleich zu anderen Distributionen schreitet Fedora vorneweg und integriert Techniken früh.

BMW iX2 im Test: Elektroauto mit hohem Reifegrad

Der BMW iX2 ist ein Elektroauto, das an vielen Stellen eine sehr überzeugende Vorstellung abliefert. Nur bei der DC-Ladeleistung muss BMW nachlegen.

BMW iX1 im Test

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

KI-Dokumentanalyse: Arbeiten mit der Python-Bibliothek Deepdoctection

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Apple iPad Pro 2024 im Test: Mit M4 und OLED

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Mini-PC-Barebone für AMD Ryzen 7000/8000G im Test

Gebrauchter Sophos-Hardware neues Leben einhauchen

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

BMW iX2 im Test: Elektroauto mit hohem Reifegrad

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Apple iPad Pro 2024 im Test: Mit M4 und OLED

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Mini-PC-Barebone für AMD Ryzen 7000/8000G im Test

Gebrauchter Sophos-Hardware neues Leben einhauchen

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

BMW iX2 im Test: Elektroauto mit hohem Reifegrad

Spiele

1 Jahr nur 1,90 € pro Woche

Das digitale Abo für IT und Technik.