Datendubletten entfernen mit Python

Dubletten in Datensätzen sind so vielgestaltig, dass ihre Beseitigung viel Handarbeit erfordert. Python bietet einige Bibliotheken und Werkzeuge, die dabei helfen, dieses Ärgernis aus den eigenen Listen zu entfernen. Anhand von Beispieldaten demonstriert dieser Artikel, wie das geht.

Von Dr. Roland Pleger

Theoretisch dürfte es sie nicht geben: Dubletten in Datenbanken. Dennoch tauchen sie auf, versteckt beispielsweise durch Falschschreibungen. Die schlechte Nachricht für Entwickler ist, dass das Entfernen viel Handarbeit erfordert. Zum Glück nimmt einem Python mit einigen Bibliotheken viel Arbeit ab. Am Beispiel vorprozessierter Testdaten erläutert dieser Artikel das Erkennen und Bewerten von Wortähnlichkeiten, das Erkennen und Entfernen von Dubletten, das Auswerten redundanter Informationen, das Erweitern von Tabellen und schließlich das Verknüpfen mit Join. Im Folgenden steht Dublette sinngemäß nicht nur für Doppeleinträge, sondern allgemein für Mehrfachnennungen.

Dieser Artikel demonstriert das Vorgehen beispielhaft an einer Liste von Restaurants. Die University of Texas stellt sie für Erkennungstests bereit (siehe ix.de/z4jj). Ist es gut, wenn dort ein Name mehrfach auftaucht? Wäre sie die Grundlage für Fördergelder, würden Mehrfacheinträge ungerechtfertigt profitieren.