Reihenfolge von Data Cleaning Pipelines

Typ: Bachelorarbeit

Das Erkennen und Bereinigen von unsauberen Daten ist eine der ständigen Herausforderungen bei der Datenanalyse. Ein schlechte Datenqualität kann zu ungenauen Analysen und unzuverlässigen Entscheidungen führen. [1] Dabei gibt es viele unterschiedliche Tools und Methoden zur Fehlerbereinigung. Die Wahl der richtigen Reihenfolge innerhalb einer Data Cleaning Pipeline kann die Datenqualität verbessern und dazu beitragen, die Kosten für die manuelle Validierung durch
Domain Experten zu senken. [2]

Ziel dieser Bachelorarbeit ist es deshalb, zu untersuchen welche Rolle die Reihenfolge in der Fehlerbereinigung spielt. Dabei sollen sowohl die Auswirkung auf die Datenqualität als auch auf die Reproduzierbarkeit untersucht werden.

Für die Bearbeitung kann sowohl ein theoretischer als auch ein praktischer Fokus gewählt werden:

- Theoretischer Fokus: Es soll breit in der Literatur geschaut werden, welche Best Practices es gibt, ohne Einschränkungen auf Fehlertypen o.ä. Hier fällt der praktische Teil dann sehr viel geringer aus und es würden nur ca. 2-3 Aspekte praktisch evaluieren werden.
- Praktischer Fokus: Hier erfolgt keine Konzentration auf Fehlertypen, sondern auf Fehlerlevel, wie wir es in folgendem Paper beschrieben haben:
https://dl.acm.org/doi/10.1145/3533028.3533311
(hier könnte sich zunächst auf einzelne Datensätze und somit die ersten vier Level - wie in Tabelle 1 dargestellt – beschränkt werden) Dabei ist zu vermuten, dass sich eher wenig in der Literatur finden lässt. Somit würde der Fokus auf der praktischen Arbeit liegen, in der das Thema erst konzeptionell/theoretisch analysiert und dann praktisch evaluiert wird.

Voraussetzung für die Bearbeitung dieser Bachelorarbeit ist Spaß am Data Engineering und möglichst Erfahrung in Python-Programmierung.

[1] Xu Chu, Ihab F. Ilyas, Sanjay Krishnan, Jiannan Wang: Data Cleaning: Overview and Emerging Challenges. SIGMOD Conference 2016: 2201-2206
https://doi.org/10.1145/2882903.2912574

[2] Ziawasch Abedjan, Xu Chu, Dong Deng, Raul Castro Fernandez, Ihab F. Ilyas, Mourad Ouzzani, Paolo Papotti, Michael Stonebraker, Nan Tang: Detecting Data Errors: Where are we and what needs to be done? Proc. VLDB Endow. 9(12): 993-1004 (2016)
https://doi.org/10.14778/2994509.2994518

admin.dbis 10.02.2025