Der Abgleich von Datenrealität und echter Welt – auf dem Weg zu einem Datenqualitätsmodell
Dass Daten immer wichtiger werden und der Umgang damit zu einem echten Wettbewerbsvorteil für Unternehmen und einer grossen Effizienzsteigerung für Behörden führen, ist zu einer Binsenweisheit geworden. Um der Bedeutung von Daten auch mit konkreten Massnahmen Rechnung zu tragen, hat das E-Government-Institut die Grundlagen eines Datenqualitätsmodells geschaffen.
Welche Herausforderung die Datenqualität ist, lässt sich am Beispiel der Verwendung von Personendaten darstellen, die im Kontext von E-Government für Behörden aber darüber hinaus auch für Firmen von grosser Relevanz ist. Personendaten werden in einem Prozess erfasst und gespeichert. Später werden dieselben Daten in einem anderen Prozess wiederverwendet, heute meiste ohne Prüfung der Datenqualität. So werden beispielsweise Daten im Kontext einer Fahrzeuganmeldung von einem Strassenverkehrsamt erfasst und zu einem späteren Zeitpunkt zum Versand der Rechnungen für die Motorfahrzeugsteuer verwendet. Die Qualität der Daten beeinflusst den weiteren Aufwand für die Verwaltung für Retouren, Adresskorrekturen und Inkasso. In anderen Fällen entstehen nicht nur zusätzliche Kosten, das Risiko der Bekanntgabe von Daten an falsche Personen steigt. Mit Hilfe eines Datenqualitäts-Modells sollen die Risiken bekannt und damit kontrollierbar werden. Das Modell soll die Messpunkte und Einflussgrössen auf der Ebene der Prozesse darstellen und nicht, wie die meisten bestehenden Modelle auf der Ebene der Daten.
1. Echt-Welt-Daten generieren
Für die Entwicklung eines praxisorientierten Modells wurde in von einem generischen Prozess ausgegangen, der die Erfassung, die Bearbeitung und die Verwendung von Daten umfasst. Im ersten Schritt, der Erfassung, werden aus der Echt-Welt Daten generiert. Dabei kann es sich um Messungen im weiteren Sinne handeln, als der automatisierten Übernahme von Angaben von Sensoren oder Datenbanken. Weiter können die Daten auch aufgrund von Deklarationen von Akteuren erhoben werden. Neben den Daten kommen den miterhobenen Metadaten ebenfalls eine entscheidende Rolle in den weiteren Überlegungen zum Management der Datenqualität zu: Erst mit den Angaben zum Zeitpunkt, zum Kontext der Datenerhebung oder zur Herkunft der Daten können auch über einen längeren Zeitpunkt hinweg fundierte Annahmen über die Qualität der Daten getroffen werden.
2. Isolierte Datenrealität schaffen
In einem zweiten Schritt wird durch die Bearbeitung und Verbindung der erhobenen Daten eine jetzt von der Echt-Welt isolierte Datenrealität geschaffen, die durch jede konsistente Ergänzung bestätigt oder erweitert wird. Inkonsistenzen dieser Datenrealität können aufgedeckt und bearbeitet werden, vorausgesetzt Ausmass und Qualität der Metadaten lassen es zu, dass Aussagen verschiedener Quellen über denselben Gegensatz als solche erkannt werden. Die Bearbeitungsschritte dieser Datenrealität müssen ebenfalls in den Metadaten dokumentiert werden, so dass jederzeit nachvollzogen werden kann, wie es zu den Abweichungen zwischen Rohdaten und verarbeiteten Daten kommt und welches die ursprünglichen, unverarbeiteten Daten sind.
3. Abgleich Datenrealität mit der echten Welt
In einem letzten Prozessschritt werden aus der Datenrealität Aktionen ausgelöst, die einen Abgleich der Datenrealität mit der Echt-Welt erlauben. So werden zum Beispiel Rechnungen versandt. Über die Messung der Resultate der Aktivität können wiederum Metadaten zur Qualität der verwendeten Daten – also der Distanz zwischen Daten- und Echt-Welt – gewonnen werden. So kann eine bezahlte Rechnung als Indikator dafür gesehen werden, dass die Adresse mit hoher Wahrscheinlichkeit korrekt ist.
Abbildung 1 – Phasen des Datenqualitätsmodells
Am Beispiel von Personendaten in einem Bestellprozess können die einzelnen Phasen nochmals definiert werden. Im Erfassungsschritt werden die Daten von der Person selbst eingegeben, ggf. können weitere Datenquellen nach Angaben zu einer Person angefragt werden, z.B. Linkedin.
Vergleich mit Datenmodell
In der zweiten Phase werden die gemachten Angaben mit dem bestehenden Datenmodell abgeglichen, also anhand von bestehenden Angaben zur Person, zur Adresse oder zu weiteren Angaben überprüft. Im Falle einer Bestätigung erfährt der neue Datensatz eine Erhöhung seiner Zuverlässigkeit, wobei diese diejenige des jeweiligen Datenbezugs nicht überschreiten kann.
Beim Abgleich werden ggf. Inkonsistenzen (z.B. Adresse existiert nicht) oder Abweichungen gegenüber früheren Angaben gefunden. Diese müssen in erster Linie manuell bearbeitet und aufgelöst werden.
Der Datenoutput als letzte Phase erfolgt asynchron zu den beiden vorangehenden Schritten. Ein Datenoutput kann direkt auf die beiden ersten Phasen folgen. Es ist allerdings auch denkbar, dass die beiden ersten Phasen für zahllose neue Datensätze durchlaufen werden, bevor überhaupt der erste Datenoutput erfolgt. Welche Ansprüche an die Qualität erfüllt sein müssen, um den Schritt zum Output zu machen, muss im entsprechenden Prozess definiert werden und hängt stark von der angestrebten Verwendung des Outputs ab.
Schlussfolgerungen
Diese Modellüberlegungen zeigen, dass die Frage der Datenqualität nicht in erster Linie eine technische Herausforderung darstellt, sondern über die Definition von Prozessen und die konsequente Erhebung und Nutzung von Metadaten angegangen werden kann. Diese initialen kategoriellen Überlegungen müssen in einem nächsten Schritt an einem Use Case konkretisiert und weiter verfeinert werden. Dazu gehören die Definition der einzelnen Prozessschritte, der Qualitätsmesspunkte und der verwendeten Datenquellen. Besonderes Augenmerk soll dabei auf die erfassten Metadaten (und deren Verwendung für die Qualitätsmessung) liegen.
Die Verwendung unterschiedlicher Datenquellen für die Bestätigung von Attributen muss auf ihre Umsetzbarkeit im konkreten Use Case untersucht werden, denn die auch bei weiteren Datenquellen stellt sich die Frage nach der Qualität.
Für quantitative Bewertung der Datenqualität müssen, basierend auf existierenden Standards, aussagekräftige und für die Anwendung passende Skalen entwickelt werden. Dadurch können die Operationalisierung und Automatisierung der Prozesse erreicht werden. Ob für solch einen Schritt traditionelle Algorithmen ausreichend geeignet sind oder ob Zugänge des Machine Learning sich besser eigenen, um den nötigen Kontextbezug herzustellen, ist regelmässig zu überprüfen, da die technologischen Entwicklungen auf diesem Gebiet derzeit sehr kurzen Zyklen unterliegen.
Dein Kommentar
An Diskussion beteiligen?Hinterlasse uns Deinen Kommentar!