Datenkonsolidierung – wenn das relationale Modell an seine Grenzen kommt

Das Verarbeiten von Daten mit dem Zweck neue Informationen zu gewinnen wird zunehmend entscheidend für die Konkurrenzfähigkeit von Firmen. Die auf strikten Schemen aufbauenden relationalen Datensilos kommen dabei an ihre Grenzen. Graphendatenbanken brechen diese auf und entwickeln sich zu einer mächtigen und flexiblen Alternative.

Mit dem Aufkommen von Datenbankmanagementsystemen (DBMS) in den sechziger Jahren begannen Firmen und Behörden mit dem gezielten Sammeln und Speichern von strukturierten Daten. Das bis heute vorherrschende System dafür ist zweifellos das relationale Datenbanksystem (RDBMS).

Strikte Schemen
Die grundlegenden Konzepte für relationale Systeme sind sehr gut verstanden und wurden seit ihrem Aufkommen kontinuierlich optimiert, so dass auch sehr grosse Datenmengen zuverlässig verarbeitet werden können. Relationale Datenbanken haben aber auch gezeigt, dass sie schwierig zu erstellen und noch schwieriger zu ändern sind. Wenn das Problem beim Erstellen der Datenbank nicht vollständig verstanden ist, hat man früher oder später mit Limitationen des Datenmodells zu kämpfen, welche sich nur mit grossem Aufwand ändern lassen.

Das bedeutet auch, dass sich relationale Systeme nur schwer neuen Verhältnissen anpassen lassen, sei dies eine neue Anwendung (Wiederverwendung) derselben Daten in einem anderen Kontext oder auch sich ändernde Anforderungen an die Daten im bestehenden Kontext über die Zeit. In den meisten Fällen bedeutet dies, dass man bestehende Daten in neuen Strukturen replizieren muss und somit mehrfach führt. Eine radikale Anpassung des Datenmodells an die neuen Gegebenheiten würde bedeuten, dass sich die darauf aufbauenden Applikationen fast zwingend ebenfalls anpassen lassen müssen, was mit erheblichem Mehraufwand und Mehrkosten verbunden ist.

Datensilos
Wer relationale Systeme pflegt hat zudem in den seltensten Fällen nur ein System. Unterschiedliche Abteilungen in Firmen betreiben ihre eigenen Lösungen, sei dies aus historischen Gründen oder weil die Firma in der Vergangenheit Zukäufe gemacht hat. Bei öffentlichen Institutionen sieht die Situation nicht anders aus, zumal der Föderalismus in der Schweiz zentralistische Lösungen praktisch verunmöglicht.

Als möglicher Lösungsansatz werden oftmals die Daten in einem zentralen System zusammengeführt. Unter dem Begriff Stammdatenmangement (englisch: Master Data Management, MDM) hat sich ein zusätzlicher Markt mit entsprechenden Werkzeugen gebildet. Trotzdem sind Organisationen mit dem Resultat oftmals nicht zufrieden. Statt einer grösseren Einsicht in die Daten bilden viele dieser Systeme im besten Fall den kleinsten gemeinsamen Nenner der referenzierten Datenmodelle ab. Somit sind wertvolle Informationen zwar theoretisch in den Daten irgendwo vorhanden, aber für den Nutzer nicht zugänglich und somit unsichtbar.

Graphendatenbanken als neuer Lösungsansatz
Einen neuen Lösungsansatz zu bestehenden MDM-Systemen bieten Graphendatenbanken. Das Graphenmodell erlaubt es, beliebige Beziehungen zwischen zwei Knoten auszudrücken. Ein Beispiel dafür sind Beziehungen zwischen Personen in einem sozialen Netzwerk oder die Routing-Information in einem Navigationssystem. Im Gegensatz zu einem relationalen System ist es nicht nötig, das zu lösende Problem von Anfang an vollständig zu verstehen. Beziehungen zwischen zwei Knoten lassen sich zu jedem Zeitpunkt einfacher an neue Gegebenheiten anpassen und ergänzen.

Schemen spielen in Graphendatenbanken eine wesentliche Rolle, speziell im W3C Standard RDF und dessen Abfragesprache SPARQL. Im Gegensatz zu relationalen Schemen sind diese aber beliebig kombinier- und ergänzbar. Das heisst man kann sich beim Umsetzen eines Anwendungsfalles beliebig an bestehenden Schemen bedienen und diese kombinieren und wo nötig ergänzen. Sinnvollerweise werden die Schemen zudem der Öffentlichkeit zugänglich gemacht, was wiederum das gemeinsame Verständnis von Begrifflichkeiten innerhalb einer Domäne fördert und die Wiederverwendbarkeit derselben Daten in neuen Anwendungsfällen massiv vereinfacht.

Graphendatenbanken eignen sich somit bestens für Probleme, die mehrere Domänen und/oder Konzepte abdecken. Dies wiederum ist die Basis, um Daten einem breiteren Spektrum von Anwendungsfällen zugänglich zu machen und somit auch mehr wertvolle Informationen aus den Daten zu gewinnen. Standardisierte Schnittstellen zu bestehenden Datenquellen (RDBMS, XML, JSON, etc.) helfen dabei, bestehende Datensilos als Graph zugänglich zu machen und damit aufzubrechen. Dabei wird das bestehende System oftmals weiterhin betrieben und gepflegt.

Linking Open Data cloud diagram 2014, by Andrejs Abele, John P. McCrae, Paul Buitelaar, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/

Siloübergreifende Verknüpfung von Daten
Wenn RDF als Datenmodell verwendet wird, können zudem Daten über dezentrale Graphendatenbanken referenziert werden, was wiederum das Duplizieren von Daten überflüssig macht. In den vergangenen Jahren wurden mit diesem Ansatz unter dem Schlagwort «Linked Data» grosse öffentliche Datensätze aufbereitet der Allgemeinheit zugänglich gemacht. Aktuell wird dieser Bereich in erster Linie von öffentlichen Institutionen wie Behörden gefördert, um ihre eigenen Prozesse zu optimieren und deren Kosten mittel- bis langfristig zu senken. Auch die Privatwirtschaft setzt auf RDF und Linked Data: Pharmafirmen als Beispiel arbeiten intensiv mit öffentlich zugänglichen, hochwertigen Referenzdatensätzen in RDF und ergänzen diese hinter der Firewall mit Firmeneigenen Forschungsdaten. Dies generiert nicht nur unmittelbar einen Mehrwert, sondern stellt auch sicher, dass bestehende (Forschungs-) Daten auch in Zukunft zu neuen Einsichten führen können.

Die Berner Fachhochschule arbeitet seit mehreren Jahren mit diesem Technologiestack und bietet entsprechend Unterstützung an.


Links
Linked Data Service LINDAS
What is Linked Data? 
W3C Einstiegseite zum Thema

Technisch:
RDF 1.1 Primer
RDF 1.1 Concepts and Abstract Syntax
SPARQL 1.1 Overview 

Creative Commons Licence

AUTHOR: Adrian Gschwend

Adrian Gschwend ist Mitgründer und Geschäftsführer von Zazuko GmbH, dem Enterprise Linked Data Spezialisten in der Schweiz. Er hat langjährige Erfahrung im Bereich Linked Data, Wissensmanagement, Open Source Software und Projekt Management. Zudem beteiligt er sich in führenden Rollen bei Projekten mit der Schweizer Regierung und als Wissenschaftlicher Mitarbeiter am E-Government-Institut der Berner Fachhochschule an EU Forschungsprojekten (FP7 & H2020).

Create PDF

Ähnliche Beiträge

Es wurden leider keine ähnlichen Beiträge gefunden.

0 Kommentare

Dein Kommentar

An Diskussion beteiligen?
Hinterlasse uns Deinen Kommentar!

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert