Beiträge

Datenkonsolidierung – wenn das relationale Modell an seine Grenzen kommt

Das Verarbeiten von Daten mit dem Zweck neue Informationen zu gewinnen wird zunehmend entscheidend für die Konkurrenzfähigkeit von Firmen. Die auf strikten Schemen aufbauenden relationalen Datensilos kommen dabei an ihre Grenzen. Graphendatenbanken brechen diese auf und entwickeln sich zu einer mächtigen und flexiblen Alternative.

Mit dem Aufkommen von Datenbankmanagementsystemen (DBMS) in den sechziger Jahren begannen Firmen und Behörden mit dem gezielten Sammeln und Speichern von strukturierten Daten. Das bis heute vorherrschende System dafür ist zweifellos das relationale Datenbanksystem (RDBMS).

Strikte Schemen
Die grundlegenden Konzepte für relationale Systeme sind sehr gut verstanden und wurden seit ihrem Aufkommen kontinuierlich optimiert, so dass auch sehr grosse Datenmengen zuverlässig verarbeitet werden können. Relationale Datenbanken haben aber auch gezeigt, dass sie schwierig zu erstellen und noch schwieriger zu ändern sind. Wenn das Problem beim Erstellen der Datenbank nicht vollständig verstanden ist, hat man früher oder später mit Limitationen des Datenmodells zu kämpfen, welche sich nur mit grossem Aufwand ändern lassen.

Das bedeutet auch, dass sich relationale Systeme nur schwer neuen Verhältnissen anpassen lassen, sei dies eine neue Anwendung (Wiederverwendung) derselben Daten in einem anderen Kontext oder auch sich ändernde Anforderungen an die Daten im bestehenden Kontext über die Zeit. In den meisten Fällen bedeutet dies, dass man bestehende Daten in neuen Strukturen replizieren muss und somit mehrfach führt. Eine radikale Anpassung des Datenmodells an die neuen Gegebenheiten würde bedeuten, dass sich die darauf aufbauenden Applikationen fast zwingend ebenfalls anpassen lassen müssen, was mit erheblichem Mehraufwand und Mehrkosten verbunden ist.

Datensilos
Wer relationale Systeme pflegt hat zudem in den seltensten Fällen nur ein System. Unterschiedliche Abteilungen in Firmen betreiben ihre eigenen Lösungen, sei dies aus historischen Gründen oder weil die Firma in der Vergangenheit Zukäufe gemacht hat. Bei öffentlichen Institutionen sieht die Situation nicht anders aus, zumal der Föderalismus in der Schweiz zentralistische Lösungen praktisch verunmöglicht.

Als möglicher Lösungsansatz werden oftmals die Daten in einem zentralen System zusammengeführt. Unter dem Begriff Stammdatenmangement (englisch: Master Data Management, MDM) hat sich ein zusätzlicher Markt mit entsprechenden Werkzeugen gebildet. Trotzdem sind Organisationen mit dem Resultat oftmals nicht zufrieden. Statt einer grösseren Einsicht in die Daten bilden viele dieser Systeme im besten Fall den kleinsten gemeinsamen Nenner der referenzierten Datenmodelle ab. Somit sind wertvolle Informationen zwar theoretisch in den Daten irgendwo vorhanden, aber für den Nutzer nicht zugänglich und somit unsichtbar.

Graphendatenbanken als neuer Lösungsansatz
Einen neuen Lösungsansatz zu bestehenden MDM-Systemen bieten Graphendatenbanken. Das Graphenmodell erlaubt es, beliebige Beziehungen zwischen zwei Knoten auszudrücken. Ein Beispiel dafür sind Beziehungen zwischen Personen in einem sozialen Netzwerk oder die Routing-Information in einem Navigationssystem. Im Gegensatz zu einem relationalen System ist es nicht nötig, das zu lösende Problem von Anfang an vollständig zu verstehen. Beziehungen zwischen zwei Knoten lassen sich zu jedem Zeitpunkt einfacher an neue Gegebenheiten anpassen und ergänzen.

Schemen spielen in Graphendatenbanken eine wesentliche Rolle, speziell im W3C Standard RDF und dessen Abfragesprache SPARQL. Im Gegensatz zu relationalen Schemen sind diese aber beliebig kombinier- und ergänzbar. Das heisst man kann sich beim Umsetzen eines Anwendungsfalles beliebig an bestehenden Schemen bedienen und diese kombinieren und wo nötig ergänzen. Sinnvollerweise werden die Schemen zudem der Öffentlichkeit zugänglich gemacht, was wiederum das gemeinsame Verständnis von Begrifflichkeiten innerhalb einer Domäne fördert und die Wiederverwendbarkeit derselben Daten in neuen Anwendungsfällen massiv vereinfacht.

Graphendatenbanken eignen sich somit bestens für Probleme, die mehrere Domänen und/oder Konzepte abdecken. Dies wiederum ist die Basis, um Daten einem breiteren Spektrum von Anwendungsfällen zugänglich zu machen und somit auch mehr wertvolle Informationen aus den Daten zu gewinnen. Standardisierte Schnittstellen zu bestehenden Datenquellen (RDBMS, XML, JSON, etc.) helfen dabei, bestehende Datensilos als Graph zugänglich zu machen und damit aufzubrechen. Dabei wird das bestehende System oftmals weiterhin betrieben und gepflegt.

Linking Open Data cloud diagram 2014, by Andrejs Abele, John P. McCrae, Paul Buitelaar, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/

Siloübergreifende Verknüpfung von Daten
Wenn RDF als Datenmodell verwendet wird, können zudem Daten über dezentrale Graphendatenbanken referenziert werden, was wiederum das Duplizieren von Daten überflüssig macht. In den vergangenen Jahren wurden mit diesem Ansatz unter dem Schlagwort “Linked Data” grosse öffentliche Datensätze aufbereitet der Allgemeinheit zugänglich gemacht. Aktuell wird dieser Bereich in erster Linie von öffentlichen Institutionen wie Behörden gefördert, um ihre eigenen Prozesse zu optimieren und deren Kosten mittel- bis langfristig zu senken. Auch die Privatwirtschaft setzt auf RDF und Linked Data: Pharmafirmen als Beispiel arbeiten intensiv mit öffentlich zugänglichen, hochwertigen Referenzdatensätzen in RDF und ergänzen diese hinter der Firewall mit Firmeneigenen Forschungsdaten. Dies generiert nicht nur unmittelbar einen Mehrwert, sondern stellt auch sicher, dass bestehende (Forschungs-) Daten auch in Zukunft zu neuen Einsichten führen können.

Die Berner Fachhochschule arbeitet seit mehreren Jahren mit diesem Technologiestack und bietet entsprechend Unterstützung an.


Links
Linked Data Service LINDAS
What is Linked Data? 
W3C Einstiegseite zum Thema

Technisch:
RDF 1.1 Primer
RDF 1.1 Concepts and Abstract Syntax
SPARQL 1.1 Overview 

PDF erstellen

Ähnliche Beiträge

Es wurden leider keine ähnlichen Beiträge gefunden.

Zu einer neuen Fehlerkultur mit Linked Open Data

An der Veranstaltung eGov Fokus im Oktober 2016 wurden im Berner Rathaus Themen aus dem Bereich Linked Data breit diskutiert. Was sind die Konsequenzen der Digitalisierung? Wo steht die Schweiz in der Entwicklung von Linked Open Data und welcher Nutzen kann daraus gezogen werden? Dieser Beitrag versucht, einige dieser Fragen zu beleuchten.

Technische Innovationen, das Aufkommen des World Wide Web in seinen sukzessiven Ausprägungen (Web 1.0, Web 2.0, Web of Data) und die fortlaufende Ent-materialisierung von Informationsgütern treiben den digitalen Wandel an. Jedoch reicht die technische Innovation allein nicht aus, um den neuen Formen kollektiven Handelns zum Durchbruch zu verhelfen und das Nutzenpotential, das sie bergen, zur Entfaltung zu bringen. Gefragt sind neue Ansätze im Ressourcenmanagement und der Koordination kollektiven Handelns, ein neues Rollenverständnis, neue Kompetenzen und Fähigkeiten, die Aufgabe von Kontrolle, sowie neue Konstrukte hinsichtlich Eigentums- und Nutzungsrechten.

Networking am eGov Fokus 2/16

Die Ära der Digitalisierung und das Aufkommen von Linked Open Data bergen ein grosses Transformationspotential. Open Data sind offene, übers Web frei zugängliche Datenbestände, die von jedermann genutzt, bearbeitet und weiterverbreitet werden können. Dabei können die verschiedenen Nutzerinnen und Nutzer zur Datenqualität und zur Datenanreicherung beitragen, wobei im Idealfall – so das Versprechen von Linked Open Data – Datenbestände auf sinnvolle Art und Weise miteinander verknüpft werden, was zu mehr Innovation, erhöhter Transparenz und Kosteneinsparungen führt.

Wo steht die Schweiz in der Entwicklung von Linked Open Data? Und welchen Nutzen können wir aus Linked Open Data
konkret generieren?

Bereits heute werden in der Schweiz im Rahmen des Projekts LINDAS verschiedene Use Cases verfolgt, welche eine Verlinkung verschiedener Datenbestände anstreben. So publiziert Swisstopo beispielsweise georeferenzierte Adressen als Linked Data, während das Bundesamt für Statistik das historisierte Gemeindeverzeichnis und das Bundesamt für Umwelt diverse Umweltdaten über den Linked Data Service des Bundes bereitstellen.

Auch im Kulturbereich bringt die Digitalisierung grundlegende Veränderungen mit sich. Hier handelt die OpenGLAM-Arbeitsgruppe des Vereins opendata.ch als Vorreiterin und Treiberin des Kulturwandels unter den Gedächtnisinstitutionen („GLAM“ steht im Englischen für „Galleries, Librairies, Archives, and Museums“). Dazu gehört auch die schrittweise Einführung von Linked Open Data. Der Berg an Informationen, welcher hinter den Türen der kulturellen Gedächtnisinstitutionen schlummert, soll digitalisiert und zu Linked Open Data aufbereitet werden, damit auch die kulturellen Datenbestände intensiv genutzt, verknüpft und gleichzeitig verbessert werden können. So will man dem Veränderungspotential der Digitalisierung, welches momentan noch weitgehend brach liegt, zum Durchbruch verhelfen und die neuen Möglichkeiten in einen konkreten gesellschaftlichen Nutzen verwandeln. Um die sinnvolle Verknüpfung, die ansprechende Aufbereitung und die Vielfältige Nutzung der Daten zu fördern, führt OpenGLAM CH seit über zwei Jahren einen jährlichen Kulturhackathon durch. Der Anlass bringt Menschen mit verschiedenen Kompetenzen und aus unterschiedlichsten Disziplinen zusammen. Während mehreren Tagen arbeiten jeweils verschiedene Teams an offenen Datenbeständen aus dem Kulturbereich. Dabei kommen regelmässig neue Formen der Visualisierung, Verknüpfung und Erschliessung von Daten zustande.

Nicht nur das Innovationspotential von offenen Behörden- und Kulturdaten ist gross, sondern auch die damit verbundene Unsicherheit: Lohnt sich der finanzielle und zeitliche Aufwand? Welches ist der öffentliche und welches der private Nutzen, der daraus entsteht? Wer ist wofür zuständig? Wer soll für welche Leistungen bezahlen? Wie können Daten online gestellt und verlinkt werden, ohne dass dabei die Privatsphäre allzu sehr gefährdet wird? Die unterschiedliche Datenqualität und die unvollständige Datenerfassung, sowie die sich konstant ändernden Standards stellen im Hinblick auf die Verknüpfung von Daten aus allerlei Quellen eine weitere Herausforderung dar. Hinzu kommt als weitere Hürde der Umgang mit der Mehrsprachigkeit.


Diskussionen in den Themencafés während dem eGov Fokus 2/16

Linked Data in der Praxis
Auf der Suche nach Antworten und neuen Konstrukten zur verbesserten Datennutzung widmete das E-Government-Institut der Berner Fachhochschule die Veranstaltung eGov Fokus im Herbst 2016 ganz dem Thema „Linked Data in der Praxis“ (Impressionen der Veranstaltung). Verschiedene Referenten aus Holland und der Schweiz lieferten konzise Inputs zur Entwicklung von Linked Open Data im Web 2.0. In einer thematisch aufgegliederten Diskussionsrunde suchten Teilnehmende und Experten anschliessend gemeinsam nach Möglichkeiten, die anstehenden Herausforderungen anzupacken. Denn wo Herausforderungen sind, gibt es immer auch Chancen. Mit Blick in die Zukunft soll die Aufbereitung der Daten ausgeweitet und professionalisiert werden. Namentlich wird es darum gehen:

  • Guidelines und eine umfassende Dateninfrastruktur zu entwickeln, welche die Hürden für diejenigen reduzieren, die einen Beitrag zum „Web of Data“ leisten möchten:
  • ein verteiltes Identitäts- und Zugangsmanagement zu etablieren, um den Datenschutz zu gewährleisten und die Qualität besser gewährleisten zu können;
  • Nutzerfeedbacks zu generieren, um die Datenqualität zu steigern;
  • Fachwissen rund um Linked Open Data unter den potentiellen Nutzern und Anbietern von Daten zu fördern, um dadurch die Berührungsängste zu vermindern.

Daneben wird es aber auch darum gehen, eine neue Fehlerkultur zu entwickeln: Datennutzer müssen lernen, den bereitgestellten Daten mit einem gesunden Mass an Skepsis zu vertrauen, während Datenlieferanten die Bereitschaft entwickeln müssen, Daten frei zu geben, auch wenn sie noch nicht perfekt sind, und sie Dritten zur Nutzung und Anreicherung zu überlassen. Denn: Eine qualitative Verbesserung der Daten und eine Steigerung ihres gesellschaftlichen Nutzens wird sich am ehesten im Rahmen einer intensiven Nutzung der Daten ergeben.


Der nächste eGov Fokus findet am 23. Juni 2017 im Berner GenerationenHaus in Bern statt. Thema: Data Privacy in der digitalen Dienstleistungs-Gesellschaft
Mehr Informationen


 

PDF erstellen

Ähnliche Beiträge

Es wurden leider keine ähnlichen Beiträge gefunden.

Digitalisierung zwischen Magie und Stupidity Management

Geht es um die Digitalisierung werden entweder altgediente Lösungen gepriesen und Befürchtungen geäussert oder aber die Hoffnung, dass die neue Technik auf wundersame Weise Wachstum und Fortschritt bringen möge. Beides ist verständlich. Aber wir brauchen ein dynamisches Weltbild, was nur aus Wissen und Know-How entstehen kann. Der Schlüssel dazu liegt darin, im richtigen Augenblick dumm und im richtigen Augenblick clever sein.

Ist Digitalisierung gut oder schlecht? Auf diese Frage kann nicht mit Ja oder Nein geantwortet werden, vielmehr lautet die Antwort: Sie bringt Chancen und Gefahren. Entscheidend ist die Art unserer Investitionen. Investieren wir in Daten? In Algorithmen? In Maschinen Computer und Roboter? In Wissen? In ökonomische oder soziale Valorisierung? Das sind einige der wichtigsten Fragen.
Beispiel: Big Data im Gesundheitswesen. Big Data ermöglicht eine personalisierte Präzisionsmedizin und eine vorausschauende Ressourcenplanung. Ein inadäquater Umgang mit Personendaten schafft aber auch Risiken für die Privatsphäre der Betroffenen und ihrer Nachkommen. So weit, so simpel. Dazu kommt: Während es für praktische Ärzte und die meisten Gesundheitsfachpersonen Knowhow im Umgang mit Werkzeugen braucht, ist für Forscher zusätzlich zum Knowhow im Umgang mit Spezialisten-Werkzeugen auch noch ein vertieftes Wissensfundament zu Big Data notwendig.
Leider werden in der Diskussion um Big Data im Gesundheitswesen Risiken und Chancen selten einander gegenübergestellt – und die Notwendigkeit zur Verbreitung von Knowhow und Wissen kommt nur äusserst selten zur Sprache. Ausnahmen bestätigen die Regel.
Stattdessen wird stillschweigend angenommen, dass die Risikobekämpfung gegenüber der Chancennutzung grundsätzlich Priorität hat – und dass es kein besonderes Knowhow und Wissen braucht. Im öffentlichen Diskurs dominiert zudem der Eigennutz über den sozialen Nutzen in einer Eindrücklichkeit, die alles Gerede von Werten Lügen straft. Wieder das Beispiel Big Data im Gesundheitswesen: „Wenn ich meine Daten nicht hergebe, alle anderen schon, bin ich erstens geschützt und kann zweitens trotzdem von der personalisierten Präzisionsmedizin profitieren.“ Einziges Problem: Wenn alle so handeln, gibt es den Nutzen für niemanden. Und hier stockt der öffentliche Diskurs. „Dann halt nicht“, denken sich viele.
Sinnvoll wäre es, hier weiterzudenken. Und einmal nicht um Wissenschaft zu treiben bzw. um Politik zu machen, sondern um zu Erkenntnissen zu gelangen. Die Fragen zum oben skizzierten Eigennutz-Problem lauten insbesondere: Wie muss die Datenhaltung und Datennutzung gestaltet werden, damit die Risiken minimiert und die Chancen trotzdem genutzt werden können? Welche Ausbildung und welche Kontrollen braucht es? Und: Wie kann man die resultierende Chancen-Risiken-Lage gut verständlich kommunizieren? So lange diese Fragen nicht überzeugend beantwortet werden, gibt es wenig Grund, auf Fortschritt im öffentlichen Diskurs und in der Praxis zu hoffen.

Der herrschende Dualismus der Weltbilder
Big Data im Gesundheitswesen ist nur ein Beispiel von vielen: Die öffentliche Debatte zu den Digitalisierungsthemen wird von einem Dualismus geprägt. Auf der einen Seite steht ein statisches Weltbild, ergänzt um normative und defensive Argumente, das Nachhaltigkeit als das Bewahren altgedienter Problemlösungen interpretiert. Auf der anderen Seite steht ein magisches Weltbild, in dem die Wunder der Technik Wachstum und Fortschritt schier aus dem Nichts versprechen und die Probleme der Welt in Serie abgearbeitet werden können.
Angesichts der Komplexität der digitalen Transformation von Wirtschaft und Gesellschaft sind beide Weltbilder ein Stück weit verständlich. Der Erfolg der Evangelisten beider Weltbilder gibt auch beiden Recht. Sie scharen Anhänger um sich und gewinnen Aufträge. Mittel- bis langfristig droht der Dualismus aber die politische Handlungsfähigkeit zu paralysieren. Wer einen stabilen Staat mit Zukunftschancen für Einwohner und Unternehmer will, der sollte stattdessen von einem Weltbild ausgehen, in dem die Wirtschaft sich dynamisch verändert, das aber arm an Mirakeln und Mythen ist.

Es braucht die richtigen Vereinfachungen
Man kann ein solches dynamisches Weltbild – trotz seiner ihm eigenen Komplexität – durchaus einfach erklären und mit darauf aufbauend einfachen Modellen recht tiefe Analysen durchführen und fundierte Entscheide treffen – mindestens dann, wenn man sich bewusst ist, dass auch die besten einfachen Modelle nur 60 bis 80 Prozent der relevanten Aspekte erfassen und es immer auch das Spezialwissen braucht, um wirklich gute Entscheide treffen zu können.
Eine sinnvolle einfache Erklärung eines wirklichkeitsnahen dynamischen Weltbilds ist, dass die Dynamik vor allem im Wachstum von Wissen und Knowhow besteht. Ein dementsprechendes Modell ist das der ökonomischen Komplexität von Hausmann und Hidalgo. Hidalgo hat in seinem Buch „Wachstum geht anders“ recht überzeugend versucht, den Zusammenhang zwischen Erklärung und Modell darzustellen. Man muss aber weder das mathematische Konzept der ökonomischen Komplexität noch Hidalgos Erklärung des Wesens von Fortschritt verstehen, um erste grundsätzliche Schlussfolgerungen aus der Betrachtung der Dynamik von Wissen und Knowhow zu ziehen.
Erstens sind Wissen und Knowhow keine statischen, sondern sich dynamisch verändernde Ressourcen, die im Laufe der Menschheitsgeschichte stark gewachsen sind. Zweitens wissen wir aus der Vergangenheit, dass Wissen und Knowhow auch wieder verloren gehen können. Drittens wissen wir aus der Gegenwart, beispielsweise der letzten Bankenkrise, dass Wissen und Knowhow in vielen Situationen systematisch ausgeschaltet werden und das kurzfristigen Nutzen und langfristige Megarisiken mit sich bringt. Organisationen, voll von talentierten Menschen, können sehr dumm handeln und dabei viel verdienen, bis das System als Ganzes zusammenkracht. Viertens geht das Wachstum von Wissen und Knowhow langsam vor sich und findet auf verschiedenen Ebenen statt: In Individuen, in sozialen Gruppen, in Organisationen und im Staat. Dabei beeinflussen sich die Ebenen gegenseitig. Fünftens ist das Zusammenspiel des vorhandenen Wissens und Knowhows mit den Einsatzmöglichkeiten eben dafür wirkungsentscheidend. Innovationen brauchen in der Regel beides.

Schlussfolgerungen für das Handeln
Aus diesen Beobachtungen gilt es die richtigen Konsequenzen zu ziehen. Ich werde das hier nicht tun, weil damit sofort die Diskussion über die Schlussfolgerung eröffnet würde und der oben skizzierte Dualismus mit der vollen Macht der beiden primitiven Weltbilder die Diskussion dominieren würde. Es ist nur so: Die Zukunft liegt in der Entwicklung von Wissen und Knowhow. Dazu gehört auch die Meta-Perspektive: Wissen und Knowhow zur Entwicklung von Wissen und Knowhow. Letzteres nennt man neu Stupidity Management: Im richtigen Augenblick dumm und im richtigen Augenblick clever ist der eigentliche Unterschied zwischen den Förderern des Fortschritts und den Förderern von Rückschritt und Untergang.
Ich erlebe häufig – gefühlt sogar immer häufiger – dass genau dann, wenn Disziplin gefragt wäre, kreativ gedacht wird und dann, wenn freies Denken notwendig wäre, Disziplin praktiziert wird. Schlimmer noch: Wer dagegen konstruktiv ankämpft, der geht unter. Geduldet werden nur Querdenker, die an Problemlösungen nicht interessiert sind.
Wenn wir nicht wegen Selbstzufriedenheit und Mitläufertum untergehen wollen, sollten wir uns regelmässig und ernsthaft die Frage stellen: Trägt unser Handeln zum Wachstum von Knowhow und Wissen bei – und: Tut es das effizient? Die Naturgeschichte lehrt, dass wer zu langsam lernt, ausstirbt. Lernen verlangt Veränderung und Tun, das Denken zur rechten Zeit erhöht aber seine Effizienz.


Erschienen auf digitaleschweiz.ch

PDF erstellen

Ähnliche Beiträge

Es wurden leider keine ähnlichen Beiträge gefunden.

opendata.swiss! Et après?

opendata.swiss! Et après? C’est avec ce titre que j’ai présenté l’état des activités du projet de mise en œuvre de la Stratégie Open Government Data Suisse lors de la conférence annuelle opendata.ch en juin dernier à Lausanne. Où en est-on de cette mise en œuvre et quels sont les défis qui sont encore devant nous?

Depuis janvier 2015, les Archives fédérales suisses (AFS) sont responsables de la gestion du projet de mise en œuvre de la stratégie Open Government Data Suisse de la Confédération. Une telle activité s’inscrit dans leur volonté de mettre à disposition leur savoir-faire pour la présentation d’informations hétérogènes, d’expérimenter de nouvelles formes de communication d’informations (tendance vers une infrastructure informationnelle) et, en même temps, d’approfondir leurs connaissances sur les données actuelles qui seront les archives de demain.

opendata.swiss! Et après? Ces quelques mots résument toujours aussi bien la situation dans laquelle nous nous trouvons actuellement. D’abord « opendata.swiss » qui est la partie la plus visible du travail réalisé depuis octobre 2013, date du lancement officiel du projet OGD Suisse. Disposer d’un portail web à la hauteur de nos attentes et reprenant les standards internationaux méritait bien une exclamation de satisfaction.

Puis, « Et après » ponctué d’un point d’interrogation nous permet d’ouvrir la discussion sur ce qui reste encore à faire pour que la Stratégie OGD Suisse puisse être qualifiée fin 2018 de succès. Le portail n’est qu’une mesure parmi de nombreuses autres qui ont été définies et sur lesquelles nous devons encore travailler pour atteindre nos objectifs.

Reprenons les choses dans l’ordre et autorisons-nous d’abord un petit bilan après dix mois d’exploitation de opendata.swiss.

Deux indicateurs sont très réjouissants dans l’évolution qu’ils affichent. Le premier est en lien avec le nombre d’organisations. Lors du lancement, 17 organisations étaient présentes et actuellement elles s’élèvent à 28. On y trouve des offices de l’administration fédérale, des services des administrations cantonales ou communales ainsi que des entreprises ayant un mandat public. Cette dynamique est très importante car elle figurait dans nos priorités pour le développement du portail. La solution devait garantir une configuration simple et rapide de nouvelles organisations sur le portail. Aujourd’hui, ce but est atteint puisque cette démarche se fait en quelques minutes et ne nécessite que quelques heures d’apprentissage et d’expérimentation sur le portail de test pour un responsable local de l’organisation.

Le 2ème indicateur est le nombre de jeux de données qui a presque triplé durant ces dix mois : de 704 à 2050. Nous profitons ici très clairement d’une excellente collaboration avec swisstopo qui a défini un attribut « opendata » permettant à chaque contributeur de geocat d’étiqueter les jeux de données car- tographiques qui sont candidats à une publication sur opendata.swiss. L’investissement dans cette catégorie de données est minimal et permet ainsi d’offrir une distinction simple entre données libres et données soumises à des restrictions d’utilisation.

Cependant avec 28 organisations et 2’000 jeux de données, nous sommes loin d’avoir épuisé le potentiel de l’administration fédérale dans ce domaine et, a fortiori, de l’ensemble des administrations suisses. Afin de renforcer la dynamique de publication déjà bien enclenchée, la promotion de OGD Suisse auprès de tous les étages des administrations suisses est donc une priorité pour 2017.

Plusieurs initiatives ont été lancées afin d’atteindre ces différents acteurs et de les convaincre d’adhérer à cette stratégie.

Par exemple, en janvier, nous effectuerons un nouvel inventaire au sein des différentes unités administratives de l’administration fédérale. L’ensemble des données de la Confédération doit être systématiquement recensé, que leur publication sous forme de données ouvertes soit déjà autorisée ou non. Le but de cet inventaire est d’offrir une vue d’ensemble qui servira ensuite de base pour élaborer une politique des données, mais aussi afin d’encourager le développement de l’offre disponible sur opendata.swiss. Par ailleurs, la procédure d’inventoriage sera mise à disposition des cantons et des communes qui pourront, s’ils le souhaitent, l’adapter et l’appliquer à leur échelle.

Une autre initiative mise sur pied en 2016 et poursuivie en 2017, consiste à inviter les acteurs (contributeurs et utilisateurs) concernés par un thème particulier à participer à des tables rondes. Ainsi, lors de la deuxième table ronde OGD du 26 octobre dernier, plus de 20 participants ont pris part à un débat animé sur les données en lien avec l’alimentation, l’intérêt qu’elles pourraient susciter auprès du public et comment les rendre accessibles.

L’évolution des fonctions du portail est aussi un sujet de discussion entre les AFS et l’ensemble des contributeurs actuels qui se réunissent régulièrement pour faire le point sur leurs souhaits et leurs besoins. La prochaine évolution du portail offrira des possibilités d’interaction entre contributeurs et utilisateurs mais aussi entre utilisateurs. Ainsi l’aspect communautaire – très fort dans le milieu OGD – pourra s’appuyer sur opendata.swiss pour créer cette dynamique d’échange utile au succès de ce projet.

Un des grands défis pour 2017 et les années suivantes est de faire évoluer la technique de publication des données. Si notre priorité reste d’avoir des données publiées « quelque soit le format », il n’en demeure pas moins que le choix du format de données est un critère de succès pour leur utilisation par des tiers. Nous axons notre stratégie sur l’utilisation du Linked Data comme technologie optimale de publication de sources de données multiples et hétérogènes. Ainsi la solution Lindas, développée par le SECO, fait maintenant partie de l’offre OGD et de nombreuses actions vont être entreprises pour en faire la promotion auprès des administrations suisses.

2017 va donc être l’année de la consolidation pour le projet OGD Suisse. La base est solide et les défis à relever sont encore importants. Mais surtout, ils sont passionnants.


Link:
www.opendata.swiss

PDF erstellen

Ähnliche Beiträge

Es wurden leider keine ähnlichen Beiträge gefunden.

Linked Data: Present & Future

In this text, I give a short overview of Linked Data technologies, describing their main characteristics as well as their adoption. I also risk making a few predictions on the future of Linked Data.

What is Linked Data?
Linked Data can be seen as a simplified (and pragmatic) implementation of the Semantic Web vision. Sir Tim Berners-Lee, the inventor of the Web, coined the term Linked Data in 2006 to prescribe a simple method of publishing data using web standards. The method can be summarized in three points:

  1. All data items should have names that start with http
  2. When looked up online, the http names should return some data in a standard format to describe the items
  3. The description of the items should also contain relationships to other pieces of data.

In technical terms, this means that data items are identified by URIs, so that they can be dereferenced through HTTP, and can refer to other items using their HTTP URI-based identifiers. The language used to express such data is often called the Resource Description Framework (RDF).

Linked Data & Me
I’ve been a close observer of the emergence of Linked Data. Publicly, I was involved in a number of forums and meetings dealing with Linked Data. I have co-organized the ISWC, the main research venue for Linked Data, a number of times since 2007 (I was, for instance, PC Chair of ISWC 2012 in Boston and will be In-Use Chair this year in Vienna). Privately, I regularly leverage Linked Data in my own research, either to better grasp content (e.g. to understand text better) or to serialize output data (e.g. to publish datasets).

Linked Data Today
The adoption of Linked Data has been phenomenal. Linked Data is used in two main ways today: i) to create webs of data that can be accessed and queried by anyone, and ii) to add metadata to Web pages.

The most prominent web of data created through Linked Data is called the Linked Open Data (LOD) cloud (see Figure 1). It is conceptually similar to the World Wide Web, but contains interlinked data instead of interlinked documents. The LOD cloud includes thousands of different datasets from a wide range of domains: from governmental data to geographic, life-science or bibliographic data. Each of these datasets contains a myriad of data items and links, is fully open, and can be queried using a standard query language (SPARQL). Other important webs of data exist besides the LOD Cloud, such as Wikidata or Google’s Knowledge Graph.

Figure 1: the Linked Open Data (LOD) cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/

In addition, Linked Data is also used to add metadata to Web pages. The main format used in that sense is called schema.org, which is supported by a number of prominent companies including Google, Microsoft, Yahoo and Yandex. This format allows all sorts of data to be added to a Web page, to describe for example people, products, events, or reviews that are contained in that Web page. Those data can then be used to summarize, describe, or manipulate the Web page (e.g. to create rich snippets on a search engine). Today, millions of websites use this format to describe their pages.1

Linked Data Tomorrow
Linked Data is widely available today, in the LOD cloud and on Web pages. However, the development of applications using Linked Data has been hampered by a series of technical issues, from data quality to complex standards. In the following paragraphs, I give my own vision of the evolution of Linked Data.

  1. Agile standards: RDF and its applications are governed by a monolithic and complex set of standards that are revamped every few years. In that context, agile and incremental efforts like schema.org will be increasingly popular and important as they correct, update or try out features on a continuous basis, akin to methodologies used for agile software.
  2. Smart clients: using Linked Data productively is often more complex than it seems, as one typically has to spend considerable time selecting, aligning and cleaning up data (which is a common issue in Big Data and Data Science). Increasingly, Machine Learning methods will be able to automate such processes to create smart Linked Data clients capable of ingesting, aligning and cleaning up raw Linked Data using sophisticated supervised models.
  3. Unification: Linked Data is available today from several distinct and heterogeneous platforms (the LOD cloud, Wikidata, HTML pages, etc.) In the future, bridges will be built to integrate those platforms and create more extensive webs of data. Fribourg’s VoldemortKG is a first effort in that direction, as it interlinks schema.org data to the LOD cloud.
PDF erstellen

Ähnliche Beiträge

Es wurden leider keine ähnlichen Beiträge gefunden.

Linked Data – erfolgreiche Suche dank Datenstruktur

Linked Data, eine Methode der Datenstrukturierung mit dem Ziel die durch die Daten repräsentierten Informationen miteinander zu vernetzen,erlaubt eine erfolgreichere Datensuche. Dabei greift Linked Data auf erprobte kulturelle Such- und Entscheidungspraktiken zurück, die fast jeder von uns in der einen oder anderen Form einsetzt. Aber wie funktioniert die Methode? Was sind ihr Wert und ihre Wirkung?

In unserem Alltagsumfeld nutzen die meisten von uns Beziehungen zwischen den Informationen, um diese besser einordnen zu können. Wir haben beispielsweise gelernt, dass wenn Tiere unruhig werden, eine sich anbahnende Naturkatastrophe der Grund sein kann. Nicht selten ist bei solchen angenommenen Beziehungen zwischen den Informationen Aberglaube im Spiel. Man denke an den erwarteten Zusammenhang zwischen einer schwarzen Katze und Unglück. Gerade aber in beruflichen Situationen sind Inferenzen zwischen Beobachtungen essentiell. Wir suchen (hoffentlich) vorzugsweise dort, wo der Sucherfolg wahrscheinlich ist. Dabei lassen wir uns von Beobachtungen leiten, die unserer Erfahrung nach oder gemäss theoretischem Wissen positiv korreliert sind mit dem Vorhanden-Sein des Gesuchten. Auch Linked Data Suchalgorithmen wenden diese Strategie in der digitalen Datenwelt an. Linked Data sind dabei eine Datenstruktur, die die Anwendung dieser Algorithmen besonders gut unterstützt. Die Algorithmen dafür sind aber auch auf dem World Wide Web einsetzbar und generell überall dort, wo Datenobjekte eindeutig systemübergreifend identifizierbar sind und es genügend (Quer-)Vernetzung zwischen den Datenobjekten gibt.

Linked Data können vielfältig genutzt werden. Ihr besonderer Wert liegt darin, dass sie Zusatzinformationen zu den einzelnen Datenobjekten liefern. Betrachtet man nur den Informationsgehalt für sich, so ist Linked Data nicht notwendigerweise eine besonders effiziente Form, um Informationen zu kodieren. Aber aus Sicht der praktischen Nutzung ist sie zugänglich für inhaltliche Analysen verschiedenster Art ebenso wie für das Suchen nach speziellen Informationen. Wir können Linked Data für das Schätzen von unbekannten Variablen ebenso nutzen wie für das Erkennen noch unbekannter Muster. Vor allem aber können wir damit Informationen zusammensuchen, die stark verteilt sind und wir können auch fehlende Informationen als solche erkennen. Auch das sind Fähigkeiten, die wir Menschen besonders gut beherrschen – zumindest einige von uns. Linked Data wendet digitale Formen menschlichen Erkennens an und macht dies auch für jene möglich, die sich von Natur aus damit eher schwer tun.

Wie alle diese „Demokratisierungen“ menschlicher Talente und Ressourcen, ist auch bei Linked Data die Wirkung ambivalent. Wird es wirklich den kognitiv weniger Begabten helfen oder ist es mehr ein Werkzeug für die kognitiven Überflieger? Und – welche der beiden Effekte täte der Gesellschaft besser? Vergrössert es die Gleichheit (und ist das eher gut oder eher schlecht für die Freiheit) oder vergrössert es die Ungleichheit bezüglich ökonomischen Ressourcen oder gesellschaftlicher Macht? Wir wissen es nicht. Linked Data inklusive der algorithmischen Maschinerien ist ein Werkzeug, das die Welt verändert, aber die möglichen Auswirkungen sind so vielfältig, dass Aussagen darüber Spekulation bleiben müssen.

Mit dieser Ausgabe von SocietyByte wollen wir uns vertieft dem Thema Linked Data und damit dem Schwerpunkt Big & Open Data zuwenden.

Viel Vergnügen beim Lesen!

Herzlichst, Ihr Reinhard Riedl

PDF erstellen

Ähnliche Beiträge

Es wurden leider keine ähnlichen Beiträge gefunden.