Basisregister und Normdaten als Wegbereiter für Linked Data

Basisregister sind zentrale Bestandteile eines Linked-Data-Ökosystems. Zusammen mit gemeinsam verwendeten Datenmodellen bzw. Ontologien sorgen sie dafür, dass Datenbestände auch über Organisationsgrenzen hinweg miteinander verknüpft werden können. Ohne sie wäre “Linked Data” nicht möglich. Ausgehend von einem laufenden Projekt, welches zum Ziel hat, die Publikation von Linked Open Data durch Schweizer Behörden voranzubringen, beschreiben wir den Status Quo und die geplanten Massnahmen, um die Publikation von relevanten Basisregistern und Vokabularen systematisch zu fördern.

Wie in einem früheren Artikel beschrieben (Estermann 2019), sollen im Rahmen eines Projekts im Auftrag von E-Government Schweiz jene Datenbestände identifiziert werden, die im Zusammenhang mit der Publikation von Linked Open Data (LOD) durch Schweizer Behörden als Basisregister oder als zentrale Vokabulare dienen können. Ihre zeitnahe Publikation als Linked Open Data würde der Verlinkung von Behördendaten Vorschub leisten. Dass die Publikation von Basisregistern oder zentralen Vokabularen in der Schweiz ein sehr wichtiges Thema ist, hat sich auch an der anfangs Juli durchgeführten  Unconference Opendata.ch/2019 gezeigt: Die Frage, welche Basisregister und Vokabulare Schweizer Behörden als LOD publizieren sollten, wurde von den Teilnehmenden als eine der wichtigsten Fragen eingestuft und in einem Workshop behandelt.

Um jene Basisregister und Vokabulare zu identifizieren, denen im Kontext von Schweizer Behördendaten das grösste Nutzungspotenzial zukommt, führte die Berner Fachhochschule im Rahmen eines Projekts von E-Government-Schweiz ein erstes Screening von Datenbeständen durch. Dabei wurden parallel zwei Ansätze verfolgt:

  • Screening von existierenden Datenbeständen von Schweizer Behörden im Hinblick auf ihre Eignung als Basisregister oder Vokabulare.
  • Screening von Wikidata bezüglich Eignung als Basisregister oder Vokabular im Zusammenhang mit der Datenpublikation durch Schweizer Behörden.

Ergänzt wurde das Screening durch die Befragung von Schweizer Behörden, welche bereits heute Daten als Linked Data publizieren oder dies in naher Zukunft vorhaben. Dabei wurden speziell im Bereich der Archive und Bibliotheken noch weitere Daten aus dem Bereich der Gedächtnisinstitutionen und der Digital Humanities identifiziert.

Nachstehend werden die Vor- und Nachteile dieser verschiedenen Arten von Datenquellen kurz erörtert und erste Shortlists präsentiert, welche anschliessend von der Schweizer LOD-Community in einem offenen Prozess kommentiert und ergänzt werden sollen.

Datenbestände von Schweizer Behörden

Die meisten Datenbestände der Schweizer Behörden werden aufgrund eines gesetzlichen Auftrages erstellt und gepflegt. Deshalb kann nicht nur davon ausgegangen werden, dass die Daten von hoher Qualität sind, sondern dass auch die Kontinuität der Datenpublikation gewährleistet ist, dass also die Daten auch in Zukunft gepflegt und verfügbar gemacht werden. Dabei gilt es allerdings zu bedenken, dass die Tatsache allein, dass die Daten von Behörden bereitgestellt werden, noch kein Garant für die Datenqualität ist. Datenqualität ist als Prozess zu denken und wird erst im Zusammenhang mit konkreten Anwendungen fassbar. Eine vielfältige und häufige Verwendung der Daten erhöht im Allgemeinen die Datenqualität, da Fehler und Unzulänglichkeiten der Daten oft erst bei deren Nutzung entdeckt werden. Bei etlichen Behördendaten (z.B. Handelsregister, Gemeindeverzeichnis) kann davon ausgegangen werden, dass sie regelmässig und in unterschiedlichen Kontexten verwendet werden; bei anderen bleiben der bisherige Verwendungskontext und die Verwendungshäufigkeit weitgehend im Dunkeln (z.B. kantonale Denkmallisten).

Leider werden heute erst wenige Datensätze der öffentlichen Verwaltung als Linked Open Data publiziert, und die Machbarkeit und Bereitschaft der verschiedenen Datenhalter im Hinblick auf eine solche Publikation muss in der Regel erst noch geklärt werden.

Basierend auf dem Screening und dem Ergebnis des oben erwähnten Workshops haben wir eine erste Shortlist von Datenbeständen von Schweizer Behörden erstellt, welche im Zusammenhang mit der Publikation von Schweizer Behördendaten als Linked Open Data als Basisregister oder als kontrollierte Vokabulare dienen könnten:

Bezeichnung Verantwortliche Behörde Kurzbeschrieb
UID-Register BFS Im UID-Register werden alle in der Schweiz tätigen Unternehmen geführt. Die Informationen zu den Unternehmen sind der Verwaltung (UID-Stellen), dem Unternehmen selbst und teilweise der Öffentlichkeit zugänglich.
Handelsregister Kantonale Handelsregisterämter In der Schweiz sind die Handelsregister dezentral organisiert und werden von den Kantonen geführt. Die Handelsregister sind öffentlich und dienen der Konstituierung und der Identifikation von Unternehmen. Sie bezwecken die Erfassung und Offenlegung handels- und gesellschaftsrechtlich relevanter Tatsachen und tragen dadurch zur Gewährleistung der Rechtssicherheit sowie zum Schutz von Dritten bei.
TERMDAT Bundeskanzlei (BK) TERMDAT ist die mehrsprachige Terminologie-Datenbank der schweizerischen Bundesverwaltung und enthält u.a. auch die offiziellen Namen aller Bundesämter. Prototypisch wurde eine Teilumsetzung als Linked Data bereits realisiert.
Nomenklaturen BFS Die Nomenklaturen des BFS umfassen insbesondere:

  • Gemeindeverzeichnis,
  • Historisiertes Gemeindeverzeichnis,
  • PLZ-Verzeichnis.

Ausserdem wäre ein versionierter Abgleich zwischen PLZ und BFS Gemeindenummern wünschenswert.

Amtliches Ortschaften- verzeichnis  swisstopo Amtliches Ortschaftenverzeichnis mit Postleitzahl und Perimeter.
Eidg. Gebäude- und Wohnungs- register (GWR) BFS Erfasst die wichtigsten Grunddaten zu den Gebäuden und Wohnungen der Schweiz für statistische und administrative Zwecke.
NOGA BFS Die “allgemeine Systematik der Wirtschaftszweige” (Nomenclature générale des activités économiques) dient zur konsistenten Verwendung von Branchennamen bei statistischen Auswertungen.
ISCO BFS Internationale Berufsnomenklatur (International Standard Classification of Occupations) zur konsistenten Verwendung von Berufsnamen bei statistischen Auswertungen.

Diese Liste ist als Vorschlag zu verstehen, welche bestehenden Datensätze aus Nutzungsperspektive mit höchster Priorität als Linked Open Data publiziert werden sollten.

Wikidata

Datenbestände in Wikidata haben den Vorteil, dass sie aufgrund des Crowdsourcing-Ansatzes einen teilweise sehr guten Abdeckungsgrad haben, und fehlende Daten unkompliziert erstellt bzw. ergänzt werden können. Ausserdem ist bei Daten aus Wikidata eine sofortige Integration mit einer weltweiten Linked-Data-Cloud gegeben, da die Rekonzilierung mit anderen Datenbeständen gleich beim Dateningest erfolgt, und nicht erst nach der Datenpublikation, wie es bei anderen Datensätzen oft der Fall ist.

Der Crowdsourcing-Ansatz führt aber auch zu gewissen Problemen, insbesondere hinsichtlich der Datenqualität. Diese lässt sich nur mit zusätzlichem Aufwand sicherstellen, z.B. durch die Identifikation von und Einschränkung auf verlässliche Quellen. Ausserdem besteht in diversen Bereichen ein beträchtlicher Bedarf hinsichtlich Datenbereinigung sowie Harmonisierung der Modellierungspraxis.

Auch hier haben wir basierend auf dem Screening eine erste Shortlist von Datenbeständen in Wikidata erstellt, welche im Zusammenhang mit der LOD-Publikation von Schweizer Behördendaten als Basisregister oder als kontrollierte Vokabulare dienen könnten:

Bezeichnung Wikidata-Query Anz. Einträge 

(Juni 2019)

Verwaltungseinheiten der Schweiz https://w.wiki/53U 5139
Schweizer Organisationen https://w.wiki/53x 12596
Schweizer Gedächtnisinstitutionen https://w.wiki/5Gm 2169
Menschen, die in der Schweiz geboren sind https://w.wiki/53V 24537
Menschen, die in der Schweiz gestorben sind https://w.wiki/53X 13396
Menschen mit Schweizer Nationalität https://w.wiki/53Z 31006
Menschen mit Schweizbezug (Bürgerrecht, Geburts- oder Sterbeort, Arbeitsort oder Wohnsitz) https://w.wiki/53c 40549
Bauwerke in der Schweiz https://w.wiki/53f 20147
Schweizer Kulturgüter von nationaler oder regionaler Bedeutung (KGS-Inventar) https://w.wiki/53j 13121
Sprachen https://w.wiki/53m 12987
Taxons https://w.wiki/53o 2549556
Gewässer in der Schweiz https://w.wiki/53q 2942
Berge in der Schweiz https://w.wiki/53r 7965
Chemische Verbindungen https://w.wiki/53$ 162545
Menschliches Geschlecht oder Gender (Vokabular) https://w.wiki/546 10+
Stoffe, aus denen Objekte gefertigt werden (Vokabular) https://w.wiki/548 3318
Farben, die dazu verwendet werden, um Objekte zu identifizieren (Vokabular) https://w.wiki/54D 61
Farben https://w.wiki/54C 191

Interessant könnte es auch sein, offizielle Behördendaten direkt in Wikidata zu publizieren. Das hätte den Vorteil, dass damit direkt ein hohes Nutzungspotential im internationalen Kontext erschlossen werden kann, da die Daten einfacher mit Daten aus anderen Ländern kombiniert werden können. Besonders sinnvoll ist ein solches Vorgehen bei Themen, die auch im Rahmen von Wikipedia-Artikeln abgehandelt werden sollen. Um die semantische Interoperabilität der Daten über die Ländergrenzen hinweg zu gewährleisten, bedarf es einer entsprechenden Koordination zwischen den datenpublizierenden Stellen. Falls diese nicht schon anderweitig erfolgt, kann diese Koordination direkt im Rahmen der Wikidata-Community stattfinden.

Daten aus dem Bereich der Gedächtnisinstitutionen und der Digital Humanities

Seitens der Nationalbibliothek und der beiden befragten Archive wurde zudem auf die Bedeutung von internationalen Normdaten und Vokabularen hingewiesen. Dazu gehören beispielsweise die Gemeinsamen Normdatei (GND), welche von der Deutschen Nationalbibliothek und den deutschsprachigen Bibliotheksverbünden kooperativ geführt wird, sowie das Virtual Internet Authority File (VIAF) und die Dewey Decimal Classification, welche beide vom US-amerikanischen Online Computer Library Center (OCLC) betrieben werden.

Im Hinblick auf die Vernetzung von Schweizer Beständen spielen zudem weitere Normdaten und Verzeichnisse eine Rolle, die sich speziell auf die Schweiz beziehen:

Bezeichnung Betreiber Kurzbeschrieb
Gemeinsame Normdatei (GND) Deutsche Nationalbibliothek Normdatei für Personen, Körperschaften, Kongresse, Geografika, Sachschlagwörter und Werktitel, die vor allem zur Katalogisierung von Literatur in Bibliotheken dient, zunehmend aber auch von Archiven, Museen, Projekten und in Web-Anwendungen genutzt wird.
Virtual International Authority File (VIAF) OCLC Virtuelle internationale Normdatei, welche 25 nationale Normdateien über eine Konkordanzdatei verlinkt.
Dewey Decimal Classification OCLC Online Computer Library Center Die international am weitesten verbreitete Klassifikation für die inhaltliche Erschliessung von Bibliotheksbeständen. Sie wird hauptsächlich im anglo-amerikanischen Sprachraum eingesetzt..
Fotografie-Metadaten Foto CH Metadaten zu Schweizer Fotografen und Fotografiebeständen (Fotografen, Arbeitsorte, Institutionen, Bestände, Ausstellungen).
Inventar der Forschungsbibliotheken der Schweiz Swissbib/UB Basel Daten zu den rund 900 Schweizer Forschungsbibliotheken, die an den Bibliotheks-Metakatalog von Swissbib angeschlossen sind.
Authority files on Swiss history histHub Named Entities (Personen, Orte), Typologien (Berufe, Ortstypen) und Vokabulare (Vornamen, Konzepte), die im Zusammenhang mit historischen Beständen zur Schweiz von Relevanz sind. Einige davon befinden sich noch im Aufbau.
Metadaten des Historischen Lexikons der Schweiz HLS Metadaten zu den Einträgen im Historischen Lexikon der Schweiz (Koordinaten, Personen, Organisationen, Verlinkung auf GND und VIAF).
Metagrid SAGW / Dodis Konkordanz-Datei für historische Normdaten mit Schweiz-Bezug.

Historisierte Datenbestände als grosse Herausforderung

Eine besondere Herausforderung stellt die Verfügbarkeit und Nutzung von historisierten Datenbeständen dar. Dieses Thema wird in Gesprächen über die Publikation von Open Government Data als Linked Data immer wieder hervorgehoben, so auch am oben erwähnten Workshop. Dabei geht es nicht nur um die Verfügbarkeit an sich, die heute noch unvollständig ist (zum Beispiel Gemeindeperimeter). Sondern es geht auch darum, wie verschiedene historisierte Datenbestände verknüpft werden können: Dies ist heute oft nicht einfach, da bei der Historisierung der verschiedenen Datenbestände unterschiedliche Historisierungsansätze verfolgt wurden.

Nutzungsszenarien

Wie aus der Befragung von Schweizer Behörden hervorgeht, welche bereits heute Daten als Linked Data publizieren oder dies in naher Zukunft vorhaben, wird der zusätzliche Aufwand, der in die Aufbereitung und die Verknüpfung der Daten mit anderen Beständen gesteckt wird, damit motiviert, dass damit:

  1. künftig eine verbesserte Suche in den Beständen angeboten werden kann (z.B. mehrsprachige Suche in historischen Beständen des Bundesarchivs; geolokalisierte Suche in Beständen des Staatsarchivs Basel-Stadt);
  2. neue Erkenntnisse generiert werden können (z.B. Verknüpfung von Datenbeständen des BAFU oder der Angaben aus dem Handelsregister mit statistischen Kennzahlen des BFS; Integration von semantisch angereicherten Archivkatalogen in Forschungsumgebungen); und
  3. die Transparenz erhöht wird (z.B. Tarif der Schweizer Stromversorger; Daten aus der Strommarkt-Überwachung).

Nächste Schritte

Die oben aufgeführten Tabellen reflektieren den aktuellen Stand bezüglich der Basisregister und Vokabulare, die aus Nutzerperspektive mit höchster Priorität als Linked Data verfügbar gemacht werden sollten. In den nächsten Wochen werden wir weitere Inputs seitens der Schweizer LOD-Community einholen, um die Tabellen und die Auflistung möglicher Nutzungsszenarien zu ergänzen, so dass wir am Ende über eine breit abgestützte und priorisierte Liste von Basisregistern und Vokabularen verfügen.

In einem nächsten Schritt werden wir diese Liste im Dialog mit den Datenhaltern abarbeiten, um neben der Dimension des Nutzungspotenzials auch den Bewertungskriterien der “Machbarkeit” und der “Bereitschaft des Datenhalters” (siehe Estermann 2019) Rechnung zu tragen. Ergebnis dieses nächsten Schrittes werden mehrere zu LOD aufbereitete Datensätze sein, wie auch eine Analyse zu den Herausforderungen und Hürden im Hinblick auf die Konversion weiterer Datenbestände zu Linked Data. Basierend auf dieser Analyse sollen anschliessend Empfehlungen zum weiteren Vorgehen formuliert werden.

Der erste Teil des Artikel ist bereits erschienen.


Bibliographie

AUTOR/AUTORIN: Stephan Haller

Stephan Haller ist Professor am Institut Public Sector Transformation der BFH Wirtschaft und am BFH-Zentrum Digital Society. Er lehrt über Projektmanagement, IT-Sourcing und E-Government lehrt und forscht in den Bereichen Smart City, Open Data und Internet der Dinge.

AUTOR/AUTORIN: Beat Estermann

Beat Estermann ist stellvertretender Leiter des Instituts Public Sector Transformation der BFH Wirtschaft, wo er die Fachgruppe “Daten & Infrastruktur” koordiniert. Mit Fragen rund um Linked Open Data beschäftigt er sich seit mehreren Jahren im Rahmen von Forschungsprojekten und Beratungsmandaten im Auftrag von Behörden, Gedächtnis- und Kulturinstitutionen.

PDF erstellen

Ähnliche Beiträge

Es wurden leider keine ähnlichen Beiträge gefunden.

0 Kommentare

Dein Kommentar

An Diskussion beteiligen?
Hinterlasse uns Deinen Kommentar!

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.