Basisregister sind zentrale Bestandteile eines Linked-Data-Ökosystems. Zusammen mit gemeinsam verwendeten Datenmodellen bzw. Ontologien sorgen sie dafür, dass Datenbestände auch über Organisationsgrenzen hinweg miteinander verknüpft werden können. Ohne sie wäre “Linked Data” nicht möglich. Ausgehend von einem laufenden Projekt, welches zum Ziel hat, die Publikation von Linked Open Data durch Schweizer Behörden voranzubringen, beschreiben wir den Status Quo und die geplanten Massnahmen, um die Publikation von relevanten Basisregistern und Vokabularen systematisch zu fördern.
Wie in einem früheren Artikel beschrieben (Estermann 2019), sollen im Rahmen eines Projekts im Auftrag von E-Government Schweiz jene Datenbestände identifiziert werden, die im Zusammenhang mit der Publikation von Linked Open Data (LOD) durch Schweizer Behörden als Basisregister oder als zentrale Vokabulare dienen können. Ihre zeitnahe Publikation als Linked Open Data würde der Verlinkung von Behördendaten Vorschub leisten. Dass die Publikation von Basisregistern oder zentralen Vokabularen in der Schweiz ein sehr wichtiges Thema ist, hat sich auch an der anfangs Juli durchgeführten Unconference Opendata.ch/2019 gezeigt: Die Frage, welche Basisregister und Vokabulare Schweizer Behörden als LOD publizieren sollten, wurde von den Teilnehmenden als eine der wichtigsten Fragen eingestuft und in einem Workshop behandelt.
Um jene Basisregister und Vokabulare zu identifizieren, denen im Kontext von Schweizer Behördendaten das grösste Nutzungspotenzial zukommt, führte die Berner Fachhochschule im Rahmen eines Projekts von E-Government-Schweiz ein erstes Screening von Datenbeständen durch. Dabei wurden parallel zwei Ansätze verfolgt:
- Screening von existierenden Datenbeständen von Schweizer Behörden im Hinblick auf ihre Eignung als Basisregister oder Vokabulare.
- Screening von Wikidata bezüglich Eignung als Basisregister oder Vokabular im Zusammenhang mit der Datenpublikation durch Schweizer Behörden.
Ergänzt wurde das Screening durch die Befragung von Schweizer Behörden, welche bereits heute Daten als Linked Data publizieren oder dies in naher Zukunft vorhaben. Dabei wurden speziell im Bereich der Archive und Bibliotheken noch weitere Daten aus dem Bereich der Gedächtnisinstitutionen und der Digital Humanities identifiziert.
Nachstehend werden die Vor- und Nachteile dieser verschiedenen Arten von Datenquellen kurz erörtert und erste Shortlists präsentiert, welche anschliessend von der Schweizer LOD-Community in einem offenen Prozess kommentiert und ergänzt werden sollen.
Datenbestände von Schweizer Behörden
Die meisten Datenbestände der Schweizer Behörden werden aufgrund eines gesetzlichen Auftrages erstellt und gepflegt. Deshalb kann nicht nur davon ausgegangen werden, dass die Daten von hoher Qualität sind, sondern dass auch die Kontinuität der Datenpublikation gewährleistet ist, dass also die Daten auch in Zukunft gepflegt und verfügbar gemacht werden. Dabei gilt es allerdings zu bedenken, dass die Tatsache allein, dass die Daten von Behörden bereitgestellt werden, noch kein Garant für die Datenqualität ist. Datenqualität ist als Prozess zu denken und wird erst im Zusammenhang mit konkreten Anwendungen fassbar. Eine vielfältige und häufige Verwendung der Daten erhöht im Allgemeinen die Datenqualität, da Fehler und Unzulänglichkeiten der Daten oft erst bei deren Nutzung entdeckt werden. Bei etlichen Behördendaten (z.B. Handelsregister, Gemeindeverzeichnis) kann davon ausgegangen werden, dass sie regelmässig und in unterschiedlichen Kontexten verwendet werden; bei anderen bleiben der bisherige Verwendungskontext und die Verwendungshäufigkeit weitgehend im Dunkeln (z.B. kantonale Denkmallisten).
Leider werden heute erst wenige Datensätze der öffentlichen Verwaltung als Linked Open Data publiziert, und die Machbarkeit und Bereitschaft der verschiedenen Datenhalter im Hinblick auf eine solche Publikation muss in der Regel erst noch geklärt werden.
Basierend auf dem Screening und dem Ergebnis des oben erwähnten Workshops haben wir eine erste Shortlist von Datenbeständen von Schweizer Behörden erstellt, welche im Zusammenhang mit der Publikation von Schweizer Behördendaten als Linked Open Data als Basisregister oder als kontrollierte Vokabulare dienen könnten:
Bezeichnung | Verantwortliche Behörde | Kurzbeschrieb |
UID-Register | BFS | Im UID-Register werden alle in der Schweiz tätigen Unternehmen geführt. Die Informationen zu den Unternehmen sind der Verwaltung (UID-Stellen), dem Unternehmen selbst und teilweise der Öffentlichkeit zugänglich. |
Handelsregister | Kantonale Handelsregisterämter | In der Schweiz sind die Handelsregister dezentral organisiert und werden von den Kantonen geführt. Die Handelsregister sind öffentlich und dienen der Konstituierung und der Identifikation von Unternehmen. Sie bezwecken die Erfassung und Offenlegung handels- und gesellschaftsrechtlich relevanter Tatsachen und tragen dadurch zur Gewährleistung der Rechtssicherheit sowie zum Schutz von Dritten bei. |
TERMDAT | Bundeskanzlei (BK) | TERMDAT ist die mehrsprachige Terminologie-Datenbank der schweizerischen Bundesverwaltung und enthält u.a. auch die offiziellen Namen aller Bundesämter. Prototypisch wurde eine Teilumsetzung als Linked Data bereits realisiert. |
Nomenklaturen | BFS | Die Nomenklaturen des BFS umfassen insbesondere:
Ausserdem wäre ein versionierter Abgleich zwischen PLZ und BFS Gemeindenummern wünschenswert. |
Amtliches Ortschaften- verzeichnis | swisstopo | Amtliches Ortschaftenverzeichnis mit Postleitzahl und Perimeter. |
Eidg. Gebäude- und Wohnungs- register (GWR) | BFS | Erfasst die wichtigsten Grunddaten zu den Gebäuden und Wohnungen der Schweiz für statistische und administrative Zwecke. |
NOGA | BFS | Die “allgemeine Systematik der Wirtschaftszweige” (Nomenclature générale des activités économiques) dient zur konsistenten Verwendung von Branchennamen bei statistischen Auswertungen. |
ISCO | BFS | Internationale Berufsnomenklatur (International Standard Classification of Occupations) zur konsistenten Verwendung von Berufsnamen bei statistischen Auswertungen. |
Diese Liste ist als Vorschlag zu verstehen, welche bestehenden Datensätze aus Nutzungsperspektive mit höchster Priorität als Linked Open Data publiziert werden sollten.
Wikidata
Datenbestände in Wikidata haben den Vorteil, dass sie aufgrund des Crowdsourcing-Ansatzes einen teilweise sehr guten Abdeckungsgrad haben, und fehlende Daten unkompliziert erstellt bzw. ergänzt werden können. Ausserdem ist bei Daten aus Wikidata eine sofortige Integration mit einer weltweiten Linked-Data-Cloud gegeben, da die Rekonzilierung mit anderen Datenbeständen gleich beim Dateningest erfolgt, und nicht erst nach der Datenpublikation, wie es bei anderen Datensätzen oft der Fall ist.
Der Crowdsourcing-Ansatz führt aber auch zu gewissen Problemen, insbesondere hinsichtlich der Datenqualität. Diese lässt sich nur mit zusätzlichem Aufwand sicherstellen, z.B. durch die Identifikation von und Einschränkung auf verlässliche Quellen. Ausserdem besteht in diversen Bereichen ein beträchtlicher Bedarf hinsichtlich Datenbereinigung sowie Harmonisierung der Modellierungspraxis.
Auch hier haben wir basierend auf dem Screening eine erste Shortlist von Datenbeständen in Wikidata erstellt, welche im Zusammenhang mit der LOD-Publikation von Schweizer Behördendaten als Basisregister oder als kontrollierte Vokabulare dienen könnten:
Bezeichnung | Wikidata-Query | Anz. Einträge (Juni 2019) |
Verwaltungseinheiten der Schweiz | https://w.wiki/53U | 5139 |
Schweizer Organisationen | https://w.wiki/53x | 12596 |
Schweizer Gedächtnisinstitutionen | https://w.wiki/5Gm | 2169 |
Menschen, die in der Schweiz geboren sind | https://w.wiki/53V | 24537 |
Menschen, die in der Schweiz gestorben sind | https://w.wiki/53X | 13396 |
Menschen mit Schweizer Nationalität | https://w.wiki/53Z | 31006 |
Menschen mit Schweizbezug (Bürgerrecht, Geburts- oder Sterbeort, Arbeitsort oder Wohnsitz) | https://w.wiki/53c | 40549 |
Bauwerke in der Schweiz | https://w.wiki/53f | 20147 |
Schweizer Kulturgüter von nationaler oder regionaler Bedeutung (KGS-Inventar) | https://w.wiki/53j | 13121 |
Sprachen | https://w.wiki/53m | 12987 |
Taxons | https://w.wiki/53o | 2549556 |
Gewässer in der Schweiz | https://w.wiki/53q | 2942 |
Berge in der Schweiz | https://w.wiki/53r | 7965 |
Chemische Verbindungen | https://w.wiki/53$ | 162545 |
Menschliches Geschlecht oder Gender (Vokabular) | https://w.wiki/546 | 10+ |
Stoffe, aus denen Objekte gefertigt werden (Vokabular) | https://w.wiki/548 | 3318 |
Farben, die dazu verwendet werden, um Objekte zu identifizieren (Vokabular) | https://w.wiki/54D | 61 |
Farben | https://w.wiki/54C | 191 |
Interessant könnte es auch sein, offizielle Behördendaten direkt in Wikidata zu publizieren. Das hätte den Vorteil, dass damit direkt ein hohes Nutzungspotential im internationalen Kontext erschlossen werden kann, da die Daten einfacher mit Daten aus anderen Ländern kombiniert werden können. Besonders sinnvoll ist ein solches Vorgehen bei Themen, die auch im Rahmen von Wikipedia-Artikeln abgehandelt werden sollen. Um die semantische Interoperabilität der Daten über die Ländergrenzen hinweg zu gewährleisten, bedarf es einer entsprechenden Koordination zwischen den datenpublizierenden Stellen. Falls diese nicht schon anderweitig erfolgt, kann diese Koordination direkt im Rahmen der Wikidata-Community stattfinden.
Daten aus dem Bereich der Gedächtnisinstitutionen und der Digital Humanities
Seitens der Nationalbibliothek und der beiden befragten Archive wurde zudem auf die Bedeutung von internationalen Normdaten und Vokabularen hingewiesen. Dazu gehören beispielsweise die Gemeinsamen Normdatei (GND), welche von der Deutschen Nationalbibliothek und den deutschsprachigen Bibliotheksverbünden kooperativ geführt wird, sowie das Virtual Internet Authority File (VIAF) und die Dewey Decimal Classification, welche beide vom US-amerikanischen Online Computer Library Center (OCLC) betrieben werden.
Im Hinblick auf die Vernetzung von Schweizer Beständen spielen zudem weitere Normdaten und Verzeichnisse eine Rolle, die sich speziell auf die Schweiz beziehen:
Bezeichnung | Betreiber | Kurzbeschrieb |
Gemeinsame Normdatei (GND) | Deutsche Nationalbibliothek | Normdatei für Personen, Körperschaften, Kongresse, Geografika, Sachschlagwörter und Werktitel, die vor allem zur Katalogisierung von Literatur in Bibliotheken dient, zunehmend aber auch von Archiven, Museen, Projekten und in Web-Anwendungen genutzt wird. |
Virtual International Authority File (VIAF) | OCLC | Virtuelle internationale Normdatei, welche 25 nationale Normdateien über eine Konkordanzdatei verlinkt. |
Dewey Decimal Classification | OCLC Online Computer Library Center | Die international am weitesten verbreitete Klassifikation für die inhaltliche Erschliessung von Bibliotheksbeständen. Sie wird hauptsächlich im anglo-amerikanischen Sprachraum eingesetzt.. |
Fotografie-Metadaten | Foto CH | Metadaten zu Schweizer Fotografen und Fotografiebeständen (Fotografen, Arbeitsorte, Institutionen, Bestände, Ausstellungen). |
Inventar der Forschungsbibliotheken der Schweiz | Swissbib/UB Basel | Daten zu den rund 900 Schweizer Forschungsbibliotheken, die an den Bibliotheks-Metakatalog von Swissbib angeschlossen sind. |
Authority files on Swiss history | histHub | Named Entities (Personen, Orte), Typologien (Berufe, Ortstypen) und Vokabulare (Vornamen, Konzepte), die im Zusammenhang mit historischen Beständen zur Schweiz von Relevanz sind. Einige davon befinden sich noch im Aufbau. |
Metadaten des Historischen Lexikons der Schweiz | HLS | Metadaten zu den Einträgen im Historischen Lexikon der Schweiz (Koordinaten, Personen, Organisationen, Verlinkung auf GND und VIAF). |
Metagrid | SAGW / Dodis | Konkordanz-Datei für historische Normdaten mit Schweiz-Bezug. |
Historisierte Datenbestände als grosse Herausforderung
Eine besondere Herausforderung stellt die Verfügbarkeit und Nutzung von historisierten Datenbeständen dar. Dieses Thema wird in Gesprächen über die Publikation von Open Government Data als Linked Data immer wieder hervorgehoben, so auch am oben erwähnten Workshop. Dabei geht es nicht nur um die Verfügbarkeit an sich, die heute noch unvollständig ist (zum Beispiel Gemeindeperimeter). Sondern es geht auch darum, wie verschiedene historisierte Datenbestände verknüpft werden können: Dies ist heute oft nicht einfach, da bei der Historisierung der verschiedenen Datenbestände unterschiedliche Historisierungsansätze verfolgt wurden.
Nutzungsszenarien
Wie aus der Befragung von Schweizer Behörden hervorgeht, welche bereits heute Daten als Linked Data publizieren oder dies in naher Zukunft vorhaben, wird der zusätzliche Aufwand, der in die Aufbereitung und die Verknüpfung der Daten mit anderen Beständen gesteckt wird, damit motiviert, dass damit:
- künftig eine verbesserte Suche in den Beständen angeboten werden kann (z.B. mehrsprachige Suche in historischen Beständen des Bundesarchivs; geolokalisierte Suche in Beständen des Staatsarchivs Basel-Stadt);
- neue Erkenntnisse generiert werden können (z.B. Verknüpfung von Datenbeständen des BAFU oder der Angaben aus dem Handelsregister mit statistischen Kennzahlen des BFS; Integration von semantisch angereicherten Archivkatalogen in Forschungsumgebungen); und
- die Transparenz erhöht wird (z.B. Tarif der Schweizer Stromversorger; Daten aus der Strommarkt-Überwachung).
Nächste Schritte
Die oben aufgeführten Tabellen reflektieren den aktuellen Stand bezüglich der Basisregister und Vokabulare, die aus Nutzerperspektive mit höchster Priorität als Linked Data verfügbar gemacht werden sollten. In den nächsten Wochen werden wir weitere Inputs seitens der Schweizer LOD-Community einholen, um die Tabellen und die Auflistung möglicher Nutzungsszenarien zu ergänzen, so dass wir am Ende über eine breit abgestützte und priorisierte Liste von Basisregistern und Vokabularen verfügen.
In einem nächsten Schritt werden wir diese Liste im Dialog mit den Datenhaltern abarbeiten, um neben der Dimension des Nutzungspotenzials auch den Bewertungskriterien der “Machbarkeit” und der “Bereitschaft des Datenhalters” (siehe Estermann 2019) Rechnung zu tragen. Ergebnis dieses nächsten Schrittes werden mehrere zu LOD aufbereitete Datensätze sein, wie auch eine Analyse zu den Herausforderungen und Hürden im Hinblick auf die Konversion weiterer Datenbestände zu Linked Data. Basierend auf dieser Analyse sollen anschliessend Empfehlungen zum weiteren Vorgehen formuliert werden.
Der erste Teil des Artikel ist bereits erschienen.
Bibliographie
- Estermann, B. (2019). “Die zentrale Rolle von Basisregistern und Normdaten beim Durchbrechen von Datensilos”. In: SocietyByte, Juni-Juli 2019.