Big Data steht für verschiedenste Methoden, implizit in Daten vorhandene Informationen explizit zu machen. Das ermöglicht unter anderem mehr Personalisierung – von der Politik über den Produktverkauf bis zur Medizin!
In aller Regel wird der Begriff dafür verwendet, dass mit mathematischen Instrumenten Informationen, die in Datensätzen implizit vorhanden sind, explizit gemacht werden. Dafür werden typischerweise grosse und nicht selten unterschiedliche Datensätze zuerst zusammengeführt und dann mit Mathematikinstrumenten und Informatikwerkzeugen ausgewertet. Dabei gibt es drei Standardformen:
- «Klassisches» Big Data schätzt den Wert einer Kenngrösse, indem es die Korrelation mit anderen Kenngrössen nutzt – Obama identifizierte so im Wahlkampf die noch unentschiedenen Wähler, auf die er dann seine Kampagne konzentrierte
- Exploratives Big Data sucht nach bisher unbekannten Mustern, die eventuell Bedeutung haben – z.B. weil sie auf Risiken hinweisen oder interessante Gruppen von Kunden identifizieren
- Big Data «auf dem Graphen» nutzt komplexe semantische Zusammenhänge – z.B. um das Fehlen von Informationen zu entdecken
Neueste Formen von Big Data gehen über diese drei Standardformen hinaus und experimentieren beispielsweise mit Simulationswerkzeugen. Vorstellbar ist auch die Kombination von statischen Werkzeugen mit weiteren Modellen der abstrakten Algebra.
Konkrete Beispiele
Was heisst das alles konkret? Nun, das Vorgehen beim klassischen Big Data ist eigentlich recht simpel. Es wird erst kompliziert, wenn man es abstrakt zu erklären versucht. Darum einige einfache Beispiele. Angenommen Sie besitzen Daten über das Kaufverhalten von als Person identifizierten Kunden. Und sie möchten ein neues Produkt lancieren und gezielt bewerben. Dann werden sie zuerst ähnliche, bereits existierende Produkte in ihrem Verkaufsportfolio identifizieren und dann jene Kunden herausfiltern, die diese Produkte öfters gekauft haben. Die Wahrscheinlichkeit ist hoch, dass sie sich für das neue Produkt ebenfalls interessieren werden und es macht Sinn, die Marketingkampagne für das neue Produkt auf sie zu konzentrieren. Im Customer Relationship Management vieler Banken wird seit Langem ein ähnliches Verfahren eingesetzt, um neue Finanzprodukte gezielt Kunden zu promoten.
Ein anderes konkretes Beispiel lieferte der letzte Präsidentschaftswahlkampfs in den USA. Im amerikanischen Präsidentschaftswahlkampf geht es darum, in genügend vielen Staaten die meisten Stimmen zu bekommen. In der Schlussphase des Wahlkampfs ist in vielen Staaten klar, wer die Mehrheit haben wird. Dort wird dann kaum mehr Wahlkampf betrieben, weil es eine Ressourcenverschleuderung wäre. Der Wahlkampf konzentriert sich ganz auf die umkämpften Staaten. Aber auch dort macht es wenig Sinn, Wähler anzusprechen, die sich bereits klar entschieden haben, wen sie wählen werden. Wenn es also dem Team eines Kandidaten gelingt, die Unentschiedenen zu identifiziert, kann es seine ganze Energie auf deren Überzeugung konzentrieren, während eventuell die Konkurrenz einen Grossteil ihrer Energie auf Wähler konzentriert, deren Entscheidung bereits feststeht. Da die verfügbaren Ressourcen beschränkt sind, bedeutet die Identifikation der Unentschiedenen einen grossen Vorteil. Und genau dieser Vorteil hatte wesentlichen Anteil daran, dass Obama auch die zweite Wahl gewann. Sein Team konnte mittels Big Data die Unentschiedenen identifizieren. Sie nutzten dabei die Tatsache, dass in den USA über Personen weit mehr Informationen einfach beschaffbar sind als in Europa – u.a. Informationen zum Kaufverhalten – und überprüft en und verbesserten die Ergebnisse von Big Data mit gezielten Experimenten.
Ein Beispiel für Big Data auf dem Paragraphen ist das Suchen nach Anhaltspunkte für organisierte Kriminalität, in dem man verdächtige
Beziehungskonstellationen oder Transaktionsketten identifiziert, die auf Geldwäscherei hinweisen.
Andere Beispiele sind intelligente Suchanwendungen in der Wissenschaft und im Patentwesen, die von einem scheinbaren Paradoxon profitieren: Es ist einfacher ein Dokument in einer Menge ähnlicher Dokumente zu finden (zwischen denen Querbeziehungen existieren) als in einer Menge sehr unterschiedlicher Dokumente (die zueinander keinen Bezug haben).
Ein typisches Beispiel für exploratives Big Data ist das Suchen nach guten Produktkombinationen. Seit Langem bietet der Verkauf von Extraausstattungen im Autohandel eine lukrative Einnahmequelle. Eine Zusammenstellung von Extras kann für Kunden dadurch besonders attraktiv gemacht werden, das sie als Paket verkauft wird, wobei der Kunde beim Kauf des ganzen Pakets einiges «spart» (verglichen mit der Summe der Einzelpreise für die Extras). Um verlockende Pakete zu schnüren, ist es aber notwendig, zu wissen, welche Kombinationen von Extras für Kunden besonders attraktiv sind. Deshalb wird in Daten über Kundenpräferenzen nach Mustern gesucht, die auf attraktive Paketzusammenstellungen hinweisen. Dieses Vorgehen wird freilich nicht nur im Autohandel praktiziert. Ganz ähnlich lassen sich so auch Produkte zusammensetzen, die am Ende teurer verkauft werden können als ihre Einzelbestandteile – nicht zuletzt im Lebensmittelhandel. Die Liste möglicher Beispiele ist lang. Wichtige Anwendungsbereiche für Big Data sind Marketing und Verkauf, Politikgestaltung (u.a. Stadtentwicklung, Sozial- und Gesundheitspolitik), öffentlichen Verwaltung (u.a. Verkehrsmanagement, in Zukunft eventuell Umgang mit Randalen), personalisierte Medizin und wissenschaftliche Forschung ganz generell. Das grosse Versprechen von Big Data ist dabei, dass schwierige und aufwendige Untersuchungen von kausalen Zusammenhängen («aus A folgt zwingend B») durch Korrelationsanalyse («A und B treten häufig gemeinsam auf») ersetzt werden können. Wobei insbesondere das klassische Big Data auf das Individuum spielt. Einzelne werden als Ziele für was auch immer ausgesucht, beziehungsweise bekommen sie personalisierte Angebote. Im Fall von personalisierten medizinischen Therapien ist der gesellschaftliche Nutzen hoch, mindestens kaum bestritten. Im Fall von personenbezogener manipulativer Werbung steht eine gesellschaftliche Bewertung von Big Data dagegen noch aus.
Das menschliche Big Data
Der Medienkünstler Peter Weibel thematisiert die Tatsache, dass wir alle in einer Big-Data-Welt leben. Tatsächlich können wir aus grossen Datenmengen relevante Information herauszufiltern und quasi eine Nadel im Heuhaufen finden – allerdings eine Nadel, an der ein Faden festgebunden ist, der uns das Finden erleichtert.
Das wichtigste Instrument für dieses menschliche Big Data ist die Nutzung von impliziten Hinweisen. Oft ist es die Summe von Details, von denen jedes für sich unbedeutend ist, die uns eine Lagebeurteilung ermöglicht – beispielsweise in der Polizeiarbeit. Wird ein ertappter Einbrecher zur Waffe greifen? Wird der Fanmarsch von Fussballfans in Gewalt ausarten? Die Antwort bestimmt den Fortgang des Geschehens. Sie lässt sich zwar nicht mit Sicherheit aus den verfügbaren Information ableiten, aber trotzdem kann sie von erfahrenen Polizisten ziemlich zuverlässig gegeben werden. Dabei kann man drei Phänomene beobachten: Erstens hängt die Zuverlässigkeit der Analyseergebnisse davon ab, dass die richtigen Informationen gesammelt werden. Zweitens wird der tatsächliche Ablauf durch Handlungen beeinflusst, die sich aus der Situationsanalyse ergeben. Teilweise haben wir es also mit selbsterfüllenden Prophezeiungen zu tun. Drittens lautet die Zielvorgabe deshalb nicht, möglichst präzise Prognosen zu generieren, sondern Geschäftsziele zu erreichen – in unserem Beispiel die Minimierung von Gewalt.
All das gilt auch für maschinelles Big Data:
- Es ist entscheidend, dass man die passenden Informationen besitzt. Je nach verfügbaren Informationen kann ganz Unterschiedliches beim Anwenden der Big-Data-Werkzeuge herauskommen.
- Big Data findet in einem dynamischen Prozess statt, in dem die Daten sich durch Handeln verändern können. Die Umsetzung beeinflusst die Richtigkeit der Prognose.
- Big Data ist kein Glasperlenspiel mit dem Zweck von zweckfreien Zukunftsprognosen, sondern ein Mittel zur Nutzengenerierung im jeweiligen Geschäftskontext – sei es in der Wirtschaft, privat beim Wetten oder Pokern oder in der öffentlichen Verwaltung.
Denkfehler und verlockende Fiktionen
Eine Übertragung der Echtwelterfahrung auf Big Data ist also durchaus hilfreich. Sie beinhaltet aber auch die Gefahr, dass die Small-Data-Denkfehler aus dem Alltag uns auch bei der Nutzung von maschinellem Big Data in die Quere kommen. Wer den Satz von Bayes nicht verstanden hat, der sollte mit Big Data sehr vorsichtig umgehen. Zudem gibt es mehrere gefährliche Fiktionen, vor denen
man sich unbedingt hüten sollte.
- Erstens sollte man sich immer bewusst sein, dass Modellannahmen das Ergebnis von Big Data entscheidend beeinflussen, auch dann, wenn wir scheinbar ganz ohne Modelle Daten analysieren. Denn schon bei der Erzeugung von Daten spielen Modelle eine entscheidende Rolle. Es gibt in dieser Hinsicht keine natürlichen Rohdaten (Rohdatenfiktion).
- Zweitens können auch grossen Datenmengen einen klaren Bias haben. Nur weil wir viele Daten sammeln, können wir daraus nicht ableiten, dass unsere Daten in irgendeiner Weise repräsentativ sind (Statistikfiktion).
- Drittens liefert Big Data nicht einfach so gute Resultate (Simplizitätsfiktion) – es verlangt mindestens mathematische, technische, fachliche und rechtliche Kompetenzen.
- Viertens können Ergebnisse von Big Data Analysen ohne verständliche Erklärungsmodelle für die zugrunde liegenden Zusammenhänge oft nicht sinnvoll eingesetzt werden (Korrelationsfiktion). Stellen Sie sich einen Polizeieinsatz von Wasserwerfern vor, der damit begründet wird, dass Big Data Massenunruhen prognostiziert hat – und im Nachhinein stellt sich heraus, dass eine überdurchschnittlich hohe Zahl roter Halstücher der Auslöser war.
- Fünftens schaffen viele Daten noch keine Transparenz (Transparenzfiktion).
- Sechstens ist dauerhafte Anonymisierung schwer zu garantieren (Anonymisierungsfiktion).
- Siebtens bringen Big Data nicht notwendigerweise Nutzen für alle (Fairnessfiktion). Wer über die Daten von anderen verfügt, kann damit viel Gewinn machen. Die Masse der Datenlieferanten bekommt zwar meist im Tausch kostenlose Online-Dienste, hat aber keinen Anteil an den Milliardengewinnen und gerät im schlimmsten Fall sogar in ein Abhängigkeitsverhältnis.
- Last but not least: Was die Anwendungen von Big Data in der Politik betrifft, so besitzt die Vorstellung einer Welt mit einer computergestützten Demokratie, in der Fakten eine viel grössere Rolle spielen als in unserer heutigen Demokratie, recht viel Alptraumpotenzial – gerade weil dabei komplexe Probleme mit Computern vereinfacht werden. Denn es ist zu Recht sehr umstritten, dass man hohe Komplexität durch Automatisierung kontrollieren kann (Automatisierungsfiktion). Darüber hinaus kann der Einsatz von Big Data für Zukunftsprognosen in der Politik zu einer «Geschichtsbremse» führen. Da Big Data die Zukunft nur aus der Vergangenheit ableiten kann, wird durch eine unreflektierte «gläubige» Anwendung der Raum für kreative Innovationen eingeschränkt. Das ist gerade dort, wo die nächste (prognostizierbare) Wahl wichtiger ist als der langfristige (viel weniger prognostizierbare) Erfolg, eine echte Gefahr.
Schlussfolgerung
Big Data besitzt ein gewaltiges, derzeit nur in Ansätzen abschätzbares, Nutzenpotential. Es wird die Wirtschaft, unser persönliches Leben und das Staatswesen sehr stark verändern. Ignoriert die öffentliche Verwaltung das Thema, wird sie in Zukunft ihre Aufgaben nicht mehr zufriedenstellend erfüllen können. Gleichzeitig schafft aber Big Data auch neue, grosse Gefahren für die Gesellschaft, die sich verheerend auswirken könn(t)en. Es ist deshalb Zeit, dass wir uns ernsthaft mit Big Data auseinandersetzen!