Amazon-Link

Das Thema der umfassenden Auswertung großer Datenbestände (Big Data) ist immer noch aktuell, weil jeden Tag Meldungen kommen, dass wieder einmal neue Zusammenhänge durch Big Data aufgedeckt wurden, die Geschäftskonzepte oder private Lebensabläufe grundlegend verändern können. Versucht man aber nach Definition für das Phänomen Big Data, dann stellt man erstaunt fest, dass es diese Definitionen von Big Data kaum gibt, bzw. dass die Definitionen von Big Data so schwammig gehalten sind, dass eine sichere Unterscheidung bei Abläufen, wo große Datenbestände und Datenauswertungen vorgenommen werden, kaum möglich erscheint. Es sollte eigentlich nicht so sein, dass Big Data überall dort angenommen wird, wo es um große Datenmengen geht.

Brockhaus und Wikipedia (eigentlich die Ansprechadressen für eine präzise Definition von Big Data) heben nur darauf ab, dass die Datenmengen zu groß oder zu komplex werden, um sie noch mit herkömmlichen Methoden der Datenverarbeitung auswerten zu können. Gerne wird auch auf die Big-Data-Definition von Gartner (2011) verwiesen, wo man zumindest eine klangvolle Formel aus 3 Vs gefunden hat, um das Big-Data-Phänomen genauer zu fassen.

Definitionen von Big-Data

Definitionen von Big-Data

Volumen (große Datenmengen), Variety (Vielfalt) und Velocity (Geschwindigkeit bei der Erfassung und Verarbeitung) sollen Big Data prägen. Aber ist Volumen, Variety und Velocity nicht prägend für die ganze elektronische Datenverarbeitung? Autoren wie die oben per Amazon-Partnerlink verlinkten Praktiker des Big Data nehmen zumindest zwei weitere Vs hinzu, um Big Date etwas spezifischer zu definieren: Value (unternehmerischer Mehrwert) und Validity (Zuverlässlichkeit der Daten). Big Data soll also Geld in die Kassen bringen und das geht nur mit zuverlässlichen Daten. Diese pragmatische Ergänzung wirkt genauso selbstverständlich wie trivial und könnte auch für jede Datenverarbeitung als Anspruch formuliert werden.

Doch die Forderung nach Validity oder Zuverlässlichkeit für eine Definition von Big Data ist äußerst umstritten, wie ein Blick in die Literatur zeigt. Viele Autoren wie die Österreicher Viktor Mayer-Schönberger und Rudi Klausnitzer gehen davon aus, dass man auch aus heterogenen/unvollständigen/widersprüchlichen Daten noch treffsichere Aussagen ableiten kann und halten daher ihre Definition von Big Data bewusst unscharf und allgemein:

Big Data ist das, was man in großem, aber nicht in kleinem Maßstab tun kann, um neue Erkenntnisse zu gewinnen oder neue Werte zu schaffen, sodass sich Märkte, Organisationen, die Beziehungen zwischen Bürger und Staat und vieles mehr verändern.

Quelle für das Zitat: Viktor Mayer-Schönberger: Big Data: die Revolution, die unser Leben verändern wird. Redline, München 2013

Doch was ist groß und was ist klein? Und was heißt es konkret, wenn sich vieles in den Beziehungen verändert?

Es geht darum aus der ungeheuren Datenflut, die wir jeden Tag mit all dem was wir tun produzieren, möglichst in Echtzeit relevante Informationen, also Smart Data zu gewinnen, mit dem dann Prognosen und Simulationen erstellt werden können, die uns helfen, die immer komplexeren Systeme unserer Welt verstehen und besser managen zu können.

Quelle für das Zitat: Rudi Klausnitzer Interview

Smart Data heißt allerdings nur, dass man aus den Daten neue Erkenntnisse gewinnt, die man ohne die Daten nicht gewinnen könnte. Generell erfassen aber Menschen schon immer nur Daten, um neue Erkenntnisse oder Informationen zu gewinnen.

Wissenschaftsphilosoph Klaus Mainzer definiert etwas weniger unscharf und nimmt auch Aspekte hinzu, die bisher noch nicht aufgetaucht sind. Für ihn ist die technische Seite von Big Data gekennzeichnet durch

… gigantische Datenmengen, die in konventionellen Datenbanken nicht mehr bearbeitet werden können. Dazu wurden neue Softwarewerkzeuge entwickelt, die nicht mehr wie klassische Computerprogramme mit einem Rechnerprozessor auskommen. Vielmehr werden in Parallelrechnung Hunderte oder Tausende von Prozessoren

in Superrechnern gleichzeitig eingesetzt, um so eine Reduktion der Komplexität in der Bearbeitung zu erreichen. In diesem Sinn lassen sich … konkrete Geschäftsmodelle für Firmen aller Art entwickeln, die möglichst adaptiv, trendsicher und schnell auf Märkte reagieren sollen.

Quelle für das Zitat:  Klaus Mainzer: Die Berechnung der Welt: von der Weltformel zu Big Data. Beck, München 2014

Man kann es sympathisch finden, dass Mainzer anders als die meisten anderen Autoren auf die Möglichkeiten von Zukunft hinweist, also zumindest offen lässt, ob sich auch die Erwartungen, die mit Big Data verknüpft werden, erfüllen lassen, doch auch seine Definitionsversuche für Big Data sind sehr allgemein. Reduktion von Komplexität ist für jede Art von Auseinandersetzung des Menschen mit der Welt kennzeichnend. Parallelrechnung ist auch keine neue Qualität in der Computernutzung und dass man für das Einbringen von Erkenntnissen in der Geschäftswelt dort kommerzielle Erfolge nachweisen muss, ist so neu nicht.

Vielleicht hängen die merkwürdig allgemeinen Definitionen von Big Data aber auch damit zusammen, dass man das Phänomen nicht unbedingt eingrenzen möchte. Wenn alles in der Datenverarbeitung Big Data ist, dann braucht man auch nicht so konkret nachzufragen, wie denn Big Data im Einzelfall funktionieren kann; und ob es überhaupt funktioniert.

Big Data als Thema in der Öffentlichkeit wurde virulent, als für viele überraschend die umfassende Überwachung durch westliche Geheimdienste konkret bekannt wurde. PRISM und Tempora sind hier die Stichworte für staatliche Big-Data-Definitionen. Aber auch hier bleiben die Definitionen von Big Data merklich unbestimmt, sicherlich auch, weil Geheimdienste ihre Big-Data-Algorithmen nicht zur Prüfung gegenüber politischen Instanzen oder der Öffentlichkeit offenlegen müssen.

Doch auch die in der Öffentlichkeit agierenden kommerziellen Organisationen mit Big-Data-Ansatzpunkten halten ihre Big-Data-Vorgehensweisen im Dunkeln. Google möchte seine Ranking-Verfahren nicht diskutiert haben, weil dann möglicherweise die Qualität der Suchmaschinen-Ergebnisse beeinträchtigt ist. Facebook will nicht offenlegen, nach welchen Prinzipien (EdgeRank) der Newsfeed seiner Nutzer gefüllt wird, weil auf dieser Basis der Ungewissheit besser Geld mit Anzeigen verdient werden kann. Und Versicherungskonzerne wollen nicht erläutern wie sie Predictive Analytics (Zukunftsprognosen) und Fraud Detection (Betrugserkennung) umsetzen, um nicht den Erfolg ihres Geschäftsfeldes in Frage zu stellen.

Die Unbestimmtheit der Definitionen von Big Data entspricht also der Uneinsichtigkeit in die tatsächliche Praxis der Vorgehensweisen und Algorithmen von Big Data. Das nützt sowohl den Propheten von Big Data wie den Kritikern von Big Data. Denn wenn die Ansprüche hoch, die Einsichtsmöglichkeiten aber niedrig sind, dann kann man mit dem Phänomen genau die Einordnungen vornehmen, die man als vorgefasste Meinung schon hatte, bevor man bereit war, sich das Phänomen genau anzusehen. Eine genauere Untersuchung einzelner Aspekte in Big-Data-Strategien wird klären müssen, wie man denn eine Definition von Big Data formulieren kann, bei der man mehr über die Welt erfährt, als in seiner vorgefassten Meinung schon enthalten war.

Verwandte Artikel: