Nicht neu, aber durch das immer schnellere Datenwachstum wieder sehr präsent: "Dark Data". Was aber ist das genau und wo ist das im Unternehmenskontext einzuordnen?

Wenn man versucht, die unterschiedlichen Daten, die in einem Unternehmen anfallen, zu kategorisieren, dann ist die folgende Sichtweise interessant: Es gibt geschäftskritische Daten, die offenkundig für den Betrieb bzw. den Erfolg des Unternehmens wichtig sind. Diese Daten sind häufig intensiv bearbeitet und unterliegen bereits sehr vielen Zugriffen durch die Anwender. Die Daten fallen hauptsächlich in ERP- und CRM-Systemen an und werden in Data Warehouse-Systemen transformiert, harmonisiert und analysiert. Daneben führt der Veritas Databerg Report die sogenannten ROT-Daten auf. "ROT" steht dabei für Redundant, Obsolet und Trivial. Diese Daten nehmen sehr viel Speicherplatz in Anspruch, stellen aber keinen Geschäftswert dar. Ziel muss sein, diese Daten regelmäßig zu löschen.

In vielen Unternehmen haben bereits Big Data-Szenarien Einzug gehalten. Dort geht es vornehmlich um Web- und Social Media-Daten, aber auch beispielsweise um Maschinendaten. Für den Umgang mit diesen Daten lassen sich natürlich klassische EDW-Systeme nutzen, meistens werden diese Daten aber in Cloud-Architekturen gespeichert und mit Data Science-Methoden verarbeitet, um neue Erkenntnisse zu gewinnen. 

Was aber ist jetzt Dark Data?

Bei Dark Data handelt es sich um Daten in Unternehmen, die zwar durch IT-Systeme erfasst und gespeichert, bisher aber nicht genutzt werden. Wenn man die Gesamtheit der Daten eines Unternehmens zusammennimmt, dann macht der Anteil von Dark Data weit über die Hälfte des gesamten Datenvolumens aus. Auf diese ungenutzten Daten gibt es aber keine Zugriffe und die Beschreibung ist undokumentiert, so dass eine Verwendung sehr aufwendig ist. Sehr häufig werden als Dark Data auch viele unstrukturierte Daten bezeichnet, für die die vorgenannte Beschreibung ebenfalls gilt. Auf jeden Fall ist bei Dark Data der Wert der Daten für das Unternehmen noch nicht identifiziert. Es kann sich somit sowohl um geschäftskritische Daten, als auch um ROT-Daten handeln. 

Als Beispiele für Dark Data kann man die folgenden anführen:

  • Ungenutzte Datenbanken 

  • Daten aus dem Markt oder aus Umfragen

  • Log-Files von Servern

  • Daten aus Maschinen in der Produktion

  • Excel-Sheets

  • Personal- und biometrische Daten

  • E-Mails und Anhänge, die gespeichert, aber nicht verarbeitet werden


Das sind nur einige Beispiele, die auch Sie sicherlich aus Ihrem Unternehmen kennen. Die Daten sind vorhanden, aber nicht aufbereitet und damit auch nicht verwertbar. Daraus ergeben sich verschiedene Probleme: Zum einen ein ungenutztes Potential, das sich in diesen Daten verbergen kann. Zum anderen können diese Daten auch rechtliche Schwierigkeiten mit sich bringen (bspw. DSGVO) und als Sicherheitsrisiko gelten. 

Was sollten Sie mit "Ihrer" Dark Data tun?

Die eine richtige Vorgehensweise im Umgang mit Dark Data gibt es nicht. Viele dieser Daten sind häufig unnötig und liefern keinen Mehrwert. Hier müssen Sie durch geeignete Housekeeping-Mechanismen immer wieder für die Löschung sorgen. Damit sparen Sie Speicherplatz, Performance und Geld. 

In vielen dieser Daten schlummert aber auch enormes Potential und dies gilt es zu nutzen. Integrieren Sie diese Daten in Ihren Metadaten-Katalog und speichern diese im Data Lake oder im Data Hub. Dadurch machen Sie die Daten nutzbar und gewinnen zusätzliche Erkenntnisse, die Ihnen neue Geschäftsmodelle ermöglichen oder zu einem enormen Wettbewerbsvorteil verhelfen können. Tun Sie das aber Schritt-für-Schritt und legen Sie auf jeden Fall Ihre individuelle Datenstrategie fest. Wir empfehlen immer eine Mischung aus der Umsetzung einzelner Business Cases, also der Top-Down-Datenbeschaffung und der Bottom-Up-Bereitstellung, bei der Sie sinnvolle Daten in Ihre Big Data-Landschaft integrieren — ohne direkten Bezug zu einem Business Case. Wenn Sie es schaffen umzudenken, werden Sie überrascht sein, wie kreativ Ihre Datenanalysten oder Data Scientisten neue Anwendungen auf Basis der neuen Datenvielfalt entwickeln.

Gerne unterstützen wir Sie bei der Identifikation und Aufbereitung der geschäftskritischen Daten aus Ihrer Dark Data — sprechen Sie uns einfach an.   

Kontakt aufnehmen

 

Veröffentlich am 4.3.2020

Thema: big data, cloud, Datenstrategie, Data Hub, Datenwachstum, Künstliche Intelligenz, Dark Data