Goodbye Hadoop: Mesos cluster up and running!

Schon seit einiger Zeit experimentieren wir in den FIVE1 Labs mit verschiedenen Anwendungen im Kontext Big Data. Als ein Ergebnis unserer Forschung veröffentlichten wir im vergangenen Jahr das erste tragfähige und Kosten optimierte Architekturmodell für die analytischen Herausforderungen des 21. Jahrhunderts, die FIVE1 Investigative Computing Platform (ICP). Zur Ablage von Daten die mit relationalen Datenbanken wie SAP HANA nicht mehr, oder nicht mehr effizient bearbeitet werden können setzen wir dabei auf einen so genannten Data Lake.

FIVE1 DataLake 2015

Das Konzept eines Data Lake ist noch vergleichsweise neu. Es handelt sich um ein Unternehmensweites Repository für jegliche Art von Daten an einer gemeinsamen Stelle. Ohne formale Definition, besondere Anforderungen oder ein Schema. So können Daten ungeachtet ihrer Größe, Struktur oder der Geschwindigkeit mit welcher sie anfallen gesammelt werden.

Obwohl das Potential eines Data Lake immens ist, hat kaum ein Unternehmen diese Herausforderung bisher angenommen. Limitierte Festplattenkapazitäten, begrenzte Hardware, Skalierbarkeit, Performance und ganz allgemein natürlich die Kosten sind Gründe warum Kunden bisher vor der Realisierung zurück schrecken.

Data Lakes bergen wahre Schätze. Lassen sich aus den dort gespeicherten Informationen neue Erkenntnisse gewinnen, so kann dies schnell riesige Wettbewerbsvorteile, eine außerordentliche Kostenersparnis oder sogar direkte Umsatzsteigerungen bedeuten. Wo sonst finden Sie in den heute schon auf Effizienz getrimmten Unternehmen noch solche Möglichkeiten?

Mit Hilfe des iterativen und interaktiven KDD (Knowledge Discovery in Databases)-Prozesses können strukturiert neue Erkenntnisse aus den zur Verfügung stehenden Daten gewonnen werden. Die Teilschritte des KDD-Prozesses sind

  • Bereitstellung von Hintergrundwissen für den jeweiligen Fachbereich
  • Definition der Ziele der Wissensfindung
  • Datenauswahl
  • Datenbereinigung
  • Datenreduktion (z. B. durch Transformationen)
  • Auswahl eines Modells, in dem das gefundene Wissen repräsentiert werden soll
  • Data-Mining, die eigentliche Datenanalyse
  • Interpretation der gewonnenen Erkenntnisse
  • Maschinelles Lernen

Data-Mining legt den Fokus auf das Finden neuer Muster, während im maschinellen Lernen bekannte Muster automatisch in neuen Daten wiedererkannt werden. In Abgrenzung zum Data-Mining umfasst KDD als Gesamtprozess auch die Vorbereitung der Daten sowie die Bewertung der Resultate.

Unternehmen können heute anders als während des ersten Hypes um Data Mining Ende der 90er Jahre auf praktische Erfahrungen von Herstellern, Beratern oder in den eigenen Reihen zurückgreifen. Dennoch bleibt die Umsetzung von Data-Mining- Lösungen anspruchsvoll. Die Grundvoraussetzung für erfolgreiche Analysen bilden „Daten, Daten, Daten“.

Eine sehr interessante Arbeit ist in diesem Zusammenhang „Unsupervised word sense disambiguation rivaling supervised methods.“ von D.Yarowsky aus dem Jahr 1995. Yarowsky weist nach, dass sich computerlinguistische Herausforderungen bei ausreichend großer Datenmenge (1 Milliarde Wörter) auch mit schlechten Algorithmen besser lösen lassen, als mit dem besten Algorithmus bei kleinerer Datenmenge (1 Million Wörter). Die Steigerung der Datenmenge übertrifft die Optimierung des Algorithmus.

Nach unserer Einschätzung ist die derzeit beste verfügbare Basis zur Realisierung eines Data Lakes nicht das häufig zitierte Hadoop / Yarn, sondern Mesos. Apache Mesos ist eine Open-Source Software zum fehlertoleranten und hocheffizienten Betrieb eines Clusters. Mesos abstrahiert CPU, Hauptspeicher und Datenspeicher über Gerätegrenzen hinweg. Es ist auf mehr als 10.000 Knoten skalierbar.

screenshot-mesos-cluster

Heute ging nun unser Apache Mesos Cluster live. Mit zunächst nur drei Knoten können wir auf insgesamt 10TB Speicherplatz, 48GB RAM und 8 CPU-Kerne zugreifen. Eine Skalierung ist durch einfaches Ergänzen weiterer Rechner problemlos möglich. Theoretisch kann so bspw. jeder Unternehmens-Laptop der im internen FIVE1-Netz angemeldet ist seine Kapazitäten dem Cluster zur Verfügung stellen.
Wir sind damit nun nicht nur in der Lage einen eigenen Data Lake zu betreiben, sondern verfügen über nahezu unendlich skalierbare Rechenleistung.

Für den sukzessive Aufbau unserer FIVE1 ICP konformen Demo-Landschaft war Mesos aber nur der erste Schritt. Auf der Mesos-Plattform werden wir das virtuelle, verteilte Dateisystem Tachyon / Alluxio aufsetzen, um dann das Apache Spark Framework einzusetzen. Daneben werden wir HBase auf Mesos implementieren. HBase ist eine skalierbare, einfache Datenbank zur Verwaltung sehr großer Datenmengen.

The best way to predict the future is to invent it. Alan Kay

Getagged mit: , , , , , , ,

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*

*