FIVE1 Investigative Computing Platform (ICP) – Die Architektur für die analytischen Herausforderungen des 21.Jahrhunderts

Viel wurde geredet, viel diskutiert über BigData, In-Memory und Cloud. Der Hype ist vorbei, nun heißt es handeln. Neue Daten aus neuen Quellen müssen mit neuen Methoden hocheffizient verarbeitet werden. Induktive Verfahren sollen, dank gestiegener System-Performance deduktive ersetzen. Man ist sich weitgehend einig, dass sich durch neue Möglichkeiten neue Chancen eröffnen. Es gilt neue Services, ja vielleicht gänzlich neue Geschäftsmodelle zu entwickeln. Wie das konkret aber ablaufen kann, ist vielen Unternehmen noch immer unklar.
Sind auch Sie noch unsicher welcher Weg für Sie der richtige ist, so könnte Co-Innovation für Sie ein passender Einstieg sein.

Vielleicht sind Sie aber auch schon über diesen Punkt hinaus, haben eine Vorstellung vom Business Case und stellen sich jetzt die Frage, wie denn nun konkret die Umsetzung erfolgen kann. Oder sind Sie vielleicht gar auf der Suche nach einer Plattform, die es Ihnen ermöglicht völlig neue Business Cases zu finden? Sicher ist, dass das traditionelle Datawarehouse nicht mehr (allein) effizient alle Herausforderungen lösen kann. Neue Systeme und neue Konzepte sind also gefragt. Leider liefert keiner der üblichen Verdächtigen ein wirklich tragfähiges Konzept. Da ist von Data Lakes und Data Hubs die Rede, von hot, warm und cold data, immer wieder von Hadoop-Systemen und natürlich von der Cloud. Welche technischen Anforderungen muss ein System denn nun wirklich erfüllen, um in der Lage zu sein ihrem Unternehmen wertvolle neue Erkenntnisse zu liefern?

451 Research Data Platforms Map 201506
Die Data Platform Map von 451 Research zeigt recht eindrucksvoll die Breite des Marktes.

Das ist der Punkt an dem Sie eine Entscheidung treffen sollten. Eine Möglichkeit ist, Sie folgen dem Ruf der Anbieter und mieten das was man Ihnen vorsetzt in der Cloud. Das ist aber weder die technisch beste, noch die performanteste und schon gar nicht die günstigste Option. Die bessere Alternative ist es, wie eigentlich immer, sich selbst ein paar Gedanken zu machen. Wir möchten deshalb mit diesem Blog helfen, etwas Licht ins Dunkel zu bringen und gleichzeitig den Versuch wagen, ein eigenes Architekturtemplate für die analytischen Herausforderungen des 21.Jahrhunderts vorzustellen. Die FIVE1 Investigative Computing Platform (ICP).

FIVE1 Investigative Computing Platform
Die FIVE1 ICP wurde mit der Zielsetzung entwickelt sowohl klassische Anforderungen an ein Datawarehouse, als auch völlig neue Ansätze optimal zu unterstützen. So lassen sich mit unserem Architekturentwurf sehr viele, aber sicher nicht alle analytischen Anforderungen abdecken. So haben wir bspw. Video- oder Audio-Analysen nicht berücksichtigt. Wir treffen ferner die Annahme, dass im Unternehmen noch für keine BigData Technologie Wissen aufgebaut oder Systeme angeschafft wurden. Überlegungen ob und wie etwas sinnvoll weiter verwendet werden kann, können wir deshalb an dieser Stelle vernachlässigen.
Letztlich stellt die FIVE1 ICP nicht mehr und nicht weniger dar als das notwendige Grundgerüst einer modernen Enterprise Architektur. Sie ist eine gute Basis zur weiteren Orientierung und der Vorbereitung einer endgültigen, auf den Kunden zugeschnittenen Architektur. Dabei haben wir uns einerseits vom Berkeley Data Analytics Stack (BDAS) und andererseits von der SAP Layered Scalable Architecture++ (LSA++) inspirieren lassen. Unser Entwurf zielt auf ein optimales Kosten-/Nutzen-Verhältnis auf Basis der Total Cost of Ownership (TCO) ab.

FIVE1 Investigative Computing Platform - FIVE1 ICP 201509

Die Rolle des Enterprise Datawarehouse
Bei allem Hype um BigData: Bleiben wir ehrlich. Der wesentliche Teil ihrer Daten kommt nicht von Sensoren, von Social Media oder aus Videodateien. Der wichtigste Teil kommt aus Systemen wie dem ERP, dem CRM oder SCM, hat also eine Schema. Deshalb waren SQL-Datenbanken in den letzten 30 Jahren so erfolgreich. Wir glauben an die Zukunft des Datawarehouse. Weil Unternehmen bestimmte Ansprüche an die Qualität von Finanz-, Personal- und Produktions-Kennzahlen stellen, welche nur ein Datawarehouse leisten kann. Weil Unternehmen auch in Zukunft mehr als ein ERP-System betreiben werden und das Datawarehouse zur Konsolidierung dieser Systeme gebraucht wird. Weil Daten aus strukturierten Datenquellen am besten in einem Datawarehouse harmonisiert werden können. Und weil das alles auch in Zukunft so sein wird. Nur die Technik befindet sich im Wandel. Die Aufgabe wird es weiterhin geben, lediglich die Schwerpunkte der Tätigkeit werden sich etwas verschieben. Neue Aufgaben werden hinzu kommen.

Die Rolle der HANA Cloud Plattform
Wir glauben seit jeher an den Mehrwert einer Plattform. Eine Plattform ermöglicht Integration. Und Integration spart mittel- bis langfristig immer Geld. Synergieeffekte durch eine geringe Zahl von Schnittstellen, Anbietern und Technik. Integraler Bestandteil und Kern unseres Architekturentwurfs ist deshalb die SAP HANA Cloud Platform (HCP). Nicht (nur) weil wir ein auf SAP fokussiertes Beratungshaus sind, sondern (auch) weil kein anderer Anbieter eine bessere Alternative vorzuweisen hat. Die HANA Cloud Platform besteht im Wesentlichen aus der Frontendtechnlogie SAP FIORI, einem JAVA-Applikationsstack, dem neuen Enterprise Portal (HANA Cloud Portal), welches auch zur mobilen Nutzung geeignet ist, und der HANA Datenbank. Jedes dieser Teile kann ganz nach Bedarf hinzugebucht oder weggelassen werden. Das gilt auch für SAP HANA selbst. In der Praxis sehen wir die Möglichkeit mit Hilfe der HCP die HANA Datenbank (nativ) extrem flexibel einzusetzen als sehr wertvolle (neue) Möglichkeit an. Die in HANA immer weiter voranschreitende Verschmelzung von Applikationsserver und Datenbank macht das Produkt noch immer einzigartig. Keine andere Datenbank bietet für die Verwendung strukturierter Daten eine bessere Basis. Deshalb positionieren wir die HANA Datenbank der HCP in der FIVE1 ICP als eine Art extrem mächtigen In-Memory-OLAP-Prozessor. Dank der in HANA enthaltenen Bibliotheken kann dieser auch für hochperformante statistische und andere mathematische Verfahren, Data Mining und Prognosen verwendet werden. Die HANA der HCP hält in unserem Setting deshalb nur die Daten, die für wirklich komplexe Analysen oder Echtzeitfunktionen auch wirklich gebraucht werden. D.h. nur ausgewählte Daten des Data Propagation Layers. Eine Teilmenge der Daten, die Sie früher in Infocubes abgelegt hätten. So kommen Sie auf der eigentlichen Datawarehouse-Seite (alle Schichten in der LSA/LSA++ Architektur welche persistent Daten halten) mit der wesentlich günstigeren HANA für SAP BW Lizenz aus. Dank der Möglichkeit auch in diesem Setting ABAP Managed Database Procedures (AMDP) verwenden zu können, büßt man letztlich keinerlei wirklich notwendige Funktionalität ein.
Letztlich ist ein BW auf HANA dank HCP keine Voraussetzung für investigative BigData Szenarien mehr. So könnten Sie streng genommen sogar (erst einmal) ganz auf HANA für Ihr Business Warehouse verzichten. Sie müssten dann natürlich weiterhin auf Funktionen wie die virtuelle Dateneingangsschicht (Smart Data Access als Quelle für Open ODS Views), schnelle Transformationen oder die komfortablen Advanced DSOs im SAP BW verzichten.

Dank der HANA Cloud Platform kommen wir für das eigentliche Datawarehouse mit der wesentlich günstigeren HANA für SAP BW Lizenz aus

Apache Cluster als Ergänzung zum Datawarehouse
Alle Daten die sich nicht effizient in einem Datawarehouse verwalten lassen, sehen wir künftig in einem Datencluster daneben. Dafür haben wir ein System entworfen welches mit unterschiedlichen Datenstrukturen umgehen und auch wirkliche Massendaten kosteneffektiv speichern kann. Es ist in der Lage auch Daten, die in hoher Geschwindigkeit anfallen zu verarbeiten. Eine konsistente Datenablage und konsistente Informationsflüsse sind, wann immer nötig möglich. Das System ist hochverfügbar und sehr ausfallsicher. Es ist in der Lage über Standardschnittstellen mit Drittsoftware zu kommunizieren.
Polystrukturierte Daten können aufbereitet und in einer Art und Weise verwaltet werden, welche leicht Erweiterungen zulässt. Das System kann aus allen verfügbaren Daten die richtigen Informationen destillieren. Es kann analytische und mathematische Abfragen extrem schnell abarbeiten und ausgewählte Daten auch in Echtzeit auswerten.

Die Voraussetzung um mit sehr großen, oder polystrukturierten Datenmengen umgehen zu können sind so genannte Not-only-SQL Lösungen (NoSQL). Deshalb haben wir in der FIVE1 ICP einen Apache Mesos Cluster mit Tachyon Filesystem integriert. Landläufig spricht man bei einem solchen Setting von „Hadoop“. Apache Hadoop ist der Name des BigData Systems welches Anfang der 90er Jahre auf Grundlage von Forschungsergebnissen von Google entstanden ist. Hadoop war also der Wegbereiter und wurde so zum „Tempo“ der hochskalierbaren NoSQL Systeme.

Apache Mesos ist ein Kernel für verteilte Systeme. Er läuft auf beliebiger Hardware und bietet Applikationen APIs (Application Programming Interface) an. Mesos beherrscht Multi-resource Scheduling (Memory, CPU, Disk und Ports) und ist auf zehntausende Knoten skalierbar. Auf dem Mesos-Cluster können nicht nur Daten gespeichert, sondern auch diverse Frameworks zur Daten-anbindung und -verarbeitung zum Einsatz kommen. Das Tachyon File System ermöglicht die verteilte Datenablage auf diesen Systemen bis in den Exabyte-Bereich (und darüber hinaus). Tachyon ist über hundert mal schneller als vergleichbare File-Systeme wie z.B. HDFS (Hadoop Filesystem). Auch BigData-Systeme müssen nicht zwangsläufig hoch skaliert werden. Auch ein Cluster mit nur einem oder wenigen Rechnern kann sinnvoll betrieben werden. Für nur wenige Tausend Euro können Sie so eine recht mächtige Testinstallation betreiben. Dafür braucht man kein Rechenzentrum, das funktioniert auch neben Ihrem Schreibtisch. Im Gegensatz zur gängigen Analystenmeinung sehen wir die Apache Mesos/Tachyon Komponente („Hadoop“) ganz klar On-Premise, während auf der HANA-Seite aus unserer Sicht eine dynamische Cloudlösung wesentlich mehr Charme entwickeln kann. Schließlich brauchen Sie für „Hadoop“, anders als für SAP HANA keine teure Hardware anzuschaffen. Skalierung ist praktisch umsonst. Die Software ist als Open Source kostenlos verfügbar.

FIVE1 DataLake 2015

Data Lake und Data Refinery
In der FIVE1 ICP dient der Apache Cluster als Staging Layer, oder auf Analysten-Denglisch als „Data Lake“ oder „Enterprise Hub“. Rohdaten werden in ihrem Ausgangszustand unverändert abgelegt (und auch später nicht mehr verändert). Nicht alle möglichen, sondern nur alle sinnvollen Daten werden hier gespeichert. Das schließt auch historische Daten aus dem Datawarehouse mit ein. Ein Data Lake ist also keine Datenmüllkippe. Der Data Lake entspricht im traditionellen Datawarehouse-Ansatz in etwa dem Corporate Memory. Aus Sicherheitsgründen sollte der Zugang zu diesen Daten stark eingeschränkt werden.

Auf Basis des Data Lakes installieren wir eine Data Refinery. Die Aufgabe der Data Refinery ist es, die Daten des Data Lake aufzubereiten, d.h. in der Regel um Meta-Daten anzureichern. So sind diese im Ergebnis effizienter nutzbar und können mit Fachbereichs- freundlicherer Technik weiterverarbeitet werden. Die Data Refinery kann als Korrespondent zu den ETL-Verfahren des Datawarehouse gesehen werden.
Hinter der begrifflichen Blackbox der „Data Refinery“ verbergen sich diverse Tools. Wir verwenden je nach Anwendungsfall die Open Source Projekte Apache Spark, Shark und Storm (Apache Hive zur Integration mit SAP).

FIVE1 DataRefinery 2015

Das Projekt Apache Spark wurde für die Datenverarbeitung großer Datenmengen im Batchbetrieb entwickelt. Es optimiert durch Verwendung der In-Memory Technologie die Zugriffe um etwa den Faktor 100 gegenüber früheren Verfahren.
Apache Shark ermöglicht die Verwendung von SQL ähnlichen Befehlen für Spark (Spark ist kompatibel zu Apache Hive, welches zur SAP Integration benötigt wird).

Für Echtzeitverarbeitung verwenden wir Apache Storm. Mit Hilfe von Storm lassen sich Datenströme zuverlässig und schnell verarbeiten: In Benchmark-Tests wurden über eine Million Tupel pro Sekunde und Knoten prozessiert. Storm ist skalierbar, fehlertolerant und garantiert, dass alle Daten auch wirklich prozessiert werden.

Investigative Computing
Um neue Erkenntnisse aus Daten zu gewinnen muss ein System in der Lage sein den iterativen und interaktiven KDD (Knowledge Discovery in Databases)-Prozess optimal zu unterstützen. So können bislang unbekannte fachliche Zusammenhänge aus meist großen Datenbeständen gewonnen werden. Die Teilschritte des KDD-Prozesses sind

  • Bereitstellung von Hintergrundwissen für den jeweiligen Fachbereich
  • Definition der Ziele der Wissensfindung
  • Datenauswahl
  • Datenbereinigung
  • Datenreduktion (z. B. durch Transformationen)
  • Auswahl eines Modells, in dem das gefundene Wissen repräsentiert werden soll
  • Data-Mining, die eigentliche Datenanalyse
  • Interpretation der gewonnenen Erkenntnisse

In Abgrenzung zum Data-Mining umfasst KDD als Gesamtprozess auch die Vorbereitung der Daten sowie die Bewertung der Resultate. Data-Mining legt den Fokus auf das Finden neuer Muster, während im maschinellen Lernen bekannte Muster automatisch in neuen Daten wiedererkannt werden. Maschinelles Lernen kann in Folge von erfolgreiche Data Mining zum Einsatz kommen.

Genau hier liegt eine der großen Stärken der FIVE1 ICP. Die strukturierten Daten in HANA können auf verschiedene Art und Weise mit den Daten im Apache Cluster verknüpft, d.h. in Beziehung gesetzt werden. In SAP HANA sind ab SPS 10 verschiedene neue Mechanismen integriert (Stichwort: „Smart Data Integration„) die eine Interaktion mit Daten aus unserem Apache-Cluster möglich machen. Auch SAP Data Services kann (ab Version 4.2) auf Daten aus „Hadoop“ zugreifen.
Mit SAP HANA Vora hat die SAP ganz aktuell eine Möglichkeit geschaffen um nun auch direkt mit Apache Spark zu interagieren. Vora basiert nicht auf HANA, sondern ist ein eigenes Framework, welches auch über APIs angesprochen werden kann. Vora wird zum Jahresende 2015 als Teil der SAP HANA Cloud Platform (später alternativ On-Premise) verfügbar sein. Mehr zu Vora in unserem Blog.
Dank JAVA-Stack auf der HCP können auch „nativ“ Anwendungen in JAVA programmiert werden, welche mit den gewünschten Frameworks kommunizieren. Da praktisch alle Open Source Tools über JAVA APIs verfügen lassen sich so praktisch alle denkbaren Anforderungen realisieren.

Noch einfacher, aber natürlich nicht ganz so mächtig, funktioniert die Interaktion mit den SAP Frontendwerkzeugen Lumira und Predictive Analytics. SAP Lumira ermöglicht die grafische Interaktion mit Daten aus verschiedenen Quellen. Diese können verknüpft und auf verschiedenste Arten angereichert werden. Lumira ist kein Werkzeug für Alle und Jeden. Es stellt Endanwender vor völlig neue Herausforderungen. Die Schwierigkeit liegt weniger in der Bedienung des Tools, sondern im richtigen Zugriff auf die Daten. Ein sehr breites Verständnis für Datenmodelle und Zusammenhänge ist nötig um die richtigen Dinge richtig zu tun. Wir sehen SAP Lumira in der FIVE1 ICP als das Tool der Wahl an mit welchem entsprechend geschulte Wissensarbeiter neue Zusammenhänge und letztlich neue Erkenntnisse gewinnen werden. Die Möglichkeit Navigationszustände und Erkenntnisse zu teilen oder mit anderen Tools weiter zu verarbeiten machen das Werkzeug besonders wertvoll. SAP Predictive Analytics setzen wir dafür ein statistische Verfahren, Data Mining und andere mathematische Verfahren auf die Datenbasis anzuwenden. Das funktioniert im Augenblick schon sehr gut mit Daten aus SAP HANA, aber noch nicht ganz so gut mit Daten aus unserem Apache Cluster. SAP investiert jedoch sehr stark in diesen Bereich. So ist davon auszugehen, dass in (naher und ferner) Zukunft das Zusammenspiel zwischen SAP Lumira, SAP Predictive Analytics und „Hadoop“ weiter verbessert werden wird. Daraus werden sich (auch) für neue Benutzergruppen unzählige weitere spannende Möglichkeiten ergeben.

Bereitstellung im Enterprise App-Store
Die Bereitstellung der Ergebnisse und Anwendungen unserer investigativen BI-Plattform erfolgt über das HANA Cloud Portal. SAP und Nicht-SAP Anwendungen können so in einem gemeinsamen Unternehmens-App-Store veröffentlicht werden. Das funktioniert natürlich auch für Applikationen die nicht auf Basis der FIVE1 ICP entstanden sind. So können letztlich alle Anwendungen eines Unternehmens auf diesem Weg vom Endanwender künftig selbst gebucht werden. Bei der Bereitstellung macht es also aus Sicht eines Nutzers im Fachbereich künftig keinen Unterschied mehr, ob er auf eine eigenentwickelte App, eine Rapid Deployment Solution der SAP oder eine reine Cloud-Anwendung wie bspw. Salesforce zugreifen möchte.

YouTube Preview Image

Zusammenfassung
Fassen wir noch einmal zusammen: Die FIVE1 ICP ist der optimale Ansatz für investigatives BI. Wir kombinieren die derzeit beste verfügbare Technik zu einem größeren Ganzen. Unser Ansatz übertrifft die Performance von klassischen Hadoop – Systemen um ein Vielfaches. Durch den effizienten Einsatz der Hochleistungs-In-Memory-Plattform SAP HANA in der Cloud senken wir, ohne nennenswerte Performance-Einbußen die notwendigen Lizenzkosten signifikant (gegenüber einer klassischen HANA-Installation mit Enterprise-Lizenz). Durch die perfekte Balance von On-Premise- und Cloud-Lösungen schaffen wir gleichzeitig Integration und Flexibilität. Dank mächtiger Frontendtools können, von besonders geschulten Anwendern selbständig Verbindungen zwischen unterschiedlichsten Daten gezogen und komplexe Analysen durchgeführt werden. Von konkreten Use-Cases werde ich in einem kommenden Beitrag berichten.

Mehr Leistung für weniger Kosten und unzählige neue Möglichkeiten. Dafür steht die FIVE1 Investigative Computing Platform.

Unser Angebot
Wenn Sie mehr erfahren möchten, oder wissen wollen was Sie ganz konkret für Ihren Use-Case brauchen, nehmen Sie doch einfach Kontakt auf. Wir sind gespannt auf die Möglichkeiten, die sich aus Ihren Daten für Ihr Unternehmen eröffnen. Gerne beraten wir Sie, wie die Transformation der bestehenden Systeme auf eine wirklich zukunftsweisende Plattform gelingen kann. Wir freuen uns, Sie bei Ihrer BigData Strategie zu unterstützen.

Getagged mit: , , , , , , , , , , , , , , , , , , , , , , , , , , ,

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*

*