Predictive Analytics mit SAP HANA

Heutzutage ist Business Intelligence in den Unternehmen fast ausschließlich darauf beschränkt Daten aus den operativen Systemen in ein Data Warehouse zu laden, zu transformieren und um Informationen anzureichern damit qualitätsgesicherte Kennzahlen und Auswertungen kombiniert mit Plan-/Ist-Vergleichen dem Management als Entscheidungsgrundlage zur Verfügung stehen. Hierbei wird lediglich die Vergangenheit betrachtet und mit dem „Wunschziel Plan“ abgeglichen. Die Erkenntnis, dass man seine Planvorgaben nicht erreicht, erhält man oftmals zu spät, so dass man dem nicht mehr entgegensteuern kann. Aus diesem Grund legt nicht nur das führende Management in Unternehmen immer mehr Wert auf zukunftsorientierte Analysen, dem sogenannten Predictive Analytics, um künftige Marktentwicklungen und mögliches Kundenverhalten sicherer einschätzen und beurteilen zu können. Insbesondere die Wirtschaftskrise und die immer noch sehr unruhigen Märkte tragen dazu bei, dass die Nachfrage für Predictive Analytics steigt.

Zukunftsgerichtete Informationen bieten den größten Mehrwert


Predictive Analytics soll komplexe wirtschaftliche Zusammenhänge und Entwicklungen vorhersagen können und damit das Management bei Entscheidungen unterstützen. Um belastbare und treffsichere Prognosen zu erhalten werden neben den eigenen, firmeninternen Daten, die in der Regel in einem Data Warehouse vorgehalten werden, auch noch zusätzliche Daten wie z.B. Marktforschungsdaten oder geografische Informationen hinzugezogen. Predictive Analytics ermöglicht auf Basis dieser Daten mit Hilfe spezieller Algorithmen aus dem Data Mining zuverlässige Prognosen für die Zukunft zu treffen.

Würden wir beispielsweise versuchen mögliche Neukunden durch bloßes Münzwerfen zu identifizieren, so würden wir mit 50%iger Wahrscheinlichkeit richtig liegen. Nun haben Personen aber bestimmte Eigenschaften wie Alter, Beruf, Schulbildung usw., welche sie systematisch von den desinteressierten Personen unterscheidet. Gelingt es nun aufgrund dieser Eigenschaften die effektiv interessanten Kunden mit einer höheren Wahrscheinlichkeit zu identifizieren als durch bloßes Münzen werfen, können Maßnahmen sehr fokussiert eingesetzt werden.

Predictive Analytics in SAP HANA

SAP stellt im SAP Business Warehouse in der Data Mining Workbench einige Funktionalitäten für Predictive Analytics zur Verfügung wie z.B. Entscheidungsbäume, Scoring, ABC-Klassifizierung, Clustering oder Assoziationsanalysen. Bedenkt man die heutzutage sehr großen Datenmengen im Data Warehouse ist klar, dass es sich dabei um sehr datenintensive Operationen handelt. Verschärfend kommt hinzu, dass bei steigender Datenmenge die Notwendigkeit besteht in immer kürzeren Abständen Risiken neu zu bewerten. In einigen Fällen ist dies sogar gesetzlich vorgeschrieben z.B. müssen Banken gemäß Basel III Liquiditätsrisiken auf Intraday Basis bewerten. Die SAP stellt hierfür mit SAP HANA 1.0 ab SP03 gleich mehrere Akternativen mit BFL, PAL und R (lesenswert dazu auch der Beitrag meines Kollegen zu R) zur Verfügung die direkt in der SAP HANA Datenbank integriert sind. Heute möchte ich die Predictive Analysis Library (PAL) näher vorstellen.

Die Funktionen der PAL profitieren zum einen von schnellen Zugriffszeiten auf die im Arbeitsspeicher vorgehaltenen Daten, aber auch davon, dass diese Funktionen für die Multi Core Architektur optimiert sind, d.h. die Ausführung wird logisch partitioniert und erfolgt parallel in HANA. Der Datentransfer zwischen Datenbank und Applikationsserver wird somit ebenfalls deutlich reduziert, da nur das Ergebnis an den Applikationsserver übergeben wird. Es ist festzuhalten, dass die SAP mit der PAL konsequent den Paradigmenwechsel in der Applikationsentwicklung fortsetzt, d.h. alle datenintensive Operationen erfolgen auf Datenbankebene direkt in SAP HANA.

Die PAL Algorithmen können direkt in SQL Script aufgerufen werden. SQL Script ist eine Erweiterung der SAP des Standard SQL (Structured Query Language), die es ermöglicht datenintensive Operationen in der Datenbankschicht aus zu programmieren und somit die Möglichkeiten der Datenverarbeitung innerhalb der In-Memory Plattform zu erweitern.

Zu Beginn sieben Algorithmen

Aktuell umfasst die Predictive Analysis Library sieben Algorithmen, die zu folgenden Data Mining Kategorien gehören:
• Clusteranalyse
• Klassifizierungsanalyse
• Assoziationsanalyse
Die in HANA implementierten Algorithmen wurden von SAP gewählt, da diese laut Marktuntersuchungen am meisten verwendet werden und in Datenbanken anderer Hersteller wie z.B. Microsoft SQL Server, Oracle oder IBM DB2 bereits integriert sind. Weitere Algorithmen sollen laut SAP in zukünftigen SAP HANA Releases der PAL hinzugefügt werden. Betrachten wir nun die Algorithmen im Detail und deren Einsatzmöglichkeiten.

Die Kategorie der Clusteranalyse beinhaltet den K-means Algorithmus. Beim k-means Algorithmus wird die Anzahl von k Clustern vor dem Start festgelegt. Der Algorithmus bildet dann aus einer Menge von ähnlichen Objekten die vorher definierte Anzahl von k Gruppen. Der K-means Algorithmus findet sehr schnell die Zentren der Cluster und wird deshalb am häufigsten verwendet zur Gruppierung von Objekten. Verwendung findet der K-means Algorithmus typischerweise bei der Marktsegmentierung.

Die multiple lineare Regression (MLR), der C4.5 und k-nearest neighbor (KNN) Algorithmus gehören zur Kategorie der Klassifizierungsanalyse. Die multiple lineare Regression wird eingesetzt um Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen zu ermitteln. Sie kommt meistens zum Einsatz, wenn Zusammenhänge quantitativ zu beschreiben oder Werte der abhängigen Variablen zu prognostizieren sind. Beispielsweise kann per multipler linearer Regression die Ausfallwahrscheinlichkeit von Maschinen auf Basis der Einsatzzeit und der Umweltbedingungen errechnet werden, auf Basis historischer Vielfliegerdaten die wahrscheinlichen künftigen Ausgaben eines Reisenden oder den notwendigen Personaleinsatz in Help-Desks basierend auf Vertriebs- und Umsatzzahlen oder wahrscheinliche Absatzzahlen auf Grund von Cross-Selling Maßnahmen und Rabatten ermittelt werden.

Der C4.5 Algorithmus wird zur Erstellung von Entscheidungsbäumen eingesetzt. Ein Entscheidungsbaum besteht immer aus einem Wurzelknoten und beliebig vielen inneren Knoten sowie mindestens zwei Blättern. Dabei repräsentiert jeder Knoten eine logische Regel und jedes Blatt eine Antwort auf das Entscheidungsproblem. Die Komplexität und Semantik der Regeln sind von vornherein nicht beschränkt. Die so erzeugten Entscheidungsbäume können beispielsweise für die Klassifizierung von Kunden in Kundengruppen, die Wahl des richtigen Transportmittels oder zur Identifizierung der Top Lieferanten eingesetzt werden. Entscheidungsbäume werden häufig mit weiteren Prognoseverfahren kombiniert.

Der KNN Algorithmus ist ein Klassifikationsverfahren, bei dem eine Klassenzuordnung unter Berücksichtigung seiner k nächsten Nachbarn vorgenommen wird. Der Teil des Lernens besteht aus simplem Abspeichern der Trainingsbeispiele, was auch als lazy learning („träges Lernen“) bezeichnet wird.
Der Algorithmus wird in der Praxis bspw. zur Ermittlung der Produktivität bei der Holzernte oder für die Prognose der Versicherungsnehmer bei denen ein Versicherungsfall eintritt.

„Wenn Fischstäbchen und Spinat gekauft wurde, wurde mit 90%iger Wahrscheinlichkeit auch Kartoffeln gekauft“. Der Apriori-Algorithmus dient der Findung von Zusammenhängen wie diesem. Man spricht daher auch von Assoziationsanalyse.

Die ABC Analyse teilt Objekte in drei oder mehr Gruppen ein mit dem vorrangigen Ziel wichtiges von unwichtigem zu trennen. Ein häufig verwendetes Beispiel einer ABC Analyse ist die Segmentierung von Kunden nach Umsatz. „Mit 20% der Kunden haben wir 80% unseres Umsatzes gemacht“.

Mit Hilfe des Weighted Score Verfahrens werden zuvor ermittelte Segmente gewichtet um zu einer Entscheidung zu gelangen. Beispielsweise verwenden wir bei FIVE1 dieses Verfahren um mit unseren Kunden verschiedene Optionen bei der Softwareimplementierung abzustimmen. Wir zeigen die Möglichkeiten, bzw. Segmente auf und der Kunde gewichtet diese anhand seiner Bedürfnisse und Anforderungen.

Diese Verfahren können entweder direkt im SAP HANA Studio implementiert werden, oder Endanwenderfreundlicher mit dem neuen Werkzeug “SAP BO Predictive Analysis Designer” zu komplexen Vorhersagemodellen kombiniert werden. Das Look & Feel dieses Tools ähnelt dem des Visual Composers, die Funktionalität dem des Analyse Process Designers (APD) des SAP BW. Der Clou, die so erzeugten Modelle können in den SAP BO Tools WebIntelligence (WebI), Explorer und Analysis Edition für OLAP eingebunden werden. Aktuell befindet sich der SAP BO Predictive Analysis Designer noch in der RampUp Phase. Ab Herbst 2012 ist mit der allgemeinen Verfügbarkeit als Bestandteil von SAP Business Objects 4.0 Feature Pack 3 zu rechnen.

Fazit

Als Fazit ist festzuhalten, dass SAP mit SAP HANA weit mehr als nur eine In-Memory Datenbank ausliefert, welche die Datenanalyse beschleunigt. Vielmehr bietet SAP mit der in HANA integrierten Predictive Analysis Library in Kombination mit SAP BO Predictive Analysis die Möglichkeit zuverlässige Prognosen über die Entwicklung der Märkte und des eigenen Geschäfts zu erstellen sowie völlig neue Erkenntnisse über die eigenen Geschäftsprozesse, Kunden und Lieferanten zu erlangen. Dadurch erhält das Management in den Vorstandsetagen bessere Entscheidungsgrundlagen als jemals zuvor.

Getagged mit: , , , , , ,

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*

*