SAP HANA – mehr als nur eine In-memory Datenbank

In meinem letzten Blogbeitrag habe ich über die Integration der Predictive Analysis Library (PAL) in SAP HANA geschrieben. SAP integriert darüber hinaus auch andere Funktionalitäten in SAP HANA, die ebenfalls mit SQLScript verwendet werden können.
Eine noch relativ wenig beachtete Funktionalität in diesem Zusammenhang ist Fuzzy. Diese basiert auf dem bisherigen Produkt Fuzzy Double, welches ursprünglich von der Fuzzy Informatik AG entwickelt wurde. Die Fuzzy Informatik AG hat sich auf die Entwicklung und Implementierung von Software-Programmen und Strategien für zuverlässige Datenqualität konzentriert. Business Objects hat neben der Fuzzy Informatik AG auch andere Spezialisten für Datenqualitätssoftware akquiriert zur Erweiterung des eigenen Produktportfolios. Mit der Akquisition von Business Objects gelangte die Fuzzy Technologie schließlich ins SAP Portfolio.

Fuzzy Double ermöglicht eine unscharfe (engl. „fuzzy“) und fehlertolerante Suche und wird in der Informatik oftmals auch als Fuzzy-Suche bezeichnet. Die Fuzzy-Suche umfasst String-Matching-Algorithmen, die eine bestimmte Zeichenkette (engl. „string“) in einer längeren Zeichenkette oder einem Text suchen bzw. finden sollen. Die Software wird in der Praxis zum Beispiel zum Erkennen und Vermeiden von Mehrfacheinträgen, Identifizieren von Konzernverflechtungen oder zum Auffinden von Haushaltsdubletten eingesetzt.

Bisher stellte Fuzzy Double ein eigenständiges System in der Systemlandschaft dar, welches die Daten aus dem ERP und CRM System redundant für die Fuzzy Suche vorhielt. Der Zugriff auf Fuzzy Double erfolgte über die Fuzzy API. Mit der aktuellen HANA Version ist die Fuzzy-Suche nun offiziell verfügbar und kann verwendet werden. Mit der allgemeinen Verfügbarkeit von HANA SP4 ist auch die offizielle Dokumentation zur Verwendung von Fuzzy in SQLScript auf HANA verfügbar, obwohl diese Funktionalitäten bereits mit früheren HANA Releases verfügbar ist. Mit der Integration der Fuzzy Suche direkt in SAP HANA entfällt die Datenredundanz, sowie die Latenzzeiten für den Zugriff via API. Die Aufwände für Wartung und Betrieb des Fuzzy Double Systems werden reduziert und die Gesamtkosten, d.h. der Total Cost of Ownership (TCO) werden deutlich reduziert.

Die In-Memory Technologie und Fuzzy-Suche sind prädestiniert für „On-Entry Data Quality“. Mit Hilfe der Fuzzy Technologie kann künftig bereits bei der Datenerfassung sichergestellt werden, dass keine Dublette erfasst wird. Folgendes On-Entry Data Quality Szenario beschreibt beispielhaft die Einsatzmöglichkeit von Fuzzy mit HANA:

Ein Call-Center Mitarbeiter der eine Bestellung telefonisch erfasst, ist darauf angewiesen, dass der Kunde entweder seine Kundennummer kennt oder bei einer Neuerfassung der Kundendaten ihn das System auf mögliche Dubletten hinweist. Die heutigen Systeme ohne Fuzzy-Suche sind jedoch darauf ausgelegt, dass entweder auf einen Primärschlüssel wie z.B. der Kundennummer oder einer Kombination aus Feldern geprüft wird, ob bereits ein Stammdatum zum Kunden erfasst wurde. Selbst die Prüfung auf die komplette Anschrift ist nicht zuverlässig, da die Prüfung auf exakt derselben Eingabe der Daten erfolgt z.B. wird ein Torsten Meier bei der Eingabe nicht das Kundenstammdatum mit Thorsten Maier als mögliche Dublette finden. Die Fuzzy-Suche dagegen sucht unscharf und fehlertolerant, damit werden auch Datensätze mit Hör-, Lese- und Erfassungsfehler als potentielle Dublette erkannt um im Suchergebnis aufgenommen. Jeder Datensatz wird auf Basis der Fuzzy Parameter mit einem Scoring bewertet. Je höher das Scoring desto wahrscheinlich ist es, dass es sich dabei um eine Dublette handelt. Unabdingbar bei diesem Szenario ist die schnelle Antwortzeit des Systems, selbst bei mehreren Millionen Datensätzen, welche durch den Einsatz von SAP HANA sichergestellt wird.

Natürlich kann die Fuzzy-Suche auch zum Aufspüren von bereits vorhandenen Dubletten im System verwendet werden. Damit werden unnötige Folgekosten von Dubletten vermieden. Angenommen, ein Unternehmen verschickt 500.000 Werbebriefe. Bestünden nur vier Prozent dieser Datensätze aus doppelten, fehlerhaften oder veralteten Kundendaten, würden Material-, Herstellungs- und Portokosten für 20.000 Sendungen umsonst gewesen sein und das „einmalige“ Angebot für ausgewählte Kunden kommt doppelt oder sogar mehrfach beim Kunden an und landet als billige Werbung im Papierkorb.

Die Fuzzy-Suche birgt jedoch weitaus mehr Potential als nur Dubletten aufzufinden. Fuzzy kann zur Gruppierung, Klassifizierung und Clustering von Daten verwendet werden. Kombiniert man dies mit der analytischen Stärke von HANA können völlig neue Erkenntnisse gewonnen werden. Die Unternehmen eines Konzerns unterscheiden sich oftmals nur durch die Gesellschaftsform, so ist es möglich über eine unscharfe Suche diese Unternehmen einem Konzern zu zuordnen. Handelt es sich bei den Unternehmen um Lieferanten kann das Gesamteinkaufsvolumen mit einem Konzern ermittelt werden und als Grundlage für die nächste Preisverhandlung genommen werden. Dieses Beispiel kann auf beliebige Szenarien übertragen werden.

Die FIVE1 GmbH & Co. KG hat im Rahmen der BW on HANA Ramp-Up Teilnahme bereits eine Lösung mit Fuzzy und Web Dynpro ABAP als User Interface realisiert. Obwohl die Integration von Fuzzy noch recht neu ist, sind die Erfahrungswerte sehr positiv. Selbst bei mehr als 10 Millionen Datensätzen kann man sich auf sehr schnelle Antwortzeiten verlassen.

Die Mainstream Maintenance bisheriger Fuzzy Produkte wie z.B. Fuzzy Bank, Fuzzy Analyzer enden dieses Jahr oder in den kommenden Jahren wie die Product Availability Matrix (PAM) der SAP zeigt.

Fuzzy Maintenance

Zur Ablösung bisheriger Fuzzy Lösungen sieht die SAP die Produkte SAP Business Objects Data Services und SAP HANA vor. Unter diesem Aspekt wird HANA auch für den ein oder anderen SAP Kunden interessant, der bisher HANA nicht auf seiner Liste hatte.

Fazit

Die Erfahrungen mit SAP HANA, dem SAP BW powered by SAP HANA Ramp-Up und die Weiterentwicklung von HANA durch die Integration von PAL, R und Fuzzy führt zu dem Fazit das HANA weit mehr als eine In-Memory Datenbank ist.

Getagged mit: , , , , , ,

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*

*