Explorative Analyse von Frauddaten

Für ein tiefgehendes Datenverständnis und als Vorbereitung einer Modellierung bieten sich u.a. Verfahren aus dem Bereich der beschreibenden Statistik an. Drei besonders hilfreiche Verfahren sind der Boxplot, die Histogramm-Darstellung und Verfahren der Dimensionsreduktionen. Als Beispiel für die Visualisierungen dient ein Frauddatensatz, welcher aus 29 Features und einem Label besteht.

Boxplot

Der Boxplot stellt eine einfache und effektive Visualisierung von statistischen Kenngrößen dar. Er zeigt den Median, die 25%- und 75%-Quantile, die Whisker und die Ausreißer an. Die Whisker beschreiben das 1,5-fache des Interquartalsabstandes (IQR), maximal aber den letzten Datenpunkt, welcher in diesem Intervall liegt. Somit umfassen die Whisker 99,3% aller Datenpunkte. Datenpunkte, welche außerhalb des 75% Intervalls liegen, werden als Ausreißer bezeichnet. Sollten die Ausreißer eine größere Distanz als 3 IQR zum unteren oder oberen Quantil haben, kann man von extremen Ausreißern sprechen. Diese Datensätze sollten gesondert auf ihre Validität untersucht und ggf. ausgeschlossen werden.

Der 1,5-fache Abstand der Whisker ist ein variabler Wert, welcher je nach Analyseziel variiert werden kann.

Als weitere Größe, kann die Schiefe der Verteilung abgelesen werden. Im Fall des Parameter v22 und der Class 0, handelt es sich um eine linksschiefe Verteilung, da der Median im Boxplot in der oberen Hälft liegt.

Die Darstellung der Boxplots mithilfe der R Bokeh Library finden Sie HIER.

Histogramm

Die Histogramm Darstellung ist eine weitere Methode, die Wahrscheinlichkeitsverteilungen der Features darzustellen. Im Beispiel des Frauddatensatzes, wird die Unterteilung der Features in die Klassen “Fraud“ und “Nicht Fraud“ dargestellt. Diese beiden Verteilungen werden jeweils übereinander geplottet, so das ein direkter Vergleich möglich ist.

Die Histogramm Berechnung basiert auf dem Binning. Dabei werden die Messwerte in Gruppen eingeteilt. In den Darstellungen, wurden die Messwerte jeweils in 40 Gruppen aufgeteilt. Hierbei wird die Anzahl der Messwerte pro Klasse bestimmt (absolute Klassenhäufigkeit) und danach der Wert durch die Gesamtanzahl geteilt. Somit ergibt sich die relative Klassenhäufigkeit. Teilt man diese wiederum durch die Klassenbreite, ergibt sich die Wahrscheinlichkeitsdichte, welche im Bespiel als Density bezeichnet wurde.

Das Verfahren kann auch für eine einfache Variablenselektion genutzt werden. Sind die Verteilungen wie bei Variable v11 unterschiedlich, ist diese von Interesse für das Modelltraining. Die Variable v22 weist eine ähnliche Verteilung der Werte für die beiden Klassen auf. Diese kann bei einer nötigen Variablenselektion ausgeschlossen werden.

Die gesamte Analyse aller Variablen finden Sie HIER.

Dimensionsreduktion

Als Mensch ist es uns nur schwer möglich, Zusammenhänge in einem hochdimensionalen Datensatz zu erkennen. Um ein besseres Verständnis für den Zusammenhang zwischen den Datenpunkten zu erlangen, kann die Technik der Dimensionsreduktion angewendet werden. Dabei wird der hochdimensionale Raum auf eine zweidimensionale Fläche oder einen dreidimensionalen Kubus projiziert. Die Mathematik stellt für diesen Zweck zwei Klassen von Verfahren bereit. Die lineare und die nichtlineare Dimensionsreduktion.

Zum ersten Typ zählt die Hauptkomponentenanalyse (PCA – Principal Component Analysis). Dies ist ein Verfahren welches den Zusammenhang (Korrelation) zwischen den einzelnen Features minimiert. Die neu entstandenen Features, (Hauptkomponenten) sind statistisch unabhängig und werden so sortiert, dass die erste Hauptkomponente die größte Varianz trägt. Somit können Hauptkomponenten mit geringer Varianz ohne größeren Informationsverlust vernachlässigt werden.

Die PCA bietet nur ein optimales Ergebnis, wenn die zugrundeliegenden Daten normalverteilt und die Zusammenhänge linear sind. Ist dies nicht der Fall, sind die Hauptkomponenten nicht statistisch unabhängig.

Ein Verfahren, welches komplexere Datenzusammenhänge und Verteilungen berücksichtigen kann, ist das t-Verteilte Stochastic Neighbor Embedding (t-SNE).

Das Verfahren ist eine Variante des SNE Algorithmus. Der Ablauf kann wie folgt beschrieben werden.

  1. Transformation der euklidischen Distanz zwischen zwei Datenpunkten in Wahrscheinlichkeiten. Diese besagen, wie wahrscheinlich es ist, das sich zwei Datenpunkte im n-dimensionalen Raum nah sind.
  2. Berechnen der Nachbarschaftswahrscheinlichkeit im zweidimensionalen Raum. Die Wahrscheinlichkeit das zwei Punkte nebeneinander liegen, sollte im zweidimensionalen Raum genauso groß sein, wie im n-dimensionalen Ausgangsraum.
  3. Die Differenz zwischen der Nachtbarschafts Wahrscheinlichkeit im n- und zweidimensionalen Raum wird mithilfe eines Gradienten-Abstiegsverfahrens minimiert. Die Kostenfunktion ist im Vergleich zum ursprünglichen SNE Verfahren leichter zu optimieren. Des Weiteren wird der Abstand zwischen zwei Datenpunkten im zweidimensionalen Raum, über eine t-Verteilung gemessen.

Für die Verwendung der Methode mit nominal- oder ordinalskalierten Features, ist ein Encoding der Daten in Binärvariablen notwendig.

Das t-SNE Verfahren hat im Vergleich zur PCA einen entscheidenden Nachteil, da die Darstellung komplexerer Zusammenhänge eine Rechenzeit bedingt, die mit O(n2) skaliert. Somit ist das Verfahren nur für kleine Samples von großen Datensätzen geeignet. Mit 2500 Datenpunkten auf einem handelsüblichen Laptop, benötigt die Berechnung <10s. Mit steigender Anzahl Datenpunkt vervielfacht sich diese Zeit stark.

Die Methoden der Dimensionsreduktion bringen als Nebenprodukt zusätzliche Vorteile für den nächsten Schritt, die Modellierung. Die Dimensionsreduktion kann nicht nur für die Projektion auf den zwei- oder dreidimensionalen Raum angewendet werden, sondern die Reduktion kann allg. von einen n- auf einen k-dimensionalen Raum erfolgen, wobei gilt: n ≥ k.

  • Weniger Features in der Modellierung bedeutet weniger Freiheitsgrade in dem mathematischen Modell. Damit sinkt die Wahrscheinlichkeit für eine Überanpassung (Overfitting). Das bedeutet wiederum, dass die Modelle eine bessere Generalität und ein besseres Ergebnis bei der Anwendung auf neuen Datensätzen aufweisen.
  • Die Transformationen heben die Variablen hervor, welche am meisten Varianz und somit Information tragen. Dies führt zu einer einfacheren Interpretierbarkeit von Modellen.

Für einen tieferen Einblick in die Theorie empfehle ich das Paper „Visualizing Data using t-SNE“ von Laurens van der Maaten und Geoffrey Hinton 

Getagged mit: , , , , , , , , , , , , , ,

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*

*