Blog-Archive

Entscheidungsbäume vs. Random Forest vs. Boosting

Entscheidungsbäume sind eine einfache Möglichkeit, Klassifikations- oder Regressionsprobleme verständlich abzubilden. Der Nachteil ist die meist schlechtere Performance gegenüber moderneren Machine Learning Ansätzen.

Dieser Performancenachteil kann durch die Idee des Ensemblemodellierens und der darauf Basierenden Methode des Random Forest bzw. des … Weiterlesen >

Getagged mit: , , , , , , , , ,

Logistische Regression in SAP HANA

In diesem Artikel wird beschrieben, wie die logistische Regression zur Vorhersage von Kreditkartenbetrug verwendet werden kann. Ziel soll es sein, dem Leser die entscheidenden Unterschiede zwischen linearer und logistischer Regression näher zu bringen, und eine beispielhafte Umsetzung der logistischen Regression … Weiterlesen >

Getagged mit: , , , , , , , ,

Explorative Analyse von Frauddaten

Für ein tiefgehendes Datenverständnis und als Vorbereitung einer Modellierung bieten sich u.a. Verfahren aus dem Bereich der beschreibenden Statistik an. Drei besonders hilfreiche Verfahren sind der Boxplot, die Histogramm-Darstellung und Verfahren der Dimensionsreduktionen. Als Beispiel für die Visualisierungen dient ein … Weiterlesen >

Getagged mit: , , , , , , , , , , , , , ,