Komplizierte Prognosen, komplexe Vorhersagen. Darum ist es auch in Zukunft von Vorteil, zu wissen was man tut.

Self-Tracking liegt im Trend. Ob mit der Fitness-App auf dem Smartphone, mit Hilfe eines Tracker-Armbands oder durch einen Schrittzähler immer mehr Menschen protokollieren ihre Aktivität und ihre Körperdaten und werten sie mit speziellen Programmen aus. Sie halten fest, wie viel sie gegessen haben, wie viele Kilometer sie gelaufen sind oder wie ihre Laune war.

Haben Sie schon einmal versucht auf Basis dieser Daten Ihr Gewicht in drei Monaten, oder die Zeit die Sie einen Marathon im nächsten Jahr laufen werden vorherzusagen? Völlig Quatsch werden Sie vermutlich denken, zumindest wenn Sie wie ich Hobbysportler sind. Aber auch dem Profisportler wird klar sein, dass schon durch kleine unvorhersehbare Ereignisse jede Prognose schnell nicht mehr viel wert sein wird. Einfach zu viele Parameter abseits des Smart Gadgets haben am Ende auf das Ergebnis einen Einfluss.

Seltsamerweise sehen wir das in Unternehmen ganz anders. Dort halten wir dank dem aktuellen Hype um künstliche Intelligenz solche Prognosen zunehmend für trivial. Umsatzprognosen für das nächste Quartal, Marktanteile im nächsten Jahr, Preisentwicklungen usw. werden ohne Bedenken erstellt und eingesetzt. Unternehmen auf dem Weg zum realen Computerspiel? Ja, Unternehmen sind zu den eigentlichen Meistern des Self-Tracking geworden. Seit einigen Jahren ist man regelrecht besessen davon. Nicht nur noch sinnvoll erscheinende Informationen sollen gespeichert, sondern einfach alles für die Ewigkeit archiviert werden. Ist Ihnen eigentlich klar, warum man das macht? Und wie sinnvoll ist das denn eigentlich?

Das meiste was wir heute unter künstlicher Intelligenz verstehen ist eigentlich das Erkennen von Korrelationen. Fast sämtliche Prognosen, das ganze Machine Learning und Predictive Analytics das wir heute betreiben beruht auf der Methode die Zukunft aus Korrelationen in der Vergangenheit abzuleiten.

Das ist nicht ohne Problematik und viel engeren Grenzen unterworfen als dass in der aktuell geführten Diskussion um Digitalisierung und Industrie 4.0 gerne gehört wird.

Keine Angst, es folgt keine mathematische Abhandlung. Viel eingängiger als eine theoretische Herleitung ist es sich das mit Hilfe von Beispielen deutlich zu machen. Auf der Website Tylervigen.com findet man gleich mehrere davon. Dort hat man grafisch Korrelationen übereinandergelegt, die sich zufällig gleich verhalten, aber nichts miteinander zu tun haben. So zeigt eine die scheinbare Kausalität zwischen der Anzahl der in einem Pool ertrunkenen Menschen mit der Anzahl der Filme unter Beteiligung von Nicolas Cage. Eine andere, dass der Pro-Kopf-Konsum von Käse genauso stark angestiegen ist wie die Anzahl Menschen, die im Schlaf in ihrer Bettwäsche verheddern und dadurch sterben.

Wie ist es möglich, dass wir das sofort als Unsinn erkennen, eine künstlichen Intelligenz das aber als eindeutige Kausalität identifiziert?

Anders als der Algorithmus zerlegen wir Menschen intuitiv Sachverhalte in digitale und analoge Bestandteile. Die künstliche Intelligenz betrachtet dagegen ausschließlich den digitalen Anteil. Analog, oder anders ausgedrückt „komplex“ ist der systemische Anteil des Problems. Der digitale Teil ist dagegen nur kompliziert. Jedes Problem lässt sich in komplexe und komplizierte Bestandteile zerlegen.

Komplex und Kompliziert, wo ist da der Unterschied?

Verbrennungsantriebe sind kompliziert. Sie bestehen oft aus über 1400 Einzelteilen. Dabei sind alle Einzelteile miteinander verbunden und haben ihre Funktion. Wer als Laie einen solchen Antriebsstrang erklären, geschweige denn reparieren möchte ist völlig aufgeschmissen. Aber ein Mechaniker nicht: er hat das nötige Wissen. Und so lässt sich ganz allgemein sagen: Kompliziertes ist mit ausreichendem Wissen darüber beherrschbar.

Komplexität dagegen ist das Maß für die Menge der Überraschungen, mit denen man rechnen muss. Der Flügelschlag eines Schmetterlings in Hawaii kann durch die entstehende Luftbewegung das Wetter in Deutschland beeinflussen. Der deutsche Wetterdienst beschreibt dieses Problem sehr schön, ausführlich und trotzdem nachvollziehbar in diesem lesenswerten Dokument . Unser Wetter wird letztlich durch so viele Variablen bestimmt, dass diese nie vollständig erfasst werden können. Die Komplexität steigt mit der Zahl der betrachteten Parameter exponentiell. Deshalb behilft man sich mit der Abbildung eines Modells, also einer Vereinfachung. Und deshalb lässt sich das Wetter auch niemals präzise vorhersagen.

Bei Otto bin ich dazu auf einen sehr spannenden Artikel gestoßen. Man hat dort mit dem Algorithmus für Kundenempfehlungen experimentiert. Schon kleinste Änderungen der Daten können riesige Auswirkungen auf das Ergebnis haben. Ja, selbst wenn man den Algorithmus zweimal mit exakt den gleichen Daten auf die gleiche Weise trainiert hat, unterschieden sich ein Viertel der Empfehlungen, weil die KI ab und zu zufällig zwischen für sie gleichwertigen Alternativen unterscheiden muss. Sie nennen diesen Effekt bei Otto den Schmetterlingseffekt, in Analogie zum Effekt des Schmetterlingsflügelschlags auf das Wetter.

Wenn also bereits kleine Änderungen so große Auswirkungen auf das Ergebnis haben können, was sagt uns dass dann über die heute gängigen Prognoseverfahren? Oder anders ausgedrück: Wieso stimmt der Wetterbericht in aller Regel,
Goldman Sachs Weltmeisterprognose 2018 ging aber völlig daneben?

Nun, zum Einen war das Modell der verwendeten künstliche Intelligenz von Goldman Sachs nur auf 20 Variablen aufgebaut. Wichtige Parameter wie Schiedsrichterleistung, Motivation der Spieler oder der Nervosität blieben gänzlich umbewertet. Zum Anderen war die Datenqualität der Ausgangsdaten mangelhaft. Ein einziger Parameter zur Spielstärke der Teams, der auch noch subjektiv bestimmt wurde ist dann doch etwas wenig. Wenn, wie das Otto-Beispiel schön belegt, bereits kleine Veränderungen in den echten Daten große Auswirkungen haben, was heißt das dann für schlechte Datenqualität? Ich würde sagen, auch bei Big Data Szenarien gilt die alte Weisheit: Shit in, Shit out. Daran können auch mächtige Verfahren wie Random Forest nicht viel ändern.

Gesunder Menschenverstand bleibt also gefragt. Auch so langweilige Dinge wie eine gute Datenqualität kommen nicht aus der Mode. Und was zum Glück auch in Zukunft noch gefragt sein dürfte, sind Menschen die wissen was sie tun 😉.

Getagged mit: , , , , , , , , ,

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*

*