Teil 4: Experimente bis zum bitteren Ende

Wie ein prädiktives KI-Modell entsteht

KI-UW0

Uwe Weinreich berät und coacht norma-lerweise zu Themen Strategie, Innovation und digitale Transformation. Als Autor des Blogs  geht er in die direkte Auseinander-setzung mit Künstlicher Intelligenz. Der Ausgang ist unklar.

Bleiben Sie auf dem Laufenden via Twitter, linkedIn, Xing.

Bereits veröffentlicht:

1. KI und ich - Ein Selbstversuch

2. Mathe, Technik und Fremdschämen

3. Lernen im blauen Meer - Azure

4. Experimente bis zum bitteren Ende

5. Der harte Weg zum Webservice

6. Textanalyse entzaubert

7. Vom Bild zum Erkennen

8. Schlechte Witze und Psychopathen

9. Sieben Management-Initiativen

10. Interview mit Dr. Zeplin, Otto Group

Mittlerweile läuft alles. Die Aufgabe ist jetzt, einen prädiktiven Service mit Hilfe von Machine Learning aufzusezten, der aufgrund eingegebener Datensätze sagen kann, ob jemand wahrscheinlich Diabetes hat oder nicht.

Das fühlt sich kribbelig an. Möchte ich wirklich, dass ein trainierter Algorithmus eine Aussage darüber trifft? Zum anderen wird deutlich, dass der Begriff "prädiktiv" im Kontext dieses Kurses sehr großzügig verwendet wird. Prädiktiv würde ich es finden, wenn mir das System die Wahrscheinlichkeit sagen würde, mit der ich vielleicht in 10 Jahren an Diabetes erkranke. Aber nein, das ist hier nicht gemeint. Prädiktiv heißt ausschließlich, dass mir Daten, die nicht direkt den Status "Diabetiker" abbilden, einen Rückschluss auf den Status "Diabeter" generieren. Es ist also Prädiktion nach dem Prinzip: "Es sieht aus wie eine Ente, es watschelt wie eine Ente, es quakt wie eine Ente, also muss es eine Ente sein." Sicher bin ich natürlich erst, nachdem ich eine Gewebeprobe daraufhin untersucht habe, ob sie ein Entengenom enthält. Man kann da durchaus Überraschungen erleben, vermute ich.

dug

Supervidiertes Maschinelles Lernen

Das Ganze beginnt damit, dass die Künstliche Intelligenz von Azure zunächst anhand bestehender Datensätze, bei denen man schon weiß, bei wem es sich um Diabetiker handelt, lernen muss. Dazu werden vorbereitete Datensätze hochgeladen und im Azure-Interface visuell zusammengeführt.

Um testen zu können, ob das Modell, das gebildet wurde, auch zuverlässig arbeitet, braucht es Prüfdatensätze. Dazu werden die Datensätze per Zufall im Verhältnis 70% : 30% aufgeteilt. 70% zum Lernen und mit dem Rest wird dann getestet.

Ganz von allein passiert natürlich noch nichts. Man muss dem System schon sagen, womit es ein Modell bilden soll. In unserem Falle ist es zunächst eine Regressionsanalyse. Der ganze Prozess sieht jetzt so aus:

azure-04

Logistische Regression ist ein klassisches und Allerweltsmittel, um Zusammenhänge in Datensätzen zu erkennen. Die Analyse macht nichts anderes als zu berechnen, ob die Ausprägungen unterschiedlicher Variablen gleichsinnig vorliegen. Je ähnlicher, desto stärker der Zusammenhang.

Die größte Quelle für hochgequirlten Blödsinn

Dieses Verfahren ist sinnvoll und mathematisch gut begründet, um zu überprüfen, ob vermutete Zusammenhänge existieren. Ganz anders sieht es jedoch aus, wenn man sich damit auf die Suche nach Zusammenhängen begibt, die man gar nicht im Blick hatte. Das kann große Überraschungen hervorzaubern. Man stößt auf Zusammenhänge, die bisher übersehen wurden, zum Beispiel die vielen statistischen Zusammenhänge zwischen Ernährung und Gesundheit. Da gibt es ja jede Woche eine neue Meldung.

Mit der weiteren Verbreitung von Big Data Analytik und künstlicher Intelligenz ist in den letzten Jahren allerdings ein weiterer Aspekt entstanden: Statistischer Blödsinn, oder in der Fachsprache: Artefakte. Wenn Sie viele Daten haben, ist es fast zwangsläufig, dass es da irgendwelche Ähnlichkeiten gibt, die man mithilfe von Regressionsanalysen oder anderen Verfahren aufdecken kann. Dabei kommen dann oft Zusammenhänge heraus, die zwar statistisch hoch signifikant, aber inhaltlich völliger Quatsch sind. Nicht immer ist es so leicht zu erkennen, wie bei der beeindruckenden telekinetischen Wirkung, die Nicolas Cage zu haben schein (siehe tylervigen.com/spurious-correlations):

eroneousStats

Wenn Blödsinn nicht so offensichtlich ist und man auch noch eine Wirkrichtung unterstellt (die ist statisch fast nie belegt!), kann man damit Pressemeldungen kreieren, auf die sich sensationssuchende Journalisten sofort stürzen.

Suchen, bis man findet

Nun gut, die logistische Regression hat sich in dem Experiment nicht als vollends tauglich erwiesen, so dass ein zweites Verfahren zur Anwendung kam, ein Entscheidungsbaum. Das ergab bessere Ergebnisse, wie die Grafik zeigt: die Regression (blaue Kurve) hat längst nicht so scharf zwischen den beiden Gruppen unterschieden, wie der Entscheidungsbaum (rote Kurve). Man erkennt es an der Zahl der falsch-positiv und falsch-negativ klassifizierten Datensätze. Beide Werte sollten am besten gleich Null sein. Dann ergäbe es eine perfekt rechtwinklige Kurve.

azure-07

Damit wird ein weiteres Prinzip von Big Data Analytik bzw. Maschinellem Lernen zur Modellbildung deutlich: Wir verwenden so lange neue Verfahren, bis endlich etwas einen Zusammenhang liefert. Das ist nicht verkehrt, aber es steigert natürlich nochmal die Tendenz zu Artefakten.

Was wäre das richtige Vorgehen?

Ich möchte nicht verleugnen, dass Maschinelles Lernen und KI genau mit diesen Vorgehensweisen enorme Erkenntnisgewinne und Funktionalitäten hervorgebracht haben, die auf klassische Art und Weise nie zu erreichen gewesen wären. Die Fortschritte bei der Bild- und Spracherkennung sind enorm. Auch Fehlererkennung oder die Abwehr von Cyber-Attaken laufen mit gut trainierter Artificial Intelligence deutlich besser. Man muss jedoch sorgsam vorgehen. Dazu gehören mindestens die folgenden Elemente:

 

⬅ Zum vorhergehenden Blog-Eintrag     Zum nächsten Blog-Eintrag ⮕

veröffentlicht: 18.05.2018, © Uwe Weinreich