Teil 6: Textanalyse entzaubert

Wie KI Texte versteht - oder eben auch nicht

Uwe Weinreich berät und coacht norma-lerweise zu Themen Strategie, Innovation und digitale Transformation. Als Autor des Blogs geht er in die direkte Auseinander-setzung mit Künstlicher Intelligenz. Der Ausgang ist unklar.

Bleiben Sie auf dem Laufenden via Twitter, linkedIn, Xing.

Bereits veröffentlicht:

1. KI und ich - Ein Selbstversuch

2. Mathe, Technik und Fremdschämen

3. Lernen im blauen Meer - Azure

4. Experimente bis zum bitteren Ende

5. Der harte Weg zum Webservice

6. Textanalyse entzaubert

7. Vom Bild zum Erkennen

8. Schlechte Witze und Psychopathen

9. Sieben Management-Initiativen

10. Interview mit Dr. Zeplin, Otto Group

Jetzt wird es spannend. Texte und Sprache zu verstehen, ist etwas ur-menschliches. Wenn Maschinen den Sprung dahin schaffen, dann kommen sie uns so nahe, dass es sich unbehaglich anfühlt, jedenfalls solange wir uns daran noch nicht gewöhnt haben.

Schon seit langem hofft die Informatik, dass Maschinen in der Lage sein werden, natürliche Sprache zu verstehen. Dabei ist Textverständnis - also das Analysieren von geschriebenem und damit oftmals schon maschinenlesbarem Text – die leichtere Übung. Viel schwieriger ist es gesprochene Sprache zu verstehen, denn die muss zunächst in maschinenlesbare Form übertragen werden. Wer schon mal Spracherkennungsprogramme wie Dragon Naturally Speaking oder andere* [Werbelink] auf seinem Rechner installiert hat, freut sich anschließend nicht nur, dass Diktieren mittlerweile ziemlich gut funktioniert, sondern weiß auch, welche monströsen Programmpakete notwendig sind, um nur die eine Aufgabe zu lösen, gesprochenen in geschriebenen Text zu verwandeln.

Sprache bleibt etwas sehr menschliches und ist wesentliche Grundlage für Aufbau und Pflege von Beziehungen. Eine erstaunliche Erfahrung damit hat vor mehr als 50 Jahren bereits der Informatiker Joseph Weizenbaum gemacht, als er 1966 das kleine Computerprogramm Eliza entwickelte, dass Techniken der damals populären Gesprächspsychotherapie nachahmte. Den damals sehr begrenzten technischen Möglichkeiten geschuldet, war das natürlich nur sehr hölzern und schematisch möglich.

Umso erstaunter war Weizenbaum, als er eines Tages sein Büro betrat und seine Sekretärin vor dem Rechner fand, die ihn bat, doch noch ein wenig vor der Tür zu warten, denn sie würde gerade ein sehr wichtiges, persönliches Gespräch mit Eliza führen. Natürlich wusste die Dame, wie begrenzt und schematisch das Programm arbeitet, und dennoch hat die Interaktion bei ihr das Gefühl der Intimität eines persönlichen Gespräches ausgelöst.

Probieren Sie es hier selbst einmal aus mit dem Skript von Norbert Landsteiner (2005). Das Programm läuft nur in Ihrem Browser. Es werden keine Daten an den Server übertragen oder gespeichert.

Sprechen Sie vertraulich mit Eliza – sie versteht aber nur Englisch

tamagotchi Ähnliche Anhänglichkeit war Jahrzehnte später während des Tamagotchi-Booms zu erleben, wo das virtuelle Wachsen und vor allem Sterben von Küken, nein eigentlich kleinen schwarzen Pixelwolken, ganze Familien in emotionale Krisen gestürzt hat. Auch hier eine enge und emotionale Computer-Mensch-Beziehung.

Wohlgemerkt, diese "Beziehungsfähigkeit" geht nicht auf die Fähigkeiten der Maschine zurück – da scheint nicht viel notwendig zu sein – sondern auf unsere psychische Ausstattung. Weizenbaum hat es so zusammengefasst: "Die meisten Menschen verstehen nicht das Geringste von Computern, und so können sie sich die intellektuellen Leistungen von Computern nur dadurch erklären, dass sie die einzige Analogie heranziehen, die ihnen zu Gebote steht, nämlich das Modell ihrer eigenen Denkfähigkeit." Das heißt nichts anderes, als dass wir Computer vermenschlichen und ihnen unter Umständen mehr menschliche Eigenschaften zuschreiben als sie tatsächlich besitzen.

Textverständnis Künstlicher Intelligenz heute

Rein technisch betrachtet sind wir heute Epochen weiter als vor ein paar Jahrzehnten. Rechen- und Speicherleistungen haben sich potenziert und auch die Algorithmen sind um ein Vielfaches leistungsfähiger geworden. Sprechen wir heute Computern zu recht menschliche oder sogar übermenschliche Fähigkeiten zu? Schauen wir uns an, was Azure zu bieten hat.

In dieser Lektion gibt es eine Einführung in Text- und Sprachverstehen der KI. Es beginnt mit Textverstehen, das an drei Texten geübt wird: Kennedys "Moon Speech", Lincolns "Gettysburg Address" – ein Text, an dem wohl kein amerikanischer AI-Computer bei der Textanalyse vorbeikommt –, und ein im Vergleich zu den Vorgängern sehr spröder Microsoft Text zu Cognitiven Services. Um das Ergebnis vorwegzunehmen, Azure KI kommt zu der Erkenntnis, dass sich die drei Texte wesentlich unterscheiden. Das ist nicht überraschend. Die Fragen sind jedoch, wie gelangt das System zu dieser Erkenntnis und was "versteht" es wirklich?

Texte analysieren

Einer der ersten Schritte der maschinellen Textanalyse ist es, den Text zu bereinigen (Zahlen und Satzzeichen raus). Bessere Ergebnisse erhält man außerdem, wenn man den Text auf seine Wortstämme zurückführt, also "schön", "Schönheit", "Verschönen" werden alle zu "schön". Und dann kann man endlich den wesentlichen Schritt machen und Wörter nach Häufigkeiten zählen und zu ordnen. Das sieht dann so aus:

azure-16b

Dabei fällt auf, dass Allerweltswörter wie "the", "and", "of" und weitere häufig vertreten sind. Die sind natürlich für den Sinn des Textes nicht so entscheidend, wie die Worte "space" und "science". Daher gibt es eine Methode, solche "Stop Words" zu entfernen. Nach diesen Schritten, die im Wesentlichen aus Reduzieren, Ausschließen, Zählen und Sortieren bestehen, bekommt man eine Wortsammlung, die schon einen ersten Eindruck des Textes vermitteln kann. Für die Kennedy-Rede sind das "new" "go", "space", "say", "one", "sea", "choose", "hostile", "moon". Na gut, mitreißende Qualität hat eine solche Wortfolge im Vergleich zu einer charasmatischen Rede nicht mehr.

Als nächster Analyseschritt wird eine Term Frequency - Inverse Document Frequency Analyse (tf-idf Analyse) durchgeführt. Das kennt wahrscheinlich jeder Informatik-Student aus dem ersten Semester, mich hat dieses Verfahren aber überrascht und begeistert. Als wir in meinem damaligen Unternehmen erstmals mit Textanalyse experimentierten, verwendeten wir ausgiebig das Bayes Theorem. Die Vorteile sind, dass es recht einfach zu implementieren ist und recht gute Klassifizierungen von Texten liefert, wenn man mit ausreichend Datensätzen trainiert. Der große Nachteil, der dann auch zur Aufgabe der Experimente führte, war, dass wir regelmäßig in Speicherüberläufe gerannt sind. Gerade bei längeren und differenzierten Texten musste so viel Statistik in den Arbeitsspeicher geladen und in Datenbanken gelesen und geschrieben werden, dass die Programme immer langsamer wurden und sich irgendwann aufhängten.

tf-idf ist das Verfahren, dass wir damals gebraucht hätten, um die Menge der zu verarbeitenden Daten deutlich zu reduzieren. Es sortiert alle Worte raus, die in allen Texten vorkommen und gewichtet die hoch, die jeweils nur in einem enthalten sind. Das macht Bayes irgendwie auch, aber halt sehr viel aufwändiger. Der schlankere Algorithmus gewinnt auf lange Sicht. Hier eine Visualisierung von tf-idf. Zugegeben, die begeistert sicherlich nur Mathefreaks.

tf-idf

Die Ergebnisse

Vergleicht man nun die drei Texte, so lassen sie sich eindeutig anhand der dominanten Worte klassifizieren.

Kennedys Moon Speech	Lincolns Gettysburg Address	Microsoft Cognitive Services
space go one	nation dedicated dead	services speech cognitive

Ja, das reicht, um die Texte voneinander zu unterscheiden, selbst mit einem IQ von unter 50 (siehe Blog-Beitrag 1 zu diesem Thema). Aber mit Verstehen hat das alles nichts zu tun. Die KI kann nur sagen, dass die Texte unterschiedlich sind, ohne jedes Wissen darüber, worum es geht.

Fehlende Konnotation

Menschliche Kommunikation lebt von Kontext und Konnotation. All die Feinheiten, die erst deutlich machen, ob etwas ernsthaft oder ironisch, liebevoll oder abfällig, sachlich oder wütend gemeint ist, helfen uns Sprache zu verstehen. All das ist in den obenstehenden Analyseschritten komplett zerschossen worden. Satzzeichen, die z.B. eine Frage kenntlich machen und Struktur liefern, sind komplett verschwunden, Worte sind aus ihrem Kontext gerissen und ihrer Verbindungswörter beraubt worden.

Auch dafür hat die KI-Textanalyse eine Lösung bereit, die Sentiment-Analyse. Sie macht nichts anderes, als den Text nach Worten zu durchsuchen, von denen sie gelernt hat, dass sie gehäuft in positiv konnotierten oder negativ konnotierten Texten vorkommen. Daraus lässt sich dann wieder eine Wahrscheinlichkeit berechnen, ob ein Text eher positiv oder negativ ist. Gibt es für beides keine hohe Wahrscheinlichkeit, wird er als neutral klassifiziert. Diese Algorithmen haben immer Schwierigkeiten mit Ironie. Und gerade in der Anfangszeit wurden Tweets wie "Ich bin gerade in Bad Doberan angekommen" als hochgradig negativ eingestuft, enthalten sie doch das negative Signalwort "bad". Also, Augen auf! Die Welt ist nicht (nur) Englisch.

Wir dürfen KI Textverständnis nicht überbewerten

Sentiments sind damit natürlich sehr reduziert und grobschlächtig. Das wird im Laufe der nächsten Zeit sicher besser werden, aber noch fern von dem bleiben, wie Menschen Texte verstehen. Dennoch ist es beeindruckend, wie es Maschinen gelingt, gerade große Textmengen zu verarbeiten und daraus Kennzahlen und sogar Empfehlungen zu entwickeln. Dennoch sollten wir uns nicht zu sehr beeindrucken lassen. Das Meiste, was wir darin als Intelligenz erkennen ist immer noch unsere eigene Projektion, wie sie Weizenbaum bereits vor 50 Jahren beschrieben hat. Wenn wir bestimmtes Verhalten bei anderen (Computern, Hunden, Tamagotchis) sehen, gehen wir davon aus, dass dem Verhalten ähnliche Prozesse zugrunde liegen, wie bei uns selbst. Eine kritische Haltung den Text-Erkenntnissen von AI wird zumindest die nächsten Jahre noch sehr förderlich sein.

Weniger überraschend aber dafür erfreulich sind dagegen die Erkennungsraten gesprochener Sprache, die natürlich auch mit Azure möglich sind. Das möchte ich hier aber nicht vertiefen, da es jeder mit einer Spracherkennungssoftware oder einem sprachgesteuerten Assistenten selbst erfahren kann.

Zum Weiterlesen

Carstensen K, Ebert C, Ebert C, Jekat S, Langer H, Klabunde R (2009) Computerlinguistik und Sprachtechnologie - Eine Einführung, Berlin Heidelberg New York, Springer-Verlag, ISBN 978-3-827-42224-8

Ein Buch für Fachleute und Studierende, die sich mit den grundlegenden Technologien der Computerlinguistik auseinandersetzen wollen. Man muss Spaß daran haben, sich mit Statistik und Berechnungen auseinanderzusetzen. Dann ist es ein gutes Grundlagenwerk.
Ansehen / kaufen bei Amazon* | BibTeX | EndNote

Jannidis F, Kohle H, Rehbein M (2017) Digital Humanities - Eine Einführung, Berlin Heidelberg New York, Springer-Verlag, ISBN 978-3-476-05446-3

Das Buch zeigt die Möglichkeiten und Technologien auf, um Wissen zu sammeln, zu speichern und sinnvoll zu verarbeiten. Ein fundiertes Fachbuch für das neue Forschungsfeld Digital Humanities.
Ansehen / kaufen bei Amazon* | BibTeX | EndNote

Braun A (2013) Chatbots in der Kundenkommunikation, Berlin Heidelberg New York, Springer-Verlag, ISBN 978-3-642-19021-6

Ein Werk, das zeigt, wie Chatbots sinnvoll in den Anwendungsfeldern Marketing, Vertrieb und Kommunikation einsetzen lässt. Es enthält konkrete Umsetzungshilfen und Praxisbeispiele. Die Perspektive ist interdisziplinär und damit praxisnah. Der Schreibstil ist gut lesbar.
Ansehen / kaufen bei Amazon* | BibTeX | EndNote

⬅ Zum vorhergehenden Blog-Eintrag Zum nächsten Blog-Eintrag ⮕