Teil 7: Vom Bild zum Erkennen zum Überwachen

Kann KI menschliche Schwächen ausgleichen?
Und wie weit ist Orwell entfernt?

Uwe Weinreich berät und coacht norma-lerweise zu Themen Strategie, Innovation und digitale Transformation. Als Autor des Blogs geht er in die direkte Auseinander-setzung mit Künstlicher Intelligenz. Der Ausgang ist unklar.

Bleiben Sie auf dem Laufenden via Twitter, linkedIn, Xing.

Bereits veröffentlicht:

1. KI und ich - Ein Selbstversuch

2. Mathe, Technik und Fremdschämen

3. Lernen im blauen Meer - Azure

4. Experimente bis zum bitteren Ende

5. Der harte Weg zum Webservice

6. Textanalyse entzaubert

7. Vom Bild zum Erkennen

8. Schlechte Witze und Psychopathen

9. Sieben Management-Initiativen

10. Interview mit Dr. Zeplin, Otto Group

Dieses Mal hoffe ich, dass ich von KI noch etwas lernen kann. Ich gebe es zu, ich habe manchmal das Gefühl, dass ich nicht besonders gut darin bin, Menschen wiederzuerkennen. Es geht nicht um Freunde, Familie und enge Bekannte, sondern um die vielen flüchtigen Bekanntschaften. OK, wenn ich meine Brille vergessen habe, erklärt das alles. Aber selbst mit passiert es mir hin und wieder, dass ich Personen nicht erkenne, mit jemand anderem verwechsele oder in den falschen Kontext einordne. Das ist dann ärgerlich bis peinlich.

Künstliche Intelligenz hat ja schon gezeigt, dass sie Erkennen von Menschen scheinbar recht gut beherrscht. Schauen wir einmal, wie das geht.

Als Opfer hat sich freundlicherweise Graeme zur Verfügung gestellt. Wir arbeiten mit diesem Bild:

azure-17

Es ist hier schon in Grauwerten. Ursprünglich war es farbig, aber für die Bildanalyse sind Grauwerte besser, wurde im Kurs erklärt. Warum? In Grauwerten ist es ein Datensatz mit drei Dimensionen: x-Achse, y-Achse und Helligkeitswert des jeweiligen Pixels. Farbige Bilder haben vier Dimensionen. Hinter jedem Pixel liegen noch die Farwerte für rot, grün und blau, oder aber für cyan, magenta, gelb (yellow) und schwarz (key). Klar, dass es einfacher ist, mit einer Dimension weniger zu rechnen.

Zunächst wird das Bild normalisiert. Das kennen wir schon von der Textanalyse: Zählen und Bereinigen. Auch hier gibt es wieder ein schönes Balkendiagramm, diesmal nicht der Worthäufigkeiten, sondern der Helligkeitswerte im Bild. Die erste Grafik zeigt die Häufigkeiten je Helligkeitswert absolut und die zweite kumuliert.

azure-18 azure-18b

Besser zu verarbeiten ist das Bild, wenn die kumulierten Werte eine schnurgerade Kurve von unten links nach oben rechts ergeben. Das mit einem Computer zu erreichen ist eine Kleinigkeit:

azure-18c azure-18d

Graeme sieht auch gleich um einiges brillianter und kontrastreicher aus.

Wie funktioniert erkennen?

Bisher haben wir nur ein bisschen mit den Pixelwerten gespielt. Übungen, die wahrscheinlich jeder Hobbyfotograf mit seinem Fotoprogramm beherrscht. Die eigentliche Aufgabe ist aber, zu erkennen, was sich im Bild befindet. Dazu muss analysiert werden.

Das Bild, das wir jetzt haben, ist kontrastreicher und eignet sich damit besser dafür, Kanten zu erkennen. Für Menschen ist das eine intuitive und leichte Übung. Wir sehen genau, wo das Sakko aufhört und das T-Shirt beginnt. Der Rechner hat zunächst nur eine dreidimensionale Datenmatrix vor sich. Kanten erkennen kann er nur, wenn er die einzelnen Pixel zueinander in Beziehung setzt, also kleine Pixelfelder auf Unterschiede untersucht. Als Verfahren wird der Sobel-Operator verwendet. Wie er genau funktioniert, ist eher etwas für Geeks. Wichtig ist, dass das Verfahren Computer nicht überfordert und recht gut funktioniert. Hier das Ergebnis:

azure-19

Ein bisschen geisterhaft ist es schon. Für uns wird es damit schwieriger und für Computer erst möglich, jemanden zu erkennen. Was es noch braucht, ist eine Mustererkennung, die die charakteristischen Merkmale eines Gesichts innerhalb des Bildes herausfindet und damit für die Weiterbearbeitung bereit stellt. Azure hat dafür ein eigenes Face Recognition Modul (Face API). Auf Graemes Bild wurde damit folgender Ausschnitt identifiziert:

azure-22

Nicht schlecht. Jetzt muss ein Computer nur noch in der Lage sein, ein Gesicht auch dann zu erkennen, wenn das Bild ein anderes, die Kopfhaltung abweichend und vielleicht das Aussehen als Ganzes variiert. Sie ahnen es. Dafür muss die Maschine wieder lernen, welche charakteristischen Merkmale zu welcher Person gehören. Azure Face Recognition beherrscht das in erschreckender Genauigkeit, wie der Vergleich mit diesem Jugendfoto von Graeme zeigt:

azure-23

Trefferwahrscheinlichkeit: 53%. Das ist nicht perfekt, aber erstaunlich.

Training reichert Information an

Nicht nur Microsoft, sondern auch Google, Amazon und IBM trainieren ihre KI-Systeme mit Millionen von Bildern. Dabei werden sie immer besser, Menschen und Dinge zu erkennen, nicht nur Katzen, sondern auch Gesichter, Gegenstände, Situationen etc. Vergleicht man Graemes erstes Bild nicht nur mit Gesichtern, sondern auch mit dem Wissen, das sich die KI über Graeme und die Bedeutung von Bildmustern angeeignet hat, kommt innerhalb von Millisekunden folgendes Analyseergebnis heraus:

Graeme wearing a suit and tie smiling at the camera

Das ist nicht ganz richtig. Eine Krawatte trägt er nicht. Aber schon sehr dicht dran und außerdem sympatischer als wenn der Algorithmus die trapezförmige Struktur unter dem Kinn als Doppelkinn analysiert hätte.

Zum folgenden Bild sagt die Erkennungssoftware:

a crowd of people watching a football game

Die Managementperspektive: Ein riesiges, ungehobenes Potenzial

Artificial Intelligence dringt mit den genannten Beispielen weit in das Feld der Fertigkeiten und Tätigkeiten ein, die bisher Menschen vorbehalten waren. Natürlich "versteht" KI noch längst nicht im menschlichen Sinne. Trotzdem sind die Technologien auch ohne Verständnis in der Lage, entsprechende Aufgaben zu lösen: Daten analysieren, klassifizieren, kategorisieren, Wahrscheinlichkeiten bestimmen, Reaktionen daraus ableiten. Das reicht, um viele Routinetätigkeiten von KI erledigen zu lassen, oftmals sogar in höherer Präzision und ohne Ermüdungserscheinungen. Google Deep Mind ist z.B. mittlerweile so gut im Lippenlesen, dass es trainierten Personen überlegen ist, berichtet Wired.

Jedes Unternehmen, dass standardisierte oder standardisierbare Prozesse besitzt, wird sich in den nächsten Jahren mit Künstlicher Intelligenz befassen müssen. Die Potenziale sind zu riesig, als dass man sie der Konkurrenz überlassen sollte. Der Aufwand, KI einzuführen und zu nutzen, ist durch Services, wie AWS AI, Azure und Watson sogar einfacher geworden, als klassische IT-Entwicklung.

Die perfekte Zeit, AI im geschäftlichen Umfeld zumindest zu testen, ist genau jetzt. Das Potenzial ist immens und noch längst nicht gehoben. In den folgenden Monaten und Jahren werden mit Sicherheit zahlreiche Unternehmen mit faszinierenden Lösungen auf den Markt drängen.

Wie nah ist Orwell?

Das Jahr 1984 haben wir längst hinter uns gelassen. Damals stecke KI noch in den Kinderschuhen. Mittlerweile ist sie aber soweit gediehen, dass durch Bilderkennung Personen relativ gut identifiziert werden können, auch wenn die Bilder sich deutlich unterscheiden. Auch Situationen können erkannt werden, nicht nur Fußballstadien, sondern auch Unfälle, bedrohliche Situationen in Menschenmengen und vieles andere mehr.

Kombiniert man Bild- mit Spracherkennung, dann ist es keine Utopie mehr, ein Video einer Gesprächsrunde automatisch zu transkribieren, die Personen zu erkennen und ihnen die jeweiligen Textpassagen zuzuordnen. Genauso wäre es möglich, in Brennpunkten – in Berlin wären das z.B. U-Bahnhöfe – Videoüberwachung zu installieren und zu trainieren. Wenn sie gut trainiert ist, könnte sie automatisch Alarm schlagen, wenn jemand angegriffen wird. Niemand braucht mehr auf Bildschirme zu starren und Videoaufzeichnungen brauchen nicht mehr in Massen gespeichert werden, sondern nur dann zur Beweissicherung, wenn eine entsprechende Situation eintritt.

Die Technik dafür ist bezahlbar. Die Beispiele machen aber auch deutlich, dass der Nutzen und der Schaden solcher KI-Anwendungen extrem davon abhängt, wer Daten aus Bildern und Geräuschen mit welcher Intention zu welchem Zweck nutzt. Mit Hilfe von KI in der Lebensmittelproduktion blitzschnell und automatisch verdorbene Grundstoffe erkennen und aussortieren? Wunderbar. Menschen in sämtlichen Lebensbereichen lückenlos überwachen und Profile erstellen, die langlebiger sind als die Person selbst? Gruselige Vorstellung. Vielleicht sollten wir uns öfter die folgenden Fragen stellen:

Google, Facebook, Amazon und andere sammeln zur Zeit liebend gern Fotos und Videos und bieten eine Menge Komfort, z.B. automatische Verschlagwortung. Das geht mit KI recht gut und sieht erstmal praktisch aus. Dabei entstehen zwangsläufig riesige Datenmengen über die Personen, die abgebildet sind. Auch über Personen, die nicht wissen, das ihre Bilder in solchen Datensammlungen landen. Wollen wir wirklich jedes Bild in den Cloud-Speicher hochladen?
Gerade soziale Medien besitzen viel Wissen über uns und versuchen uns zu animieren, die Sicherheitseinstellungen möglichst niedrig zu halten. Ist uns wirklich bewusst, was damit alles möglich wird?
Webseiten sammeln ebenfalls Daten über Tracker (unsere Seiten übrigens nicht!). Script- und Ad-Blocker limitieren oder verhindern das. Ja, sie nerven, weil man immer wieder einiges freigeben muss, wenn Seiten nicht richtig angezeigt werden. Aber lohnt sich der Aufwand nicht vielleicht doch?

In Zeiten, in denen Daten als das "Öl des 21. Jahrhunderts" gelten, gibt es nichts umsonst. Alles wird bezahlt, teilweise sehr, sehr teuer – mit unseren Daten.

Ich habe nichts gegen Künstliche Intelligenz und bin mir sicher, dass sie viel Komfort in unser Leben bringen wird, viele Probleme – z.B. auch in der Medizin – lösen wird und sich zu einem dauerhaften Begleiter entwickelt. KI wird nicht einfach wieder verschwinden.

Mit einem scharfen Küchenmesser kann ein Koch geniale Genüsse kreieren und ein Mörder Menschen töten. KI ist auch ein Werkzeug und wir sollten sehr genau darauf achten, wie es angewendet wird. Lasst uns gemeinsam die Zulkunft mit KI gestalten und uns nicht von ihr überollen lassen.

⬅ Zum vorhergehenden Blog-Eintrag Zum nächsten Blog-Eintrag ⮕