Weihnachten und Künstliche Intelligenz

„Merkwürdiger Titel“ werden jetzt einige sagen. Sind das nicht zwei Themen, die eigentlich gar nicht zusammenpassen: Weihnachten ein sehr emotionsbeladenes Fest der Christen (und auch manch anderer) und künstliche Intelligenz eine Vision von Technikfreaks? Mit diesem Blogbeitrag versuche ich, hoffentlich auf ein wenig unterhaltsame Weise und nicht immer ganz ernst gemeint, diese beiden Bereiche sich ein wenig annähern zu lassen.

Nachdem die künstliche Intelligenz noch in den Kinderschuhen steckt, habe ich mir aus dieser Wissenschaft ein kleines Teilgebiet ausgewählt: die Bild-/Objekterkennung (Image Recognition). Darin wird versucht Computern das „menschliche Sehen“ zu lehren oder um es besser auszudrücken, versuchen mathematische Algorithmen in digital aufgenommenen Bildern einzelne Objekte zu erkennen und diese mit dazu passenden Beschreibungen zu definieren.
Als Symbolfigur von Weihnachten steht für mich – und sicherlich auch für viele andere – der Weihnachtsmann. Nachdem es sich dabei inzwischen auch um eine Werbe-Ikone handelt, die in seiner heutigen Gestalt auf Werbekampagnen der Coca Cola Company zurückzuführen ist, habe ich mir erlaubt ein etwas älteres Werbeplakat (von 2015) für diese nicht so ganz ernst gemeinte Analyse zu verwenden:

coca-cola-weihnachten-motto-2015-1654-857-ddf75eb1

Quelle: https://www.coca-cola-deutschland.de/content/dam/journey/de/de/private/2015/12/coca-cola-weihnachten-motto-2015-1654-857-ddf75eb1.jpg

Für diesen Artikel habe ich die großen Player von Cloud-Lösungen (mit KI-Diensten) am Markt verwendet und dort jeweils die Test-/Demo-Webseiten (ohne vorheriges Anlernen der Erkennungssysteme oder besondere Einstellungen verwendet). Die Ergebnisse habe ich jeweils mit einem Link versehen, so dass jeder selbst das Ergebnis validieren kann – bitte beachtet, dass bei einigen eine vorherige Anmeldung erforderlich ist.
… und das ist dabei herausgekommen:

Microsoft Azure

https://azure.microsoft.com/de-de/services/cognitive-services/computer-vision/

erkennt auf dem Bild…

Weihnachtsmann_Azure

…einen Mann mit einem roten Hut bekleidet (mit einer Sicherheit von 55,20754%). Wenn man den Tags glauben schenken darf, könnte es sich bei dem Bild aber auch um eine gemalte Frau handeln, die im Wasser steht oder reitet.
Scrollt man in den Ergebnissen der Analyse aber weiter nach unten, sieht man, dass Microsoft mit einer Wahrscheinlichkeit von 3,20447721% davon ausgeht, dass es sich um nicht jugendfreie Abbildungen handelt. Somit dürfen Sie das Bild auch Ihren Kindern zeigen.

Amazon AWS

https://us-west-2.console.aws.amazon.com/rekognition/home?region=us-west-2#/label-detection

hat mit einer Wahrscheinlichkeit von 98,8% erkannt, dass sich auf dem Bild…

Weihnachtsmann_AWS

…eine menschliche Person befindet. Dass die Coke noch zu 90% erkannt wurde, liegt wahrscheinlich eher an dem fast eindeutigen Schriftzug und weniger an der Flasche Cola, die der Weihnachtsmann in der Hand hält. Die Vermutung von Amazon (mit knapp 80%), dass es sich bei dem Bild um ein Poster, Flyer oder ähnliches handelt, finde ich hervorragend (denn schlussendlich ist es das ja auch – wenn mich mein menschliches Auge und meine natürliche Intelligenz nicht trügt).

Watson sees…

https://visual-recognition-demo.ng.bluemix.net/

Weihnachtsmann_Watson2

…einen mehr als 65 Jahre alten rothaarigen Entertainer/Puppenspieler, der zu 50% Boxhandschuhe trägt (also einen) aber mit hoher Wahrscheinlichkeit (100%) keine Frau ist. Über das mit dem Boxhandschuh sollte Mr./Mrs. Watson von IBM noch einmal nachdenken.

Wie es aussieht hat IBM die Beta-Phase der Texterkennung auf Bildern inzwischen auch beendet und, nach der angegebenen Trefferrate bei der Texterkennung, würde ich mir wünschen,  dass diese Funktion nun nicht als kostenpflichtiges Produkt angeboten wird. Ich denke, da geht noch etwas.

Clarify

https://www.clarifai.com/demo

Weihnachtsmann_Clarify

Auch wenn diese Lösung nicht zu den großen Playern am Markt gehört, bin ich doch von den Ergebnissen sehr beeindruckt, denn es sieht mit hundertprozentiger Sicherheit ein Bild über Weihnachten –> was ja schon mal nicht schlecht ist. Auch mit den anderen Eigenschaften wie z. B. dass es sich um eine fröhliche traditionelle Vorabendfeier im Winter mit Überraschungen und Schenken handeln könnte, trifft Clarify voll ins Schwarze. Da kann man den kleinen Ausrutscher in Richtung Neujahr und Handschuh fast vernachlässigen. Ein wenig schade finde ich jedoch, dass sie den Weihnachtsmann nicht sehen – den bereits ein zweijähriges Kind sofort entdecken würde.

Google

https://cloud.google.com/vision/

sieht…

Weihnachtsmann_Google

…den Weihnachtsmann in einer Coca Cola-Werbung. Geht es noch besser?…

Auch wenn die angegebenen Wahrscheinlichkeiten für die jeweiligen Eigenschaften nicht sonderlich hoch sind, überrascht mich doch die Treffergenauigkeit und lässt den Verdacht aufkommen, dass Googles „Augen“ dieses Bild bereits einmal gesehen haben.

CloudSight

CloudSight_AI

…hat dann wohl das beste Ergebnis –> mit dem Namen des Bildes „Coca-Cola Santa Claus-Werbung“. Auf jeden Fall ein Anbieter, den man im Auge behalten sollte.

Zusammenfassung

Würde man die Objekterkennung der bisher hier gezeigten Lösungen zu einer zusammenfassen und die Ergebnisse noch ein wenig aufbereiten, dann könnte man mit dem Ergebnis schon zufrieden sein.

Anmerkung: Die von mir verwendeten Cloud-Dienste sind sicherlich nur einen kleinen Bereich der im Internet verfügbaren Dienste mit der Aufgabe der Bilderkennung (und sollen keinen Anspruch auf Vollständigkeit erheben –> ich hatte ja kein Buch, sondern nur einen Blogartikel geplant). Sollte jedoch jemand noch bessere Cloud-Dienste für diese Aufgabe kennen, würde ich mich über eine Mail mit einem Link darauf freuen.

Doch diese Technik ist noch in den Kinderschuhen und die Abstände in denen neue bessere Lösungen und Algorithmen auf den Markt drängen, werden immer kürzen. Irgendwann in nicht allzu ferner Zukunft wird auch ein Computer genauso wie ein Mensch in der Lage sein, die Dinge in seiner Umgebung eindeutig zu erkennen und mit diesen zu interagieren. Erste Tendenzen dahin gibt es schon, wie man an dem folgenden Projekt sehen kann, das ich Euch kurz vorstellen möchte:

ImageNet (http://image-net.org,   ImageNet_Logo ) veranstaltet jährlich eine Challenge, bei der es darum geht aus Bildern Objekte eindeutig zu erkennen und diese mit einer Bezeichnung zu versehen. Die Aufgabenstellung dieser Challenge sieht folgendermaßen aus:

The data for the classification and localization tasks will remain unchanged from  ILSVRC 2012 . The validation and test data will consist of 150,000 photographs, collected from flickr and other search engines, hand labeled with the presence or absence of 1000 object categories. The 1000 object categories contain both internal nodes and leaf nodes of ImageNet, but do not overlap with each other. A random subset of 50,000 of the images with labels will be released as validation data included in the development kit along with a list of the 1000 categories. The remaining images will be used for evaluation and will be released without labels at test time. The training data, the subset of ImageNet containing the 1000 categories and 1.2 million images, will be packaged for easy downloading. The validation and test data for this competition are not contained in the ImageNet training data.

Quelle: http://image-net.org/challenges/LSVRC/2017/#det

Um zu verstehen, wie man sich das vorstellen muss, habe ich hier ein Beispielbild:

Sample1

Quelle: http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture1.pdf

auf dem die fünf angegebenen Objekte erkannt werden müssen. Wird ein Objekt nicht erkannt bzw. mit einem falschen Namen versehen, gilt die Erkennung als nicht bestanden.

Auf der folgenden Grafik seht Ihr die Entwicklung der Erkennungsrate von 2010 bis 2015:

Sample3

Quelle: http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture1.pdf

In den letzten zwei Jahren hat sich die Erkennungsrate weiter verbessert, jedoch habe ich dazu kein aussagekräftiges Zahlenmaterial gefunden.
An der diesjähringen Challenge haben 38 Teams (mit unterschiedlichen Algorithmen) teilgenommen. Von diesen 38 Teams haben 29 eine Erkennungsrate von 95% und besser.

Wenn ich mal ein wenig Zeit habe, werde ich versuchen, die Challenge mit einem eigenen Algorithmus nachzustellen. Dann kann ich auch das Beispielbild aus diesem Artikel erkennen lassen. Gerne teile ich Euch dann die Ergebnisse mit.

Interessant an diesem Diagramm ist für mich der letzte Balken (der eigentlich so gar nicht hineingehört). Dieser Balken besagt, dass 2014 an der Stanford University der gleiche Test mit Studenten durchgeführt wurde. Auch hier bestand die Aufgabe darin, auf den Bildern die Objekte entsprechenden Kategorien zuzuweisen. Beachtlich ist hier, dass die Fehlerrate bei über 5% lag, wohingegen die Erkennungsrate der Algorithmen in der Challenge von 2015 bereits kleiner als 4% war (wer mehr darüber erfahren möchte, wie die 5.1% entstanden sind, der sollte diesen Artikel lesen https://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/).

Auch wenn ich an dieser Stelle das Ergebnis nicht verallgemeinern möchte, so macht es doch deutlich, dass KI-Systeme heute bereits in der Lage sind, Objekte mit einer annähernd gleichen Genauigkeit zu erkennen, wie es Menschen können. In dem aktuellen Artifical Intelligence Index 2017 Annual Report wird deutlich, dass nicht nur in der Objekterkennung die Maschine einem Menschen überlegen ist, sondern auch in weiteren Gebieten die Trefferrate von intelligenten Systemen höher ist.

Hinweis: Bei meinen Recherchen zu dem Artikel bin ich übrigens über eine Lösung (https://github.com/goberoi/cloudy_vision) gestolpert, die Euch die Arbeit mit dem Vergleich der verschiedenen Plattformen abnimmt. Wer Lust und Zeit hat zum Testen, sollte sie mal mit verschiedenen Bilddateien testen.


In diesem Sinne wünsche ich Euch allen ein frohes und besinnliches Weihnachtsfest im Kreise Eurer Lieben und ein berauschendes Silvester, dass Euch gesund und mit neuer Kraft in das neue Jahr schubst.

W2017_1

Advertisements
Über

Die IT-Welt wird immer komplexer und zwischen den einzelnen Komponenten gibt es immer mehr Abhängigkeiten. Nachdem ich durch meine tägliche Arbeit immer wieder vor der Herausforderung stehe, komplexe Probleme zu lösen, möchte ich diese Seite dafür verwenden, Euch den einen oder anderen Tipp zu geben, wenn Ihr vor ähnlichen Aufgabenstellungen steht.

Veröffentlicht in Allgemein, Azure, Bilderkennung, Künstliche Intelligenz

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

Follow Sylvio's Infobox on WordPress.com
Dezember 2017
M D M D F S S
« Nov    
 123
45678910
11121314151617
18192021222324
25262728293031
%d Bloggern gefällt das: