Towards holistic machines : From visual recognition to question answering about real-world images

Malinowski, Mateusz

Please use this identifier to cite or link to this item: doi:10.22028/D291-26773

Title:	Towards holistic machines : From visual recognition to question answering about real-world images
Other Titles:	Für ganzheitliche Maschinen : Von der visuellen Anerkennung zur Frage der Beantwortung von Real-World-Bildern
Author(s):	Malinowski, Mateusz
Language:	English
Year of Publication:	2017
SWD key words:	Bilderkennung Sprachproduktion Computervision
Free key words:	Visual Turing Test DAQUAR neural-basierte visuelle Fragenbeantwortungsarchitektur Visual Turing Test Visual Question Answering Visual Recognition Language and Vision
DDC notations:	004 Computer science, internet
Publikation type:	Dissertation
Abstract:	Computer Vision has undergone major changes over the recent five years. Here, we investigate if the performance of such architectures generalizes to more complex tasks that require a more holistic approach to scene comprehension. The presented work focuses on learning spatial and multi-modal representations, and the foundations of a Visual Turing Test, where the scene understanding is tested by a series of questions about its content. In our studies, we propose DAQUAR, the first ‘question answering about real-world images’ dataset together with methods, termed a symbolic-based and a neural-based visual question answering architectures, that address the problem. The symbolic-based method relies on a semantic parser, a database of visual facts, and a bayesian formulation that accounts for various interpretations of the visual scene. The neural-based method is an end-to-end architecture composed of a question encoder, image encoder, multimodal embedding, and answer decoder. This architecture has proven to be effective in capturing language-based biases. It also becomes the standard component of other visual question answering architectures. Along with the methods, we also investigate various evaluation metrics that embraces uncertainty in word's meaning, and various interpretations of the scene and the question. Computer Vision hat sich in den letzten fünf Jahren stark verändert. Zusammen mit den Fortschritten im Bereich Deep Learning und der Erstellung von umfangreichen Datensätzen wird der Fortschritt besonders im Bereich der Bildklassifizierungsaufgaben deutlich. Des Weiteren können wir einen erfolgreichen Übergang von manuell gestalteten zu erlernten Funktionen beobachten, der es ermöglicht, die jeweilige Aufgabe anzupassen. Daher untersuchen wir, ob die Leistung solcher Architekturen auch auf komplexere Aufgaben erweitert werden kann, die einen eher ganzheitlichen Ansatz an die Szenenerfassung verlangen. Diese These umfasst vier Hauptthemen, die zu diesen Fortschritten bei Computer Vision beigetragen haben. Die letzten beiden Teile betreffen den Visual Turing Test, die Aufgabe, bei der eine Maschine verschiedenste Fragen zum Inhalt von Bildern beantworten muss. Im dritten Teil haben wir zum ersten Mal die fragenbeantwortende Aufgabe zu echten Bildern eingeführt. Wir haben DAQUAR vorgeschlagen, den ersten „fragenbeantwortenden Datensatz zu Bildern“, gemeinsam mit der ersten Methode, die dieses Problem behandelt. Da diese Methode auf einem semantischen Parser sowie auf einer Datenbank an visuellen Fakten beruht, nennen wir diese Methode logikbasierte Fragenbeantwortungs-Architektur. Um mit den unbestimmten visuellen Eingaben umgehen zu können, haben wir eine Bayesian-Erweiterung für den semantischen Parser vorgeschlagen, die über verschiedenen Interpretationsmöglichkeiten der visuellen Szene ausgeführt wird. In diesem Teil haben wir auch die erste Bewertungsmetrik eingeführt, die die Unsicherheit in der Wortbedeutung behandelt. Im vierten Teil arbeiten wir am Visual Turing Test weiter. Hier haben wir das erste End-to-End vorgeschlagen, ein gemeinsam geschulter Ansatz an die Aufgabe der „Fragenbeantwortung über Bilder“. Da diese Methode multimodal ist, die Deep Learning Methode, die ein Recurrent Neural Network mit einem Convolutional Neural Network kombiniert, nennen wir die Methode eine neural-basierte visuelle Fragenbeantwortungsarchitektur. Zusätzlich haben wir einen weiteren Satz an Anmerkungen gesammelt und zwei Erweiterungen der Auswertungsmetrik vorgeschlagen, um die Unsicherheit in machen Frage- und Bildinterpretationen zu behandeln.
Link to this record:	urn:nbn:de:bsz:291-scidok-68978 hdl:20.500.11880/26786 http://dx.doi.org/10.22028/D291-26773
Advisor:	Fritz, Mario
Date of oral examination:	20-Jun-2017
Date of registration:	7-Jul-2017
Faculty:	MI - Fakultät für Mathematik und Informatik
Department:	MI - Informatik
Collections:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:

File	Description	Size	Format
main.pdf		52,4 MB	Adobe PDF	View/Open

Export: BibTex