Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-26773
Titel: Towards holistic machines : From visual recognition to question answering about real-world images
Alternativtitel: Für ganzheitliche Maschinen : Von der visuellen Anerkennung zur Frage der Beantwortung von Real-World-Bildern
VerfasserIn: Malinowski, Mateusz
Sprache: Englisch
Erscheinungsjahr: 2017
Kontrollierte Schlagwörter: Bilderkennung
Sprachproduktion
Computervision
Freie Schlagwörter: Visual Turing Test
DAQUAR
neural-basierte visuelle Fragenbeantwortungsarchitektur
Visual Turing Test
Visual Question Answering
Visual Recognition
Language and Vision
DDC-Sachgruppe: 004 Informatik
Dokumenttyp: Dissertation
Abstract: Computer Vision has undergone major changes over the recent five years. Here, we investigate if the performance of such architectures generalizes to more complex tasks that require a more holistic approach to scene comprehension. The presented work focuses on learning spatial and multi-modal representations, and the foundations of a Visual Turing Test, where the scene understanding is tested by a series of questions about its content. In our studies, we propose DAQUAR, the first ‘question answering about real-world images’ dataset together with methods, termed a symbolic-based and a neural-based visual question answering architectures, that address the problem. The symbolic-based method relies on a semantic parser, a database of visual facts, and a bayesian formulation that accounts for various interpretations of the visual scene. The neural-based method is an end-to-end architecture composed of a question encoder, image encoder, multimodal embedding, and answer decoder. This architecture has proven to be effective in capturing language-based biases. It also becomes the standard component of other visual question answering architectures. Along with the methods, we also investigate various evaluation metrics that embraces uncertainty in word's meaning, and various interpretations of the scene and the question.
Computer Vision hat sich in den letzten fünf Jahren stark verändert. Zusammen mit den Fortschritten im Bereich Deep Learning und der Erstellung von umfangreichen Datensätzen wird der Fortschritt besonders im Bereich der Bildklassifizierungsaufgaben deutlich. Des Weiteren können wir einen erfolgreichen Übergang von manuell gestalteten zu erlernten Funktionen beobachten, der es ermöglicht, die jeweilige Aufgabe anzupassen. Daher untersuchen wir, ob die Leistung solcher Architekturen auch auf komplexere Aufgaben erweitert werden kann, die einen eher ganzheitlichen Ansatz an die Szenenerfassung verlangen. Diese These umfasst vier Hauptthemen, die zu diesen Fortschritten bei Computer Vision beigetragen haben. Die letzten beiden Teile betreffen den Visual Turing Test, die Aufgabe, bei der eine Maschine verschiedenste Fragen zum Inhalt von Bildern beantworten muss. Im dritten Teil haben wir zum ersten Mal die fragenbeantwortende Aufgabe zu echten Bildern eingeführt. Wir haben DAQUAR vorgeschlagen, den ersten „fragenbeantwortenden Datensatz zu Bildern“, gemeinsam mit der ersten Methode, die dieses Problem behandelt. Da diese Methode auf einem semantischen Parser sowie auf einer Datenbank an visuellen Fakten beruht, nennen wir diese Methode logikbasierte Fragenbeantwortungs-Architektur. Um mit den unbestimmten visuellen Eingaben umgehen zu können, haben wir eine Bayesian-Erweiterung für den semantischen Parser vorgeschlagen, die über verschiedenen Interpretationsmöglichkeiten der visuellen Szene ausgeführt wird. In diesem Teil haben wir auch die erste Bewertungsmetrik eingeführt, die die Unsicherheit in der Wortbedeutung behandelt. Im vierten Teil arbeiten wir am Visual Turing Test weiter. Hier haben wir das erste End-to-End vorgeschlagen, ein gemeinsam geschulter Ansatz an die Aufgabe der „Fragenbeantwortung über Bilder“. Da diese Methode multimodal ist, die Deep Learning Methode, die ein Recurrent Neural Network mit einem Convolutional Neural Network kombiniert, nennen wir die Methode eine neural-basierte visuelle Fragenbeantwortungsarchitektur. Zusätzlich haben wir einen weiteren Satz an Anmerkungen gesammelt und zwei Erweiterungen der Auswertungsmetrik vorgeschlagen, um die Unsicherheit in machen Frage- und Bildinterpretationen zu behandeln.
Link zu diesem Datensatz: urn:nbn:de:bsz:291-scidok-68978
hdl:20.500.11880/26786
http://dx.doi.org/10.22028/D291-26773
Erstgutachter: Fritz, Mario
Tag der mündlichen Prüfung: 20-Jun-2017
Datum des Eintrags: 7-Jul-2017
Fakultät: MI - Fakultät für Mathematik und Informatik
Fachrichtung: MI - Informatik
Sammlung:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:
Datei Beschreibung GrößeFormat 
main.pdf52,4 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.