Please use this identifier to cite or link to this item:
doi:10.22028/D291-26708
Title: | Generation and grounding of natural language descriptions for visual data |
Other Titles: | Die Erstellung und Lokalisierung natürlicher Sprachbeschreibungen für visuelle Daten |
Author(s): | Rohrbach, Anna |
Language: | English |
Year of Publication: | 2017 |
SWD key words: | Bilderkennung Sprachproduktion Video |
Free key words: | Videobeschreibung Lokalisierung der natürlichen Sprache visual recognition natural language generation video description visual grounding |
DDC notations: | 004 Computer science, internet |
Publikation type: | Dissertation |
Abstract: | Generating natural language descriptions for visual data links computer vision and computational linguistics. Being able to generate a concise and human-readable description of a video is a step towards visual understanding. At the same time, grounding natural language in visual data provides disambiguation for the linguistic concepts, necessary for many applications. This thesis focuses on both directions and tackles three specific problems. First, we develop recognition approaches to understand video of complex cooking activities. We propose an approach to generate coherent multi-sentence descriptions for our videos. Furthermore, we tackle the new task of describing videos at variable level of detail. Second, we present a large-scale dataset of movies and aligned professional descriptions. We propose an approach, which learns from videos and sentences to describe movie clips relying on robust recognition of visual semantic concepts. Third, we propose an approach to ground textual phrases in images with little or no localization supervision, which we further improve by introducing Multimodal Compact Bilinear Pooling for combining language and vision representations. Finally, we jointly address the task of describing videos and grounding the described people. To summarize, this thesis advances the state-of-the-art in automatic video description and visual grounding and also contributes large datasets for studying the intersection of computer vision and computational linguistics. Die Erstellung natürlicher Sprachbeschreibungen für visuelle Daten verbindet Computer Vision und Computerlinguistik. Die Fähigkeit eine prägnante und menschlich lesbare Beschreibung eines Videos zu produzieren, ist ein Schritt zum visuellen Verständnis. Gleichzeitig ermöglicht Lokalisierung der natürlichen Sprache in visuellen Daten die Disambiguierung der sprachlichen Konzepte. Diese Dissertation konzentriert sich auf beide Richtungen wie folgt. Zuerst entwickeln wir Methoden, um komplexe Kochaktivitäten in Videos zu verstehen und für diese dann kohärente Multi-Satz-Beschreibungen mit variabler Detaillierung zu generieren. Zweitens präsentieren wir einen umfangreichen parallelen Datensatz von Filmen mit professionellen Beschreibungen. Wir schlagen einen Ansatz vor, der aus Videos und Sätzen lernt Videoclips zu beschreiben, und der sich auf einer robusten Erkennung visueller Konzepte stützt. Drittens schlagen wir einen Ansatz vor, um sprachliche Konzepte in Bildern mit wenig oder keiner Überwachung zu lokalisieren, den wir durch eine neue multimodale Kombination der Sprach- und Bild-Repräsentationen verbessern. Abschließend beschreiben wir Videos während wir gleichzeitig die beschriebenen Personen lokalisieren. Zusammenfassend stellt diese Dissertation neue Methoden in der automatischen Videobeschreibung und Lokalisierung natürlicher Sprache in visuellen Daten vor. Zur weiteren Forschung am Schnittpunkt von Computer Vision und Computerlinguistik trägt diese Dissertation große Datensätze bei. |
Link to this record: | urn:nbn:de:bsz:291-scidok-68749 hdl:20.500.11880/26764 http://dx.doi.org/10.22028/D291-26708 |
Advisor: | Schiele, Bernt |
Date of oral examination: | 15-May-2017 |
Date of registration: | 2-Jun-2017 |
Faculty: | MI - Fakultät für Mathematik und Informatik |
Department: | MI - Informatik |
Collections: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Files for this record:
File | Description | Size | Format | |
---|---|---|---|---|
anna_rohrbach17phd.pdf | 43,27 MB | Adobe PDF | View/Open |
Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.