Please use this identifier to cite or link to this item: doi:10.22028/D291-42679
Title: Advancing image and video recognition with less supervision
Author(s): Kukleva, Anna
Language: English
Year of Publication: 2024
DDC notations: 004 Computer science, internet
500 Science
600 Technology
620 Engineering and machine engineering
Publikation type: Dissertation
Abstract: Deep learning is increasingly relevant in our daily lives, as it simplifies tedious tasks and enhances quality of life across various domains such as entertainment, learning, automatic assistance, and autonomous driving. However, the demand for more data to train models for emerging tasks is increasing dramatically. Deep learning models heavily depend on the quality and quantity of data, necessitating high-quality labeled datasets. Yet, each task requires different types of annotations for training and evaluation, posing challenges in obtaining comprehensive supervision. The acquisition of annotations is not only resource-intensive in terms of time and cost but also introduces biases, such as granularity in classification, where distinctions like specific breeds versus generic categories may arise. Furthermore, the dynamic nature of the world causes the challenge that previously annotated data becomes potentially irrelevant, and new categories and rare occurrences continually emerge, making it impossible to label every aspect of the world. Therefore, this thesis aims to explore various supervision scenarios to mitigate the need for full supervision and reduce data acquisition costs. Specifically, we investigate learning without labels, referred to as self-supervised and unsupervised methods, to better understand video and image representations. To learn from data without labels, we leverage injected priors such as motion speed, direction, action order in videos, or semantic information granularity to obtain powerful data representations. Further, we study scenarios involving reduced supervision levels. To reduce annotation costs, first, we propose to omit precise annotations for one modality in multimodal learning, namely in text-video and image-video settings, and transfer available knowledge to large copora of video data. Second, we study semi-supervised learning scenarios, where only a subset of annotated data alongside unlabeled data is available, and propose to revisit regularization constraints and improve generalization to unlabeled data. Additionally, we address scenarios where parts of available data is inherently limited due to privacy and security reasons or naturally rare events, which not only restrict annotations but also limit the overall data volume. For these scenarios, we propose methods that carefully balance between previously obtained knowledge and incoming limited data by introducing a calibration method or combining a space reservation technique with orthogonality constraints. Finally, we explore multimodal and unimodal open-world scenarios where the model is asked to generalize beyond the given set of object or action classes. Specifically, we propose a new challenging setting on multimodal egocentric videos and propose an adaptation method for vision-language models to generalize on egocentric domain. Moreover, we study unimodal image recognition in an open-set setting and propose to disentangle open-set detection and image classification tasks that effectively improve generalization in different settings. In summary, this thesis investigates challenges arising when full supervision for training models is not available. We develop methods to understand learning dynamics and the role of biases in data, while also proposing novel setups to advance training with less supervision.
Deep Learning wird zunehmend relevant in unserem täglichen Leben, da es mühsame Aufgaben vereinfacht und die Lebensqualität in verschiedenen Bereichen wie Unterhaltung, Lernen, automatische Unterstützung und autonomes Fahren verbessert. Die Nachfrage nach mehr Daten zur Schulung von Modellen für aufkommende Aufgaben steigt jedoch dramatisch an. Deep Learning Modelle sind stark abhängig von der Qualität und Quantität der Daten, was hochwertige gelabelte Datensätze erfordert. Doch jede Aufgabe erfordert unterschiedliche Arten von Annotationen für Training und Evaluation, was Herausforderungen bei der Beschaffung darstellt. Die Beschaffung von Annotationen ist nicht nur ressourcenintensiv in Bezug auf Zeit und Kosten, sondern führt auch zu Verzerrung, wie z.B. Granularität in der Klassifizierung, wo Unterscheidungen wie spezifische Tierrassen gegenüber generischen Kategorien entstehen können. Darüber hinaus führt die dynamische Natur der Welt dazu, dass zuvor annotierte Daten potenziell irrelevant werden und neue Kategorien und seltene Ereignisse kontinuierlich auftauchen, was es unmöglich macht, jeden Aspekt der Welt zu kennzeichnen. Daher zielt diese Arbeit darauf ab, verschiedene Supervisionszenarien zu erkunden, um den Bedarf an vollständiger supervison zu reduzieren und die Kosten für die Datenerfassung zu senken. Speziell untersuchen wir das Lernen ohne Lables, das als self-supervised und unsupervised bezeichnet wird, um Video- und Bildrepräsentationen besser zu verstehen. Um aus Daten ohne Labels zu lernen, nutzen wir injizierte Priors wie Bewegungsgeschwindigkeit, -richtung, Handlungsreihenfolge in Videos oder semantische Informationsgranularität, um leistungsstarke Datenrepräsentationen zu erhalten. Weiterhin untersuchen wir Szenarien mit reduzierter Supervision. Um die Kosten für Annotationen zu reduzieren, schlagen wir zunächst vor, präzise Annotationen für eine Modalität im multimodalen Lernen zu unterlassen, nämlich in Text-Video- und Bild-Video-Szenarien, und vorhandenes Wissen auf große Korpora von Videodaten zu übertragen. Zweitens untersuchen wir Semi-Supervised Lernszenarien, bei denen nur eine Teilmenge annotierter Daten neben unannotierten Daten verfügbar ist, und schlagen vor, Regularisierungsbeschränkungen zu überdenken und die Verallgemeinerung auf unannotierten Daten zu verbessern. Zusätzlich behandeln wir Szenarien, in denen Teile der verfügbaren Daten aufgrund von Datenschutz- und Sicherheitsgründen oder natürlich seltenen Ereignissen von Natur aus begrenzt sind, was nicht nur die Annotationen einschränkt, sondern auch das gesamte Datenvolumen begrenzt. Für diese Szenarien schlagen wir Methoden vor, die sorgfältig zwischen zuvor erhaltenem Wissen und eintreffenden begrenzten Daten abwägen, indem wir eine Kalibrierungsmethode einführen oder eine Raumreservierungstechnik mit Orthogonalitätsbeschränkungen kombinieren. Schließlich untersuchen wir multimodale und unimodale Szenarien in einer offenen Welt, in denen das Modell gebeten wird, über den gegebenen Satz von Objekt- oder Aktionsklassen hinaus zu generalisieren. Speziell schlagen wir eine neues herausforderndes Szenario für multimodale egozentrische Videos vor und schlagen eine Anpassungsmethode für Vision-Sprach-Modelle vor, um in der egozentrischen Domäne zu generalisieren. Darüber hinaus untersuchen wir die unimodale Bilderkennung in einem Open-Set Szenario und schlagen vor, Open-Set-Erkennung und Bildklassifizierungsaufgaben zu entflechten, die die Generalisierung in verschiedenen Einstellungen effektiv verbessern. Zusammenfassend untersucht diese Arbeit die Herausforderungen, die entstehen, wenn eine vollständige Überwachung für das Training von Modellen nicht verfügbar ist. Wir entwickeln Methoden, um das Lernverhalten und die Rolle von Verzerrungen in Daten zu verstehen, während wir gleichzeitig neuartige Setups vorschlagen, um das Training mit weniger Supervision voranzutreiben.
Link to this record: urn:nbn:de:bsz:291--ds-426798
hdl:20.500.11880/38297
http://dx.doi.org/10.22028/D291-42679
Advisor: Bernt, Schiele
Date of oral examination: 1-Aug-2024
Date of registration: 22-Aug-2024
Faculty: MI - Fakultät für Mathematik und Informatik
Department: MI - Informatik
Professorship: MI - Prof. Dr. Bernt Schiele
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
phd_thesis_fixed_bib-12_compressed.pdfPhD Thesis9,74 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons