Please use this identifier to cite or link to this item: doi:10.22028/D291-46607
Title: Improving trustworthiness of deep learning via inspectable and robust representations
Author(s): Losch, Max
Language: English
Year of Publication: 2024
DDC notations: 004 Computer science, internet
600 Technology
Publikation type: Dissertation
Abstract: An increasing number of Deep Learning systems are applied in the real world and have potential impact on people lives: autonomous cars, assisted medical diagnosis or social scoring. Attributable to training increasingly complex models on increasingly large datasets, these applications have become useful since they are trained to be accurate prediction machines. Typically, this is achieved by optimizing for accuracy only while disregarding two critical weak points of deep learning persisting since its invention. Firstly, the complexity of used models render it difficult to explain and understand causes for incorrect predictions – coined as black box property. Secondly, models are susceptible to adversarial examples – slight input perturbations otherwise imperceptible to humans – that can result in dramatic changes in predictions. While mitigation approaches exist, these are often expensive to train and hence are rarely deployed in practice. Both issues reduce the trustworthiness of deep learning and could dampen further adoption for real world problems. This thesis addresses both issues in two parts. In the first part, we discuss two ways to mitigate the risk to adversarial examples with a focus on reducing the computational overhead of conventionally used adversarial training: (i) training on data subsets and (ii) utilize Lipschitz bounds to enable certification against adv. examples. In the second part, we investigate Semantic Bottlenecks that explicitly align intermediate representations to human meaningful concepts like feet, leg, wood, etc. while reducing dimensionality to address the black-box issue and show that these bottlenecks can be useful for error analysis. In detail, in part I of this thesis, we propose subset adversarial training (SAT) and a calibrated Lipschitz-margin loss (CLL). Both, to mitigate the vulnerability to adversarial examples while reducing the computational overhead of conventional adversarial training. With SAT, we specifically investigate the use of training data subsets and their impact on robust accuracy. Here, we find that a small fraction of data can already achieve comparable robustness in comparison to full adversarial training. Given that adversarial training requires the construction of adversarial examples during training, entailing non-negligible computational overhead, we look at Lipschitz regularization in our final study. As an alternative method to increase robustness to adversarial examples, we observe that existing methods imply a reduction of complexity – impairing clean and robust accuracy. As a counter-measure we propose a new loss, that links this observation to slack, returns control over the complexity and consistently improves performance. In part II, we propose Semantic Bottlenecks to improve the interpretability of intermediate representations. In this bottleneck, each dimension is explicitly aligned with a human concept. That is, we show quantitatively that representations of deep models have poor visual concept alignment, which renders inspection of failure modes difficult. In contrast, we desire models to ground their decision on semantically meaningful attributes, e.g. wheels and headlights to detect cars. We address this objective with a supervised and unsupervised bottleneck type, provide quantitative alignment improvements over baselines and show in a second study, how they can be used to analyze prediction errors and test predictions during evidence interventions. All conducted studies w.r.t. Semantic Bottlenecks utilize pixel-level concept annotations to train and quantify inspectability. In a third study, we investigate the dependency of models on spatial information and show that on image classification tasks, the last third of layers can be spatially reduced – allowing for easy integration of global-level concepts. In summary, this thesis addresses the trustworthiness issue of Deep Learning, specifically the lack of interpretability and vulnerability to adversarial examples. We propose Semantic Bottlenecks to improve inspectability of intermediate representations and provide two methods to increase robustness while reducing the computational overhead of conventional methodology.
Eine zunehmende Anzahl von Deep-Learning-Systemen wird in der realen Welt eingesetzt und hat potenzielle Auswirkungen auf das Leben der Menschen: autonome Autos, unterstützte medizinische Diagnose oder soziale Bewertung. Aufgrund des Trainings von zunehmend komplexen Modellen auf immer größeren Datensätzen sind diese Anwendungen nützlich geworden, da sie darauf trainiert sind, genaue Vorhersagemaschinen zu sein. Typischerweise wird dies erreicht, indem nur für Genauigkeit optimiert wird, während zwei kritische Schwachstellen des Deep Learning seit seiner Erfindung außer Acht gelassen werden. Erstens macht die Komplexität der verwendeten Modelle es schwierig, die Ursachen für falsche Vorhersagen zu erklären und zu verstehen - in der Literatur als Black-Box-Eigenschaft bezeichnet. Zweitens sind Modelle anfällig für adversarial Examples - geringfügige Eingabeveränderungen, die für den Menschen sonst nicht wahrnehmbar sind - die zu dramatischen Änderungen in den Vorhersagen führen können. Obwohl es Ansätze zur Vermeidung gibt, sind diese oft teuer zu trainieren und werden daher selten in der Praxis eingesetzt. Beide Probleme reduzieren die Vertrauenswürdigkeit in Deep Learning und könnten eine weitere Adaption für reale Probleme dämpfen. Diese Arbeit befasst sich in zwei Teilen mit beiden Problemen. Im ersten Teil diskutieren wir zwei Möglichkeiten, das Risiko für adversarial examples zu mildern, wobei der Schwerpunkt auf der Reduzierung des Rechenaufwands des herkömmlich verwendeten adversarial Trainings liegt: (i) Training auf Daten-untermengen und (ii) Nutzung von Lipschitz-Grenzen zur Zertifizierung gegen adversarial Examples. Im zweiten Teil untersuchen wir semantische Bottlenecks, die explizit Zwischendarstellungen mit für den Menschen bedeutungsvollen Konzepten wie Füßen, Beinen, Holz usw. abgleichen und gleichzeitig die Dimensionalität reduzieren, um das Black-Box-Problem anzugehen, und zeigen, dass diese Bottlenecks für die Fehleranalyse nützlich sein können. Im Detail schlagen wir in Teil I dieser Arbeit das Subset Adversarial Training (SAT) und den kalibrierten Lipschitz-Margin-Loss (CLL) vor. Beide dienen dazu, die Anfälligkeit für adversarial Examples zu mildern und gleichzeitig den Rechenaufwand des herkömmlichen adversarial Trainings zu reduzieren. Mit SAT untersuchen wir speziell den Einsatz von Trainings-untermengen und deren Auswirkungen auf die Robust Accuracy. Hier stellen wir fest, dass bereits ein kleiner Bruchteil der Daten eine vergleichbare Robustheit im Vergleich zum vollständigen adversarial Training erreichen kann. Da das adversarial Training den Aufbau von adversarial Examples während des Trainings erfordert, was einen nicht zu vernachlässigenden Rechenaufwand mit sich bringt, betrachten wir in unserer abschließenden Studie die Lipschitz-Regularisierung. Als alternative Methode zur Erhöhung der Robustheit gegenüber adversarial Examples stellen wir fest, dass bestehende Methoden eine Reduzierung der Klassifikator-Komplexität implizieren - was die saubere und robuste Genauigkeit beeinträchtigt. Als Gegenmaßnahme schlagen wir einen neuen Loss vor, der diese Beobachtung mit Slack verknüpft, die Kontrolle über die Komplexität zurückgibt und die Leistung konsequent verbessert.
Link to this record: urn:nbn:de:bsz:291--ds-466075
hdl:20.500.11880/40916
http://dx.doi.org/10.22028/D291-46607
Advisor: Schiele, Bernt
Fritz, Mario
Köthe, Ullrich
Date of oral examination: 11-Apr-2025
Date of registration: 17-Dec-2025
Faculty: MI - Fakultät für Mathematik und Informatik
Department: MI - Informatik
Professorship: MI - Prof. Dr. Bernt Schiele
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
Dissertation-Max-Losch-2024.pdfDissertation32,77 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons