Towards designing inherently interpretable deep neural networks for image classification

Böhle, Moritz

Please use this identifier to cite or link to this item: doi:10.22028/D291-42190

Title:	Towards designing inherently interpretable deep neural networks for image classification
Author(s):	Böhle, Moritz
Language:	English
Year of Publication:	2024
Free key words:	machine learning deep learning computer vision interpretable machine learning
DDC notations:	004 Computer science, internet
Publikation type:	Dissertation
Abstract:	Over the last decade, Deep Neural Networks (DNNs) have proven successful in a wide range of applications and hold the promise to have a positive impact on our lives, especially in high-stakes applications. For example, given their outstanding performance — by now regularly outperforming humans — DNNs could make state-of-the-art medical diagnostics more easily accessible to many and lessen the strain of often overworked medical professionals. That said, it is of course exactly those high-stakes situations in which a wrong decision can be disastrous, potentially putting human lives at risk. Especially in such settings it is therefore imperative that we can understand and obtain an explanation for a model's 'decision'. This thesis studies this problem for image classification models from three directions. First, we evaluate methods that explain DNNs in a post-hoc fashion and highlight promises and shortcomings of existing approaches. In particular, we study a popular importance attribution technique to explain a model trained to identify brain scans of patients suffering from Alzheimer's disease (AD), and find it to correlate with known biomarkers of AD. Unfortunately, however, we do not know for certain which patterns in the input signals a given model is using to classify its inputs. To address this, we additionally design a novel evaluation scheme for explanation methods. Specifically, in this scheme, we control which input regions the model was certainly not using, which allows us to detect instances in which explanation methods are provably not model-faithful, i.e., they do not adequately represent the underlying classification model. Second, we study how to design inherently interpretable DNNs. In contrast to explaining the models post hoc, this approach not only takes the training procedure and the DNN architecture into account, but also modifies them to ensure that the decision process becomes inherently more transparent. In particular, we propose two novel DNN architectures: the CoDA and the B-cos Networks. These architectures are designed such that they can easily and faithfully be summarised by a single linear transformation, and are optimised during training such that these transformations align with the task-relevant input features. As a result, we find that they exhibit a great amount of detail and are able to accurately localise task-relevant features. As such, they lend themselves well to be used as explanations for humans. Third, we investigate how to leverage explanations to guide models during training, e.g., to suppress reliance on spuriously correlated features or to increase the fidelity of knowledge distillation approaches. In particular, we show that regularising the explanations to align with human annotations or with the explanations of another model can be a powerful and efficient tool to, e.g., improve model robustness under distribution shift or to better leverage limited training data during knowledge distillation. Finally, in the last part of this thesis, we additionally analyse a popular self-supervised representation learning paradigm: contrastive learning. In particular, we study how a single parameter influences the learning dynamics on imbalanced data and show that it can significantly impact the learnt representations. While not directly linked to model explanations, this work highlights the importance of taking even minor aspects of the optimisation procedure into account when trying to understand and explain DNNs. In den letzten zehn Jahren haben sich tiefe neuronale Netze (Deep Neural Networks, DNNs) in einer Vielzahl von Anwendungen als äußerst erfolgreich erwiesen. Vor allem in Situationen, die mit hohem Risiko verbunden sind, könnten DNNs daher einen positiven Einfluss auf unsere Gesellschaft haben. So könnten sie aufgrund ihrer herausragenden Fähigkeiten, die oft die des Menschen übertrifft, beispielsweise modernste medizinische Diagnostik für viele leichter zugänglich machen und das allzu oft überlastete medizinische Personal entlasten. Natürlich sind es aber gerade auch solche Situationen, in denen falsche Entscheidungen katastrophale Folgen haben können und möglicherweise Menschenleben gefährden. Insbesondere in diesen Fällen ist es daher unerlässlich, die "Entscheidung" von DNNs erklären zu können. Diese Dissertation untersucht diese Problematik im Zusammenhang von Bildklassifizierungsmodellen. Zunächst evaluieren wir dafür Methoden, die DNNs "post hoc" erklären und beschreiben sowohl Chancen als auch Unzulänglichkeiten bestehender Ansätze. Zum einen werten wir eine gängige Erklärungsmethode aus und untersuchen damit DNNs, die trainiert wurden zu erkennen, ob ein Gehirnscan von einem gesunden Probanden oder von einem Alzheimerpatienten stammt. Dabei stellen wir fest, dass diese Methode tatsächlich Hirnregionen hervorhebt, die besonders stark von Alzheimer betroffen sind. Leider können wir hierbei jedoch nicht mit Sicherheit sagen, auf welche Aspekte des Eingangssignals sich das Modell stützt. Um Erklärungsmethoden diesbezüglich besser untersuchen zu können, entwickeln wir daher eine neue Auswertungsmethodik, bei der wir explizit kontrollieren, welche Signalmerkmale das Modell mit Sicherheit nicht verwendet hat. Damit können wir zeigen, dass einige der beliebtesten Erklärungsmethoden das zu erklärende Modell nachweislich nicht getreu abbilden. Anschließend widmen wir uns inhärent interpretierbaren DNNs. Im Gegensatz zu post-hoc-Erklärungen werden bei diesem Ansatz das Trainingsverfahren und die Architektur der DNNs nicht nur berücksichtigt, sondern explizit so verändert, dass die Entscheidungsfindung inhärent transparenter wird. In diesem Kontext stellen wir zwei neue, inhärent interpretierbare DNNs vor: die CoDA und die B-cos Networks. Diese Modelle sind dermaßen konstruiert, dass wir die gesamten Modellberechnungen durch eine äquivalente Lineartransformation darstellen können. Während des Trainings wird das Modell weiterhin so optimiert, dass es die resultierenden Transformationen relevanten Strukturen im Eingangssignal angleicht, wodurch diese sich gut als Erklärung der Modellentscheidung für den Menschen eignen. Darüber hinaus untersuchen wir wie Modellerklärungen genutzt werden können, um Modelle während des Trainings zu leiten, mit dem Ziel die Abhängigkeit der Vorhersage von Kontextmerkmalen (z.B. im Bildhintergrund) zu reduzieren oder Methoden der "knowledge distillation" (KD) zu verbessern. Hierbei werden die Erklärungen dahingehend optimiert, dass sie zusätzlichen Annotationen von Menschen oder den Erklärungen anderer Modelle ähnlich werden. In unseren Experimenten zeigen wir, dass dies ein mächtiges Werkzeug darstellt, um DNNs beispielsweise robuster gegenüber sich verändernder Signalverteilungen zu machen oder um die Modelltreue von KD Methoden zu verbessern. Schließlich wenden wir uns einem anderen Thema zu und analysieren einen beliebten Ansatz des selbstüberwachten Lernens (dem kontrastiven Lernen) und zeigen, dass ein einzelner Parameter (die "Softmax-Temperatur") die Trainingsdynamik signfikant beeinflussen kann. Auch wenn diese Arbeit nicht in direktem Zusammenhang mit der Erklärung von Modellen steht, unterstreicht sie jedoch, wie wichtig es ist, die einzelnen Faktoren, die den Optimierungsprozess beeinflussen, besser zu verstehen.
Link to this record:	urn:nbn:de:bsz:291--ds-421904 hdl:20.500.11880/37907 http://dx.doi.org/10.22028/D291-42190
Advisor:	Schiele, Bernt
Date of oral examination:	3-May-2024
Date of registration:	21-Jun-2024
Notes:	Co-supervised by Prof. Mario Fritz
Faculty:	MI - Fakultät für Mathematik und Informatik
Department:	MI - Informatik
Professorship:	MI - Prof. Dr. Bernt Schiele
Collections:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:

File	Description	Size	Format
phd_thesis-moritz_boehle-sulb.pdf		95,83 MB	Adobe PDF	View/Open

Export: BibTex