Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen:
doi:10.22028/D291-45256
Titel: | Meet my expectations: on the interplay of trustworthiness and deep learning optimization |
VerfasserIn: | Javaloy Bornás, Adrián |
Sprache: | Englisch |
Erscheinungsjahr: | 2024 |
DDC-Sachgruppe: | 004 Informatik 500 Naturwissenschaften 600 Technik |
Dokumenttyp: | Dissertation |
Abstract: | Deep learning has achieved remarkable success across a wide range of real-world applications, but as its adoption grows, so does the need for trustworthiness. In this dissertation, we argue that a key aspect of model trustworthiness is our perception of control over the model, i.e. whether the model meets the pre-existing expectations that we place on it. However, current optimization methods often lack mechanisms to prioritize solutions that fulfill these expectations over equally performing but less compliant alternatives. In this thesis, we explore how deep learning optimization can be guided to produce models that better match our expectations. We examine three families of models—multitask learning (MTL), probabilistic generative models (PGMs), and causal generative models (CGMs)—each presenting increasing levels of complexity in the expectations we place on them. We identify fundamental challenges in current approaches, introduce novel theoretical insights, and propose new algorithms and metrics to better integrate existing expectations into the training process. For MTL, we discuss the limitations of multi-objective optimization frameworks and propose new ranking-based evaluation metrics and gradient manipulation techniques to improve task interactions. For PGMs, we develop preprocessing and in-processing strategies to ensure balanced learning across data modalities, significantly enhancing model performance. Finally, for CGMs, we introduce a new family of causal normalizing flows (Causal NFs) that provide strong theoretical guarantees for causal inference, addressing a long-standing challenge in the field. By carefully designing inductive biases and optimization constraints, we demonstrate how deep learning models can be made more reliable and compliant with human expectations, which is key for their successful deployment. Deep Learning (DL) hat sich als leistungsfähige und universelle Methode für das Lernen aus Daten herauskristallisiert, der aufgrund der enormen Datenmengen und der heutzutage verfügbaren parallelen Datenverarbeitung in der Lage ist, in einer Vielzahl von realen Anwendungen außergewöhnliche Ergebnisse zu erzielen. Als Folge der schnellen Verbreitung besteht jedoch ein zunehmender Bedarf an der Entwicklung vertrauenswürdiger Modelle für Anwendungen, bei denen viel auf dem Spiel steht, d. h. bei denen signifikante Fehler schwerwiegende Folgen für den Einzelnen haben können. In dieser Dissertation argumentieren wir, dass ein Schlüsselaspekt der Vertrauenswürdigkeit eines Modells darin besteht, dass wir die Kontrolle über das Modell wahrnehmen, d. h. ob das Modell die Erwartungen erfüllt, die wir an es stellen, und ob wir daher sein Verhalten in Bezug auf unsere zukünftigen Anfragen genau vorhersagen können. In dieser Arbeit konzentrieren wir uns auf die Rolle der DL-Optimierung beim Training von Modellen, welche unseren Erwartungen entsprechen. Intuitiv kann es zwar gültige Parametrisierungen innerhalb des Parameterraums geben, aber der Optimierungsprozess hat normalerweise keine Mechanismen, um diese Optima gegenüber scheinbar gleichwertigen Optima, die unsere Erwartungen nicht erfüllen, zu bevorzugen. Um unsere Präferenzen in die Trainingspipeline zu integrieren, interpretieren wir sie als Optimierungsbedingungen neu und greifen das Konzept der induktiven Verzerrung (inductive bias) wieder auf, um die Optimierung auf Lösungen mit geringen Fehlern zu lenken, die unseren vorgefassten Erwartungen entsprechen. Natürlich ändern sich unsere Erwartungen je nach den Aufgaben, die wir mit einem Modell zu lösen versuchen, und daher untersuchen wir in dieser Arbeit drei Modellfamilien, die in der Reihenfolge der Komplexität unserer Erwartungen an die Modelle aufgeführt werden. Im ersten Teil konzentrieren wir uns auf das Multitasking-Lernen (MTL), bei dem wir versuchen, mehrere Aufgaben gleichzeitig zu lösen. In diesem Zusammenhang argumentieren wir, dass der jüngste Trend, MTL-Probleme als Mehrzieloptimierungsprobleme (MOO) zu betrachten, ein grundlegendes Hindernis birgt: Entgegen unseren Erwartungen sind die Aufgaben in der Regel nicht vergleichbar, was zu Schwierigkeiten beim Entwurf von Zielfunktionen, beim Vergleich von Modellen und letztlich bei der Optimierung unserer DL Modelle führt. Um diese Probleme anzugehen, plädieren wir für die Wichtigkeit einer klaren Definition einer Zielfunktion, die a-priori optimiert werden soll, rechtfertigen die Verwendung von rangbasierten Statistiken zum Vergleich von MTL-Modellen - basierend auf der Wahrscheinlichkeitstheorie und MOO-Methoden ohne Präferenz - und stellen neuartige Metriken und Algorithmen vor, um die Interaktionen zwischen Aufgabengradienten zu messen und zu manipulieren, um den Optimierungsprozess zu verbessern. Im zweiten Teil wenden wir uns probabilistischen generativen Modellen (PGMs) zu, deren Ziel es ist, die Datenverteilung zu modellieren, um später verschiedene Aufgaben zu lösen (zum Beispiel Datengenerierung oder Imputation fehlender Daten). An PGMs werden nicht nur die gleichen Erwartungen wie an MTL Modelle gestellt, sondern auch zusätzliche Einschränkungen (z. B. müssen Dichten zu eins integriert werden) und Erwartungen (z. B. sollten die Informationen aus jeder Modalität gleichermaßen gültig sein, um auf jede andere Datenmodalität schließen zu können). Wir schlagen zwei Ansätze vor, um diese Erwartungen zu erfüllen: erstens einen Vorverarbeitungsalgorithmus, der darauf abzielt, dass die Log-Like lihood jeder Modalität eine ähnliche Optimierungslandschaft aufweist; und zweitens einen In- Processing-Algorithmus, der starke Verbindungen zwischen MTL und PGMs herstellt und bestehende MTL-Algorithmen nutzt, um Modalitätsgradienten auf verschiedenen Teilen des Netzwerks zu aggregieren, die anfällig für Vergleichbarkeitsprobleme sind. Wir zeigen empirisch, dass die vorgeschlagenen Methoden wirksam sind, um die Datenmodalitäten einheitlicher zu modellieren, was die Gesamtleistung des Modells deutlich erhöht. Im dritten Teil betrachten wir kausale generative Modelle (CGMs), bei denen das Ziel nun darin besteht, die zugrunde liegenden kausalen Mechanismen zu erlernen, die unsere Daten erzeugen. Zusätzlich zu den Aufgaben, die von PGMs gelöst werden, können CGMs auch zur Durchführung von Kausalschlüssen verwendet werden, d. h. zur Beantwortung von Was-wäre-wenn-Fragen, was einen zusätzlichen Satz kausaler Erwartungen an die Modelle voraussetzt. Bemerkenswerterweise stellen wir in dieser Dissertation eine neuartige Familie von Kausalmodellen vor und beweisen, dass sie nicht nur unter der Voraussetzung einer kausalen Ordnung zwischen den Variablen identifizierbar sind (d. h., dass wir sie aus Beobachtungsdaten wiederherstellen können), sondern auch, dass jedes andere Kausalmodell - unter recht milden Annahmen - ebenfalls auf ein äquivalentes Mitglied dieser Familie reduziert werden kann. Unter Verwendung der neu entwickelten Theorie stellen wir eine neue Familie von CGMs vor, die Causal Normalizing Flows (Causal NFs), die unsere kausalen Erwartungen von vornherein erfüllen und die ersten DL-Modelle ihrer Art sind, die kausale Schlussfolgerungen genau durchführen und gleichzeitig starke theoretische Garantien für ihre kausalen Fähigkeiten bieten. Durch eine sorgfältige Untersuchung der (oft impliziten) Erwartungen, die wir an verschiedene Familien von DL-Modellen stellen, zeigt diese Dissertation, wie wir dieses externe Wissen einbeziehen und wirksame induktive Verzerrungen entwickeln können, um den Optimierungsprozess in Richtung von Optima zu lenken, die diesen Erwartungen besser entsprechen. Dadurch sind wir in der Lage, durchgängig zuverlässigere DL-Modelle zu erstellen, die wir besser zu beherrschen glauben und die wir vertrauensvoll nutzen können, um uns in realen Szenarien besser zu unterstützen. |
Link zu diesem Datensatz: | urn:nbn:de:bsz:291--ds-452569 hdl:20.500.11880/40346 http://dx.doi.org/10.22028/D291-45256 |
Erstgutachter: | Maria Isabel, Valera Martinez |
Tag der mündlichen Prüfung: | 11-Mär-2025 |
Datum des Eintrags: | 5-Aug-2025 |
Fakultät: | MI - Fakultät für Mathematik und Informatik |
Fachrichtung: | MI - Informatik |
Professur: | MI - Univ.-Prof. Dr. Maria Isabel Valera Martinez |
Sammlung: | SciDok - Der Wissenschaftsserver der Universität des Saarlandes |
Dateien zu diesem Datensatz:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
meet-my-expectations-adrian-javaloy.pdf | Dissertation | 17,25 MB | Adobe PDF | Öffnen/Anzeigen |
Diese Ressource wurde unter folgender Copyright-Bestimmung veröffentlicht: Lizenz von Creative Commons