Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-45983
Titel: Improving representation learning from data and model perspectives: Semi-supervised learning and foundation models
VerfasserIn: Fan, Yue
Sprache: Englisch
Erscheinungsjahr: 2025
DDC-Sachgruppe: 620 Ingenieurwissenschaften und Maschinenbau
004 Informatik
Dokumenttyp: Dissertation
Abstract: In recent years, artificial intelligence (AI) has made impressive progress in various industries and everyday life. Its rapid advancements have been driven by the integration of large-scale data and sophisticated models. However, several significant challenges persist that hinder further progress. First, the success of modern AI systems relies heavily on large-scale labeled datasets; yet, acquiring such datasets is often costly, time-consuming, and impractical, particularly in sensitive domains like healthcare and finance, where privacy and regulatory issues complicate data collection. Second, although unlabeled data is typically abundant and more readily accessible, it presents its own set of challenges, including issues of imbalanced distribution, outliers, and domain shifts. These challenges complicate the effective utilization of unlabeled data, raising critical questions about how to extract robust representations from imperfect datasets. Third, there is a growing demand for versatile models capable of performing a wide range of tasks across diverse domains, motivated by the broader ambition of achieving Artificial General Intelligence (AGI). However, developing models that demonstrate task-agnostic representation learning and ensure transferability across modalities remains a substantial challenge, often limiting the applicability of existing solutions. Therefore, this thesis aims to tackle the challenges of imperfect data and versatile model design by studying three key topics: standard semi-supervised learning (SSL), realistic SSL, and vision generalist models. In the first topic of standard SSL, we focus on improving two widely used methodologies: consistency regularization and pseudo-labeling. For augmentation-based consistency regularization, we propose explicitly regularizing the distance between feature representations, demonstrating that encouraging equivariant features leads to superior generalization performance compared to merely enforcing invariance. As for threshold-based pseudo-labeling, we introduce two innovative schemes for enhancement. The first is a self-adaptive thresholding approach that considers the current learning status of the model, while the second is a unified sample weighting framework that completely replaces traditional thresholding methods. Both methods achieve significant performance improvement over the previous state-of-the-art. In the second topic of realistic SSL, we begin by investigating realistic unlabeled data with imbalanced distributions or outliers. To address imbalanced SSL, we propose a novel co-learning framework that effectively decouples representation learning from classifier learning while maintaining a close coupling. Our method achieves state-of-the-art results across various benchmarks. For SSL with outliers, we introduce a simple but strong baseline that effectively leverages outlier data to enhance generalization. We also confront the challenge of unrealistic benchmarks by proposing a new benchmark for semi-supervised classification, which offers a fair testing ground to evaluate leading SSL methods across multiple domains, including natural language processing and audio. Additionally, we provide an open-source, modular, and extensible codebase to facilitate future developments in SSL. In the final topic of vision generalist models, we propose a diffusion-based approach that unifies four distinct types of vision tasks and demonstrates competitive performance compared to existing vision generalists. In summary, this thesis advances the two mainstream techniques in standard SSL while investigating the challenges posed by realistic SSL, where we develop methods to deal with real-world unlabeled data and realistic evaluation. Additionally, we also take an initial step toward a unified model design for vision tasks.
In den letzten Jahren hat die Künstliche Intelligenz (KI) in verschiedenen Industrien und im Alltag beeindruckende Fortschritte erzielt. Ihre rasanten Entwicklungen wurden durch die Integration von großskaligen Daten und fortschrittlichen Modellen vorangetrieben. Dennoch bestehen weiterhin mehrere bedeutende Herausforderungen, die weiteren Fortschritt behindern. Erstens hängt der Erfolg moderner KI-Systeme stark von großskaligen, annotierten Datensätzen ab. Das Sammeln solcher Datensätze ist jedoch oft teuer, zeitaufwendig und in sensiblen Bereichen wie dem Gesundheitswesen und der Finanzbranche unpraktisch, da Datenschutzund Regulierungsfragen die Datenerhebung erschweren. Zweitens ist unlabeled Data zwar meist reichlich vorhanden und leichter zugänglich, bringt jedoch eigene Herausforderungen mit sich, wie unbalancierte Verteilungen, Ausreißer und Domänenverschiebungen. Diese Probleme erschweren die effektive Nutzung unannotierter Daten und werfen kritische Fragen auf, wie robuste Repräsentationen aus unvollkommenen Datensätzen extrahiert werden können. Drittens gibt es eine wachsende Nachfrage nach vielseitigen Modellen, die in der Lage sind, eine Vielzahl von Aufgaben über unterschiedliche Domänen hinweg zu lösen. Diese Entwicklung wird durch das übergeordnete Ziel der Erreichung von Artificial General Intelligence (AGI) motiviert. Die Entwicklung von Modellen, die eine aufgabenneutrale Repräsentationslernung ermöglichen und Transferfähigkeit zwischen Modalitäten gewährleisten, bleibt jedoch eine erhebliche Herausforderung, was die Anwendbarkeit bestehender Lösungen oft einschränkt. Daher zielt diese Dissertation darauf ab, die Herausforderungen unvollkommener Daten und des Designs vielseitiger Modelle durch die Untersuchung von drei Schlüsselaspekten zu adressieren: Standard Semi-Supervised Learning (SSL), realistische SSL und generalistische Vision-Modelle. Im ersten Thema, dem Standard-SSL, liegt unser Fokus darauf, zwei weit verbreitete Methoden zu verbessern: Konsistenzregularisierung und Pseudo-Labeling. Für die auf Augmentation basierende Konsistenzregularisierung schlagen wir vor, die Distanz zwischen Merkmalsrepräsentationen explizit zu regularisieren. Wir zeigen, dass die Förderung von äquivarianten Merkmalen zu einer besseren Generalisierungsleistung führt, verglichen mit dem bloßen Erzwingen von Invarianz. Für das Schwellenwert-basierte Pseudo-Labeling führen wir zwei innovative Verbesserungen ein. Die erste ist ein selbstadaptiver Schwellenwertansatz, der den aktuellen Lernstatus des Modells berücksichtigt. Die zweite ist ein einheitliches Probengewichtungsframework, das traditionelle Schwellenwertmethoden vollständig ersetzt. Beide Ansätze erreichen signifikante Leistungsverbesserungen gegenüber dem bisherigen Stand der Technik. Im zweiten Thema, dem realistischen SSL, untersuchen wir zunächst realistische unannotierte Daten mit unbalancierten Verteilungen oder Ausreißern. Um das Problem des unbalancierten SSL zu lösen, schlagen wir ein neuartiges Co-Learning-Framework vor, das die Repräsentationslernung von der Klassifikationslernung effektiv entkoppelt und dennoch eine enge Kopplung aufrechterhält. Unsere Methode erzielt state-of-the-art Ergebnisse über verschiedene Benchmarks hinweg. Für SSL mit Ausreißern stellen wir eine einfache, aber leistungsstarke Baseline vor, die Outlier-Daten effektiv nutzt, um die Generalisierung zu verbessern. Wir stellen uns außerdem der Herausforderung unrealistischer Benchmarks, indem wir einen neuen Benchmark für semi-supervised Klassifikation vorschlagen, der eine faire Testgrundlage bietet, um führende SSL-Methoden über mehrere Domänen hinweg, einschließlich Natural Language Processing und Audio, zu bewerten. Zusätzlich stellen wir eine Open-Source-, modulare und erweiterbare Codebasis bereit, um zukünftige Entwicklungen im Bereich SSL zu fördern. Im dritten Thema der generalistischen Vision-Modelle schlagen wir einen auf Diffusion basierenden Ansatz vor, der vier verschiedene Typen von Vision-Aufgaben vereint und eine wettbewerbsfähige Leistung im Vergleich zu bestehenden Vision-Generalisten demonstriert. Zusammenfassend treibt diese Dissertation die zwei Haupttechniken im Standard-SSL voran, während sie die Herausforderungen des realistischen SSL untersucht. Dabei entwickeln wir Methoden, um mit realen unannotierten Daten und realistischen Evaluierungen umzugehen. Darüber hinaus unternehmen wir einen ersten Schritt in Richtung eines einheitlichen Modelldesigns für Vision-Aufgaben.
Link zu diesem Datensatz: urn:nbn:de:bsz:291--ds-459836
hdl:20.500.11880/40472
http://dx.doi.org/10.22028/D291-45983
Erstgutachter: Schiele, Bernt
Tag der mündlichen Prüfung: 4-Jul-2025
Datum des Eintrags: 3-Sep-2025
Fakultät: MI - Fakultät für Mathematik und Informatik
Fachrichtung: MI - Informatik
Professur: MI - Prof. Dr. Bernt Schiele
Sammlung:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:
Datei Beschreibung GrößeFormat 
PhD_Thesis_final.pdf27,62 MBAdobe PDFÖffnen/Anzeigen


Diese Ressource wurde unter folgender Copyright-Bestimmung veröffentlicht: Lizenz von Creative Commons Creative Commons