Please use this identifier to cite or link to this item: doi:10.22028/D291-30218
Title: Improved methods and analysis for semantic image segmentation
Author(s): He, Yang
Language: English
Year of Publication: 2019
Free key words: computer vision
deep neural networks
semantic segmentation
DDC notations: 600 Technology
004 Computer science, internet
Publikation type: Dissertation
Abstract: Modern deep learning has enabled amazing developments of computer vision in recent years (Hinton and Salakhutdinov, 2006; Krizhevsky et al., 2012). As a fundamental task, semantic segmentation aims to predict class labels for each pixel of images, which empowers machines perception of the visual world. In spite of recent successes of fully convolutional networks (Long etal., 2015), several challenges remain to be addressed. In this thesis, we focus on this topic, under different kinds of input formats and various types of scenes. Specifically, our study contains two aspects: (1) Data-driven neural modules for improved performance. (2) Leverage of datasets w.r.t.training systems with higher performances and better data privacy guarantees. In the first part of this thesis, we improve semantic segmentation by designing new modules which are compatible with existing architectures. First, we develop a spatio-temporal data-driven pooling, which brings additional information of data (i.e. superpixels) into neural networks, benefiting the training of neural networks as well as the inference on novel data. We investigate our approach in RGB-D videos for segmenting indoor scenes, where depth provides complementary cues to colors and our model performs particularly well. Second, we design learnable dilated convolutions, which are the extension of standard dilated convolutions, whose dilation factors (Yu and Koltun, 2016) need to be carefully determined by hand to obtain decent performance. We present a method to learn dilation factors together with filter weights of convolutions to avoid a complicated search of dilation factors. We explore extensive studies on challenging street scenes, across various baselines with different complexity as well as several datasets at varying image resolutions. In the second part, we investigate how to utilize expensive training data. First, we start from the generative modelling and study the network architectures and the learning pipeline for generating multiple examples. We aim to improve the diversity of generated examples but also to preserve the comparable quality of the examples. Second, we develop a generative model for synthesizing features of a network. With a mixture of real images and synthetic features, we are able to train a segmentation model with better generalization capability. Our approach is evaluated on different scene parsing tasks to demonstrate the effectiveness of the proposed method. Finally, we study membership inference on the semantic segmentation task. We propose the first membership inference attack system against black-box semantic segmentation models, that tries to infer if a data pair is used as training data or not. From our observations, information on training data is indeed leaking. To mitigate the leakage, we leverage our synthetic features to perform prediction obfuscations, reducing the posterior distribution gaps between a training and a testing set. Consequently, our study provides not only an approach for detecting illegal use of data, but also the foundations for a safer use of semantic segmentation models.
Modernes “deep learning" hat in den letzten Jahren erstaunliche Entwicklungen im Bereich Computer Vision ermöglicht (Hinton and Salakhutdinov, 2006; Krizhevsky et al., 2012). Eine grundlegende Aufgabe der semantischen Segmentierung ist es, labels für jedes Pixel von Bildern vorherzusagen, wodurch die Wahrnehmung der visuellen Welt durch Maschinen verbessert wird. Trotz der jüngsten Erfolge von vollständig faltenden Netzwerken (fully convolutional networks) (Long et al., 2015) müssen einige Herausforderungen noch gemeistert werden. In dieser Arbeit konzentrieren wir uns auf dieses Thema, unter verschiedenen Arten von Eingabeformaten und verschiedenen Arten von Szenen. Unsere Studie enthält insbesondere zwei Aspekte: (1) Datengesteuerte neuronale Module für eine verbesserte Leistung. (2) Nutzung von Datensätzen mit Trainingssystemen mit höherer Leistung und besseren Datenschutzgarantien. Im ersten Teil der Arbeit verbessern wir die semantische Segmentierung, indem wir neue Module entwerfen, die mit vorhandenen Architekturen kompatibel sind. Zunächst entwickeln wir ein räumlich-zeitliches datengesteuertes Pooling, das zusätzliche Dateninformationen (d. h. Superpixel) in neuronale Netze einbringt, was sowohl dem Training neuronaler Netze als auch der Folgerung auf neue Daten zugute kommt. Wir untersuchen unseren Ansatz in RGB-D-Videos zur Segmentierung von Szenen in Innenräumen, bei denen die Tiefe ergänzende Hinweise zu Farben liefert. Es zeigt sich, dass unser Modell besonders leistungsfähig ist. Zweitens entwerfen wir lernbare erweiterte Faltungen, die die Erweiterung von erweiterten Standardfaltungen darstellen (Yu and Koltun, 2016), deren Erweiterungsfaktoren sorgfältig von Hand bestimmt werden müssen, um eine angemessene Leistung zu erzielen. Wir präsentieren eine Methode, um Dilatationsfaktoren zusammen mit Filtergewichten von Faltungen zu lernen, um eine komplizierte Suche nach Dilatationsfaktoren zu vermeiden. Wir untersuchen umfangreiche Studien zu herausfordernden Straßenszenen über verschiedene Baselines mit unterschiedlicher Komplexität sowie Datensätze mit unterschiedlichen Bildauflösungen. Im zweiten Teil untersuchen wir den Umgang mit teuren Trainingsdaten. Wir beginnen mit der generativen Modellierung und untersuchen die Netzwerkarchitekturen sowie die Lernpipeline zur Generierung mehrerer Beispiele. Wir sind bestrebt, die Vielfalt der generierten Beispiele zu verbessern, aber die vergleichbare Qualität der generierten Beispiele zu bewahren. Zweitens entwickeln wir ein generatives Modell zur Synthese von Zwischenmerkmalen eines neuronalen Netzwerks. Mit einer Mischung aus realen Bildern und synthetischen Merkmalen können wir ein semantisches Segmentierungsmodell mit einer besseren Generalisierungsfähigkeit trainieren. Unser Ansatz wird anhand verschiedener Aufgaben zum Parsen von Szenen bewertet, um die Wirksamkeit der Vorschlagsmethode zu demonstrieren. Schließlich untersuchen wir die Inferenz der Zugehörigkeit zu einer semantischen Segmentierungsaufgabe. Wir schlagen das erste Inferenzangriffssystem für die Mitgliedschaft gegen Black-Box-Semantik-Segmentierungsmodelle vor, bei dem versucht wird, zu schließen, dass ein Datenpaar als Trainingsdaten verwendet wird oder nicht. Aus unseren Beobachtungen geht hervor, dass Informationen zu Trainingsdaten tatsächlich undicht sind. Um die Leckage zu mindern, setzen wir unsere synthetischen Funktionen ein, um Vorhersageverschleierungen durchzuführen und die Lücken in der posterioren Verteilung zwischen Training und Testset zu verringern. Folglich bietet unsere Studie nicht nur einen Ansatz zur Aufdeckung der illegalen Verwendung von Daten, sondern auch die Grundlagen für eine sicherere Verwendung semantischer Segmentierungsmodelle.
Link to this record: urn:nbn:de:bsz:291--ds-302188
hdl:20.500.11880/28784
http://dx.doi.org/10.22028/D291-30218
Advisor: Fritz, Mario
Date of oral examination: 3-Dec-2019
Date of registration: 26-Feb-2020
Faculty: MI - Fakultät für Mathematik und Informatik
Department: MI - Informatik
Professorship: MI - Keiner Professur zugeordnet
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
PhD_Thesis_Final.pdf36,75 MBAdobe PDFView/Open


Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.