Please use this identifier to cite or link to this item: doi:10.22028/D291-39734
Title: Improving quality and controllability in GAN-based image synthesis
Author(s): Schönfeld, Edgar
Language: English
Year of Publication: 2022
Free key words: Deep Learning
GAN
Generative Adversarial Networks
Image Generation
DDC notations: 004 Computer science, internet
510 Mathematics
Publikation type: Dissertation
Abstract: The goal of the field of deep learning-based image generation is to synthesize images that are indistinguishable from real ones, and to precisely control the content of these images. Generative adversarial networks (GANs) have been the most popular image synthesis framework in recent years due to their unrivaled image quality. They consist of a generator and discriminator network, where the discriminator is trained to detect synthetic images, while the generator is trained to outsmart the discriminator by synthesizing more realistic images. Much progress has been made in the development of GANs, but there is still a lot of work to be done to further improve the synthesis quality and control. To this end, this work proposes methods to improve the synthesis quality of GANs and increase the control over the image content. First, we propose the idea of segmentation-based adversarial losses to increase the quality of synthetic images. In particular, we redesign the GAN discriminator as a segmentation network that classifies image pixels as real or fake. Further, we propose a regularization made possible by the new discriminator design. The new method improves image quality in unconditional and conditional GANs. Second, we show that segmentation-based adversarial losses are naturally well-suited for semantic image synthesis. Semantic image synthesis is the task of generating images from semantic layouts, which offers precise control over the content. We adapt the approach of a segmentation-based GAN loss to semantic image synthesis and thereby make previously used extra supervision superfluous. In addition, we introduce a noise injection method to increase the synthesis diversity significantly. The effects of the proposed techniques are improved image quality, new possibilities for global and local image editing, better modeling of long-tailed data, the ability to generate images from sparsely-annotated label maps, and a substantial increase in the multi-modality of the synthesized images. In doing so, our model is also conceptually simpler and more parameter-efficient than previous models. Third, we show that our improvement in multi-modality in semantic image synthesis opens the door for controlling the image content via the latent space of the GAN generator. Therefore, we are the first to introduce a method for finding interpretable directions in the latent space of semantic image synthesis GANs. Consequently, we enable additional control of the image content via discovered latent controls, next to the semantic layouts. In summary, this work advances the state of the art in image synthesis for several types of GANs, including GANs for semantic image synthesis. We also enable a new form of control over the image content for the latter.
Das Ziel der Deep Learning basierenden Bildgenerierung ist es, Bilder zu synthetisieren, die nicht von echten Bildern zu unterscheiden sind und deren Inhalt genau zu steuern. Generative Adversarial Networks (GANs) waren in den letzten Jahren aufgrund ihrer hohen Bildqualität das beliebteste Framework für die Bildsynthese. GANs setzen sich aus einem Generator- und Diskriminatornetzwerk zusammen, wobei der Diskriminator darauf trainiert wird, synthetische Bilder zu erkennen, während der Generator darauf trainiert wird den Diskriminator zu überlisten indem er realistischere Bilder synthetisiert. Trotz großer Fortschritte in den letzten Jahren ist noch viel Arbeit nötig um die Qualität der Bildsynthese sowie die Kontrolle über den Bildinhalt zu verbessern. Zu diesem Zweck präsentiert diese Arbeit neue Methoden, welche die Qualität und die Kontrolle über den Inhalt von GAN-generierten Bildern verbessern. Zunächst schlagen wir vor segmentierungsbasierte Zielfunktionen für GANs zu benutzen um die Qualität synthetischer Bilder zu verbessern. Zu diesem Zweck gestalten wir den GAN-Diskriminator als Segmentierungsnetzwerk neu das Pixel als echt oder gefälscht klassifiziert. Weiterhin schlagen wir eine Regularisierung vor die durch das neue Diskriminatordesign ermöglicht wird. Unser Verfahren verbessert die Bildqualität in Klassen-konditionierten und unkonditioniert GANs. Zweitens zeigen wir, dass segmentierungsbasierte Zielfunktionen sehr gut für die Semantische Bildsynthese geeignet sind, welche Bilder aus semantischen Karten generiert. Wir wenden eine segmentierungsbasierten GAN-Zielfunktion für die semantische Bildsynthese an und machen dadurch die bisher verwendete zusätzliche Überwachung überflüssig. Darüber hinaus führen wir eine Rauschinjektionsmethode ein welche die Synthesevielfalt erheblich erhöht. Unsere vorgeschlagenen Techniken ermöglichen eine verbesserte Bildqualität, globale und lokalen Bildmanipulation, eine bessere Modellierung von Long-Tail-Daten, die Fähigkeit, Bilder von spärlich annotierten semantischen Karten zu generieren, und eine wesentliche Steigerung der Multimodalität der synthetisierten Bilder. Dabei ist unser Modell auch konzeptionell einfacher und parametereffizienter als bisherige Modelle. Drittens zeigen wir, dass unsere Verbesserung der Multimodalität in der semantischen Bildsynthese die Steuerung des Bildinhalts über die latente Repräsentation des GAN-Generators ermöglicht. Daher stellen wir als erste eine Methode vor, um interpretierbare Richtungen im latenten Raum von GANs zur Semantischer Bildsynthese zu finden. Folglich ermöglichen wir neben den semantischen Karten eine zusätzliche Kontrolle des Bildinhalts über entdeckte latente Steuerungen. Zusammenfassend lässt sich sagen, dass diese Arbeit den Stand der Technik in der Bildsynthese für mehrere Arten von GANs voran bringt, einschließlich GANs für die semantische Bildsynthese. Letzteren ermöglichen wir auch eine neue Form der Kontrolle über den Bildinhalt.
Link to this record: urn:nbn:de:bsz:291--ds-397341
hdl:20.500.11880/35997
http://dx.doi.org/10.22028/D291-39734
Advisor: Schiele, Bernt
Date of oral examination: 18-Apr-2023
Date of registration: 20-Jun-2023
Faculty: MI - Fakultät für Mathematik und Informatik
Department: MI - Informatik
Professorship: MI - Prof. Dr. Bernt Schiele
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
thesis.pdfPhD Thesis24,02 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons