Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-45595
Titel: Mitigating risks in real-world and AI-generated visual content
VerfasserIn: Qu, Yiting
Sprache: Englisch
Erscheinungsjahr: 2024
DDC-Sachgruppe: 620 Ingenieurwissenschaften und Maschinenbau
Dokumenttyp: Dissertation
Abstract: Visual content, such as images and videos, is a fundamental medium in the digital age. However, visual content includes many unsafe, harmful, and unauthorized materials. The spread of such content has posed significant risks both to web communities and to the real world. For example, the dissemination of hateful memes could incite hatred against an ethnic group and even cause real-world harm. Although the advancement of artificial intelligence (AI) provides technical solutions for detecting this content, these technologies themselves also have the potential to amplify these risks. In this dissertation, we investigate both real-world and AI-generated risks in visual content through four studies. First, we study the real-world threats posed by the constant evolution of hateful memes. We investigate how hateful memes can evolve into different variants targeting various individuals or communities and develop a framework that helps platform moderators trace hateful meme variants. Second, we study how these real-world threats can be amplified by current popular Text-to-Image generative models. We evaluate the risks of these models in manufacturing unsafe images, including sexually explicit, disturbing, violent, hateful, and political images. We also demonstrate how adversaries can use these models to produce hateful memes by defining the individual or community target. Third, given the risks of both real world and AI-generated unsafe content, we propose UnsafeBench, a benchmarking framework to evaluate the performance of existing image safety classifiers when identifying both types of unsafe content. Finally, we investigate the risks of 3D generative models in generating unauthorized point clouds. To mitigate unauthorized use, we introduce FAKEPCD, a framework designed to detect and attribute AI-generated point clouds to their sources. Our findings reveal that the advancement of AI techniques has brought unique challenges for mitigating unsafe and unauthorized visual content. On the one hand, open-source generative models open a gate to quickly produce visual content at a low cost. On the other hand, AI-generated content contains unique characteristics that are challenging to capture by existing moderation tools, given that most are trained on real-world materials. With these insights, we propose mitigating solutions from different perspectives that can assist social media platforms in content moderation. We also call for joint efforts to address the risks posed by unsafe and unauthorized visual content, especially those introduced by AI generative models.
Visuelle Inhalte, wie Bilder, Videos und dreidimensionale Darstellungen, sind im digitalen Zeitalter ein fundamentales Medium. Allerdings umfassen visuelle Inhalte auch viele unsichere, schädliche und nicht autorisierte Materialien. Die Verbreitung solcher Inhalte hat sowohl für Online-Communities als auch für die reale Welt erhebliche Risiken mit sich gebracht. Zum Beispiel könnte die Verbreitung hasserfüllter Memes Hass gegen eine ethnische Gruppe schüren und sogar zu realen Schäden führen. Obwohl der Fortschritt der Künstlichen Intelligenz (KI) technische Lösungen zur Erkennung solcher Inhalte bietet, besteht auch das Potenzial, dass diese Technologien die Risiken verstärken. In dieser Dissertation untersuchen wir sowohl reale als auch KI-generierte Risiken in visuellen Inhalten durch vier Studien. Erstens untersuchen wir die Bedrohungen, die von der ständigen Weiterentwicklung hasserfüllter Memes ausgehen. Wir erforschen, wie sich hasserfüllte Memes in verschiedene Varianten entwickeln können, die auf verschiedene Einzelpersonen oder Gemeinschaften abzielen, und entwickeln ein Framework, das Plattformmoderatoren dabei hilft, Varianten hasserfüllter Memes zu verfolgen. Zweitens untersuchen wir, wie diese realen Bedrohungen durch aktuelle, populäre Text-zu-Bild-Generierungsmodelle verstärkt werden können. Wir bewerten die Risiken dieser Modelle bei der Erstellung unsicherer Bilder, einschließlich sexuell expliziter, verstörender, gewalttätiger, hasserfüllter und politischer Bilder. Wir zeigen auch, wie Gegner diese Modelle nutzen können, um hasserfüllte Memes zu erzeugen, indem sie das Ziel – eine Einzelperson oder Gemeinschaft – definieren. Drittens schlagen wir, angesichts der Risiken sowohl realer als auch KI-generierter unsicherer Inhalte, UnsafeBench vor, ein Benchmarking-Framework zur Bewertung der Leistung bestehender Bildsicherheitsklassifikatoren bei der Identifizierung beider Arten unsicherer Inhalte. Schließlich untersuchen wir die Risiken von 3D-Generierungsmodellen bei der Erstellung nicht autorisierter Punktwolken. Um die nicht autorisierte Nutzung zu mindern, stellen wir FAKEPCD vor, ein Framework, das entwickelt wurde, um KI-generierte Punktwolken zu erkennen und ihren Ursprung zuzuordnen. Unsere Ergebnisse zeigen, dass der Fortschritt der KI-Techniken einzigartige Herausforderungen bei der Minderung unsicherer und nicht autorisierter visueller Inhalte mit sich gebracht hat. Einerseits eröffnen Open-Source-Generierungsmodelle ein Tor zur schnellen Produktion visueller Inhalte zu geringen Kosten. Andererseits enthalten KI-generierte Inhalte einzigartige Merkmale, die von bestehenden Moderationstools nur schwer erfasst werden können, da die meisten auf realen Materialien trainiert sind. Mit diesen Erkenntnissen schlagen wir Lösungsmöglichkeiten aus verschiedenen Perspektiven vor, die sozialen Medienplattformen bei der Inhaltsmoderation helfen können. Wir rufen auch zu gemeinsamen Anstrengungen auf, um die durch unsichere und nicht autorisierte visuelle Inhalte verursachten Risiken anzugehen, insbesondere jene, die durch KI-Generierungsmodelle entstehen.
Link zu diesem Datensatz: urn:nbn:de:bsz:291--ds-455958
hdl:20.500.11880/40192
http://dx.doi.org/10.22028/D291-45595
Erstgutachter: Backes, Michael
Zhang, Yang
Tag der mündlichen Prüfung: 22-Mai-2025
Datum des Eintrags: 27-Jun-2025
Fakultät: MI - Fakultät für Mathematik und Informatik
Fachrichtung: MI - Informatik
Professur: MI - Prof. Dr. Michael Backes
Sammlung:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:
Datei Beschreibung GrößeFormat 
Dissertation_print.pdf17,12 MBAdobe PDFÖffnen/Anzeigen


Diese Ressource wurde unter folgender Copyright-Bestimmung veröffentlicht: Lizenz von Creative Commons Creative Commons