Please use this identifier to cite or link to this item: doi:10.22028/D291-42049
Title: Towards privacy-preserving machine learning : generative modeling and discriminative analysis
Author(s): Chen, Dingfan
Language: English
Year of Publication: 2023
DDC notations: 004 Computer science, internet
Publikation type: Dissertation
Abstract: The digital era is characterized by the widespread availability of rich data, which has fueled the growth of machine learning applications across diverse fields such as computer vision, natural language processing, speech recognition, and recommendation systems. Nevertheless, data sharing is often at odds with serious privacy and ethical issues. The sensitive nature of much of this data, which includes personal information on mobile devices, confidential medical treatments, and financial records, demands a cautious approach to data sharing. This caution is not just a matter of ethical responsibility but also a legal mandate, with stringent regulations like the General Data Protection Regulation (GDPR) and the Health Insurance Portability and Accountability Act (HIPAA) establishing barriers that, while protective, can also impede the pace of technological progress. Additionally, the growing trend of using large-scale, web-scraped datasets to build machine learning models raises serious concerns. This approach, often without proper supervision, can unintentionally include private information and copyrighted content not meant for public use, posing risks of privacy violations and legal complications. This presents a dilemma: the demand for extensive data to power complex machine learning algorithms conflicts with the need to protect personal privacy and intellectual property rights. Addressing this challenge is critical not only to maintain public trust but also to ensure that the progress in machine learning is sustainable, responsible, and aligned with societal values. To this end, this thesis investigates such privacy risks and seeks out viable solutions that permit data sharing within strict privacy constraints. Specifically, this thesis examines three intertwined perspectives within the realm of data privacy in machine learning: (1) privacy-preserving generative modeling, which focuses on generating synthetic data while ensuring rigorous privacy guarantees; (2) privacy attack and defense, dedicated to assessing and understanding the actual privacy risks inherent in machine learning models; as well as (3) applications, which emphasizes the implementation of privacy-preserving training methods on real-world sensitive datasets.
Das digitale Zeitalter ist gekennzeichnet durch die weit verbreitete Verfügbarkeit von umfangreichen Daten, die das Wachstum von Anwendungen des maschinellen Lernens in verschiedenen Bereichen wie Computer Vision, Verarbeitung natürlicher Sprache, Spracherkennung und Empfehlungssystemen angetrieben haben. Dennoch steht das Teilen von Daten oft im Widerspruch zu ernsthaften Datenschutz- und ethischen Fragen. Die sensible Natur vieler dieser Daten, zu denen persönliche Informationen auf mobilen Geräten, vertrauliche medizinische Behandlungen und Finanzaufzeichnungen gehören, erfordert einen vorsichtigen Ansatz beim Datenaustausch. Diese Vorsicht ist nicht nur eine Frage der ethischen Verantwortung, sondern auch ein gesetzliches Mandat, wobei strenge Vorschriften wie die Datenschutz-Grundverordnung (DSGVO) und der Health Insurance Portability and Accountability Act (HIPAA) Barrieren errichten, die zwar schützend sind, aber auch das Tempo des technologischen Fortschritts behindern können. Darüber hinaus wirft der wachsende Trend, großangelegte, aus dem Web extrahierte Datensätze zum Aufbau von Maschinenlernmodellen zu verwenden, ernsthafte Bedenken auf. Dieser Ansatz, oft ohne angemessene Aufsicht, kann unbeabsichtigt private Informationen und urheberrechtlich geschütztes Material enthalten, das nicht für die öffentliche Nutzung bestimmt ist, und birgt Risiken von Datenschutzverletzungen und rechtlichen Komplikationen. Dies stellt ein Dilemma dar: Die Nachfrage nach umfangreichen Daten zur Speisung komplexer Maschinenlernalgorithmen steht im Konflikt mit dem Bedürfnis, persönliche Privatsphäre und geistige Eigentumsrechte zu schützen. Die Bewältigung dieser Herausforderung ist entscheidend, um nicht nur das öffentliche Vertrauen aufrechtzuerhalten, sondern auch sicherzustellen, dass der Fortschritt im maschinellen Lernen nachhaltig, verantwortungsbewusst und im Einklang mit gesellschaftlichen Werten ist. Zu diesem Zweck untersucht diese Arbeit solche Datenschutzrisiken und sucht nach praktikablen Lösungen, die den Datenaustausch innerhalb strenger Datenschutzbeschränkungen ermöglichen. Insbesondere untersucht diese Arbeit drei miteinander verflochtene Perspektiven im Bereich des Datenschutzes beim maschinellen Lernen: (1) Datenschutzfreundliche Datenfreigabe, die sich auf die Erzeugung synthetischer Daten konzentriert und gleichzeitig strenge Datenschutzgarantien gewährleistet; (2) Datenschutzangriff und -verteidigung, gewidmet der Bewertung und dem Verständnis der tatsächlichen Datenschutzrisiken, die in Maschinenlernmodellen inhärent sind; sowie (3) Anwendungen, die die Implementierung von datenschutzfreundlichen Trainingsmethoden auf realen sensiblen Datensätzen hervorheben. Erstens erforschen wir die Datenschutz gewahrende Datenfreigabe mit dem Ziel, synthetische Daten zu erstellen, die Eigenschaften der Bevölkerungsverteilung beibehalten, die für bestimmte Aufgaben relevant sind, und dabei strenge Datenschutzgarantien einhalten. Solche synthetischen Daten können genutzt und analysiert werden, als wären sie echte Daten, was Fortschritte ermöglicht und reproduzierbare Forschung in sensiblen Bereichen erleichtert. Die Grundlage unseres Ansatzes ist in der differentiell privaten (DP) generativen Modellierung verankert. Unsere Fortschritte umfassen die Entwicklung von Sanitisierungsprotokollen, die der generativen Modellierung gewidmet sind (Chapter 2), das Design eines Generierungsframeworks, das die inhärente Komplexität des DP-Trainings reduziert (Chapter 3), und bietet eine neuartige einheitliche Perspektive, die eine gemeinsame Designoberfläche für systematische Untersuchungen zukünftiger Fortschritte im Bereich präsentiert (Chapter 4). Zweitens beschäftigen wir uns mit Angriffs- und Verteidigungsmechanismen für den Datenschutz, insbesondere konzentrieren wir uns auf realitätsnahe Simulationen von Datenschutzbedrohungen. Unsere Arbeit untersucht hauptsächlich den Mitgliedschafts-Inferenzangriff, der zu bestimmen versucht, ob eine bestimmte Datenprobe Teil des Trainingssets eines maschinellen Lernmodells war. Dieser Angriffstyp dient als entscheidendes Maß für die Identifizierung potenzieller Datenschutzlecks und zur Festlegung der Untergrenze der Datenschutzkosten bei der Überprüfung von Datenschutzalgorithmen. Diese Dissertation präsentiert eine eingehende Analyse solcher Angriffe gegen generative Modelle (Chapter 5) und entwickelt wirksame Gegenmaßnahmen für allgemeine maschinelle Lernmodelle (Chapter 6). Zuletzt konzentrieren wir uns darauf, unsere analytischen und gestalterischen Strategien in DP-Lernmechanismen für praktische Anwendungen anzupassen, insbesondere im medizinischen Bereich, wo Datenschutz von größter Bedeutung ist. Diese Forschung liefert Erkenntnisse und Einsichten, die die Entwicklung von datenschutzorientierten Technologien leiten, die für komplexe reale Datenverteilungen zugeschnitten sind (Chapter 7).
Link to this record: urn:nbn:de:bsz:291--ds-420492
hdl:20.500.11880/37817
http://dx.doi.org/10.22028/D291-42049
Advisor: Fritz, Mario
Date of oral examination: 23-Apr-2024
Date of registration: 6-Jun-2024
Faculty: MI - Fakultät für Mathematik und Informatik
Department: MI - Informatik
Professorship: MI - Prof. Dr. Mario Fritz
Collections:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:
File Description SizeFormat 
DingfanChen_Phd_thesis.pdf20,3 MBAdobe PDFView/Open


Items in SciDok are protected by copyright, with all rights reserved, unless otherwise indicated.