Privacy protection in quantitative empirical research
Loading...
Date
2025-10-28
Authors
Meißner, Echo
Journal Title
Journal ISSN
Volume Title
Publication Type
Published in
Abstract
Quantitative empirical research is a cornerstone of many scientific disciplines, offering reproducible, statistically validated insights. Methodological reforms such as preregistration and open science aim to strengthen scientific integrity and transparency, often encouraging the publication of primary datasets. At the same time, emerging data collection methods such as mobile sensing and chatbot-based studies enable richer, more continuous, and larger-scale data acquisition. However, these developments raise substantial privacy challenges, as traditional anonymization and pseudonymization measures are increasingly vulnerable to modern de-anonymization and linkage attacks. The need to protect participant privacy without undermining scientific utility has become both pressing and complex.
The specific characteristics of modern empirical research that involves open data sharing, large and sensitive datasets, and novel collection modalities, introduces requirements that current research workflows and tools do not adequately address. Solutions must (i) mitigate privacy threats across all stages of the research process, (ii) integrate robust privacy-enhancing technologies without disrupting established workflows, and (iii) maintain compatibility with reproducibility and reusability goals central to open science.
This thesis first analyzes the empirical research process using a structured privacy threat modeling method applied to a realistic running example. From this analysis, requirements for a privacy-preserving workflow are derived and decomposed into participant management and data collection/analysis. Two novel cryptographic constructions, i.e., PrePaMS for participant management and PeQES for privacy-enhanced studies, are designed with formal system models and proofs of security and privacy properties.
The proposed designs are implemented as web-based prototypes and evaluated with synthetic datasets. Performance results demonstrate that privacy-preserving workflows can be realized with practical performance overhead while satisfying identified privacy, security, and reproducibility requirements. The resulting prototypes demonstrate the feasibility of privacy-preserving research workflows in realistic settings, balancing participant privacy with scientific utility. Our additional transparency mechanism (WAIT) addresses an orthogonal threat to web applications with sensitive client-side code by ensuring code integrity in the presence of untrusted platform providers.
This thesis provides the following contributions: (1) a comprehensive privacy risk analysis of current and emerging empirical research practices, (2) a formal requirement specification for privacy-aware open science workflows, (3) novel cryptographic protocols for participant management (PrePaMS) and data collection/analysis (PeQES), (4) an integrated open science workflow design incorporating these protocols, (5) prototype implementations with performance and feasibility evaluations, (6) an integrated workflow design balancing privacy with scientific utility, and (7) the WAIT transparency mechanism for protecting the integrity of sensitive client-side code in web applications.
Viele wissenschaftliche Disziplinen arbeitenmit quantitativen empirischen Forschungsmethoden, da diese reproduzierbare und statistisch abgesicherte Aussagen ermöglichen. Um die wissenschaftliche Integrität und die Transparenz zu stärken, wurden Reformen wie die Präregistrierung von Studien sowie Open-Science-Prinzipien eingeführt. Gleichzeitig ermöglichen neue Erhebungsmethoden, wie etwa Mobile Sensing oder Chatbot-gestützte Studien eine umfangreichere, umfassendere und kontinuierlichere Datenerfassung. Daraus resultieren aber Probleme im Bereich des Datenschutzes, denn die klassischen Anonymisierungs und Pseudonymisierungsverfahren sind anfällig für Linkage- und De-Anonymisierungsangriffe geworden. Es braucht also einen gestiegenen Schutz der Privatsphäre der Studienteilnehmenden, ohne den wissenschaftlichen Nutzen einzuschränken. Moderne empirische Forschung ist häufig geprägt von offenem Austausch von Forschungsdaten, größeren und sensibleren Datensätzen, sowie neuartigen Erhebungsmodalitäten. Diese Merkmale stellen Anforderungen, denen die derzeitigen Forschungsabläufe und -werkzeuge nicht ausreichend gerecht werden. Zu diesen Anforderungen gehören (i) eine Minimierung von Datenschutzrisiken in allen Phasen des Forschungsprozesses, (ii) die Integration von Privacy- Enhancing Maßnahmen in etablierte Arbeitsabläufe und (iii) die Vereinbarkeit mit Open Science Zielen, wie Reproduzierbarkeit und Wiederverwertbarkeit. Die vorliegende Arbeit analysiert zunächst den empirischen Forschungsprozess auf Bedrohungen in Bezug auf Datenschutz anhand eines realistischen Fallbeispiels und leitet darauf aufbauend Anforderungen ab. Für die Teilprozesse ’Teilnehmendenverwaltung’ und ’Datenerhebung und -analyse’ werden für die jeweiligen Anforderungen neue kryptographische Protokolle, PrePaMS und PeQES, entwickelt, die jeweils mit formalen Systemmodellen und Sicherheits und Datenschutzbeweisen untermauert werden. Diese neuen Protokolle werden als webbasierte Prototypen implementiert und ihre Performance anhand synthetischer Datensätze evaluiert. Als Ergebnis zeigt sich, dass sich die veränderten Arbeitsabläufe mit vertretbarem Aufwand umsetzen lassen und dabei die definierten Anforderungen an Datenschutz, Sicherheitund Reproduzierbarkeit erfüllen. Zusätzlich wird mit unserem Transparenzmechanismus WAIT den Bedrohungen durch potenziell nicht vertrauenswürdige Plattformanbieter begegnet. Die Arbeit leistet folgende Beiträge: (1) eine umfassende Analyse von Datenschutzrisiken in aktuellen empirischen Forschungsmethoden, (2) eine formale Anforderungsspezifikation für Open-Science-Workflows mit Fokus auf Datenschutz, (3) die Entwicklung neuer kryptographischer Protokolle für die Teilnehmendenverwaltung (PrePaMS) und Datenerhebung und -analyse (PeQES), (4) ein ganzheitliches Konzept für einen Open-Science-Workflow basierend auf diesen Protokollen, (5) die Implementierung von Prototypen für diese Protokolle mit Evaluation bezüglich Performance und Machbarkeit, (6) ein Arbeitsablauf, der die Abwägung zwischen Datenschutz und wissenschaftlichen Nutzen berücksichtigt, und (7) ein Transparenzmechanismus (WAIT) zum Schutz der Integrität von sensiblem clientseitigem Code in Webanwendungen.
Viele wissenschaftliche Disziplinen arbeitenmit quantitativen empirischen Forschungsmethoden, da diese reproduzierbare und statistisch abgesicherte Aussagen ermöglichen. Um die wissenschaftliche Integrität und die Transparenz zu stärken, wurden Reformen wie die Präregistrierung von Studien sowie Open-Science-Prinzipien eingeführt. Gleichzeitig ermöglichen neue Erhebungsmethoden, wie etwa Mobile Sensing oder Chatbot-gestützte Studien eine umfangreichere, umfassendere und kontinuierlichere Datenerfassung. Daraus resultieren aber Probleme im Bereich des Datenschutzes, denn die klassischen Anonymisierungs und Pseudonymisierungsverfahren sind anfällig für Linkage- und De-Anonymisierungsangriffe geworden. Es braucht also einen gestiegenen Schutz der Privatsphäre der Studienteilnehmenden, ohne den wissenschaftlichen Nutzen einzuschränken. Moderne empirische Forschung ist häufig geprägt von offenem Austausch von Forschungsdaten, größeren und sensibleren Datensätzen, sowie neuartigen Erhebungsmodalitäten. Diese Merkmale stellen Anforderungen, denen die derzeitigen Forschungsabläufe und -werkzeuge nicht ausreichend gerecht werden. Zu diesen Anforderungen gehören (i) eine Minimierung von Datenschutzrisiken in allen Phasen des Forschungsprozesses, (ii) die Integration von Privacy- Enhancing Maßnahmen in etablierte Arbeitsabläufe und (iii) die Vereinbarkeit mit Open Science Zielen, wie Reproduzierbarkeit und Wiederverwertbarkeit. Die vorliegende Arbeit analysiert zunächst den empirischen Forschungsprozess auf Bedrohungen in Bezug auf Datenschutz anhand eines realistischen Fallbeispiels und leitet darauf aufbauend Anforderungen ab. Für die Teilprozesse ’Teilnehmendenverwaltung’ und ’Datenerhebung und -analyse’ werden für die jeweiligen Anforderungen neue kryptographische Protokolle, PrePaMS und PeQES, entwickelt, die jeweils mit formalen Systemmodellen und Sicherheits und Datenschutzbeweisen untermauert werden. Diese neuen Protokolle werden als webbasierte Prototypen implementiert und ihre Performance anhand synthetischer Datensätze evaluiert. Als Ergebnis zeigt sich, dass sich die veränderten Arbeitsabläufe mit vertretbarem Aufwand umsetzen lassen und dabei die definierten Anforderungen an Datenschutz, Sicherheitund Reproduzierbarkeit erfüllen. Zusätzlich wird mit unserem Transparenzmechanismus WAIT den Bedrohungen durch potenziell nicht vertrauenswürdige Plattformanbieter begegnet. Die Arbeit leistet folgende Beiträge: (1) eine umfassende Analyse von Datenschutzrisiken in aktuellen empirischen Forschungsmethoden, (2) eine formale Anforderungsspezifikation für Open-Science-Workflows mit Fokus auf Datenschutz, (3) die Entwicklung neuer kryptographischer Protokolle für die Teilnehmendenverwaltung (PrePaMS) und Datenerhebung und -analyse (PeQES), (4) ein ganzheitliches Konzept für einen Open-Science-Workflow basierend auf diesen Protokollen, (5) die Implementierung von Prototypen für diese Protokolle mit Evaluation bezüglich Performance und Machbarkeit, (6) ein Arbeitsablauf, der die Abwägung zwischen Datenschutz und wissenschaftlichen Nutzen berücksichtigt, und (7) ein Transparenzmechanismus (WAIT) zum Schutz der Integrität von sensiblem clientseitigem Code in Webanwendungen.
Description
Faculties
Fakultät für Ingenieurwissenschaften, Informatik und Psychologie
Institutions
Citation
DFG Project uulm
EU Project THU
Other projects THU
License
CC BY 4.0 International
Is version of
Has version
Supplement to
Supplemented by
Has erratum
Erratum to
Has Part
Part of
DOI external
DOI external
Institutions
Periodical
Degree Program
DFG Project THU
item.page.thu.projectEU
item.page.thu.projectOther
Series
Conference Name
Conference Place
Keywords
Privacy protection, Privacy-enhancing technologies, Quantitative empirical research, Privacy-preserving data analysis, Research data management, Participant management, Open Science, Forschungsdatenmanagement, Computer security, Open scholarship, Research; Data processing, DDC 004 / Data processing & computer science
