Privacy protection in quantitative empirical research

Loading...
Thumbnail Image

Date

2025-10-28

Authors

Meißner, Echo

Journal Title

Journal ISSN

Volume Title

Publication Type

Published in

Abstract

Quantitative empirical research is a cornerstone of many scientific disciplines, offering reproducible, statistically validated insights. Methodological reforms such as preregistration and open science aim to strengthen scientific integrity and transparency, often encouraging the publication of primary datasets. At the same time, emerging data collection methods such as mobile sensing and chatbot-based studies enable richer, more continuous, and larger-scale data acquisition. However, these developments raise substantial privacy challenges, as traditional anonymization and pseudonymization measures are increasingly vulnerable to modern de-anonymization and linkage attacks. The need to protect participant privacy without undermining scientific utility has become both pressing and complex. The specific characteristics of modern empirical research that involves open data sharing, large and sensitive datasets, and novel collection modalities, introduces requirements that current research workflows and tools do not adequately address. Solutions must (i) mitigate privacy threats across all stages of the research process, (ii) integrate robust privacy-enhancing technologies without disrupting established workflows, and (iii) maintain compatibility with reproducibility and reusability goals central to open science. This thesis first analyzes the empirical research process using a structured privacy threat modeling method applied to a realistic running example. From this analysis, requirements for a privacy-preserving workflow are derived and decomposed into participant management and data collection/analysis. Two novel cryptographic constructions, i.e., PrePaMS for participant management and PeQES for privacy-enhanced studies, are designed with formal system models and proofs of security and privacy properties. The proposed designs are implemented as web-based prototypes and evaluated with synthetic datasets. Performance results demonstrate that privacy-preserving workflows can be realized with practical performance overhead while satisfying identified privacy, security, and reproducibility requirements. The resulting prototypes demonstrate the feasibility of privacy-preserving research workflows in realistic settings, balancing participant privacy with scientific utility. Our additional transparency mechanism (WAIT) addresses an orthogonal threat to web applications with sensitive client-side code by ensuring code integrity in the presence of untrusted platform providers. This thesis provides the following contributions: (1) a comprehensive privacy risk analysis of current and emerging empirical research practices, (2) a formal requirement specification for privacy-aware open science workflows, (3) novel cryptographic protocols for participant management (PrePaMS) and data collection/analysis (PeQES), (4) an integrated open science workflow design incorporating these protocols, (5) prototype implementations with performance and feasibility evaluations, (6) an integrated workflow design balancing privacy with scientific utility, and (7) the WAIT transparency mechanism for protecting the integrity of sensitive client-side code in web applications.
Viele wissenschaftliche Disziplinen arbeitenmit quantitativen empirischen Forschungsmethoden, da diese reproduzierbare und statistisch abgesicherte Aussagen ermöglichen. Um die wissenschaftliche Integrität und die Transparenz zu stärken, wurden Reformen wie die Präregistrierung von Studien sowie Open-Science-Prinzipien eingeführt. Gleichzeitig ermöglichen neue Erhebungsmethoden, wie etwa Mobile Sensing oder Chatbot-gestützte Studien eine umfangreichere, umfassendere und kontinuierlichere Datenerfassung. Daraus resultieren aber Probleme im Bereich des Datenschutzes, denn die klassischen Anonymisierungs und Pseudonymisierungsverfahren sind anfällig für Linkage- und De-Anonymisierungsangriffe geworden. Es braucht also einen gestiegenen Schutz der Privatsphäre der Studienteilnehmenden, ohne den wissenschaftlichen Nutzen einzuschränken. Moderne empirische Forschung ist häufig geprägt von offenem Austausch von Forschungsdaten, größeren und sensibleren Datensätzen, sowie neuartigen Erhebungsmodalitäten. Diese Merkmale stellen Anforderungen, denen die derzeitigen Forschungsabläufe und -werkzeuge nicht ausreichend gerecht werden. Zu diesen Anforderungen gehören (i) eine Minimierung von Datenschutzrisiken in allen Phasen des Forschungsprozesses, (ii) die Integration von Privacy- Enhancing Maßnahmen in etablierte Arbeitsabläufe und (iii) die Vereinbarkeit mit Open Science Zielen, wie Reproduzierbarkeit und Wiederverwertbarkeit. Die vorliegende Arbeit analysiert zunächst den empirischen Forschungsprozess auf Bedrohungen in Bezug auf Datenschutz anhand eines realistischen Fallbeispiels und leitet darauf aufbauend Anforderungen ab. Für die Teilprozesse ’Teilnehmendenverwaltung’ und ’Datenerhebung und -analyse’ werden für die jeweiligen Anforderungen neue kryptographische Protokolle, PrePaMS und PeQES, entwickelt, die jeweils mit formalen Systemmodellen und Sicherheits und Datenschutzbeweisen untermauert werden. Diese neuen Protokolle werden als webbasierte Prototypen implementiert und ihre Performance anhand synthetischer Datensätze evaluiert. Als Ergebnis zeigt sich, dass sich die veränderten Arbeitsabläufe mit vertretbarem Aufwand umsetzen lassen und dabei die definierten Anforderungen an Datenschutz, Sicherheitund Reproduzierbarkeit erfüllen. Zusätzlich wird mit unserem Transparenzmechanismus WAIT den Bedrohungen durch potenziell nicht vertrauenswürdige Plattformanbieter begegnet. Die Arbeit leistet folgende Beiträge: (1) eine umfassende Analyse von Datenschutzrisiken in aktuellen empirischen Forschungsmethoden, (2) eine formale Anforderungsspezifikation für Open-Science-Workflows mit Fokus auf Datenschutz, (3) die Entwicklung neuer kryptographischer Protokolle für die Teilnehmendenverwaltung (PrePaMS) und Datenerhebung und -analyse (PeQES), (4) ein ganzheitliches Konzept für einen Open-Science-Workflow basierend auf diesen Protokollen, (5) die Implementierung von Prototypen für diese Protokolle mit Evaluation bezüglich Performance und Machbarkeit, (6) ein Arbeitsablauf, der die Abwägung zwischen Datenschutz und wissenschaftlichen Nutzen berücksichtigt, und (7) ein Transparenzmechanismus (WAIT) zum Schutz der Integrität von sensiblem clientseitigem Code in Webanwendungen.

Description

Faculties

Fakultät für Ingenieurwissenschaften, Informatik und Psychologie

Citation

DFG Project uulm

EU Project THU

Other projects THU

License

CC BY 4.0 International

Is version of

Has version

Supplement to

Supplemented by

Has erratum

Erratum to

Has Part

Part of

DOI external

DOI external

Institutions

Periodical

Degree Program

DFG Project THU

item.page.thu.projectEU

item.page.thu.projectOther

Series

Conference Name

Conference Place