Synthetic datasets for statistical disclosure control: theory and implementation
In: Lecture notes in statistics 201
11 Ergebnisse
Sortierung:
In: Lecture notes in statistics 201
In: Journal of survey statistics and methodology: JSSAM, Band 9, Heft 3, S. 523-548
ISSN: 2325-0992
AbstractWe investigate whether generating synthetic data can be a viable strategy for providing access to detailed geocoding information for external researchers, without compromising the confidentiality of the units included in the database. Our work was motivated by a recent project at the Institute for Employment Research in Germany that linked exact geocodes to the Integrated Employment Biographies, a large administrative database containing several million records. We evaluate the performance of three synthesizers regarding the trade-off between preserving analytical validity and limiting disclosure risks: one synthesizer employs Dirichlet Process mixtures of products of multinomials, while the other two use different versions of Classification and Regression Trees (CART). In terms of preserving analytical validity, our proposed synthesis strategy for geocodes based on categorical CART models outperforms the other two. If the risks of the synthetic data generated by the categorical CART synthesizer are deemed too high, we demonstrate that synthesizing additional variables is the preferred strategy to address the risk-utility trade-off in practice, compared to limiting the size of the regression trees or relying on the strategy of providing geographical information only on an aggregated level. We also propose strategies for making the synthesizers scalable for large files, present analytical validity measures and disclosure risk measures for the generated data, and provide general recommendations for statistical agencies considering the synthetic data approach for disseminating detailed geographical information.
In: Journal of survey statistics and methodology: JSSAM, Band 4, Heft 1, S. 22-42
ISSN: 2325-0992
"Befragungen zu Einkommensverhältnissen sind typischerweise von zwei Fehlerquellen betroffen, die zu Verzerrungen führen können, wenn sie bei der Analyse nicht berücksichtigt werden: Auf der einen Seite gilt das Einkommen als sensible Information und die Antwortraten zum Einkommen liegen in der Regel niedriger als Antwortraten bei anderen nicht sensiblen Fragen. Auf der anderen Seiten können sich die Befragten in aller Regel nicht genau an ihr exaktes Einkommen erinnern und geben daher einen gerundeten Wert an. Die negativen Auswirkungen des Antwortausfalls sind bereits gründlich untersucht worden und die meisten datenbereitstellenden Institutionen haben bereits Imputationsmethoden implementiert um möglichen Verzerrungen durch den Ausfall entegegenzuwirken. Im Gegensatz dazu werden die Auswirkungen des Rundens nach unserer Kenntnis bisher in der Praxis weitestgehend vernachlässigt, obwohl etliche Studien deutlich gezeigt haben, dass die meisten Befragten Ihrer Einkommensangaben runden. In diesem Papier veranschaulichen wir den starken Einfluss, den dieses Runden auf wichtige Kennziffern wie die Armutsquote haben kann. Um unverzerrte Schätzergebnisse zu erhalten, stellen wir ein zweistufiges Imputationsverfahren vor, bei dem in einem ersten Schritt gegeben das beobachtete Einkommen die a posteriori Wahrscheinlichkeit zu Runden geschätzt wird. In einem zweiten Schritt wird dann das tatsächliche Einkommen unter den bestimmten Rundungswahrscheinlichkeiten imputiert. Anhand einer Simulationsstudie illustrieren wir, dass es mit diesem Verfahren möglich ist, unverzerrte Schätzergebnisse zu gewinnen. Darüber hinaus präsentieren wir Ergebnisse auf Basis der IAB Längsschnittstudie 'Panel Arbeitsmarkt und Soziale Sicherung (PASS)'." (Autorenreferat, IAB-Doku)
In: Journal of survey statistics and methodology: JSSAM, Band 4, Heft 1, S. 22-42
ISSN: 2325-0992
In: Journal of survey statistics and methodology: JSSAM, Band 10, Heft 3, S. 688-719
ISSN: 2325-0992
Abstract
Recent research in differential privacy demonstrated that (sub)sampling can amplify the level of protection. For example, for ϵ-differential privacy and simple random sampling with sampling rate r, the actual privacy guarantee is approximately rϵ, if a value of ϵ is used to protect the output from the sample. In this paper, we study whether these amplification effects can be exploited systematically to improve the accuracy of the privatized estimate. Specifically, assuming the agency has information for the full population, we ask under which circumstances accuracy gains could be expected, if the privatized estimate would be computed on a random sample instead of the full population. We find that accuracy gains can be achieved for certain regimes. However, gains can typically only be expected, if the sensitivity of the output with respect to small changes in the database does not depend too strongly on the size of the database. We only focus on algorithms that achieve differential privacy by adding noise to the final output and illustrate the accuracy implications for two commonly used statistics: the mean and the median. We see our research as a first step toward understanding the conditions required for accuracy gains in practice and we hope that these findings will stimulate further research broadening the scope of differential privacy algorithms and outputs considered.
In: Journal of privacy and confidentiality, Band 14, Heft 3
ISSN: 2575-8527
The 2022 Workshop on the Analysis of Census Noisy Measurement Files and Differential Privacy brought together research experts from many domains of social sciences, demography, public policy, statistics, and computer science to address key challenges in the use of the differentially private Census noisy measurement files to support social research and policy decisions.
In: IAB-Bibliothek 310
In: Journal of survey statistics and methodology: JSSAM, Band 10, Heft 3, S. 804-829
ISSN: 2325-0992
Abstract
Differential privacy is a restriction on data processing algorithms that provides strong confidentiality guarantees for individual records in the data. However, research on proper statistical inference, that is, research on properly quantifying the uncertainty of the (noisy) sample estimate regarding the true value in the population, is currently still limited. This article proposes and evaluates several strategies to compute valid differentially private confidence intervals for the median. Instead of computing a differentially private point estimate and deriving its uncertainty, we directly estimate the interval bounds and discuss why this approach is superior if ensuring privacy is important. We also illustrate that addressing both sources of uncertainty—the error from sampling and the error from protecting the output—simultaneously should be preferred over simpler approaches that incorporate the uncertainty in a sequential fashion. We evaluate the performance of the different algorithms under various parameter settings in extensive simulation studies and demonstrate how the findings could be applied in practical settings using data from the 1940 Decennial Census.
In: IAB Discussion Paper: Beiträge zum wissenschaftlichen Dialog aus dem Institut für Arbeitsmarkt- und Berufsforschung, Band 6/2010
"Die Grundidee der multiplen Imputation ist einfach zu verstehen, aber die Anwendung
des Verfahrens auf reale Datensätze stellt den Anwender vor etliche zusätzliche Herausforderungen.
Viele Datensätze bestehen sowohl aus kategorialen als auch aus kontinuierlichen
Variablen, wobei letztere alles andere als normalverteilt gelten können. Zusätzlich
verkomplizieren Filterfragen und verschiedene logische Restriktionen die Modellbildung. In
diesem Papier stellen wir verschiedene Möglichkeiten vor, mit diesen Herausforderungen
umzugehen und veranschaulichen eine erfolgreiche Implementierung anhand eines komplexen
Imputationsprojekts am Institut für Arbeitsmarkt- und Berufsforschung (IAB): Die
Imputation der fehlenden Werte einer Welle des IAB Betriebspanels." [Autorenreferat]
In: IAB Discussion Paper: Beiträge zum wissenschaftlichen Dialog aus dem Institut für Arbeitsmarkt- und Berufsforschung, Band 20/2007
Eine Methode, um die Vertraulichkeit von Daten, die in statistischen Ämtern erhobenen werden, zu gewährleisten, ist das Ersetzen vertraulicher Werte durch synthetische Daten, die mittels multipler Imputation generiert werden. Es wird ein zweistufiges Verfahren zur Generierung der synthetischen Daten vorgestellt, das eine unterschiedliche Anzahl von Imputationen für unterschiedliche Variablen ermöglicht. Die Vorteile eines zweistufigen Verfahren liegen in der Reduzierung der Laufzeit bei der Berechnung, in der Verringerung des Risikos der Deanonymisierung, und in der Erhöhung der inferentiellen Genauigkeit. Es wird beschrieben, wie das zweistufige Verfahren bei der Generierung eines Public-Use-Files des IAB-Betriebpanels zur Anwendung kommt. (IAB)
In: IAB Discussion Paper: Beiträge zum wissenschaftlichen Dialog aus dem Institut für Arbeitsmarkt- und Berufsforschung, Band 11/2007
Öffentliche Stellen, die Datensätze produzieren, müssen mit dem Dilemma umgehen, einerseits die Vertraulichkeit der personenbezogenen Daten zu schützen, andererseits für die Forschung hinreichend detaillierte Datensätze zur Verfügung zu stellen. Aus diesem Grund werden etliche Methoden der Offenlegungskontrolle in der Literatur diskutiert. Der Beitrag stellt zwei Ansätze vor, die auf multipler Imputation basieren, und die auf das IAB-Betriebspanel angewandt werden können. Beim ersten Ansatz, der auf Rubin (1993) zurückgeht, wird ein vollständig synthetischer Datensatz generiert, während beim zweiten Ansatz nur Werte für ausgewählte Variablen mit hohem Offenlegungsrisiko imputiert werden. Beide Ansätze werden auf eine Menge Variablen aus der Welle des IAB-Betriebspanels aus dem Jahr 1997 angewandt. Die Qualität der Ansätze wird bewertet, indem die Analyseergebnisse von Zwick (2005), die auf den Originaldaten basieren, mit den Ergebnissen derselben Analyse nach der Imputation verglichen werden. (IAB)