author:"Drechsler, Jörg" | Pollux - Fachinformationsdienst Politikwissenschaft

AbstractWe investigate whether generating synthetic data can be a viable strategy for providing access to detailed geocoding information for external researchers, without compromising the confidentiality of the units included in the database. Our work was motivated by a recent project at the Institute for Employment Research in Germany that linked exact geocodes to the Integrated Employment Biographies, a large administrative database containing several million records. We evaluate the performance of three synthesizers regarding the trade-off between preserving analytical validity and limiting disclosure risks: one synthesizer employs Dirichlet Process mixtures of products of multinomials, while the other two use different versions of Classification and Regression Trees (CART). In terms of preserving analytical validity, our proposed synthesis strategy for geocodes based on categorical CART models outperforms the other two. If the risks of the synthetic data generated by the categorical CART synthesizer are deemed too high, we demonstrate that synthesizing additional variables is the preferred strategy to address the risk-utility trade-off in practice, compared to limiting the size of the regression trees or relying on the strategy of providing geographical information only on an aggregated level. We also propose strategies for making the synthesizers scalable for large files, present analytical validity measures and disclosure risk measures for the generated data, and provide general recommendations for statistical agencies considering the synthetic data approach for disseminating detailed geographical information.

Zugriff(Open Access)Subito

Verfügbarkeit an Ihrem Standort wird überprüft

Dieser Artikel ist auch in Ihrer Bibliothek verfügbar: |

elektronisch

gedruckt

Exportieren

Aufsatz(elektronisch)#32016

Beat the heap: An imputation strategy for valid inferences from rounded income data

In: Journal of survey statistics and methodology: JSSAM, Band 4, Heft 1, S. 22-42

Drechsler, Jörg; Kiesl, Hans

ISSN: 2325-0992

"Befragungen zu Einkommensverhältnissen sind typischerweise von zwei Fehlerquellen betroffen, die zu Verzerrungen führen können, wenn sie bei der Analyse nicht berücksichtigt werden: Auf der einen Seite gilt das Einkommen als sensible Information und die Antwortraten zum Einkommen liegen in der Regel niedriger als Antwortraten bei anderen nicht sensiblen Fragen. Auf der anderen Seiten können sich die Befragten in aller Regel nicht genau an ihr exaktes Einkommen erinnern und geben daher einen gerundeten Wert an. Die negativen Auswirkungen des Antwortausfalls sind bereits gründlich untersucht worden und die meisten datenbereitstellenden Institutionen haben bereits Imputationsmethoden implementiert um möglichen Verzerrungen durch den Ausfall entegegenzuwirken. Im Gegensatz dazu werden die Auswirkungen des Rundens nach unserer Kenntnis bisher in der Praxis weitestgehend vernachlässigt, obwohl etliche Studien deutlich gezeigt haben, dass die meisten Befragten Ihrer Einkommensangaben runden. In diesem Papier veranschaulichen wir den starken Einfluss, den dieses Runden auf wichtige Kennziffern wie die Armutsquote haben kann. Um unverzerrte Schätzergebnisse zu erhalten, stellen wir ein zweistufiges Imputationsverfahren vor, bei dem in einem ersten Schritt gegeben das beobachtete Einkommen die a posteriori Wahrscheinlichkeit zu Runden geschätzt wird. In einem zweiten Schritt wird dann das tatsächliche Einkommen unter den bestimmten Rundungswahrscheinlichkeiten imputiert. Anhand einer Simulationsstudie illustrieren wir, dass es mit diesem Verfahren möglich ist, unverzerrte Schätzergebnisse zu gewinnen. Darüber hinaus präsentieren wir Ergebnisse auf Basis der IAB Längsschnittstudie 'Panel Arbeitsmarkt und Soziale Sicherung (PASS)'." (Autorenreferat, IAB-Doku)

Subito

Verfügbarkeit an Ihrem Standort wird überprüft

Dieser Artikel ist auch in Ihrer Bibliothek verfügbar: |

elektronisch

gedruckt

Exportieren

Aufsatz(elektronisch)#413. Dezember 2015

Beat the Heap: An Imputation Strategy for Valid Inferences from Rounded Income Data

In: Journal of survey statistics and methodology: JSSAM, Band 4, Heft 1, S. 22-42

Drechsler, Jörg; Kiesl, Hans

ISSN: 2325-0992

Subito

Verfügbarkeit an Ihrem Standort wird überprüft

Dieser Artikel ist auch in Ihrer Bibliothek verfügbar: |

elektronisch

gedruckt

Exportieren

Aufsatz(elektronisch)#53. Juni 2022

Accuracy Gains from Privacy Amplification Through Sampling for Differential Privacy

In: Journal of survey statistics and methodology: JSSAM, Band 10, Heft 3, S. 688-719

Hu, Jingchen; Drechsler, JÖrg; Kim, Hang J

ISSN: 2325-0992

Abstract
Recent research in differential privacy demonstrated that (sub)sampling can amplify the level of protection. For example, for ϵ-differential privacy and simple random sampling with sampling rate r, the actual privacy guarantee is approximately rϵ, if a value of ϵ is used to protect the output from the sample. In this paper, we study whether these amplification effects can be exploited systematically to improve the accuracy of the privatized estimate. Specifically, assuming the agency has information for the full population, we ask under which circumstances accuracy gains could be expected, if the privatized estimate would be computed on a random sample instead of the full population. We find that accuracy gains can be achieved for certain regimes. However, gains can typically only be expected, if the sensitivity of the output with respect to small changes in the database does not depend too strongly on the size of the database. We only focus on algorithms that achieve differential privacy by adding noise to the final output and illustrate the accuracy implications for two commonly used statistics: the mean and the median. We see our research as a first step toward understanding the conditions required for accuracy gains in practice and we hope that these findings will stimulate further research broadening the scope of differential privacy algorithms and outputs considered.

Subito

Verfügbarkeit an Ihrem Standort wird überprüft

Dieser Artikel ist auch in Ihrer Bibliothek verfügbar: |

elektronisch

gedruckt

Exportieren

Aufsatz(elektronisch)#627. August 2024

Foreword for the Collection of Papers from the Workshop on the Analysis of Census Noisy Measurement Files and Differential Privacy

In: Journal of privacy and confidentiality, Band 14, Heft 3

Drechsler, Jörg; Gong, Ruobin; Su, Weijie; Zhang, Linjun

ISSN: 2575-8527

The 2022 Workshop on the Analysis of Census Noisy Measurement Files and Differential Privacy brought together research experts from many domains of social sciences, demography, public policy, statistics, and computer science to address key challenges in the use of the differentially private Census noisy measurement files to support social research and policy decisions.

Zugriff(Open Access)Subito

Verfügbarkeit an Ihrem Standort wird überprüft

Dieser Artikel ist auch in Ihrer Bibliothek verfügbar: |

elektronisch

gedruckt

Exportieren

Buch(gedruckt)#72007

Estimation of vacancies by NACE and ISCO at disaggregated regional level

In: IAB-Bibliothek 310

Kettner, Anja; Drechsler, Jörg; Rebien, Martina; Schmidt, Katrin; Semerdjieva, Marina

Verfügbarkeit

Verfügbarkeit an Ihrem Standort wird überprüft

Dieses Buch ist auch in Ihrer Bibliothek verfügbar:

Exportieren

Aufsatz(elektronisch)#817. Juni 2022

Nonparametric Differentially Private Confidence Intervals for the Median

In: Journal of survey statistics and methodology: JSSAM, Band 10, Heft 3, S. 804-829

Drechsler, Jörg; Globus-Harris, Ira; Mcmillan, Audra; Sarathy, Jayshree; Smith, Adam

ISSN: 2325-0992

Abstract
Differential privacy is a restriction on data processing algorithms that provides strong confidentiality guarantees for individual records in the data. However, research on proper statistical inference, that is, research on properly quantifying the uncertainty of the (noisy) sample estimate regarding the true value in the population, is currently still limited. This article proposes and evaluates several strategies to compute valid differentially private confidence intervals for the median. Instead of computing a differentially private point estimate and deriving its uncertainty, we directly estimate the interval bounds and discuss why this approach is superior if ensuring privacy is important. We also illustrate that addressing both sources of uncertainty—the error from sampling and the error from protecting the output—simultaneously should be preferred over simpler approaches that incorporate the uncertainty in a sequential fashion. We evaluate the performance of the different algorithms under various parameter settings in extensive simulation studies and demonstrate how the findings could be applied in practical settings using data from the 1940 Decennial Census.

Zugriff(Open Access)Subito

Verfügbarkeit an Ihrem Standort wird überprüft

Dieser Artikel ist auch in Ihrer Bibliothek verfügbar: |

elektronisch

gedruckt

Exportieren

Aufsatz(elektronisch)#92010

Multiple imputation of missing values in the wave 2007 of the IAB Establishment Panel

In: IAB Discussion Paper: Beiträge zum wissenschaftlichen Dialog aus dem Institut für Arbeitsmarkt- und Berufsforschung, Band 6/2010

Drechsler, Jörg; Institut für Arbeitsmarkt- und Berufsforschung der Bundesagentur für Arbeit (IAB)

"Die Grundidee der multiplen Imputation ist einfach zu verstehen, aber die Anwendung
des Verfahrens auf reale Datensätze stellt den Anwender vor etliche zusätzliche Herausforderungen.
Viele Datensätze bestehen sowohl aus kategorialen als auch aus kontinuierlichen
Variablen, wobei letztere alles andere als normalverteilt gelten können. Zusätzlich
verkomplizieren Filterfragen und verschiedene logische Restriktionen die Modellbildung. In
diesem Papier stellen wir verschiedene Möglichkeiten vor, mit diesen Herausforderungen
umzugehen und veranschaulichen eine erfolgreiche Implementierung anhand eines komplexen
Imputationsprojekts am Institut für Arbeitsmarkt- und Berufsforschung (IAB): Die
Imputation der fehlenden Werte einer Welle des IAB Betriebspanels." [Autorenreferat]

Zugriff(Open Access)Subito

Verfügbarkeit an Ihrem Standort wird überprüft

Dieser Artikel ist auch in Ihrer Bibliothek verfügbar: |

elektronisch

gedruckt

Exportieren

Aufsatz(elektronisch)#102007

Releasing multiply-imputed synthetic data generated in two stages to protect confidentiality

In: IAB Discussion Paper: Beiträge zum wissenschaftlichen Dialog aus dem Institut für Arbeitsmarkt- und Berufsforschung, Band 20/2007

Reiter, J. P.; Drechsler, Jörg; Institut für Arbeitsmarkt- und Berufsforschung der Bundesagentur für Arbeit (IAB)

Eine Methode, um die Vertraulichkeit von Daten, die in statistischen Ämtern erhobenen werden, zu gewährleisten, ist das Ersetzen vertraulicher Werte durch synthetische Daten, die mittels multipler Imputation generiert werden. Es wird ein zweistufiges Verfahren zur Generierung der synthetischen Daten vorgestellt, das eine unterschiedliche Anzahl von Imputationen für unterschiedliche Variablen ermöglicht. Die Vorteile eines zweistufigen Verfahren liegen in der Reduzierung der Laufzeit bei der Berechnung, in der Verringerung des Risikos der Deanonymisierung, und in der Erhöhung der inferentiellen Genauigkeit. Es wird beschrieben, wie das zweistufige Verfahren bei der Generierung eines Public-Use-Files des IAB-Betriebpanels zur Anwendung kommt. (IAB)

Zugriff(Open Access)Subito

Verfügbarkeit an Ihrem Standort wird überprüft

Dieser Artikel ist auch in Ihrer Bibliothek verfügbar: |

elektronisch

gedruckt

Exportieren

Aufsatz(elektronisch)#112007

A new approach for disclosure control in the IAB Establishment Panel: multiple imputation for a better data access

In: IAB Discussion Paper: Beiträge zum wissenschaftlichen Dialog aus dem Institut für Arbeitsmarkt- und Berufsforschung, Band 11/2007

Drechsler, Jörg; Dundler, Agnes; Bender, Stefan; Rässler, Susanne; Zwick, Thomas; Institut für Arbeitsmarkt- und Berufsforschung der Bundesagentur für Arbeit (IAB)

Öffentliche Stellen, die Datensätze produzieren, müssen mit dem Dilemma umgehen, einerseits die Vertraulichkeit der personenbezogenen Daten zu schützen, andererseits für die Forschung hinreichend detaillierte Datensätze zur Verfügung zu stellen. Aus diesem Grund werden etliche Methoden der Offenlegungskontrolle in der Literatur diskutiert. Der Beitrag stellt zwei Ansätze vor, die auf multipler Imputation basieren, und die auf das IAB-Betriebspanel angewandt werden können. Beim ersten Ansatz, der auf Rubin (1993) zurückgeht, wird ein vollständig synthetischer Datensatz generiert, während beim zweiten Ansatz nur Werte für ausgewählte Variablen mit hohem Offenlegungsrisiko imputiert werden. Beide Ansätze werden auf eine Menge Variablen aus der Welle des IAB-Betriebspanels aus dem Jahr 1997 angewandt. Die Qualität der Ansätze wird bewertet, indem die Analyseergebnisse von Zwick (2005), die auf den Originaldaten basieren, mit den Ergebnissen derselben Analyse nach der Imputation verglichen werden. (IAB)

Zugriff(Open Access)Subito

Verfügbarkeit an Ihrem Standort wird überprüft

Dieser Artikel ist auch in Ihrer Bibliothek verfügbar: |

elektronisch

gedruckt

Exportieren

Suchergebnisse

Filter

Format

Medientyp

Sprache

Jahre

Kontakt

Hilfe