Regresión discontinua para análisis de causalidad con diseños de muestreo complejos ; Regression discontinuity for causal analysis with complex survey designs
En este trabajo titulado "Regresión discontinua para análisis de causalidad con diseños de muestreo complejos", se hace la propuesta de un nuevo estimador teniendo en cuenta los pesos de muestreo para regresión discontinua, el cual es un diseño cuasi-experimental usado en evaluación de impacto para la estimación del ATE Average Treatment Effect, que permite contestar a la pregunta de ¿cuál habría sido el resultado de los participantes en ausencia del programa/intervención/política?. Para la metodología de estimación se asume que se tienen dos fuentes de variabilidad: i) la del modelo poblacional y ii) la distribución muestral inducida por la selección aleatoria de la muestra, como lo exponen las metodologías disponibles en la literatura. La regresión discontinua requiere que en el proceso de selección de los beneficiarios o focalización de la intervención, programa o política se haya utilizado una variable continua Z, la cual permite organizar a la población de acuerdo con los resultados del indicador. Un ejemplo de esta variable en el caso colombiano es el puntaje Sisbén III, el cual organiza a la población de la menos vulnerable (100 puntos) a la más vulnerable (0 puntos). Al definir un punto de corte para este indicador se define la focalización de los programas sociales del gobierno. De acuerdo con el comportamiento del grupo tratamiento y control con respecto a la variable Z, se determinar´a el tipo de regresión discontinua: i) regresión discontinua nítida, donde la variable Z determina completamente la participación en la intervención y ii) la regresión discontinua difusa, donde la variable Z determina la probabilidad de participar en la intervención. Esta metodología cuenta con dos enfoques para su estimación: paramétrico y no paramétrico, que son estudiados para la inclusión de los pesos de muestreo en la regresión discontinua. En este trabajo se presentan las expresiones matemáticas de los estimadores con pesos muestrales, la implementación y desarrollo del paquete en R llamado rddsw con las funciones para la aplicación de los estimadores encontrados, las simulaciones donde se muestra el comportamiento de los estimadores con y sin pesos de muestreo y finalmente una aplicación con los datos de la evaluación de impacto del programa Ser Pilo Paga de Colombia. ; In this work titled "Regression discontinuity for causal analysis with complex survey designs", the proposal of a new estimator is made for the design of regression discontinuity, which is part of the methodologies used in impact evaluation for the estimation of the ATE (Average Treatment Effect) that allows to answer the question of "What would have been the result of the participants in the absence of program / intervention/ politics?", taking into account the sampling weights. For the estimation methodology it is assumed that there are two sources of variability: i) population model ii) and the sampling distribution induced by the random selection of the sample, as stated methods available in the literature. The regression discontinuity requires that in the beneficiary selection process or in the targeting of the intervention, program or policy, a continuous variable Z has been used, which allows the population to be organized according to the results of the indicator. An example of this variable in the Colombian case is the Sisben III, which organizes the population from the least vulnerable (100 points) to the most vulnerable (0 points). Defining a cut-off point for this indicator, it defines the focus of the government's social programs. According to the behavior of the treatment and control group with respect to the variable Z, the type of regression discontinuity will be determined: i) sharp regression discontinuity, where variable Z completely determines the participation in the intervention and ii) diffuse regression discontinuity, where the variable Z determines the probability of participating in the intervention. This methodology has two approaches to its estimation: parametric and non-parametric, which are studied for the inclusion of sampling weights in regression discontinuity. This paper presents the mathematical expressions of the estimators with sample weights, the implementation and development of the package in R called rddsw with the functions for the application of the estimators found, simulations showing the behavior of the estimators with and without sampling weights and finally an application with the data of the impact evaluation of the Ser Pilo Paga program in Colombia. ; Magíster en Ciencias - Estadística ; Maestría