Evaluación de modelos de Machine Learning para la predicción de crímenes en la ciudad de Medellín ; Machine Learning models for crime prediction in Medellin city
ilustraciones, gráficas, tablas ; La seguridad ciudadana se ha convertido en una de las principales preocupaciones de los gobiernos dada su relación directa con la calidad de vida de las personas, el crecimientos económico y el desarrollo de las regiones. Por su parte, el crimen se ha constituido como uno de los principales factores que afecta la seguridad, y para combatirlo, los gobiernos han asignado una cantidad de recursos que se podrían utilizar para proyectos de inversión como los de infraestructura. Históricamente el enforque de las estrategias de las autoridades locales se ha centrado en respuestas reactivas como la captura de los delincuentes, no obstante, recientemente se ha reconocido la necesidad de desarrollar estrategias preventivas de vigilancia y control de los espacios públicos, mediante el uso de tecnologías de aprendizaje automático (Machine Learning). Por esta razón, con el fin de colaborar con las estrategias de las autoridades para la gestión de los recursos, en esta tesis de maestría se realiza la evaluación de tres modelos de Machine Learning para la predicción del crimen en la ciudad de Medellín: un clasificador de bosques aleatorios, un modelo de regresión logística y una máquina de vectores de soporte (SVM, de sus siglas en inglés support vector machine). La metodología implementada integra el resultado de estudios anteriores con el proceso estándar de la industria para la minería de datos (CRISP-DM, de sus siglas en inglés Cross Industry Standard Process for Data Mining) como una estrategia general de resolución de problemas de la unidad de estudio. Como parte de la metodología, inicialmente se realiza un entendimiento y descripción de diferentes fuentes de información disponibles en la ciudad de Medellín. Luego, a partir de la identificación de los datos, su preparación y análisis, se formulan los modelos para la predicción de zonas calientes con información histórica del número de incidentes e información de la tasa de desempleo en la ciudad. Específicamente los modelos se construyen para la predicción del hurto a personas en las modalidades de atraco, descuido, cosquilleo y raponazo. Finalmente, el desempeño de los tres modelos se compara contra un modelo basado en reglas, y se evalúan en términos de la exactitud, exhaustividad/sensibilidad (recall), precisión y el valor F1. (Texto tomado de la fuente) ; Public safety is one of the main concerns of governments, given its direct relationship with people's wellbeing, economic growth, and the development of the regions. For its part, crime has been detected as one of the main factors that affect the feeling of security, assigning it a considerable percentage of government resources to combat it. Historically, national authorities' strategies have focused on reactive responses such as the capture of criminals, however, the need to develop preventive strategies for surveillance and control of public spaces has been recently recognized. For this reason, in order to improve the strategies currently used by the authorities for resource management, this master's thesis evaluates three Machine Learning Models: a random forest classifier, a logistic regression model, and a support vector machine (SVM), for the prediction of crime in the city of Medellin. The proposed methodology integrates previous studies that have been conducted in other regions with the Cross Industry Standard Process for Data Mining (CRISP-DM) as a general strategy for problem solving of the unit of study. As part of the methodology, it begins with the understanding and description of the available information in the city of Medellin. Then, from the identification of the data, its preparation, and analysis, the Machine Learning models are formulated for the prediction of crime hotspots, using the information about historical incidents and the unemployment rate. Finally, the performance of the 3 models is evaluated in terms of accuracy, recall, precision, and F1 score, and each of the models is compared with the result obtained by using a base model built on rules that the authorities could establish. ; Maestría ; Magíster en Ingeniería - Analítica ; Área Curricular de Ingeniería de Sistemas e Informática